Bias vs Variance

泛化误差分为：偏差和方差

偏差：指算法的期望预测值与真实值之间的偏差程度，反应的是模型本身拟合能力。(单模型)

方差：度量了同等大小数据集的变动导致学习性能的变化，刻画数据扰动所导致的影响。(多模型)

当模型越复杂时，训练数据的拟合程度就越高，模型的训练偏差就越小。但如果还一组数据可能模型的变化就很大，即模型的方差很大。所以复杂度高的模型容易产生过拟合。

当模型简单时，即使还一组训练数据，得出的学习器之间差别不是很大，即模型的方差较小。但由于模型简单，所以存在比较大的偏差。

所以，在训练一个模型时，需要平衡好方差和偏差。

对于Bagging算法，由于时并行的训练若干个弱学习器，他们之间相互独立，主要目的降低方差。所以为了平衡好方差与偏差，每一个弱学习器目标便是如何降低偏差，因而会采用复杂度高的模型作为弱学习器，例如深度较深甚至不剪枝的树，神经网络等。

对于Boosting算法，训练的弱学习器都是在上一轮基础上更加的拟合数据，保证的是模型的偏差。所以为了平衡好方差与偏差，每一个弱学习器目标便是如何降低弱学习器之间的方差，因而会采用复杂度低的模型作为弱学习器，例如深度很浅的树。

Related Posts