L1和L2正则化

正则化是机器学习中对原始损失函数引入额外信息,以防止过拟合和提高模型泛化性能。正则化后目标函数变为 原始目标函数 + 正则化项,一般有两种,L1正则化和L2正则化,或者L1范数和L2范数。采用L1正则化的模型叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

  • L1正则化是指权值向量中各个元素的绝对值之和,通常表示为ω1||\omega||_1
  • L2正则化是指权值向量中各个元素的平方和再求平方根,通常表示为ω22||\omega||_2^2

L1正则化可以使得参数稀疏化,即得到的参数是一个稀疏矩阵,可以用于特征选择。

L2正则化可以防止模型过拟合,L1也可以。

L2计算起来更方便,而L1在非稀疏向量上的计算效率很低;L1输出稀疏,会把不重要的特征值直接置零;L2有唯一解。

L1范数符合拉普拉斯分布,是不完全可微的,最优值出现在坐标轴上,产生稀疏权重矩阵,进而防止过拟合;L2范数符合高斯分布,是完全可微的,一般最优值不会出现在坐标轴上,最小化正则项时,参数不断趋于0,最后获得很小的参数。

  1. 降低过拟合程度:

    正则化是结构风险最小化的一种策略实现,正则化可以让解更简单,比较符合在偏差和方差分析中,通过降低模型负责度,得到更小的泛化误差,降低过拟合程度。

  2. L1正则化和L2正则化:

    L1范数容易得到稀疏解;L2正则相比L1正则来说,得到的节比较平滑,降低模型的复杂度。