机器学习基础

L1和L2正则化

正则化是机器学习中对原始损失函数引入额外信息，以防止过拟合和提高模型泛化性能。正则化后目标函数变为原始目标函数 + 正则化项，一般有两种，L1正则化和L2正则化，或者L1范数和L2范数。采用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。

L2正则化可以防止模型过拟合，L1也可以。

L2计算起来更方便，而L1在非稀疏向量上的计算效率很低；L1输出稀疏，会把不重要的特征值直接置零；L2有唯一解。

L1范数符合拉普拉斯分布，是不完全可微的，最优值出现在坐标轴上，产生稀疏权重矩阵，进而防止过拟合；L2范数符合高斯分布，是完全可微的，一般最优值不会出现在坐标轴上，最小化正则项时，参数不断趋于0，最后获得很小的参数。

降低过拟合程度：

正则化是结构风险最小化的一种策略实现，正则化可以让解更简单，比较符合在偏差和方差分析中，通过降低模型负责度，得到更小的泛化误差，降低过拟合程度。
L1正则化和L2正则化：

L1范数容易得到稀疏解；L2正则相比L1正则来说，得到的节比较平滑，降低模型的复杂度。