3.1 算法原理

3.1.1 点到分类超平面距离

3.1.1.1 距离公式

1

3.1.1.2 证明过程

2

3.1.2 损失函数

3

3.1.3 梯度下降

4

3.1.3.1 代数描述

5

3.1.3.2 问题示例

6

3.1.3.3 算法调优

7

3.1.4 正则化

8

3.1.5 实验要求

(1)根据不同损失函数的定义绘制训练样本的(归一化)损失值。

(2)根据不同损失函数的定义绘制假设测试样本分别为正类或负类的(归一化)损失值。

3.1.6 损失函数

损失函数与点到分类边界的距离有关:df=clf.decision_function(X)
hinge    :f=np.where(df < 1, 1 - df, 0)
perceptron:f=-np.minimum(df, 0) <br>
log     :f=np.log2(1 + np.exp(-df))
squared_h :f=np.where(df< 1 ,1-df,0)^2
modified_h:f=modified_huber_loss(df, 1)

3.1.7 各损失函数的特点

Hinge loss : margin 内有损失 边界的支持向量决定边界
Perceptron : 分错有损失
Log loss_  : 整体样本有损失  所有样本共同决定分类边界

3.1.8 损失函数的作用

损失函数估量模型的预测值与真实值的不一致程度—预测错误的程度。 损失函数越小,模型的鲁棒性就越好。 损失函数是经验风险函数的核心,也是结构风险函数重要组成部分,包括了经验风险项和正则项。

损失函数度量模型一次预测的好坏,风险函数(期望损失)度量平均意义下模型的好坏。 参数越多,模型越复杂,而越复杂的模型越容易过拟合。过拟合就是说模型在训练数据上的效果远远好于在测试集上的性能。此时可以考虑正则化,通过设置正则项前面的hyper parameter,来权衡损失函数和正则项,减小参数规模,达到模型简化的目的,从而使模型具有更好的泛化能力。

[ ]: