梯度, 海森矩阵和凸函数

梯度


梯度是一个矢量,曲面上每点的梯度是常数。

曲面中点的方向导数有无数个,当方向导数与梯度方向一致时,该导数值取得最大,等价于该点在梯度方向具有最快的变化值。梯度方向是函数值增加最快的方向,梯度的反方向是函数值减小最快的方向。

参考:如何直观形象地理解方向导数与梯度以及它们之间的关系?

海森矩阵

Hessian矩阵是半正定的

对一元函数f(x)来说,就极值而言,一阶导数为0是极值点的必要但不充分条件,一阶导数为0且二阶导数大于0是极小值的充要条件。用二阶泰勒展开就能理解。

对于多元变量,二阶高斯公式展开如下:

作为海森矩阵,也可以写作,可以理解为把梯度向量推广为二阶形式,梯度向量本身也是Jacobian矩阵的一种特例。

写作 ,类似一元函数,我们希望二次项 对任意的 成立,这就等价于 半正定。

时,也就是海森矩阵正定,的局部极小点。但这是充分不必要条件,有的点x可能是极小点,但该点的海森矩阵不是正定的。

但是当时,无法判断此点是否为极值点,所以牛顿法及阻尼牛顿法的缺陷就在这里,因为是半正定的,所以不能保证每次都能收敛到极小值点。

海森矩阵正定,则函数为凸函数

凸函数的任何局部极小点 都是该函数的一个全局极小点。