关于lasso和ridge的区别

  统计/机器学习 监督式学习    浏览次数:8346        分享
0

这是以两个变量为例,求解变量的系数。左图是lasso优化,右图是rigde优化过程

我的疑问:

为什么lasso是有Corner的,如何得出这个结果的。(我的理解这个矩形是通过对1范式(绝对值)求导获得的结果集(-1,1)组成的)那么岭回归呢?


实在想不通了,请教各位大佬了,谢谢!

 

jd910910   2018-08-13 10:50



   1个回答 
2

真正画全了的图应该是两组等高线,一个像你图中的椭圆等高线(contour),在贝叶斯框架中表示的是似然函数(likelihood),描述如何由未知变量生成观测值的数学模型;对于Lasso,另一组是正方形等高线,代表的是先验知识(prior)。最优解就是这两组等高线的交点。因为相交点有无数个,具体相交点的选择由拉格朗日乘数来控制,确定似然函数和先验知识在loss中的比重。

一般为了说明prior项的作用,只画一条线示意,代替等高线曲面。比如$|w_1|+|w_2|=1$,画出来就是你左图的正方形。$|w_1|+|w_2|=2$会是更大的正方形。

如果是ridge,应该是一组圆形等高线,或者说是一个倒的圆锥。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-08-13 11:37

谢谢您的回答。大概懂了。 不过其中的一些细节因为自己没有推导过,所以不是非常了解(例如拉格朗日乘数等)。请问有相关较好的书籍可以推荐吗 - jd910910   2018-08-14 09:50
你可以看 “The Elements of Statistical Learning” 第68页。https://web.stanford.edu/~hastie/Papers/ESLII.pdf 拉格朗日乘数高数教过,具体作用就是控制多个限制条件的重要性。 - Zealing   2018-08-14 10:08


  相关讨论

L2-norm为什么会让模型变得更加简单?

什么时候该用LASSO,什么时候该用Ridge?

请问 L1 到底为什么具有稀疏性

Lasso的自由度是多大?

LASSO是无偏的还是有偏的?

Ridge回归的解析解是什么?

lasso path是什么意思?

为什么LASSO可以做特征选择,而Ridge却不行?

坐标下降法求LASSO问题怎样执行

Lasso是对数值大的系数压缩大还是数值小的系数压缩大?

  随便看看

推荐开放数据库

怎么给plt.subplot加一个主标题?

python去掉中文文本中所有的标点符号

随机森林会发生过拟合(overfitting)吗?

对连续特征一定要进行分箱处理吗?