网上搜博客,大多数讲的都是L0是个NP难问题,难于求最优解,或者L1是L0的最优凸近视,但没有说具体细节。
我来分析一下:
L0指向量中非零元素的个数,以下我以C++代码来分析。
float a[128];
向量a中有128个元素,我们现在用L0正则化来稀疏向量a,使其中的非零元素变为64个。
去掉a中原有0值元素,剩余x个非零元素。现在有2种情况
情况一:
x>64,现在我们要在剩余的x个元素中把y=(64-x)个元素归零,到底选哪几个呢?我想到保留较大值,归零最小值,但在a中同一位置的元素,这次训练的权重较大,下次训练的权重就可能较小了,这种方法行不通,因为对于同一特征向量,清零的位置是固定的,如果不固定,那就没有训练的意义了,如果用随机选择的化,那就是dropout规则化了。我还想到一种方法就是在训练完成后,选择较小值清零,但这样就不存在NP难问题。所以我也没搞懂如果每次选了都用L0正则化特征向量,L0到底基于怎样的规则来选择哪个位置的元素清零;或者在训练完毕后选择较小值清零,但就不存在NP难问题了。
情况2:
x<64,不做操作
关于L1为啥是L0的最优凸优化,我研究下L1再来分析
继续阅读与本文标签相同的文章
-
楼上请让路 RoarCTF2019 writeup
2026-05-18栏目: 教程
-
恒泰聚能节电分享:人工智能开始发挥其节能潜力
2026-05-18栏目: 教程
-
CMU 15-721 16-服务器端的逻辑执行 Server -side Logic Execution
2026-05-18栏目: 教程
-
谷歌搜索广告出价方式
2026-05-18栏目: 教程
-
印度5G建设即将开始,是屈服于美国的施压,还是选择跟华为合作?
2026-05-18栏目: 教程
