周一王博士将对船价格影响最大的特征:Fuel180(船用油)价格 和 北方到乍浦(2-3W)神海价格(因为乍浦最靠近目标港口)加入回归模型。 对剩下的80多个特征,我们分别用周三周四的时间各自进行了选择。
特征太多。我尝试将p_value<0.05的所有特征放进回归模型,效果并不好。因此,一狠心,做了个遗传算法,将之前选的特征事先跳出来,对剩下的特征进行提取。设置迭代为300代,最后的结果是选出26个特征,加上原来的,有31个特征。mae为5.86,比之前的mae提高将近0.5, 我觉得挺好。
但周五例会跟王博士展示时这种方法受到了批评,选择的特征中有许多是跟目标关系很小的。我们在看训练后的线性回归模型,coef_>0.05的只有6个。这些特征加上之前的15个,最后训练得到的模型的mae为6。
因此,最优化搜索并不是特征选择的绝杀,还是要考虑与特征与目标的关系。
另:
猜想: 在训练模型之前并没有将数据归一化,我们猜测有数值比较大的列(6000-8000),数值比较小的列(0.06-0.08),可能会影响系数,导致有的系数过小(<0.05,可认为系数无关)。可以做一下归一化数据后建模,看有没有影响。
查看误差项和剩余特征的相关性,继续选择相关性较强的特征加入。
总结,特征选择要挖掘特征与目标变量的关系,而不是直接搜索。
继续阅读与本文标签相同的文章
上一篇 :
中关村科学城人工智能发布两个专项政策指南
下一篇 :
买买买!在义外商今天都往这里赶
-
陆奇:看好5G技术,但应用好5G还需要时间
2026-05-14栏目: 教程
-
在Visual Studio中使用clang-tidy进行代码分析
2026-05-14栏目: 教程
-
甘薇贾跃亭曝出离婚消息,贾跃亭破产前转账51万美元,作为“家庭费用”
2026-05-14栏目: 教程
-
指静脉识别黑科技加身,6.9秒破百,体验纯电动轿跑零跑S01
2026-05-14栏目: 教程
-
首届中国工业互联网大赛在乌镇开赛
2026-05-14栏目: 教程
