ctr
ctr(广告点击率)与cvr(广告转化率)是在推荐系统中的重要概念。CTR预估正样本为站内点击的用户-商品记录,负样本为展现但未点击的记录;CVR正样本为站内支付(发生转化)的用户-商品记录,负样本为点击但未支付的记录。
CTR和CVR预估模型为线下估计,用于线上测试,特征主要分为三类:用户相关特征包括年龄、性别、职业、兴趣、品类偏好、浏览/购买品类、近期点击量、购买量、消费额等,商品相关特征包括所属品类、销量、价格、评分、历史CTR/CVR,用户-商品匹配特征包括浏览/购买品类匹配、浏览/购买商家匹配、兴趣偏好匹配等。
Logistic Regression
通常,推荐系统数据为高维离散特征,因此十分适用于logistic regression,具体上可表述为
f(x)=1+e−θTX1
其优势在于模型简单易于理解,且容易实现分布式计算,另外有Google的FTRL[2]等变种模型,其可统一概括为:LR+正则+特定优化。
但LR模型忽略了特征之间的联系,多个特征之间可能存在交叉关系,因此需要人为构建特征。另外,LR需要将特征离散化、归一化。
GBDT
GBDT[3]是一种梯度提升决策树模型,其优点在于处理连续特征,可以自动选取不同特征进行组合,选取最优分裂特征与分裂点,得到特征重要度排序,并且不需要进行归一化处理。
由于在ctr估计中,大部分特征为离散特征,因此若使用GBDT则需要通过 ding等方式将其处理成连续特征。GBDT的树模型结构特点决定了其不利于挖掘长尾特征,并且相对于DNN来说,其特征组合能力有限。
FM与FFM
FM(Factorization Machine)最早被提出旨在解决稀疏数据下的特征组合问题[5]。对于categorical类型特征,需要经过独热编码(One-Hot Encoding)转换成数值型特征。One-Hot编码后,特征呈高维稀疏。若直接进行二阶组合,其表达式为
y(x)=w0+i=1∑nwixi+i=1∑nj=i+1∑nwijxixj
此时,二阶特征参数有2n(n−1)个,且两两之间相互独立,由于特征的高度稀疏,许多wij对应的特征值大部分都是0,难以实现较好的训练,严重影响模型预测结果。
为解决大量参数问题,FM算法采用了矩阵分解的思路。在这里首先介绍一下协同过滤中的矩阵分解。再推荐系统中,用户与商品的关系矩阵为一高维稀疏矩阵。为对矩阵进行分解,考虑奇异值分解(SVD)。定义方阵中特征值与特征向量为
Ax=λx
则A可特征分解为
A=WΣW−1
其中W为特征向量组合成的n维方阵,∑为对角元素为特征值的对角矩阵。当A非方阵时,定义SVD为
A=UΣVT
其中U为m×m,Σ为m×n,V为n×n。在推荐系统中,用户物品关系矩阵M可分解为
Mm×n=Um×kΣk×kVk×nT
其中k是矩阵M中较大的奇异值个数,一般远小于用户数与物品数。但是SVD要求矩阵稠密,传统SVD方法中通常采用全局平均值或用户物品平均值不全缺失值。另外,由于矩阵维数很大,做SVD十分耗时。在实际推荐系统中,评分矩阵U分解为用户与物品矩阵
U=⎣⎢⎡u11⋮um1⋯⋱⋯u1k⋮umk⎦⎥⎤⎣⎢⎡i11⋮ik1⋯⋱⋯i1n⋮ikn⎦⎥⎤
其中,uxy可以看作用户x对物品隐藏特质y的热衷程度,iyz可以看作特质y在物品z上的体现程度,引入预测器
r^ui=μ+bi+bu+qiTp
继续阅读与本文标签相同的文章
-
两问快递涨价
2026-05-19栏目: 教程
-
一图了解顺丰全球供应链网络布局
2026-05-19栏目: 教程
-
这款 IDE 插件再次升级,让「小程序云」的开发部署提速 8 倍
2026-05-19栏目: 教程
-
专注于技术能力提升的央企,注定不平凡,我有看点!
2026-05-19栏目: 教程
-
男友力爆棚的Mac电脑办公软件WPS Office
2026-05-19栏目: 教程
