特征分析在广告点击率预估上为什么没那么重要
数据挖掘首先需要澄清一点,这里的特征分析主要是指的传统上数据挖掘里面讲的一些特征关系研究比如共线性问题。 另外,这里的经验特指用LR来做点击率预估。大家学完数据挖掘/机器学习的课程的时候,一定会有个体会, 特征不可以乱加,乱加特征很可能会导致更坏的效果。所以,在没有任何人的指导下,仅仅是凭借着前人的一些资料, 我根据之前看的书本,习惯性的陷入了特征选择这个坑中,我会想效果不好的原因会不会是因为加入了特征,有共线性导致的? 为此,我还专门分析了下LR回归出来的系数的结果,发现有些系数的大小关系确实是不那么与业务直观相符合。 于是我还尝试减去了这个特征,或者对这个特征做了特殊处理,结果自然是auc下降。在之后的过程中, 咨询了一些前人,才知道自己的方向走偏,事实上,无数人的经验表明在广告点击率预估这个问题上, 如果不是性能问题,从来不需要减特征,加入新的特征最多出现auc保持不变,基本不会出现auc下降的情况。 这直接导致在做广告点击率预估的组里,特征挖掘从来都是没有技术含量的苦力活。 之后,也没太思考为什么,或者我当时认为大数据下的数据挖掘也许就是这么做的,直到最近做了一个query纠错的问题。
先描述下query纠错的背景:大致就是网民在用语音搜索的时候,语音组返回10条可能的query, 我们需要根据这10个query的特征,选择出一个最好的query返回。 刚开始接手的时候,我尝试了几个特征,发现加某些特征竟然会带来效果的严重下降!!!原来特征选择还是重要的。
那么回到最初的问题,为什么在广告点击率这个问题上,没有这种问题呢?
我觉得核心区别在于LR的广告点击率预估实际上是个不那么怕过拟合的机器学习系统。 广告点击率预估这个问题,训练集合和测试集合本来就存在很大程度的重合, (主粒度特征query和广告集合其实大部分没什么变化), 这也是为什么LR的广告点击率预估的ID这种记忆特征的加入效果会非常好, 虽然广告库有更新,更新的那部分我用泛化特征做explore,预估的可能没那么准, 但是展现几次后,会迅速的以ID类特征记忆到模型中。其次,正则化参数也起了一定的作用, 但是感觉核心问题还是前者。即广告点击率预估一定也存在共线性导致weight预估不准, 但是那又怎样,加起来的sum靠谱就行,反正不需要太好的泛化。
以下是主题和碎碎念的分割线
1.记录一个最近被问到的问题:为什么广告点击率预估用auc排衡量?理论上保序和保距对广告都重要?
我的答案:倒是希望能够计算MSE啊,可是除了那些展现充分的广告,绝大部分广告的real_ctr是多少天才知道!这么求MSE明显不靠谱,所以只能退而求其次看loss了。
2.最近的一个感想:真是什么问题都可以用触发+排序这套逻辑做啊,万能范式!
3.最近项目紧,没时间读书和思考,不是个好的状态,还是需要挤出时间学习新的并保持思考的习惯的
以下是新的体会,更新于2015年10月
为什么广告点击率这个问题,特征不会过拟合呢? 做了更多的应用场景,发现,广告点击率预估不那么怕拟合应该只是其中一个原因,还有一个比较重要的原因是因为样本多,再结合正则,不太容易出现过拟合
Tags: