今年给西安欧亚学院的入学新生介绍了统计学的应用
请戳这里:ppt
由于文库的审核问题,貌似这链接看不了,附上网盘的:
ppt
最近自己也没有办法翻墙了:(
READ MORE
书:
- 嫌疑犯x的献身:读到倒数第三章,还只是觉得ok而已,直到看到最后三章才被震撼到,关于书的内容,我只想说石川你还能再贱点么!!!!
- 白夜行:觉得比嫌疑犯好看,虽然不像前者有一个很大的震撼,但是几条线索穿插一起,还是很耐读的。个人观点:男主是深爱着女主的,女主对男主的感情更多是生死共依的依存关系,未必是爱情,女主估计已经不知道什么是爱情了。至于女主是否爱筱冢,不爱!她只是enjoy获得得不到的东西快感。从这个角度讲,这里面不正常变态的是女主,并不是杀那么多人的男主。
- 秘密:其实还行,也是在结尾会有点小震撼的感觉,但是考虑到我是看完前两个再看这一个的,所以就只能呵呵了。
- 细说红楼梦:蒋勋是个比较有争议的人物,至少我在推荐这本书的时候,不少朋友对他的态度都是呵呵二字,觉得这个人太装逼。但是与我而言,不探究细节,里面提到的很多观点是我现在所匮乏的,比如包容与自己不同的,比如学会欣赏过程美,是一本能让人心境平复下来的书。
- Lean in:一本讲女权的书,至少我这么认为,女生性格上确实有一些弱点,使得在职场上不能做的很好
- 创业维艰:其中一些看起来比较违和平稳价值观的决策看得有点惊心动魄的感觉,以至于我对创业这件事情有些害怕,但是出来后,好像并未这样 ...
READ MORE
应该恭喜自己终于有勇气逃离舒适区,愿意尝试一些新事物了,尽管回过头来,可能会后悔这个决定,但是相信不会后悔这个决定所带来的经历的,因为no pain no gain,会经历很多的痛苦,但是它们带给你成长。
算上实习,在百度已经呆了有7年多了,在这7年里,我曾经无数次的有过离职的念头,它们也随着我的经历而不断发生变化,从最早对架构业务频繁调整的不满,到申请职称的各种痛苦各种潜规则的怨念,再到整个庞大的组织埋没和磨灭了个人的激情。但是现在,它性质已经发生变化,不再是小家子气的碎碎念和不满了。理由很简单,就是我想尝试更多的事情,我希望能有更丰富的人生经历,更宽广的视野,我想不断的警醒自己,离开了百度这个平台,你还有什么能力?你还需要什么能力?因为这个转变,我做了最后的决定,因为我想我真的是想清楚了这个问题(也许几年后回头来看,发现只是我认为自己想清楚了:(,但是相信没有这个改变我永远不知道自己是否想清楚了)
七年,一路兜兜转转,走了不知道多少弯路,和同期同背景进百度的来比,自己可谓混的惨淡,甚至是惨不忍睹。但是也是这七年的磕磕碰碰,促使自己去思考去反省人性的缺点,我想如果一路走的很顺利,是不知道自己有这么多问题的吧,也许这曲折的经历带来的反省反而是个宝贵的财富,毕竟人不可能永远顺利,总有一天会遇到挫折而去思考这个问题,越晚遇到挫折 ...
READ MORE
知心商业广告也是按照点击收费的广告,为了收益最大化,点击率预估准确与否就很重要了,大家应该都知道商业广告点击率预估有一套很有效的机器学习的方法。但是,与传统的凤巢/网盟广告不大一样,知心广告存在多种展现形式,并且不断有新的展现形式加入,这就会频繁的出现“冷”启动,数据少的问题,但是这个冷启动并不是完全的冷启动,因为虽然有多种展现形式,我们的广告库是同一套。我们希望充分利用这个特性,把别的场景上的模型的知识迁移到数据量较少的场景上。
我们先简单回顾下一个典型的广告点击率模型的几个要素:
首先是样本:一个广告的一次展现构成一个样本
然后是特征:这里一般包括ID类的非泛化特征+泛化特征
最后是模型:凤巢是经历了LR到GBDT再到DNN的过程,本文主要建立在LR的基础上做的实验
好的,回到我们的问题,我们的问题是有好多个点击率预估模型(一个场景对应一个模型),我们怎么利用广告库是同一套的特性,用样本充分的场景的数据/参数解决样本不充分的场景的点击率预估问题,这就是学术界研究的transfer learning。
首先学术界的问题定义:有两个数据集,一个是大一些的数据集,我们管他叫source,还有一个是小一些的数据集,我们管他叫target,我们的目的是希望通过某种相似性,把source上的知识迁移到target上,能让target数据集上的模型更好。什么叫知识迁移呢,有两种基本思路,一个是借数据,借数据的思想是说source上有一些数据可以适当转换一下拿过来和target上的数据一起训练;一个是借参数 ...
READ MORE
感谢遇到的你们
或者让我勇敢
或者让我失败
或者让我哭泣
或者让我忧伤
或者让我开心
或者让我坚持
直到成为今天的自己
READ MORE
首先需要澄清一点,这里的特征分析主要是指的传统上数据挖掘里面讲的一些特征关系研究比如共线性问题。
另外,这里的经验特指用LR来做点击率预估。大家学完数据挖掘/机器学习的课程的时候,一定会有个体会,
特征不可以乱加,乱加特征很可能会导致更坏的效果。所以,在没有任何人的指导下,仅仅是凭借着前人的一些资料,
我根据之前看的书本,习惯性的陷入了特征选择这个坑中,我会想效果不好的原因会不会是因为加入了特征,有共线性导致的?
为此,我还专门分析了下LR回归出来的系数的结果,发现有些系数的大小关系确实是不那么与业务直观相符合。
于是我还尝试减去了这个特征,或者对这个特征做了特殊处理,结果自然是auc下降。在之后的过程中,
咨询了一些前人,才知道自己的方向走偏,事实上,无数人的经验表明在广告点击率预估这个问题上,
如果不是性能问题,从来不需要减特征,加入新的特征最多出现auc保持不变,基本不会出现auc下降的情况。
这直接导致在做广告点击率预估的组里,特征挖掘从来都是没有技术含量的苦力活。
之后,也没太思考为什么,或者我当时认为大数据下的数据挖掘也许就是这么做的,直到最近做了一个query纠错的问题。
先描述下query纠错的背景:大致就是网民在用语音搜索的时候,语音组返回10条可能的query,
我们需要根据这10个query的特征,选择出一个最好的query返回。
刚开始接手的时候,我尝试了几个特征,发现加某些特征竟然会带来效果的严重下降!!!原来特征选择还是重要的。
那么回到最初的问题,为什么在广告点击率这个问题上,没有这种问题呢?
我觉得核心区别在于LR的广告点击率预估实际上是个不那么怕过拟合的机器学习系统 ...
READ MORE
记得几年前,百度从谷歌挖来了一个非常牛逼的工程师,这位工程师带来了很多机器学习的概念,实在是让自己这种土包子开了眼界,在一次会议上,这位工程师在解释auc和线上ctr的关系时,说 ”我做了这么多年机器学习,还从来没见过算法A在auc上胜过算法B,但是线上表现A比B差。” 必须备注一点,自己当时连auc都没搞清楚的小喽啰,也许记忆会有偏差,所以原话也许有偏差。
事实上,在点击率预估这项工程的开展初期,这句话非常正确,因为有对它的坚定信念,帮助我们fix了类似于线上线下环境不一致等无数工程bug。因此,看到这篇文章的同学们,如果你发现auc上升,点击率却不上升,请优先排查bug。在确定没有bug的情况下,再看下文吧。
在bug逐渐收敛之后,这段时间是令人欣慰的,无数次的找新的特征,加入模型,auc上升,线上ctr提升。可是逐渐的,我们出现了越来越多的AUC上升,但是CTR并不一定提升,甚至是有下降的情况,总结分析有下面几种情况:
-
环境特征的引入
这里的环境特征是指的网民特征,如query,cookie,流量等与广告无关的信息。如果环境特征引入起的作用只是把不会被点击的环境和可能被点击的环境区分开,例如加入了cookie特征,从而把样本拆的更细,而这个特征的加入的表现对评估数据集auc的提升只是表现在命中某些cookie,点击率为0,那么线上多半不会有太显著的变化,因为针对这些cookie,不管出什么广告 ...
READ MORE
感谢毕老师荐书。
-
行事过于方刚者,表面上似乎是强者,实际上却是弱者。这片土地上真正的强者,是表面上看起来柔弱退让之人。所谓天下之至柔,驰骋天下之至坚,“江河所以为百谷之王者,以其善下。所谓“大柔非柔,至刚无刚。中国社会的潜规则是不可能一下子被扫荡的。那些他以前所看不起的虚伪、麻木、圆滑、机诈,是在这片土地上生存的必须手段。只有必要时合光同尘,圆滑柔软,才能顺利通过一个个困难的隘口。只有海纳百川,藏污纳垢,才能调动各方面的力量,达到胜利的彼岸。
-
曾国藩早年是一个典型的愤青。单线思维、
唯我独革、愤世嫉俗、矫激傲岸。做起事来手段
单一、风格强硬、纯刚至猛、一往无前。因此处
处碰壁,动辄得咎。中年以后,曾国藩终于在与
世界的战斗中变得圆融了。然而这种圆融不是他
本性中所有,是靠不屈不挠的精神从一次又一次
跌倒中悟出来的,是从质朴方刚中升发来的。这
是曾国藩和别人的不同之处,所以他的圆融是质 ...
READ MORE
在算法类code中,一个非常常见的模式是读取配置,根据配置的字符串决定应该使用哪个类,即需要解决根据类名生成实例。在这个过程中,希望能够支持使用者添加自己的类,而不需要动框架代码,典型的工厂模式。
在具体到python的实现时,需要能够根据string来决定生成哪个实例,查了几种方法:
方法一:通过getattr(module_name, class_name)来生成实例,
方法二:通过eval(class_name)来生成实例,问题主要在于eval不安全
最后采用了方法一,代码如下:
factory.py
import pizza
class PizzaFactory():
"""
Pizza factory
"""
def __init__(self):
"""
初始化
"""
pass
def create_pizza(self, module_name, name):
"""
根据name,生成对应的pizza
"""
module = __import__(module_name)
pizza_class = getattr(module, name ...
READ MORE
这个总结来的有点晚,元旦前太忙,最近终于有点时间可以写些什么了,按照农历算,还不算晚,不算晚。
首先是例行的流水账:
2014年1月,做的一个通用项目因为老大战略的变化,突然就没用了,我和文博两个人搭伙马上就ready的通用检索框架就莫名其妙的掉进了大坑,各种心塞。
2014年2月,开始调整方向,专注和一个团队合作项目,每周和这个团队的三个核心开一次站会
2014年3月,终于打通了两个应用入口,这其中推动的艰辛啊。。就是各种孤立无援,真心感谢文斌老大的支持还有我team同学坚持不懈的努力
2014年4月-5月,享受策略迭代的成果,踩了不少坑,学了不少知识,这其中最大的收获是认识了夏粉老师和庄馨,给了我们很多的指导和帮助。在这个过程中,我的心态发生了一个重大变化:卸下所有心防,发自内心的open mind。这是在2014年的最大收获。
2014年6月,原来合作的团队一直陆续离职,三个核心都换了2波?!这件事后面还有个小插曲,一起合作的夏老师那边做离职预测,我告诉他们有个重要特征没有考虑,就是团队的离职率和团队leader的离职情况,我会告诉他们这是我这几年的心酸的体会么:铁打的营盘,流水的兵!!这个月,事情又有了一些转机,老大战略又变了,原来的通用项目又有用了。再次体会到什么叫大势,想想2012年的时候,签名档还是 ...
READ MORE
去年4月在北交大做了一次大学与工作的讲座,整理ppt如下(again需要翻墙)
READ MORE
很多人认为explore机制在冷启动中会非常有效,但是工业界很少看到explore用到广告系统的介绍和传闻。当然也许是因为场景限制,即一个广告系统只有一次冷启动,所以没有太大的工业应用价值。但是,我最近参与的广告系统正好会遇到非常多的冷启动问题,即我们的广告系统会不断的有新的广告类型和形式出现,因此有很多冷启动场景,按照道理explore在初期会有比较好的效果,但是在我们最近对广告系统的实验中,发现想象很美好,现实很骨感。同时,我们也很惊讶的发现,LR比你想象的更强大,更稳健,果然是simple but not simpler。
根据我们的实验结果,总结了explore机制的几个鸡肋原因:
通常情况下,我们认为ee有两个地方可能会出效果
1.冷启动:系统刚开始启动的时候,LR数据不够。
在我们的广告系统中,这个假设并不对。
(1)广告库的主体变化不大(与新闻推荐,物料每天都变化相比),探测空间没那么大
(2)即使初期数据不够,LR有一定的overfitting也没关系,因为在广告系统中,总展现一个广告没问题,并且是好的(持续带来好的pay),其实在LR中加入自解释特征其实给这些好的广告是有策略倾斜的,在广告系统,这个策略倾斜是好,对于新闻推荐是不好的,因为没有人愿意看老新闻,但是好的老新闻在LR系统中会给比较好的点击率,此时新的新闻出现的机会会少 ...
READ MORE
最近在做ctr-model相关工作时,整理了一遍机器学习中常用的无约束数值优化算法的原理和方法之间的关联,ppt分享如下
需要翻墙!!
READ MORE
CSS样式写法:
1.html的tag样式
2.class样式(点开头)
3.id样式(#开头)
CSS样式的几个常用属性:
1.文本编排类:font..., text..., lineheight, color
2.盒子相关:margin, border, padding, width, height
3.显示模式:postion, float, display, overflow
float的几种取值:
1.left:元素向左浮动。
2.right元素向右浮动。
3.none默认值。元素不浮动,并会显示在其在文本中出现的位置。
4.inherit规定应该从父元素继承 float 属性的值。
怎么理解float?
1.设置了float属性之后,它将不再独自占据一行。可以浮动到左侧或右侧。
2 ...
READ MORE
- 20141118 概述
- 20141124 html
- 20141125 CSS
- 20141127 做个简单的个人网站
- 20141128 js
- 20141201 js
- 20141202 资源和框架介绍
- 20141204 作业:样式操作的js
- 20141205 作业:个人博客的搭建
- 20141212 作业:panel控件的实现
- 20141215 作业:表单控件的实现
- 20141218 手持设备,响应式CSS
- 20141219 作业:为efe.baidu.com增加手持式CSS
READ MORE
实操型的书。
重点放在讲怎么用R做数据挖掘,机器学习的算法更多的是通过黑箱的方式来讲,强调input,output含义,弱化机器学习算法细节。文中基本都是通过case来讲述怎么去解决问题,并且提供了原始数据供自己分析。(我认为这是这本书的最大优势)
个人觉得适合两种人:
(1)有过机器学习的一些理论,缺少case练习
(2)只需要掌握怎么用通用的机器学习解决问题的人,只希望知道机器学习算法的大致思想,不care机器学习中的算法细节,
A.这本书比较多的用到了ggplot包,建议看之前还是先学学ggplot,直接看ggplot的语法比较让人抓狂。
B.对于不会遇到文本处理的人,建议跳过文本处理部分,直接load处理好的数据,文本处理的那部分个人觉得比较繁琐,看起来也比较费劲,我在此处耗费了较多时间,几乎断掉了看完的决心。可是跳过之后,就觉得后面很容易看了
与其类似的另外一本实操型的书也不错statistics with R,用数据实验的方法讲统计,做过数值实验后能有很多对统计的体会,不过太大部头了,而且不是正式出版的,顺序有些凌乱,讲的内容太全了,比如做个检验,能写出好多检验方法,参数的,非参数的,适用于不同场景。我表示只攻克了部分章节。
READ MORE
在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法。
1.查看数据
head(dataframe) # 查看数据前10行
tail(dataframe) # 查看数据后10行
READ MORE