阿里云虚拟主机多个网站,天津做网站的公司排名,网站开发的基础,太原网站建设技术外包文 | 吴海波编 | YY阅读说明#xff0c;本文的机器学习领域限制于互联网搜索、推荐、广告场景#xff0c;仅限于个人观点。2017年#xff0c;我和团队的几个核心去了趟北京#xff0c;找了各大互联网公司一线实战的同学#xff0c;交流各自在机器学习上的经验。这次交流让… 文 | 吴海波编 | YY阅读说明本文的机器学习领域限制于互联网搜索、推荐、广告场景仅限于个人观点。2017年我和团队的几个核心去了趟北京找了各大互联网公司一线实战的同学交流各自在机器学习上的经验。这次交流让我的认知上了一个台阶开始思考什么是真正优秀的机器学习团队。感慨一句百度特别是凤巢真是中国机器学习的黄埔军校门生遍布天下。系统——经济基础决定上层建筑工程系统中提升收益是优化算法的根本动机。 业界流行过这样一句话“能加几台机器解决的问题不要让人去优化。”乍一眼看有些反直觉但是结合语境细想这句话的核心思想是做事应当把控好大方向。机器便宜人力昂贵在业务快速发展的阶段有很多更重要的事情要去做。能不能比竞争对手快一个周期就是团队生与死的差别。这种情况下过度追求算法的提升可能是在舍本逐末反而不明智。对比学术界互联网中搜索推荐及广告的场景有个明显的特点就是数据规模大训练数据丰富正负反馈获取成本低。这就造成了和传统机器学习算法格格不入的方案通常模型方案都是不那么经济。此外大多数工程系统是从业务需求侧或者产品需求侧设计的很少会把算法当做真正的业务方。 工程师对研究者常见的批评有一条就是开发的算法往往缺少对应的需求。而业务方的要求就算有时在实现难度上大到不合理通常也是市场的客观反映。因此大部分工程上针对算法的设计方案更像是主流需求外的附加需求常常是阉割再阉割。采用机器学习时有几个问题是共通的数据质量建设——ABtest怎么做的流量波动大不大实验置信度有多少埋点方案有没有第三方检验数据口径是否统一。为什么说大规模Logistics Regression是一个里程碑这两年各大公司分别实现了一波少帅的Parameter Server动不动就号称千亿级的特征规模。这套广告业务的核心技术点击率 Click Through Rate, CTR 。预估任务最开始由Google提出而国内选择的突破口是在Logistics Regression中引入id类特征这就造成了极大的运算量。众所周知LR模型是线性模型需要做特征交叉互联网的用户、商品、内容都是一个非常夸张的量级交叉之后往往会得到一个规模极大的特征集。大规模首先要解决计算力问题。 很多互联网公司的机器学习团队虽然有很多数据但是跑不动就只能用部分数据又因为训练数据不足特征工程就不能做多只好人工进行特征选择费时费力。如果计算力足够样本量级上去这个问题就可以迎刃而解。同样搞机器学习大公司可能一天进行十几种尝试小公司却只能做一两种。冷兵器对上火炮只有被碾压。少帅在14年提出的SOTA100T数据10亿特征半个小时迭代100轮的计算力到了现在能实现的公司也寥寥无几。另一方面是线上服务。 这么大规模的模型怎么发布上线更新模型的时候怎么保持线上数据的一致性处处都是难题。模型大了相应的特征也很多那么哪里存储这些特征离线的特征可以存缓存实时特征怎么办数据还要沟通能做到实时吗如果模型不能被单机加载到内存难度又得上一个量级。综合起来大规模LR模型非常考验团队工程系统能力。从另一个角度看这是一种工业级的哲学观追求通用追求效率降低模型对个别算法的依赖通过堆切大量特征的方式击败小作坊式特征工程充满暴力美学。为何要搞深度学习因为效率上文的大规模LR看起来是一种“笨方法”。最近这几年工业界投入甚多的深度学习则是另一条被看好的道路。说实话大部分的深度学习在推荐和搜索并没有取得像图像领域那样让人印象深刻的效果。但它拥有一个致命的诱惑——不需要或需要少量的人工特征工程。就是这个方案对比以前的模型没有提升但它不需要特征工程于是能带来巨大的效率提升。如果想做出较通用的解决方案对业务来讲原先可能要好几个同学哼哧哼哧搞好几个月的特征工程现在深度学习方案能快速的搞出来。写在最后总的来说目前的机器学习还有很大的发展空间让我们把喧嚣留给媒体自己安安静静地继续探索吧~文末福利后台回复关键词【入群】 加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~