织梦CMS - 轻松建站从此开始!

葡京赌场-葡京娱乐-葡京网址-葡京娱乐平台-葡京开户注册

当前位置: 主页 > 搜狗问问 >

... 搜索广告中的应用_深度学习搜狗广告大数据搜索引擎 ...

时间:2018-07-12 00:41来源:未知 作者:admin 点击:
案例分享 深度学习在搜狗无线搜索广告中的应用_深度学习搜狗广告大数据搜索引擎-数据猿 本次分享主要介绍深度学习在搜狗无线搜索广告中有哪些应用场景,以及分享了我们的一些成果,重点讲解了如何实现基于多模型融合的CTR预估,以及模型效果如何评估,最后和大家探讨DL、CTR 预估的特点及未来的一些方向。Feature包括查询特征、广告特征、匹配特征。查询特征是和查询词相关的特征,查询发生的地域、时间等。广告特征是指广告本身的信息,例如:来自哪个客户,是哪个行业的,它的关键词是什么,它的标题、描述、网址是什么等各种信息。匹配特征是指查询词和广告的匹配关系。离散特征是指把东西分散出来表示,比如OneHot,非常直观,例如用户当天所处的时间段,他和最终点击率有关系,那么我把一天24小时分成24个点,他在哪个小时就把哪个点点亮置1,这个特征就设计完了。它的刻画比较细致,设计比较简单,但他的特征非常稀疏,我们线上特征空间非常大,有上十亿,但任何一个请求场景到来,它真正有效的特征大概只有几百个,绝大部分都是空的。因为特征量非常大,不能设计太复杂的模型,否则无法用于线上。还是以时间举例,离散特征会把它变成24个点,连续特征就会变成一个值,比如1、2、3、4、5一直到24,它只会占一个位置。需要仔细设计,很难找到一个直接的方法来描述查询词中包括哪些东西。它是定长的,所以一个请求场景到来,它有多少特征是固定的。不像离散特征是不定长,查询词不一样,有的是两个特征或三个特征,对于特征点可能有两个或三个,这对于我们后面的工作也有一定的影响。连续特征比较稠密,每个位置都会有值,它特征量相对较小,如果用连续特征设计的话可能需要几百维就可以,因此可以使用多种模型来训练。期间我们会做很多实验,比如DNN训练比较耗时,线上也比较耗时,因此我们会进行多种优化和评估。那么就涉及到一个问题,如何评估一个模型的好坏?线下指标主要采用AUC,定义如下图所示:我们来分析下这个图,选定一系列阈值将对应一系列点对,形成一条曲线,曲线下方的面积总和就是AUC的值:红线就是纯随机的结果,对应的AUC是0.5;模型越好,曲线离左上角就越近。这个值在我们模型评估里用得非常多,该值考察的是模型预估的排序能力,它会把模型预估排序结果和实际结果进行比对运算。该值很难优化,一般而言,AUC高,模型的排序能力就强。线下指标AUC很重要,但我们发现单纯靠这指标也是有问题的,不一定是我们的线上模型出了问题,可能是其他的问题。做广告预估,AUC是线下指标,除此之外,最核心的指标是上线收益,有时这两个指标会有不一致的地方,我们也尝试去定位,可能的原因主要有:特征覆盖率的问题,例如:我们有个特征是和这个广告自身ID相关的,该信息在在线下都能拿到,但真正到了线上之后,因为广告库非常大,很多广告是未展示过的,相关的信息可能会缺失,原有的特征就会失效,线上该特征的覆盖率比较低,最终将不会发挥作用。做DNN会遇到各种各样的问题,尤其是数据量的问题。大家都知道模型依赖的数据量越大效果越好,因为能知道更多的信息,从而提升模型稳定性,所以我们就会涉及到并行化训练的事情。我们做搜索广告有一个重要指标:覆盖率,是指此情况下是否需要显示广告。覆盖率高了,用户可能会不满意,而且多出来那些广告多半不太好;但如果覆盖率很低,又等于没赚到钱。这个指标很重要,所以我们希望融合模型上到线上后覆盖率是可预测的。我们发现这个融合模型会有自己的特点,上到线上之后会有些波动。例如:今天我们刚把模型覆盖率调好了,但第二天它又变了。然后我们分析,可能是因为数据量的问题,需要在一个更大的数据集上训练来提升模型的稳定性。其实就是见多识广的意思,模型见得多,碰到的情况多,在遇到新问题的时候,就知道用什么方法去解决它,就能更合理的预估结果。例如:图像理解,这个图像到底是什么,人很难描述出到底是哪些指标表明它是一个人脸还是猫或狗。但结果非常确定,任何人看一眼就知道图片是什么,没有争议。具体到我们的广告场景,广告特征都是有具体的含义。例如:时间信息,说是几点就是几点,客户的关键词信息,它写的是什么就是什么,文本匹配度是多少,是高还是低,都有确定的含义。例如:一个查询词,出现一条广告,大家来评判它是好是坏,其实它的结果是因人而异的,有人觉得结果很好,而有人却觉得一般,它没有一个客观度量的标准。所以我们认为CTR预估跟传统的DL应用场景不太一样。 (责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------