推广 热搜: 行业  设备    系统  参数  经纪    教师  机械  中国 

deepfm算法论文翻译(五)

   日期:2025-01-01     作者:d5zu8    caijiyuan   评论:0    移动:http://sjzytwl.xhstdz.com/mobile/news/12809.html
核心提示:DeepFM:基于因式分解机的CTR预测神经网络 摘要 学习复杂的用户行为特征的交互特点,对于推荐系统最大化点击率至关

DeepFM:基于因式分解机的CTR预测神经网络

摘要
学习复杂的用户行为特征的交互特点,对于推荐系统最大化点击率至关重要。 尽管取得了很大进展,但现有方法似乎在低阶或高阶交互中,有很强的偏见,或需要专业知识特征工程。 在本文中,我们展示可以推导出强调低阶和高阶特征交互的端到端学习模型。 准备提出的模型,DeepFM结合了分解机的功能,用于推荐和深度学习在新的神经网络架构中进行特征学习。 与最新的谷歌提出的Wide&Deep模型相比,DeepFM有一个共享输入“宽”和“深”部分,除了原始特征不需要特征工程。 全面进行实验以证明DeepFM相对于基准数据和商业数据的CTR预测的现有模型的有效性和效率。

deepfm算法论文翻译(五)

1简介


点击率(CTR)的预测在推荐系统中是至关重要的,其中任务是估计用户点击推荐项目的概率。 在许多推荐系统中,目标是最大化点击次数,因此,可以按估计对返回给用户的项目进行排序CTR; 而在其他应用场景中,如在线广告,提高收入也很重要,等等排名策略可以调整为所有候选人的CTR×出价,其中“出价”是系统收到的好处项目由用户单击。 在任何一种情况下,很明显是关键正在估算点击率。

CTR预测学习隐式特征非常重要用户点击行为背后的互动。 通过我们的研究主流应用程序市场,我们发现人们经常在用餐时下载应用程序进行食品交付,这表明了应用类别和时间戳之间的(顺序-2)交互可以用作CTR的信号。 作为第二个观察,男性青少年喜欢射击游戏和RPG游戏意味着应用类别,用户性别和年龄的(订单-3)互动是CTR的另一个信号。 通常,用户点击行为背后的特征的这种交互可以是高度的复杂的,低阶和高阶特征交互应该发挥重要作用。 根据见解来自google的Wide&Deep模型[Cheng et al。,2016]考虑低阶和高阶特征相互作用同时在单独考虑其中的情况下带来额外的改进。

图1:DeepFM的广泛和深层架构。 广而深组件共享相同的输入原始特征向量,从而启用DeepFM从输入原始功能同时学习低阶和高阶特征交互。

关键的挑战是有效地建模特征交互。 一些特征交互可以很容易理解,因此可以由专家设计(如上面的实例)。但是,大多数其他功能交互都隐藏在数据中并且难以识别先验(例如,经典的关联规则“尿布和啤酒”是从数据中挖掘而来的由专家发现的,只能通过机器学习自动捕获。 即使是为了易于理解相互作用,专家似乎不可能详尽地对它们进行建模,特别是当特征数量很大时。

尽管它们简单,但广义的线性模型,如FTRL [McMahan等,2013]在实践中表现出不错的表现。 然而,线性模型缺乏学习特征交互的能力,并且通常的做法是在其特征向量中手动包括成对特征交互。 这种方法很难概括为模型高阶特征交互或从未或很少出现的交互在培训数据中[Rendle,2010]。 分解机模型(FM)[Rendle,2010]会进行成对vector特征交互为新特征,展示之间潜在的关系,得到非常有希望的结果。虽然原则上FM可以建模高阶特征交互,实际上通常只考虑2个特征交互,因为它们具有很高的复杂性。

作为学习特征表示的有力方法,深度神经网络具有学习复杂特征交互的潜力。一些想法延伸CNN用于CTR预选的RNN和RNN [Liu et al。,2015;张等人al。,2014],但基于CNN的模型偏向于相邻特征之间的相互作用,而基于RNN模型更适合具有顺序依赖性的点击数据。 [Zhang et al。,2016]研究特征表示并提出分解机的神经网络网络(FNN)。该模型在应用之前预先训练FM,DNN因此受到FM能力的限制。通过在嵌入层和完全连接层之间引入点乘层,在[Qu et al。,2016]中研究了特征交互,并提出基于产品的神经网络(PNN)。如在[Cheng et al。,2016],PNN和FNN中注意到,与其他深层次一样模型,捕获很少的低阶特征交互,其中对于CTR预测也很重要。为了模拟低阶和高阶特征相互作用,[Cheng et al。,2016]提出了一个有趣的混合网络结构(广泛和深度)它结合了线性(“宽”)模型和深度模型。在这个模型,“宽”需要两个不同的输入部分“和”深部“,分别和”广泛的输入“部分“仍然依赖于专业知识特征工程。

可以看出,现有模型偏向于低阶或高阶特征交互,或依赖于特征工程。 在在本文中,我们展示了可以推导出一种学习模型能够以端到端的方式学习所有排序中的特征交互,除了原始之外没有任何特征工程特征。 我们的主要贡献总结如下

•我们提出了一种新的神经网络模型DeepFM(图1)集成了FM和DNN的架构深度神经网络。 它模拟FM进行低阶特征交互,并模拟DNN等高阶特征交互。 与 wide & deep 模型[Cheng et al。,2016]不同的是,DeepFM可以在没有任何特征工程的情况下进行端到端训练。
•DeepFM可以通过其广泛的部分进行有效训练,与[Cheng et al。,2016]不同,在两层进行共同分享相同的输入以及嵌入向量。 在[Cheng 等人提出的观点中,2016年],输入向量可以是巨大的,因为它包括手动设计的成对特征交互在其广泛部分的输入向量中,这也是很大的增加其复杂性。
•我们对基准数据和商业数据进行了DeepFM评估,显示出持续改进CTR预测的现有模型。

2我们的方法


假设用于训练的数据集由n个实例组成(χ,y,其中χ是通常涉及很多域的特征,这些特征多是user item侧,y∈{0,1}是指示用户点击行为的关联标签(y = 1表示用户

点击该项目,否则y = 0)。 χ可以包括类别特征(例如,性别,位置)和连续字段(例如,年龄)。 每个分类字段被表示为一热编码的矢量,并且每个连续字段被表示为值本身,或者在离散化之后的一热编码的矢量。 然后,每个实例转换为(x,y)其中x = [x_field1,x_field2,...,x_f iledj,...,x_fieldm]是一个d维向量,x_fieldj是χ的第j个场的矢量表示。 通常,x是高维的而且极其稀疏。 CTR预测的任务是构建一个预测模型y = CT R模型(x)以估计用户在给定上下文中点击特定应用的概率。

2.1 DeepFM


我们的目标是学习低阶和高阶特征交互。为此,我们提出了一种基于分解机的神经网络(DeepFM)。 如图11所示,DeepFM由FM组件和DNN两个组件组成,它们共享相同的输入。 对于特征i,标量wi用于衡量其1阶重要性,潜在向量Vi是用于衡量其与其他特征交互的影响。Vi会输入到FM组件中,以模拟order-2特征交互,并将深度组件馈送到模型高阶特征互动。 所有参数,包括wi,Vi,和网络参数(W(l,b(l)以下)共同训练组合预测模型

其中y∈(0,1)是预测的CTR,yFM是输出FM组件,yDNN是深组件的输出。

FM Component

FM组件是分解机,在[Rendle,2010]中提出要学习特征交互。 除了线性(order-1)相互作用在特征中,FM模型成对(顺序-2)特征交互作为各个特征潜在向量的内积。

它可以比以前的方法更有效地捕获order-2特征交互,尤其是在数据集时疏。 在先前的方法中,特征i和j的交互的参数可以仅在特征i和i时被训练feature j都出现在同一个数据记录中。 在FM中,它通过它们的潜在向量Vi和的内积测量Vj。 由于这种灵活的设计,FM可以训练潜在的矢量每当i(或j)出现在数据记录中时Vi(Vj)。 因此,特征交互,从来不用在训练集中出现,而应该被FM学习到

如图2所示,FM的输出是总和一个加法单元和一些点乘单位

Deep Component

深层组件是前馈神经网络,用于学习高阶特征交互。 如如图3所示,数据记录(向量、矢量)被馈入神经网络。 与具有图像的神经网络相比[He等[2016]或音频[Boulanger-Lewandowski等,2013]数据作为输入,纯粹是连续和密集的,CTR预测的输入是完全不同的,这需要一个新的网络架构设计。 具体来说,CTR预测的原始特征输入向量通常是高度稀疏的,比如3维、4维...,分类 - 连续混合,和按字段分组(例如,性别,地点,年龄)。 这表明嵌入层,用于在进一步馈送之前将输入矢量压缩为低维,密集的实值矢量进入第一个隐藏层,否则网络可以铺天盖地进行训练。

图4突出显示了从输入层到嵌入层的子网结构。 我们想指出一点这种网络结构的两个有趣点
1)同时不同输入场矢量的长度可以不同,它们的嵌入具有相同的大小(k); 
2)现在FM中的潜在特征向量(V)作为网络权重服务器被学习并用于将输入场矢量压缩到嵌入向量。 
在[Zhang et al。,2016]中,V是经过预先训练的通过FM并用作初始化。 在我们论文中,我么不是使用FM的潜在特征向量来初始化网络如[Zhang et al。,2016],我们将FM模型作为其中的一部分我们的整体学习架构,以及其他DNN模型。 因此,我们不再需要FM进行预训练而是联合培训整个网络的端到端方式。 将嵌入层的输出表示为

ei是第i个特征域的嵌入结果,m是特征域的个数。 然后,a(0)被送入深度神经网络,并且前进过程是

其中l是层深度,σ是激活函数。 a(l),W(l),b(l) 是第l个输出,模型权重和偏差层。 之后,生成密集的实值特征向量,最终将其输入到用于CTR的sigmoid函数预测

H是隐藏层的数量

值得指出的是,FM组件和深层组件共享相同的功能嵌入,这带来两个重要的好处:1)它从原始特征中学习低阶和高阶特征交互; 2)根据Wide的要求,不需要输入的专业特征工程&Deep [Cheng et al。,2016]。

2.2与其他神经网络的关系

受到各种应用中深度学习的巨大成功的启发,针对CTR预测的几个深度模型最近开发。本节比较了提出的建议DeepFM具有用于CTR预测的现有深度模型。
FNN:如图5(左)所示,FNN是FM初始化的前馈神经网络[Zhang et al。,2016]。 FM预训练策略导致两个限制:1)嵌入参数可能会受到FM的影响; 2)效率是减少了预训练阶段引入的开销。此外,FNN仅捕获高阶特征交互。相比之下,DeepFM不需要预先培训和学习高阶和低阶特征交互。
PNN:为了捕获高阶特征交互,PNN在嵌入之间强加了一个产品层层和第一个隐藏层[Qu et al。,2016]。根据对于不同类型的产品操作,有三种变体:IPNN,OPNN和PNN *,其中IPNN基于向量的内积,OPNN基于外积,以及PNN *基于内部和外部产品

为了使计算更有效,作者提出了内部和外部的近似计算产品
1)内部点乘近似计算消除一些神经元; 
2)外部点乘通过压缩m k维特征来近似计算外积矢量到一个k维向量。 
但是,我们发现了外部点乘不如内部点乘可靠,因为外部产品的近似计算损失很大使结果不稳定的信息。内部点乘更可靠,它仍然受到高计算复杂性的影响,因为点乘层的输出是连接到第一个隐藏层的所有神经元。 不同来自PNN,仅限DeepFM中产品层的输出连接到最终输出层(一个神经元)。 像FNN一样PNN忽略低阶特征交互

Wide & Deep:Wide & Deep(图5(右)被提出由谷歌模拟低阶和高阶特征交互同时。 如[Cheng et al。,2016]所示,有需要专业知识特色工程的输入“广泛”部分(例如,用户安装应用程序的交叉产品应用推荐中的展示和展示应用)。 相反,DeepFM不需要这样的专业知识来处理通过直接从输入原始特征学习输入。

这个模型的直接扩展正在通过FM取代LR(我们也在第3节评估此扩展)。 这个扩展类似于DeepFM,但DeepFM共享FM和深层组件之间的特征嵌入。该通过低阶和高阶特征交互共享特征嵌入影响(以反向传播方式)特征表示的策略,更精确地对表示进行建模

总结:总结一下,DeepFM和其他四个方面的深度模型之间的关系如表1所示。可以看出,DeepFM是唯一的模型这不需要预训练,也不需要特征工程,并且捕获低阶和高阶特征交互。

剩下的部分是在实际数据上进行实验这个模型思路,感兴趣的可以直接从论文中看

论文传送门:https://arxiv.org/pdf/1703.04247.pdf

之后博主会带来代码层面的解析,以便更加深入了解所有的细节

 

本文地址:http://sjzytwl.xhstdz.com/news/12809.html    物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号