推荐系统的本质,就是从一个巨大的内容池中选择用户感兴趣的内容。
在内容池里有几十万、上百万的内容,涵盖文章、图片、小视频、问答等各种体裁。机器在给用户匹配内容时,主要依据三个要素:内容、用户、用户对内容的感兴趣程度。
第一个要素,机器如何理解一篇内容?
简单来说,就是依托关键词识别技术进行内容刻画。什么是关键词识别?以一篇文章《绝代双骄受挫!C罗被舍普琴科的球队防死,梅西感受63年耻辱》为例:
在这篇文章的标题和正文中,多次出现“C罗、舍普琴科、梅西、足球、球队、欧洲杯”等词汇,很明显都是一些体育类词汇,那么这篇文章就会先被粗分类到体育领域,然后再根据具体的关键词细分到如“足球、国际足球”等二三级分类。
内容刻画
机器提取的高频词是实体词,即名词、代词。像文章中出现的虚词、转折词,如:的、地、得、而、对于、关于、虽然、但是、因为、所以……,都不会作为系统识别的关键词。因此,在标题、正文中露出精准的实体词,会非常有利于机器理解你的内容。
第二个要素,机器怎样理解一个用户的阅读需求?
机器会根据用户特征去刻画一个用户的画像。例如他的基本信息“性别、年龄、地域”等;还有他的行为信息,如“订阅帐号、历史浏览文章、喜欢的内容、关注的话题”等;以及用户当前所处的环境情况,例如“工作、旅游、娱乐场所”等。获得这些用户信息后,系统会对用户进行分析计算,计算用户喜好的内容分类、话题、人物等,这样便完成了用户刻画。
不同特征的推荐效果
当提取了内容特征、用户特征、环境特征,机器便会综合所有因素拟合一个用户对内容的满意度函数。它会估算用户对每一篇文章的点击概率,然后从几十万、上百万的内容池里,将所有文章按照兴趣分由高到低排序。脱颖而出的前十名文章,就会被推荐到用户的手机上进行展现。
当一篇内容被发表后,在整个系统里会经历几个步骤:首先进入初审环节 —— 初审结束后被加权推荐,即“冷启动” —— 冷启动完成后,内容被正常推荐 ——在推荐过程中,用户点击、评论、举报等行为会触发复审流程,影响后续推荐。
推荐流程
- 初审
初审的目的在于判断这篇内容是否违反国家有关法律的风险,在这个过程中,机器会判断优先级,将内容交给不同的人审核。在机器和人工的共同配合下,内容会以较快的速度通过初审,从而立即展现在用户面前。
初审环节
- 冷启动
“冷启动”是一个推荐上的概念,指的是一篇新文章如何获取最初始的几千次展现。一篇新文章相比于已经发布的文章,在推荐上处于劣势。因此对于所有新内容,系统会进行加权推荐,让这篇内容展现几千次,观察用户对其产生的点击、分享、点赞等行为。
基于最初的几千次展现,机器就可以判断出哪些人群喜欢这篇内容、哪些人群不喜欢。当内容获得足够冷启动机会后,便会被撤销加权。至于内容后续推荐如何,就要完全靠实力了!
- 正常推荐
冷启动阶段可以显示一篇内容的推荐效果。如果一篇内容推荐效果很好,机器就会认为这篇文章具备潜质,会进一步扩量推荐给更多用户,1万个、3万个、5万个甚至更多。如果用户对这篇内容的阅读兴趣不大,系统就会收紧推荐,减少后续推荐。
冷启动
- 复审
在正常推荐过程中,基于各种用户行为,机器会监测到很多数据上的异常。比如一篇内容点击率特别高,但同时负面评论、举报又特别多,那么这篇内容就会再次进入审核流程,即复审。在复审中,如果被发现存在标题党、封面党、低俗、虚假等问题,就会被停止推荐。
创作者们经常会问:为什么推荐流量不稳定?为什么文章推荐到一半就不推荐了?为什么我的推荐效果不好?……可能是因为你不知道以下这些原因:
- 消重
同样一个热点,文章题材、风格都差不多,为什么有的文章几百万推荐、有的却只有几千次?这里要敲黑板了:今日头条消重策略。为了保护原创内容,提升用户的阅读体验,多篇相似文章中,机器会优先推送原创文章。
想要避免消重,创作者们一定要坚持优质原创,不要做低质内容的无用功。而面对热点内容,也要谨慎追逐,要学会培养自己独特的个人风格。
- 同类文章挤压
针对同一个热点,推荐系统会从中选取一篇最合适的内容推送给用户。因此,如果其他写这个热点的文章表现特别好,很有可能会影响到你的内容推荐。也就是说,每篇文章的推荐量,既取决于当时具体的环境,也取决于当时整个内容池里其他文章的表现。
- 内容本身情况
创作内容质量不稳定、创作内容不够垂直,都会影响到系统对作者的创作能力、专业度评估。机器会判断一个作者的专业度,并优先推送专业度高的作者的文章。如果作者经常更换创作领域,或是内容质量参差不齐,都会导致系统难以评估作者,影响推荐效果。
而如果一篇内容本身就属于小众领域,目标人群有限,那么推荐系统把这些人群推荐完了,就没有办法再推荐给其他人了。另外内容时效短也会影响推荐,例如一篇体育赛事报道,一小时后比分可能就会有很大变化,这种情况就不会继续推荐了。
- 复审拦截
如果一篇内容推荐到一半,忽然就不推荐了,那可能是这篇内容出现了数据指标上的问题。比如点击率高的吓人,负面评论也多得吓人,这种情况就会进入复审流程。
在复审中,有四类问题会被严格审核:一是标题党,标题过度夸张或是题文不符;二是封面党或低俗,如封面图不清晰、内容涉及低俗引导等;三是虚假,如一篇内容违背科学常理,描述未被证实、或是与已发生的事实相悖;四是含推广信息,如含二维码、手机号、微信号等联系方式或变体,或是包含违规医疗、违规财经等恶意推广内容,都会被复审拦截。
其它影响推荐的因素
当然,像冷启动的推荐效果差、粉丝的数量和质量、用户对文章的喜好度、外部环境等等,也都会对内容的推荐效果产生一定的影响。
第一,注重内容价值,面向用户需求创作高质量内容。调研发现,今日头条的用户非常注重文章的内容价值,很喜欢视角新颖、具备信息增量、观点鲜明有深度的内容。坚持原创首发,也会获得平台的资源倾斜,在同类文章中获得更多推荐。
第二,把握关键词原则。如何让机器更好地理解你的内容?在标题、正文里要高频使用实体词(名词、代词),避免使用非常规词,比如腿玩儿年、活久见、城会玩等,在使用人名地名时也要尽量用全称而不用缩写或外号。
第三,优化文章的视觉体验,改善文章展现形式。要确保标题、封面图传达信息清晰,对用户有足够吸引力;保证配图相关性强、运用排版工具突出重点内容、对图片进行适当标注说明等,都有利于提高用户的阅读体验。
本文地址:http://sjzytwl.xhstdz.com/quote/26669.html 物流园网 http://sjzytwl.xhstdz.com/ , 查看更多