当前位置:主页 > 财经 >

【深度解密】今日头条个性化资讯推荐技术

发布时间: 2017-12-03 04:07 来源:网络整理

头条为何能取得成功?很多人会说是头条的个性化推荐技术做得好,个人认为其实不尽然。本文罗列了相关的个性化推荐技术,特别是资讯推荐常用的算法,带大家从“内行”的角度来解密下个性化资讯推荐技术。希望读者读后能发自内心地觉得:头条其实也就那么回事。

本文主体分以下三个大的部分。除此以外也会在最后用一小节展望下个性化资讯推荐的未来。

1.个性化资讯产品:先介绍资讯推荐产品是什么,着重分析其业务特点。

2.个性化推荐方案:接着介绍资讯推荐所需的技术,着重分析其技术难点。

3.个性化推荐算法:最后介绍业界常用的个性化推荐算法。

4.个性化资讯产品

资讯推荐产品要解决用户需求很简单,一句就可以概括:为用户找到有趣的资讯。而做到这个需求就要做好两个关键点:

1.新闻聚合。用户希望在一个产品里获取任何他想要或者可能想要的东西,这就要求产品要聚合其他app、网站、甚至线下媒体里的各种资讯,这也是最基本的一个产品特性。

2.个性化。要去最大程度地理解、猜测用户的兴趣,结合兴趣为其推荐相关资讯,这是资讯产品后期衍生出来的一个产品特性。

更进一步,如果将上述两个关键点展开,一个好的个性化资讯产品就要具备以下亮点:

1. 时效性

这是所有资讯类产品共同的特性,而不仅仅是资讯推荐类产品。人们总是希望通过你的产品看到最近发生了什么,而不是很久之前的老新闻。

2. 精准性

每天发生的事情有很多,对应的新闻稿子也非常多,如果每个都看,信息过载的问题会让人吃不消。你能否猜出我的兴趣,并精准地推荐感兴趣的新闻才是用户关心的,也是用户能直接感受到的体验。

3. 丰富性

这点恰是很多用户最容易忽略的一个点。其实很多用户才不管这个资讯类产品是怎么推出来的,对于单个用户而言,其第一诉求必然是通过这个产品来了解世界,知道每天都在发生什么,所以新闻的丰富性是最最基本的。

4. 排他性

每天描述同一事件稿子很多,在自媒体时代这个问题更加突出,但用户只会用有限时间去了解这件事,而不是去研究所有关于这件事的报道,更不想甄别不同报道的差异。所以,用户往往需要的是一个事情的一两个报道,保证给我差异化的内容是必须的。

5. 热门性

谁都不想在周围朋友们讨论热点事件时,自己是个懵逼,什么都不知道。这点很关键,跟精准性和个性化看起来有点背道而驰,但人性天生就有求同的天性。没有同样的话题,生活将会失去太多色彩,不知道该和人交流什么。

6. 高质量

媒体质量层次不齐,有的文章写得很好很炫,读的时候很过瘾,但一旦你发现它是一个假新闻或者歪曲报道,你还是对这类文章嗤之以鼻。新闻可以高于事实,但不能背离事实。

7. 合法性

人总是对非法的事情感兴趣,如黄赌毒之类。而对于被压抑的需求,则更是感兴趣,如色情之类。但一个伟大的产品,首先必须是一个合法的产品。所以,一切尽在不言中了。

个性化推荐方案

要做到上一节提到的产品特性,有两条路可以走:人工运营和算法推荐。在类头条产品出现之前,请新闻方面专业人才来运营是最稳妥的方式。但人工运营成本越来越高,局限性越来越明显。走算法推荐的路,在张扬个性的年代,是一条必由之路。下表简要对比下两者的差别。

推荐算法应用在资讯类产品时有一些挑战,这也是资讯推荐能否做好的关键所在。

● 可扩展性

推荐本质是建立user和item的关联,一般问题要么是user侧量级大,要么是item侧量级大,而资讯推荐是典型的“双大”场景。又由于是高度依赖个性化的场景,还不能简单地将某一侧大幅降维,所以可扩展性显得尤为重要。

● 稀疏性

资讯的高度个性化自然而然的带来一个很棘手的问题就是稀疏性。举个最简单的例子,如果将user和item的 点击行为用矩阵形式表示出来,会发现比一般问题更多的0项存在。而稀疏问题是一直困扰机器学习高效建模的一大难题。

● 冷启动

每天都有大量的新闻产生,如何将如此多的新闻快速、合理地冷启动,尽快将高质量的新闻推给合适的用户是个大问题。

● 时效性

不同于商品、书籍、电影、视频等的推荐,新闻一大特点是生命周期非常短,有的甚至只有几个小时。如何在最短的时间里把新闻推给感兴趣的人,在新闻进入“暮年”之前发挥它的最大价值是个非常重要的问题。

● 质量保证

新闻本身量大,且时效性强,如何在短时间里快速评估每篇稿子的质量和合法性,做到最高效、最精准的内容审核是个大课题。

● 动态性





搜索