算法为什么知道“你想看什么”?


今天,算法推荐已经无处不在:广告、短剧、小说、音乐乃至新闻、资讯……它已经与搜索引擎并肩,成为人们获取网络信息的主要方式之一。在这种境况下,理解算法推荐,对于理解今天的媒介环境至关重要。

那么,什么是推荐?人们最熟悉的推荐方式是人对人的推荐:一个人向另一个人推荐某物,认为对方“用得上”“会喜欢”;或者是一个人请求另一个人为自己推荐某物,认为对方“经验丰富”“眼光好”。这种推荐背后往往存在一个预设:一个人和另一个人可以就“喜好”“需求”达成共识。这种共识基于人与人的相互理解。

算法推荐不需要这种“理解”。简单来说,算法是一台“匹配”机器,能够按照一定的程序和编码,把人和相关信息“匹配”起来。算法工程师们需要考虑的是,如何让一个人恰好遇到他想遇到的信息?这其实是一个“控制论”问题:“让两个东西在同一个时空相遇。”美国数学家诺伯特·维纳在提出控制论时,正是要想办法让战争中的炮弹和敌军飞机在同一时空相遇(他将炮手和炮台、驾驶员和飞机整体视为两个复杂系统)。今天的算法推荐,也正是要对巨量的用户和信息进行“匹配”,令双方恰当地“相遇”。

基于算法技术的人工智能满足了用户多样化文艺需求。新华社发

基于算法技术的人工智能满足了用户多样化文艺需求。新华社发

早期的协同过滤大多是“基于物品的协同过滤”。在此基础上,2010年以来人们还发展出了“基于用户的协同过滤”。这是一个令“猜你喜欢”成功运作的机制,其核心是:“和你相似的人,也会喜欢你喜欢的东西”,即所谓的“物以类聚,人以群分”。比如,如果系统发现位于某个地区、常购买某类物品、喜欢听某人的歌、有某种程度学历的女性大都喜欢看某个类型的“霸道总裁”。那么,当系统下一次遇到一位符合条件的女性,即便她此前从不看任何“霸道总裁”,也会为她推荐,而且成功的概率很大。通过这种方式,算法能够在个体的“意料之外”推荐其偏好的内容,实现某种“个性化定制”的效果。但实际上,算法并不关心一个人的“个性”,它关心的反而是人与人之间的“共性”,并对新加入的成员进行偏好预判。这也带来新的忧虑,当预判高度准确时,人们依然会担心自己是否处在只有自我、没有他者的“茧房效应”中。

在一个更宏观的尺度上,算法推荐服从模型的数学和统计学特性。一个重要的特征是幂律分布。幂律分布是一条向下的、拖着长长尾巴的曲线,描述了在自然世界或人类社会中,“只有少数事务具有极大影响力,而大多数事务具有较小的影响力”的现象。这个世界上绝大多数大样本量模型都服从幂律分布,包括但不限于城市人口、地震强度、生物体积、太阳耀斑等,网络流量也不例外。

今天,人们已经察觉网络流量分布的不平等,将它们总结为“二八定律”,即粉丝数排在前20%的“大V”(拥有高粉丝量的用户)掌握80%的流量,后80%的中小用户只占20%流量的现象。但在另一边,幂律分布也带来“长尾定律”,它反映了另一种现象:分布中,存在大量影响力极小的样本,但总数加起来后仍非常可观。这意味着无论是多么小众的领域和作品,都会有相应的用户,不应该被忽略。这就是幂律分布两个最重要的数学特性。因此,要丰富推送内容,打破“二八定律”,让更多“长尾”被看到,商业公司除了要调整经营策略,还需要投入额外的算法改进机制。

当下,协同过滤和大数据、深度学习、人工智能等进一步配合,已经令算法推荐大抵呈现为一个黑箱,远远超出人类可理解的范畴。但可以想象,通过人类的调试和修改,这项技术也将更加先进,变得更加灵活多样、富于变化,适应各种各样的人类需求。我们有理由期待一个更好的、分配机制更公平友好的未来:彼时,“物以类聚,人以群分”将变得更加“丝滑”和生动,人们也能克服既有的茧房效应和流量至上,生活在更丰富的信息环境中。

(作者:王鑫,系山东大学文学院助理研究员)