在2024年1月被UTD24期刊《INFORMS Journal on Computing》接收的论文《Effcient and Flexible Long-Tail Recommendation Using Cosine Patterns》(DOI: 10.2139/ssrn.3762687)中,实验室学者吴俊杰教授以及圣克拉拉大学王亚琼教授、南京审计大学伍之昂教授、明尼苏达大学Gediminas Adomavicius教授等针对推荐系统中的长尾推荐问题,提出了一种基于余弦模式的推荐技术。文章的主要观点如下。
01
摘要
随着推荐系统在实践领域的应用越来越多,研究人员提出了许多提高推荐系统性能的算法。在推荐系统性能的各维度中,长尾(long-tail)推荐或者称为利基产品(niche item)推荐仍然是一个重要的挑战,这在很大程度上是因为许多现有推荐技术普遍具有“流行度偏差”(popularity bias),即更倾向于推荐热门产品而忽略了利基产品。有鉴于此,本研究提出了一种基于余弦模式(cosine pattern)的推荐技术:CORE及其高效计算方法,以实现有效的长尾推荐。在全面且客观的实验中,CORE被拿来与各种经典或被广泛使用的推荐算法进行了比较。结果表明,CORE不仅在长尾推荐上具有显著的优越性,而且具备了很好的推荐准确性、热门或利基产品切换的灵活性以及大规模推荐的可伸缩性,因此体现出了很好的实践价值。
作者信息
Yaqiong Wang (王亚琼,圣克拉拉大学)
Junjie Wu(吴俊杰,北京航空航天大学,数据智能与智慧管理工信部重点实验室,通讯作者)
Zhiang Wu(伍之昂,南京审计大学)
Gediminas Adomavicius(明尼苏达大学)
引用信息
Yaqiong Wang, Junjie Wu, Zhiang Wu and Gediminas Adomavicius. Efficient and Flexible Long-Tail Recommendation Using Cosine Patterns. INFORMS Journal on Computing, Jan. 2024, forthcoming. (Available at SSRN: https://ssrn.com/abstract=3762687 or http://dx.doi.org/10.2139/ssrn.3762687.)
资助信息
Dr. Junjie Wu’s work was partially supported by the National Natural Science Foundation of China (72242101, 72031001).
02
全文简介
推荐系统在在线商务中发挥着重要的作用,因为高质量的个性化推荐已被证明对用户的购买和消费决策有巨大的影响。例如,Netflix的60%的租赁和35%的销售额归因于其推荐系统,Spotify上超过40%的用户持续收听该平台生成的个性化播放列表。多年来,研究人员提出了各种各样的方法——通常基于协同过滤(collective filter)技术——以提高推荐产品的相关性,但这些推荐系统也被证明通常具有“流行度偏差”,即倾向于推荐更为热门的产品或服务。这并不总是一种有利的策略;比如,从流行度分布的“长尾”上推荐真正相关和个性化的产品,可能比推荐已经知名和畅销的产品更有价值。如果一个平台想要突出其“反向目录”,通常需要有针对性地改进协同过滤算法以识别相关但较为冷门的产品。然而,由于关于这些产品的数据较少、用户对它们的偏好很难预测,因此准确地推荐长尾(或称利基)产品仍然是一个高度开放的挑战性问题。这构成了本文研究的重点。
长尾推荐的价值已越来越被广泛认知。在需求侧看,利基产品可以增加消费者盈余并推动消费。众所周知,消费者有一种随着时间的推移而寻求多样性的倾向;推荐小众项目可以鼓励用户尝试这些产品从而更好地满足消费者的异质性需求。利基项目的发现也有助于提高用户满意度,因此从长远来看可以刺激更多的用户参与、提高消费,增加总体需求。从供应侧来看,利基产品对公司来说可能利润更高。例如,利基电影的制作和营销成本只有大片的一小部分,因此对于像Netflix这样的平台来说,给用户推荐更多的利基电影和更少的大片可能是有利的,因为大片往往需要更高的授权成本。此外,长尾产品可通过为消费者的主流需求和小众需求提供“一站式购物”的便利性来促进热门商品的销售。另一个不容忽视的好处是,对于像亚马逊这样的在线市场,利基推荐可以激励利基产品的卖家留在这个平台上而不被流行产品挤出。
众多长尾推荐技术已被应用于工业界。例如,Netflix已将长尾产品和服务的访问民主化以及实现通用的尾部需求预测列为其推荐系统的关键任务。亚马逊的内容推荐系统的设计目标包括最大化深度内容目录的价值,通过在推荐内容中增加长尾内容的呈现以提高收入。类似地,在Spotify上使用的音乐发现方法关注流行榜单尾部,以确保长尾艺术家获得一定数量的推荐,为长尾艺术家和内容创造赢得更多的曝光机会。总之,利基产品推荐在各种应用领域中都很重要,因此能够获得准确的长尾推荐模型是非常值得关注的。
然而,发现相关的长尾产品并不容易,而现有的许多推荐系统中存在的流行度偏差加剧了这一问题。为了缓解单纯面向精度的推荐算法造成的流行度偏差,其他推荐绩效如多样性和新颖性也得到了研究关注。简单而言,新颖性和多样性可以通过重新排序最初的推荐列表来得到,或在优化排名过程中使用准确性和多样性的综合目标来实现。尽管改善推荐的多样性和新颖性有时可能与更好的长尾性能相关,但并不总是如此。例如在许多情况下,通过推荐不同的流行产品,很容易实现高多样性;同样,推荐系统可以改善个体多样性,但也减少总体多样性;这些对于改善长尾推荐无益。长尾推荐也可以通过改进对利基产品的评级评估来实现;然而这种方法往往以牺牲总体推荐准确性来实现,或者需要更丰富的特征和额外的预处理,总体成本显得过高。 同时,随着系统中的用户数量和产品目录随时间的增长,长尾推荐的可伸缩性也是一个重要的问题。因此,设计可以参数化并灵活调整推荐产品的流行度的推荐算法,是另一个非常实用的问题,也是目前已提出的许多长尾推荐方法所没有的重要特征。
基于模式特别是基于关联规则的推荐算法,从推荐系统研究的早期开始就获得了广泛的关注。其中一个关键原因是基于模式的推荐的可解释性,例如可以得到这样简单的推荐规则:购买X的人也购买了Y。通常,基于模式的算法首先构建一个包含产品共现模式(如关联规则或频繁项集)的知识库,然后基于这些知识向用户推荐产品。大量平台在其商业推荐系统中使用了这种方法,例如,YouTube就使用关联规则向用户推荐相关视频。然而,传统的关联规则发现框架有一定的局限性,这可能导致推荐不太准确,特别对于产品购买数量分布严重有偏的情形更不理想,本研究对这一点给出了深刻的讨论。
考虑到长尾推荐的迫切需求以及基于模式的推荐算法的优势,本研究提出了基于余弦模式的推荐方法CORE,以实现有效的长尾推荐。CORE是一种基于模式的推荐方法,它在不同的产品(特别是利基产品)之间挖掘以余弦模式表示的关联(见图1),然后利用所发现的关联来进行产品推荐。与许多被广泛使用的推荐方法相比,CORE在各种情况下都显示出了出色的长尾性能。由于它能够有效过滤由于产品数量分布有偏而生成的虚假模式,CORE在稀疏和重尾数据上仍然具有很高的竞争力。CORE还支持参数化推荐产品的流行度,可为生成不同流行程度(或长尾)的产品推荐提供灵活性,以实现各种推荐目标。CORE的可伸缩性是由一个专门设计的数据结构来实现的,该结构有利于提高大规模应用中的实时推荐能力(见图2)。本研究在多个真实数据集上进行了全面的实验,结果表明CORE相对于许多经典的或被广泛使用的推荐方法,不仅具有显著的长尾推荐优势(见图3),而且在推荐准确性、利基推荐灵活性(见图4)、大规模推荐伸缩性等各方面表现优异。
图1:余弦模式的定义
图2:面向余弦模式高效挖掘的数据结构
图3:CORE在长尾推荐与精准推荐上的联合优势
图4:CORE在不同流行度产品推荐上灵活切换的优势