2007-Bipartite Network Projection and Personal Recommendation
论文原文 -> 链接
文章简介
-
「我感觉作者说得很绕。。。二分网络,看起来很像一个User-Item矩阵,也可能是我太菜了,看不太懂」
-
对于图网络,其中,一类特殊的网络是二分网络,其节点被分为两组 X 和 Y,并且只允许不同组之间的节点进行连接(如图 (a) 所示)。许多系统自然地被建模为二分网络:例如,人类性网络由男性和女性组成,代谢网络由化学物质和化学反应组成,等等。
-
由于在社会、经济和信息系统中的特殊重要性,两类二分网络尤为重要。
-
一类是合作网络,通常定义为由共同合作行为连接的参与者网络「which is
generally defined as a network of actors connected by a common collaboration act」。这类例子很多,包括通过共同撰写科学论文连接的科学家,通过共同出演同一部电影连接的电影演员,等等。此外,合作网络的概念并不一定局限于社会系统。尽管合作网络通常通过参与者的一模投影来展示,但其完整的表示是一个二分网络。
-
另一类被称为“观点网络”「opinion network」,其中用户集中的每个节点与其在对象集中收集的对象相连。例如,听众与他们在音乐共享图书馆(如 audioscrobbler.com)中收集的音乐团体相连,网络用户与他们在书签站点(如“delicious”)中收集的网页相连,顾客与他们在亚马逊等网站上购买的书籍相连 。
-
-
为了方便直接展示特定节点集之间的关系,二分网络通常通过一模投影进行压缩。
-
一模投影到 (简称 投影)意味着一个仅包含 节点的网络,其中两个 节点在它们至少有一个共同的相邻 节点时连接。图 (b) 和 (c) 分别展示了 和 投影的结果网络。最简单的方法是将二分网络投影到一个无权网络,而不考虑合作重复的频率。
-
尽管可以从这种无权版本中定性地获得一些拓扑属性,但信息的损失是显而易见的。例如,如果两个听众各自收集了超过 100 个音乐团体(在 audioscrobbler.com 上,每个听众平均收集的音乐团体数量为 140),并且只有一个是两者共同选择的,人们可能会得出结论,这两个听众的音乐品味可能不同。相反,如果近 100 个音乐团体属于重叠部分,这两个听众很可能有非常相似的习惯。然而,在无权听众投影中,这两种情况在图表示上完全相同。

-
由于一模投影总是比原始二分网络信息量少,为了更好地反映网络结构,必须使用二分图来量化投影图中的权重。一种直接的方法是根据相应合作伙伴关系的重复次数直接对边进行加权。
-
这一简单规则分别用于在图 (b) 和 (c) 中为 和 投影获取权重。这种加权网络比无权网络信息量更大,并且可以由标准技术分析无权图,因为其权重都是整数。然而,这种方法也存在定量偏差。对于之前只合作过一篇论文的两位作者来说,再多合作一篇论文的影响应比已经合作过 100 篇论文的两位作者更大。这种饱和效应可以通过在简单的合作次数计数上引入双曲正切函数来考虑。Newman指出,与许多其他合著者一起出现在一篇论文上的两位作者,平均来说,彼此之间的了解程度不如作为唯一作者的两位作者。为了考虑这种效应,他引入了因子 1/(n−1) 来削弱涉及多个参与者的合作的贡献,其中 n 是参与者的数量(例如,一篇论文的作者数量)。
-
为了简单起见,加权邻接矩阵 wij 总是被设置为对称的,即 。然而,在科学合作网络中,不同的作者可能会对同一篇合著论文赋予不同的权重,而且发表较少论文的作者可能会给予更高的权重,反之亦然。因此,一种更自然的加权方法可能不是对称的。先前方法的另一个缺陷是,在 Y 投影(X 投影)中,邻接 X 节点(Y 节点)度为 1 的边的信息将会丢失。这种信息损失在一些真实的意见网络中可能很严重。例如,在“delicious”的用户-网页网络中,相当一部分网页只被收集过一次,相当一部分用户只收集过一个网页。因此,用户投影和网页投影都会浪费大量信息。由于 Mathematical Reviews 中超过一半的出版物只有一个作者 ,数学合作网络的情况甚至更糟。
-
与意见网络「opinion network」密切相关的一个核心问题是,如何提取隐藏信息并进行个性化推荐。互联网和万维网的指数级增长使人们面临信息过载的问题:他们面对太多数据和来源,难以找到最相关的信息。
-
信息过滤的一个里程碑是使用搜索引擎,然而,它无法解决信息过载问题,因为它没有考虑个性化,因此对习惯迥异的人返回相同的结果。因此,如果用户的习惯与主流不同,他很难在无数的搜索结果中找到自己喜欢的内容。
-
在本文中,我们提出了一种加权方法,允许非对称权重(即 )和自连接(即 )。此外,我们建立了一座连接两者的桥梁:二分网络投影和个性化推荐。数值模拟表明,直接应用所提出的投影方法作为个性化推荐算法,其表现显著优于广泛使用的全局排名方法(GRM)和协同过滤(CF)。
弃坑。。。以2024年的视角来看,搞得有点云里雾里的。