终止点:没有出链的网页
处理终止点方法(1):
- 迭代删除所有终止点
- 求强连通子图G的节点PR
- 某个节点X,所有X的入链节点都是G中的节点,则PR(X) = sum(PR(i)/OUT(i))
- 其中,i是G中的节点,且指向节点X,OUT(i)为节点i的出链数
- 迭代求原图所有节点的PR
采集器陷阱:一系列节点集合,这些节点虽然没有终止点,但是却没有出链指向集合之外
处理采集器陷阱的方法(1):
每次迁移,允许以一个小概率随机跳转到一个随机网页,而不一定要沿着出链迁移。
面向主题的pagerank:随机游走时,只到达一个指定主题下的随机网页,而非到达任意类别的网页
根据词汇推断网页主题
根据用户搜索的词猜测搜索的主题
在评论的地方贴小广告,指向垃圾网页
反作弊:
识别出垃圾农场的结构
TrustRank 修改pagerank计算公式,降低垃圾网页得分:只随机跳转到可靠网页的集合(要注意考虑博客下加评论,贴小广告的做法)
垃圾质量(spam mass) 识别网页的垃圾程度,不去索引垃圾网页or不去算垃圾网页的pagerank(根据trustrank值,(pr-tr)/pr )
权威页:给出高质量的内容
导航页:指向权威页
pagerank的迭代是一维的:重要的网页链向重要的网页
HITS的迭代是二维的:指向好的权威页的网页是好的导航页,好的导航页指向的网页是好的权威页
出链网页的权威度之和 =》当前页的导航度
入链网页的导航度之和 =》当前页的权威度
导航度与权威度的计算,需要归一化
没有评论:
发表评论