外贸推广课堂:搜索引擎的算法原理

发布日期:2016-04-12

文章来源:

关键词:

1.1搜索引擎的算法原理
搜索引擎是今天互联网的门户,它帮助人们在海量的网页中快速地寻找信息。搜索引擎专家们也一直在为这个目标而努力,他们试图设计出最优秀的系统和算法,将最有价值的网页返回给搜索用户。搜索引擎的流量算法决定如何排列返回的网页。通常,搜索用户只对返回结果的前几页感兴趣,很少有人去浏览排在后面的信息。因此流量算法非常重要,优秀的流量算法能把最有价值的网页优先推荐给用户。以PageRank为代表的链接分析算法在今天的搜索引擎中取得了巨大的成功。这种流量思想可以应用在很多其他的信息检索系统,比如科技文献检索系统中,改善检索性能、提高服务质量。网页能在搜索引擎的返回结果中排在靠前的位置,对网页的拥有者来说是有利可图的。比如:网页流量靠前能吸引到更大的流量,而流量对于商业网站来说意味着交易机会:网页流量靠前能提升网页的知名度,这会吸引广告商前来投放广告。因此,所有的网页提供者都希望他们的网页能在搜索引擎的返回结果中排在靠前的位置。要想在搜索引擎结果中取得较高的流量,正确的办法是提供高质量的网页。但创建高质量的网页往往要花费大量的时间、金钱和精力。于是,有些网页提供者企图通过走捷径来达到目的。他们利用某些手段欺骗搜索引擎的流量算法来使他们的网页获得较高的流量,这种行为称为搜索引擎作弊(Searchenginespare)或网页作弊(Webspam)。Henzinger等人指出,搜索引擎作弊是搜索引擎面临的主要挑战之。
1.2相关研究进展
搜索引擎诞生于上世纪90年代。初期的搜索引擎是基于文本进行检索和排序的,TF-IDF模型是计算文本相关性的主要方法。链接分析算法的发明使搜索引擎对网页的评价更加精确,这类算法的代表有PageRank[8]和HITS[9]。其中PageRank在搜索引擎外贸网站优化中取得了巨大的成功。由于仅仅利用了网页间的链接结构,PageRank算法也有着明显的缺陷。比如偏重于旧网页,对所有出链赋以同样的权重,与检索主题无关等。因此很多研究者对PageRank算法进行了改进。网页的内容信息、时间信息、主题信息等都被应用到对该算法的改善中。搜索引擎作弊现象是伴随着搜索引擎的诞生而开始的。目前,研究者已经发现了多种类型的搜索引擎作弊技术。这些作弊技术大致可以分为三类:内容作弊、链接作弊和隐藏作弊。早期的搜索引擎作弊技术以内容作弊为主。自然语言理解技术、机器学习技术和基于统计的技术都曾被应用到内容作弊的检测中。随着链接分析算法的兴起,内容作弊的方法渐渐地不再有效,取而代之的是链接作弊技术。反作弊技术也以链接作弊检测为主。受PageRank算法思的启发,研究者们提出了一系列基于信任指数(或不信任指数)传播机制的检测技术,如BadRank、Trust-Rank、Topical-TrustRank、Anti—TrustRank,以及将TrustRank和Anti-TmstRank相结合的方法。文献的方法也都是基于上述机制。此外,机器学习方法、统计方法、图算法和利用时序信息的方法也都被应用于链接作弊检测。针对伪装和重定向,研究者也提出了很多检测方法。其他的一些检测方法还利用了用户行为信、热扩散模型和商业目的分析等。
1.3本文的目的
1.在深入研究了搜索引擎流量算法的相关理论和技术的基础上,提出了搜索引擎流量算法在文献检索系统中的一个应用:基于PageRank的科技文献质量评价算法。该算法将PageRank思想引入到引文分析中,并综合考虑科技文献发表机构、作者、被引次数、发表时间等因素,改进了传统的文献质量评价方法。实验证实,该算法的评价结果比传统方法更符合人们的期望。
2.在对各类搜索引擎作弊技术及目前各种作弊检测技术作了研究综述的基础上,提出了一个基于扩展策略和链接相似度的链接作弊检测方法。我们的方相似度,并将这三种新链接相似度应用到基于扩展策略的链接作弊检测方法中。
3.通过实验验证了提出的机遇扩展策略和链接相似度的作弊检测方法,对结果进行了比较分析,并与其他检测方法做了对比。首先比较了在基于扩展的方法中新提出的链接相似度与旧链接相似度的检测效果,我们发现新链接相似度的检测准确率更高,但检测结果数量相对较少。其次比较了三种新链接相似度的检测效果,结果显示三种新链接相似度的检测性能各有所长。最后我们将我们的检测方法与两种优秀的检测算法ATR和BRW做了对比,结果表明我们
的方法在检测准确率和检测结果数量方面均优于ATR和BRW。