1.1搜索引擎的算法原理
搜索引擎是今天互聯網的門戶,它幫助人們在海量的網頁中快速地尋找信息。搜索引擎專家們也一直在為這個目標而努力,他們試圖設計出最優秀的系統和算法,將最有價值的網頁返回給搜索用戶。搜索引擎的流量算法決定如何排列返回的網頁。通常,搜索用戶只對返回結果的前幾頁感興趣,很少有人去瀏覽排在后面的信息。因此流量算法非常重要,優秀的流量算法能把最有價值的網頁優先推薦給用戶。以PageRank為代表的鏈接分析算法在今天的搜索引擎中取得了巨大的成功。這種流量思想可以應用在很多其他的信息檢索系統,比如科技文獻檢索系統中,改善檢索性能、提高服務質量。網頁能在搜索引擎的返回結果中排在靠前的位置,對網頁的擁有者來說是有利可圖的。比如:網頁流量靠前能吸引到更大的流量,而流量對于商業網站來說意味著交易機會:網頁流量靠前能提升網頁的知名度,這會吸引廣告商前來投放廣告。因此,所有的網頁提供者都希望他們的網頁能在搜索引擎的返回結果中排在靠前的位置。要想在搜索引擎結果中取得較高的流量,正確的辦法是提供高質量的網頁。但創建高質量的網頁往往要花費大量的時間、金錢和精力。于是,有些網頁提供者企圖通過走捷徑來達到目的。他們利用某些手段欺騙搜索引擎的流量算法來使他們的網頁獲得較高的流量,這種行為稱為搜索引擎作弊(Searchenginespare)或網頁作弊(Webspam)。Henzinger等人指出,搜索引擎作弊是搜索引擎面臨的主要挑戰之。
1.2相關研究進展
搜索引擎誕生于上世紀90年代。初期的搜索引擎是基于文本進行檢索和排序的,TF-IDF模型是計算文本相關性的主要方法。鏈接分析算法的發明使搜索引擎對網頁的評價更加精確,這類算法的代表有PageRank[8]和HITS[9]。其中PageRank在搜索引擎外貿網站優化中取得了巨大的成功。由于僅僅利用了網頁間的鏈接結構,PageRank算法也有著明顯的缺陷。比如偏重于舊網頁,對所有出鏈賦以同樣的權重,與檢索主題無關等。因此很多研究者對PageRank算法進行了改進。網頁的內容信息、時間信息、主題信息等都被應用到對該算法的改善中。搜索引擎作弊現象是伴隨著搜索引擎的誕生而開始的。目前,研究者已經發現了多種類型的搜索引擎作弊技術。這些作弊技術大致可以分為三類:內容作弊、鏈接作弊和隱藏作弊。早期的搜索引擎作弊技術以內容作弊為主。自然語言理解技術、機器學習技術和基于統計的技術都曾被應用到內容作弊的檢測中。隨著鏈接分析算法的興起,內容作弊的方法漸漸地不再有效,取而代之的是鏈接作弊技術。反作弊技術也以鏈接作弊檢測為主。受PageRank算法思的啟發,研究者們提出了一系列基于信任指數(或不信任指數)傳播機制的檢測技術,如BadRank、Trust-Rank、Topical-TrustRank、Anti—TrustRank,以及將TrustRank和Anti-TmstRank相結合的方法。文獻的方法也都是基于上述機制。此外,機器學習方法、統計方法、圖算法和利用時序信息的方法也都被應用于鏈接作弊檢測。針對偽裝和重定向,研究者也提出了很多檢測方法。其他的一些檢測方法還利用了用戶行為信、熱擴散模型和商業目的分析等。
1.3本文的目的
1.在深入研究了搜索引擎流量算法的相關理論和技術的基礎上,提出了搜索引擎流量算法在文獻檢索系統中的一個應用:基于PageRank的科技文獻質量評價算法。該算法將PageRank思想引入到引文分析中,并綜合考慮科技文獻發表機構、作者、被引次數、發表時間等因素,改進了傳統的文獻質量評價方法。實驗證實,該算法的評價結果比傳統方法更符合人們的期望。
2.在對各類搜索引擎作弊技術及目前各種作弊檢測技術作了研究綜述的基礎上,提出了一個基于擴展策略和鏈接相似度的鏈接作弊檢測方法。我們的方相似度,并將這三種新鏈接相似度應用到基于擴展策略的鏈接作弊檢測方法中。
3.通過實驗驗證了提出的機遇擴展策略和鏈接相似度的作弊檢測方法,對結果進行了比較分析,并與其他檢測方法做了對比。首先比較了在基于擴展的方法中新提出的鏈接相似度與舊鏈接相似度的檢測效果,我們發現新鏈接相似度的檢測準確率更高,但檢測結果數量相對較少。其次比較了三種新鏈接相似度的檢測效果,結果顯示三種新鏈接相似度的檢測性能各有所長。最后我們將我們的檢測方法與兩種優秀的檢測算法ATR和BRW做了對比,結果表明我們的方法在檢測準確率和檢測結果數量方面均優于ATR和BRW。
- 上一篇: 什么是搜索引擎作弊?搜索引擎作弊危害是什么?
- 下一篇: 搜索營銷變革助力外貿網站推廣
