您現在的位置:首頁 >> SEO優化 >> 關鍵詞優化 >> 內容

搜索引擎復雜算法離不開相關性

時間:2013-6-14 14:25:14 點擊:

  核心提示:今天的web搜索引擎有復雜的方法來衡量一個網頁是否與給定的查詢,根據幾十年的研究在信息檢索。來和我一起探索內在運作的一個搜索引擎的相關性引擎和解釋為seo從業人士意味著什么。確定相關性當用戶提交一個查...

今天的web搜索引擎有復雜的方法來衡量一個網頁是否與給定的查詢,根據幾十年的研究在信息檢索。來和我一起探索內在運作的一個搜索引擎的相關性引擎和解釋為seo從業人士意味著什么。

確定相關性

當用戶提交一個查詢來搜索引擎,它必須做的第一件事是確定哪些頁面的索引與查詢,哪些不是。在這篇文章中,我將把這稱為“相關性”的問題。更正式,我們可以狀態如下:

給定一個搜索查詢和文檔,計算一個相關性分數,措施之間的相似性查詢和文檔。

“文檔”在這種情況下也可指諸如標題標簽,元描述,傳入的錨文本,或者其他什么東西,我們認為可能有助于確定查詢相關頁面。實際上,一個搜索引擎計算數量的相關性分數使用不同的頁面元素和重量他們所有到達最后一個分數。

相關問題已經非常好研究的研究社區。第一個文件倒流幾十年,它仍然是一個活躍的研究領域。在這篇文章中,我把重點放在了最具影響力的方法都經受住了時間的考驗。

相關性和排名

從概念上講,我們可以單獨的相關性測定從排名的相關文件,即使他們被實現為一個單一的步驟在一個搜索引擎。在這種心理框架,相關步驟第一使二進制(真/假)決定對于每個頁面,然后排名一步文檔返回訂單用戶。

我將介紹一些數據后在這篇文章中,生動地說明了這種分裂和它如何與不同的排名信號。

查詢和文檔模型

翻譯查詢和文檔從原始字符串變成我們可以做計算和是第一個障礙在計算相似度得分。為此,我們利用“查詢模型”和“文檔模型。”“模型”在這里只是一個時髦的說法稱字符串是代表其他一些方法,使計算可能的。

上圖說明了這個過程的查詢“費城費城人隊”和維基百科頁面關于費城人隊。最后一步在計算相似性得分運行查詢和文檔表示通過一個打分函數。

查詢模型

下圖演示了一些不同類型的查詢模型:

構建塊的底部包括諸如標記化(分裂成字的字符串),字標準化(如堵住其中的常見詞的結局是被刪除),和拼寫校正(如果查詢包含一個拼錯的詞,搜索引擎返回結果糾正它,為糾正詞)。

的基礎上構建這些積木都是類似查詢分類和意圖。如果搜索引擎確定一個特定的查詢時間敏感的它將返回消息的結果,或如果它認為查詢意圖是事務將顯示購物的結果。

最后,位于金字塔頂端的是更多的抽象表示查詢如實體提取或潛在主題陳述(LDA)。事實上,谷歌知道“費城費城人隊”是一個大聯盟棒球團隊,因為它是棒球賽季返回昨晚的分數在頂部的搜索結果(除了知識圖右邊)。

文檔模型

如查詢模型,有幾種不同類型的文檔模型中常用的搜索。

tf idf是最古老、最廣為人知的方法,代表了每個查詢和文檔作為一個向量,并使用一些變體的余弦相似度的打分函數。一個語言模型編碼的一些信息統計的一種語言,包括知識如短語“搜索引擎優化”是更為常見的那么“搜索引擎步行。“語言模型是大量使用在機器翻譯和語音識別等應用程序。他們也非常有用的在信息檢索。另一個類的模型使用了概率排序原理,直接模型的概率給定查詢和文檔的相關性。其中,歐卡皮鹿BM25已被證明是特別有效的。

相關研究

現在,您可能想知道如果搜索引擎實際使用任何這些東西,如果有,哪些是最重要的。為了探究這個問題,我們設計了一個相關研究相似的我們已經跑過去(見這對一些背景的一般方法)。在本例中,我們收集了50強結果從谷歌美國大約14000字。這導致約600000頁,然后我們爬和用于計算許多不同的相似性得分。

正如您可以看到的,該語言模型方法表現最好的,平均為0.10,斯皮爾曼相關符合結果發表在研究文學。

如果我們做一些引發雙方的查詢和文檔第一和驗算,相關性增加整個板:略

這表明,谷歌確實是做一些類型的詞標準化或者抑制在他們相關的計算。

相關性和排名重新

比較這些相關性與頁面權威(聚合在鏈路度量在我們Mozscape指數)在相同的數據集,我們看到一個實質性的區別:

這引出了一個問題:如果這些復雜的相似性得分是如此有用,為什么不高的相關性?答案就在于概念的相關性與分裂我前面討論的排名。

說服我自己,我構建了一個實驗如下圖所示:

運行試驗,450年我第一次從我們的數據集隨機頁面分層在前50名的結果(這樣他們包括9 # 1,# 2排名的頁面排名的頁面九,等等)。然后我添加了450個隨機頁面頂部50頁在每個搜索結果讓一群500頁為每個關鍵字。因為這些頁面的50個搜索結果,450不是,10%是相關的關鍵字和90%不(這里假設是如果頁面出現在谷歌搜索然后它是有關)。然后為每個關鍵字,我收集了頁面權威和語言模型相似性得分和排序,每個(表中)。

最后,我計算精度在50,這是排名前50的百分比結果按PA /語言模型評分,實際上是在搜索結果。這直接衡量的程度或語言模型PA單獨從無關的相關頁面。500年以來10%的文檔是在搜索結果中,我們可以得到一個10%的精確度,隨機排序它們。這是我們的基線精度10%(底部灰色酒吧在圖像)。

結果是驚人的。巴勒斯坦權力機構精度非常接近基線,說這是沒有更好的然后一個隨機數在確定相關性即使它做一個好工作在排名前50名一旦他們已知的相關。另一方面,語言模型精度接近100%。換句話說,語言模型幾乎是完美的在決定的500頁的搜索結果,但實際上卻不工作的有關文件的排名。

外賣

這種類型的查詢文檔相似性得分是建立在研究文學和構成每個現代信息檢索系統。因此,它是基本的搜索和免疫算法改變。

因為搜索引擎使用復雜的查詢和文檔模型,不需要單獨為類似的關鍵詞進行優化。例如,任何頁面針對“影評”也將目標“電影評論。”

最后,您可以使用概念分為相關性和排名在你的工作流。當創建或修改現有的內容,首先集中精力使頁面有關的一系列相關的關鍵詞。然后集中精力,增加搜索位置。

更多的排名因素結果很快

這是第一個結果我們從2013年發布的排名因素的項目。在過去的幾年中,這個項目包括一個行業調查和大量相關研究。我將展示結果在今年MozCon(這樣得到你的票如果您尚未!),我們將遵循它與一個完整的報告今年夏天晚些時候

作者:北京seo 來源:seo.eosem.com
更多
相關評論
發表我的評論
  • 大名:
  • 內容:
本類推薦
本類固頂
  • 沒有
  • 北京seo,北京網站優化,seo公司_一優廣搜網絡(www.dqhong.tw) © 2019 版權所有 All Rights Reserved.
  • Email:[email protected] 一優廣搜網絡 北京seo 技術① 北京seo 技術② 京ICP備10200834
  • Powered by GJ1.0 Seo
  • 羽毛球比赛