您好,歡迎來(lái)到58網(wǎng)站目錄!
當(dāng)前位置:58網(wǎng)站目錄 » 站長(zhǎng)資訊 » SEO基礎(chǔ)知識(shí) » SEO » 文章詳細(xì)

搜索引擎工作原理

站長(zhǎng)「蝙蝠俠」:QQ1251270088  瀏覽:2290次 時(shí)間:2014-04-21

搜索引擎工作原理


搜索引擎是一個(gè)非常復(fù)雜的數(shù)據(jù)庫(kù)系統(tǒng),通過(guò)抓取上億級(jí)別的頁(yè)面,建立索引數(shù)據(jù)庫(kù),組件龐大的數(shù)據(jù)庫(kù)。當(dāng)用戶輸入搜索關(guān)鍵詞的時(shí)候,給予搜索結(jié)果的響應(yīng),這里我們只是簡(jiǎn)單的解析搜索引擎工作的步驟,僅供大家參考。


搜索引擎工作大致分為三個(gè)流程:爬行抓取、預(yù)處理、排名


(1)爬行和抓?。核阉饕嬷┲胪ㄟ^(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè),獲得頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。  


1.蜘蛛 
2.跟蹤鏈接
3.吸引蜘蛛
4.地址庫(kù)
5.文件存儲(chǔ)
6.爬行時(shí)的復(fù)制內(nèi)容檢測(cè)



(2)預(yù)處理:索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。  


1.提取文字
2.中文分詞
3.去停止詞
4.消除噪聲
5.去重
6.正向索引
7.倒排索引
8.鏈接關(guān)系計(jì)算
9.特殊文件處理


(3)排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后安一定的格式生成搜索結(jié)果頁(yè)面。


1.搜索詞處理
2.文件匹配
3.初始子集的選擇
4.相關(guān)性計(jì)算
5.排名過(guò)濾及調(diào)整
6.排名顯示
7.搜索緩存
8.查詢及點(diǎn)擊日志


以上是zac關(guān)于搜索引擎工作原理的解毒,實(shí)際中搜索引擎工作的算法是非常復(fù)雜的,了解更多詳細(xì)信息可參考zac的《seo實(shí)戰(zhàn)密碼》這本書。以及seo教程






本文地址:http://quema.com.cn/artinfo/396.html
?