作為一個(gè)合格的SEOer者,了解搜索引擎的工作原理是必須的,今天新川教育網(wǎng)絡(luò )營(yíng)銷(xiāo)龐老師給大家分享的文章是:搜索引擎的工作原理。搜索引擎工作過(guò)程非常復雜,現在我們簡(jiǎn)單介紹搜索引擎是怎樣實(shí)現網(wǎng)頁(yè)排名的。這里介紹的工作相對于真正的搜索引擎技術(shù)來(lái)說(shuō)只是皮毛,不過(guò)對SEO人員已經(jīng)足夠用了。
預處理:索引程序對抓取來(lái)的頁(yè)面數據進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調用。
排名:用戶(hù)輸入關(guān)鍵詞后,排名程序調用索引庫數據,計算相關(guān)性,然后按一定格式生成搜索結果頁(yè)面。 二、爬行和抓取
爬行和抓取是搜索引擎工作的*步,完成數據收集的任務(wù)。
蜘蛛:搜索引擎用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序被稱(chēng)為蜘蛛(spider),也稱(chēng)為機器人(bot)。搜索引擎訪(fǎng)問(wèn)任何一個(gè)網(wǎng)站時(shí),都會(huì )先訪(fǎng)問(wèn)網(wǎng)站根目錄下的文件。如果文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的代理名稱(chēng),站長(cháng)可以在日志文件中看到搜索引擎的特定代理名稱(chēng),從而辨識搜索引擎蜘蛛。
預處理:在一些SEO材料中,“預處理”也被簡(jiǎn)稱(chēng)為:“索引”,因為索引是預處理最主要的步驟。搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢(xún)排名處理。搜索引擎數據庫中的頁(yè)面數都在數萬(wàn)億級別以上,用戶(hù)輸入搜索詞后,靠排名程序實(shí)時(shí)對這么多頁(yè)面分析相關(guān)性,計算量太大,不可能在一兩秒內返回排名結果。因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預處理為*的查詢(xún)排名做好準備。和爬行抓取一樣,預處理也是在后臺提前完成的,用戶(hù)搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。
三、排名 經(jīng)過(guò)搜索引擎蜘蛛抓取頁(yè)面,索引程序計算得到的倒排索引后,搜索引擎就準備好可以隨時(shí)處理用戶(hù)搜索了。用戶(hù)在搜索框填入關(guān)鍵詞后,排名程序調用索引庫數據,計算排名顯示給用戶(hù),排名過(guò)程是與用戶(hù)直接互動(dòng)的。搜索詞處理:搜索引擎接收到用戶(hù)輸入的搜索詞后,需要對搜索詞做一些處理,才能進(jìn)入排名過(guò)程。
文件匹配:搜索詞經(jīng)過(guò)處理后,搜索引擎得到的是以詞為基礎的關(guān)鍵詞集合。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒搜索引使得文件匹配能夠快速完成。
今日暫且分享到這里,關(guān)于搜索引擎的工作原理后續還會(huì )更新其他的內容,請繼續關(guān)注我們,更多網(wǎng)絡(luò )營(yíng)銷(xiāo)課程請點(diǎn)擊:網(wǎng)絡(luò )營(yíng)銷(xiāo)課程培訓。
歡迎感興趣的朋友來(lái)校咨詢(xún),我們的網(wǎng)址:
也可關(guān)注我校公眾號:pyyuanxing,也可以添加微信號yx-peixun。
地址:番禺區市橋街橋東路63號銀座中心7樓全層