久草热久草在线视频 亚洲日韩在线视频国产 99热久久这里只有精品

上海SEO推廣公司

搜索引擎是怎么工作的?用生活講解搜索引擎工作原理

瀏覽:/ 2019-07-02

 要理解搜索引擎的工作原理,本文從三個方面來進行闡述。

 
一、搜索引擎發展t<a href=http://www.controlecreatif.com/ target=_blank class=infotextkey>網站</a>SEO<a href=http://www.controlecreatif.com/ target=_blank class=infotextkey>優化</a>詳細操作步驟).gif
 
在萬維網(Word Wide Web)還沒有出現的時候,大家使用ftp來共享交流資源。1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出一款軟件叫做Archie。這個軟件能定期搜集并分析ftp服務器上面的文件信息,并提供查找各個主機的文件功能。用戶輸入想要下載的文件名進行搜索,Archie告訴告訴用戶哪個ftp能下載這個文件。雖然Archie搜集的并不是網頁,但是工作方式和現在搜索引擎一樣:搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜索引擎的鼻祖。
 
在互聯網發展的早期,主要以人來維護互聯網信息,精選互聯網的優秀網站,并做簡要描述,分類放到不同的目錄下。用戶查詢時候,通過對感興趣的目錄一層層地點擊來找到想要的網站。這種方式以雅虎為代表,叫做網站目錄(Web Directory),嚴格來說不是搜索引擎。
 
最早具有現代意義訂單搜索引擎為Lycos,出現在1994年,將蜘蛛程序接入到了索引程序中。
 
1996年1月,加州斯坦福大學理學博士生的拉里·佩奇和謝爾蓋·布林兩人開發了一個對網站之間的關系做精確分析的搜尋引擎。這個名為PageRank的引擎通過檢查網頁中的反向鏈接以評估站點的重要性,此引擎的精確度勝于當時的基本搜索技術。這個搜索引擎就是后面的google。PageRank(佩奇排名)技術,google用它來體現網頁的相關性和重要性,是搜索引擎優化中非常重要的因素。這個技術也是投票這個概念的出處,google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票。根據投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。
 
 
1999年的google
 
不論搜索引擎的形式是怎么樣的,最根本的概念為滿足用戶的搜索需求,將用戶想要的網頁放到用戶眼前。
 
 
現代互聯網的搜索引擎需要處理十分巨大的數據量,截至2015年12月,中國網頁數量為2123億個。截止2017年全國網站數量526萬個,網站主辦者402萬個,域名數量710萬個。那么這些信息搜索引擎是如何處理的?
 
二、搜索引擎是怎么對網站信息進行處理的
 
1、抓取
 
 
想象一下你在某個城市旅游,總站到A站點有車,A站點到B站點有車,那么我們可以過從總站先坐車到A站點,然后轉車到B站點這種方式到達B站點(快)。
 
C站點是一個單獨的站點,沒有任何車輛經過這里,顯然只能走著去(慢)。
 
那么要想快速達到C站點,有兩種方式,
(1) 在總站和C站之間加車
(2)在B站和C站加車,或者A站和C站直接加車。
這兩種方式都能讓人快速從總站到C站。
 
 
搜索引擎對網頁的抓取類似。首先得從原有的數據中找到鏈接,然后分析這些鏈接對應的網頁內容,找出里面全部的鏈接,并通過這些鏈接發現新的網站和網頁。
 
如果新站創建,那么可以將新站直接報告搜索引擎(總站和C站加車),或者通過外鏈讓搜索引擎自然的找到新站(B站和C站加車)。
 
搜索引擎對網站和網頁抓取的程序,一般叫做蜘蛛程序。蜘蛛也是在網上爬。
 
 
2、過濾
 
假如你是紀曉嵐,讓你去編撰一部《四庫全書》,那么你會把上下5000年所有內容全部遍進去嗎?顯然不會,第一、時間有限 第二、腦容量有限、人力有限 第三、并不是所有內容都有價值 第四、你得上報里面都編了哪些內容,有些東西你也確實不想讓人看到…
 
搜索引擎也一樣,上面已經說了,網頁數量是用“億”來做單位的,還要對這些網頁進行數據分析和處理,數據量更是n多倍。任何一個引擎,所能存儲的容量都是有限的,就決定了必須是搜索引擎認為對用戶有價值的內容才會進行存儲,在用戶搜索的時候才會出現在用戶眼前。
 
 
3、收錄、索引
 
我們在看過一本書(實體書)之后,怎樣才能快速的回去找感興趣的內容呢?有些同學可能會在書里面夾個書簽,像這樣:
 
 
 
在書簽上寫上字,一目了然。
 
當然有些勤快的同學還記錄一些小紙條,把感興趣的詞、句式收集起來,并寫上書上哪些地方出現了這個詞,這個句式,出現了幾次,在之前看過的書里面是不是也出現過。
 
搜索引擎對網頁的收錄和索引顯然要復雜的多,大致原理和看書差不多,都是對感興趣的東西做收錄和索引。
 
 
4、排序
 
搜索引擎收錄了這么多的網頁,那么怎么根據關鍵詞決定哪個是第一個出現、哪個是第二個出現呢?timg - 2019-06-21T144840.834.jpg
 
(1)相關性或者對用戶有用
(2)對受歡迎的內容進行權重分類。
 
那么顯然搜索引擎優化的目的,第一、提高相關性,滿足搜索引擎 第二、提高內容質量,滿足用戶需求。
 
 
 
三、我在搜索引擎搜索一個關鍵字,搜索引擎做了哪些事
 
 
1、聯想
 
 
當我在百度的輸入框輸入seo這三個字母的時候,
 
 
百度會進行聯想補全搜索?;谟脩羲阉髟~匯的前綴,百度會去猜用戶最有可能搜索的關鍵詞。這種搜索方式能極大的提高用戶的搜索體驗,這種方式目前是搜索引擎和工具的標配。
 
2、分詞
 
中文分詞一直是一個難題,精準分詞去除歧義是實現精準搜索的基礎。
 
 
分詞面臨的挑戰有:
 
 
歧義:
比如:長春市長春藥店,可以這么分:長春市/長春藥店 ,也可以這么分: 長春/市長/春藥/店
 
短語識別:
比如:各種成語,諺語等
 
新詞發現:
比如神馬、有木有、城會玩等新造的流行詞。研究表明,這種詞匯的分詞問題是歧義詞的10倍左右,網民會源源不斷的制造這種新詞,是分詞面臨的挑戰之一。
 
等等。
 
3、同義詞、相近詞、錯誤詞替換
 
比如我搜索googlg,顯示的是google的搜索結果。
 
4、整合數據
 
搜索引擎搜索的結果是從n個節點來的,比如同一個關鍵詞在北京搜索的結果,未必和在南京搜索的結果一樣。從各個節點拿回數據之后,根據權重、跳出率等等n個因素進行排序、篩選、過濾、整合,這樣用戶就拿到了最終結果。
timg - 2019-06-20T144759.938.jpg

閱讀"搜索引擎是怎么工作的?用生活講解搜索引擎工作原理"的人還閱讀

上一篇:你知道優化中的輪回規則嗎?小編給講講SEO輪回規則

下一篇:企業網站怎么優化?優化企業網站的五個技巧

久草热久草在线视频 亚洲日韩在线视频国产 99热久久这里只有精品