搜尋引擎如何運作 |從 Archie 到 AI 搜尋和 Google
![WebRto How search engines work-04](https://webrto.com/wp-content/uploads/2024/06/WebRto-How-search-engines-work-04-770x400.jpg)
搜尋引擎如何運作 |從 Archie 到 AI 搜尋和 Google
搜尋引擎作用的簡要概述
您現在正在上網。您可能透過搜尋引擎找到了該網頁。但你有沒有想過搜尋引擎是如何變成今天這個樣子的呢?它們發揮的重要作用是組織網路上看似無限量的可用信息,並為用戶的查詢提供最相關的結果。但還有更多內容。
搜尋引擎到底是什麼?
在最基本的層面上,搜尋引擎是一種旨在搜尋資料庫的軟體程式。這聽起來很簡單。
對於 Google、Bing 和 Yahoo 等網路搜尋引擎來說,該資料庫是來自全球各地的網頁的大量集合。
當您在搜尋引擎中輸入查詢時,它會篩選數十億頁面的快照以查找匹配項 – 它不會立即搜尋整個網路。然後,它根據這些匹配的相關性和品質對這些匹配進行排名。這是一個複雜的過程,發生在幾分之一秒內。
我們如此依賴搜尋引擎,以至於它們幾乎成為事實的仲裁者。透過聲譽管理來修復搜尋結果已經成為一個曾經從未想過的行業。
搜尋引擎有什麼用
搜尋引擎除了資訊檢索之外還具有多種作用。他們是:
- 導航工具:它們將使用者引導至他們正在搜尋的特定網站或頁面。例如,在搜尋欄中輸入「Facebook」將引導您進入 Facebook 的官方頁面。
- 資訊工具:它們為使用者提供知識和查詢答案。例如,詢問“誰是美國總統?”會給你喬·拜登的名字。
- 交易工具:它們幫助使用者完成某些基於網路的交易。例如,您可以搜尋“在線購買跑鞋”,您將獲得銷售跑鞋的線上商店清單。
早期的搜尋引擎
Archie
Archie 是「檔案」的縮寫,被認為是第一個網路搜尋引擎,儘管它的功能與我們所聯想到的現代搜尋引擎截然不同。 Archie 是由蒙特利爾麥吉爾大學的學生 Alan Emtage 於 1990 年發明的,它標誌著搜尋技術的開始。
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_17-1.jpg)
Archie 是如何運作的
Archie 使用基於腳本的資料收集器來收集位於給定電腦網路(Internet 上)的公共 FTP 伺服器上的所有檔案的目錄清單。然後,列表被儲存在一個資料庫中。
FTP伺服器是使用檔案傳輸協定 (FTP) 來儲存和共用檔案的電腦伺服器。它允許用戶上傳、下載甚至從伺服器刪除檔案。可透過FTP客戶端軟體遠端存取FTP伺服器。
用戶可以存取 Archie 並蒐索特定文件或瀏覽清單。然後,Archie 會向使用者提供 FTP 伺服器位址,使用者可以從那裡下載檔案。
雖然Archie沒有搜尋文件的內容(像現代搜尋引擎那樣),但這是使網路更可用的重要一步。它本質上是一個巨大的可下載檔案目錄。
Archie 在 90 年代末停止運營,但由於歷史原因保留了檔案版本。
AltaVista
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_18.jpg)
1990 年代中期,出現了一種創新的新型搜尋引擎:AltaVista。 AltaVista 由 Digital Equipment Corporation 的研究人員於 1995 年推出,顯著提高了搜尋技術的功能,被視為該領域的先驅。
AltaVista 是最早對網路的重要部分進行索引的搜尋引擎之一,它聲稱它可以儲存和檢索其索引的每個頁面的所有單詞,而不僅僅是檔案名稱或元資料。在推出時,它已經索引了 2000 萬個網頁,這在當時是一個驚人的數字。相較之下,當時的其他搜尋引擎僅索引了可用網路內容的一小部分。
過去,AltaVista 在最初幾年的搜尋引擎優化比現在容易得多。它只需要大量剪下和貼上原始資料即可改善搜尋結果。
目錄: 雅虎
雅虎於 1994 年推出,最初是一個網頁目錄,與搜尋引擎不同。像雅虎這樣的目錄不是使用蜘蛛來抓取網絡,而是根據主題將網站分類為分層結構。
目的是將網路組織成可瀏覽的格式,例如數位目錄或黃頁。雅虎的工作人員手動審查網站並將其分類為適當的類別。當網路還處於起步階段時,這種目錄方法非常有用,使雅虎成為早期網路時代的主導者,為更複雜的搜尋系統鋪平了道路。
手動規劃的網站列表
最初版本的雅虎就像一個巨大的網路數位目錄。它依賴人工管理,工作人員手動審查每個網站提交的內容。然後根據內容對這些網站進行排序並在各種類別和子類別下列出。使用者可以瀏覽這些類別或使用基本搜尋功能來尋找特定主題下列出的網站。這種手動管理確保了一定程度的品質控制,但勞動強度極大,而且無法跟上快速擴張的網路的步伐。
儘管有這些限制,雅虎的方法在當時還是具有革命性的。
拉里和謝爾蓋在史丹佛大學的計畫最終發展為谷歌
1996年,拉里·佩奇和時任史丹佛大學博士的謝爾蓋·布林。學生們開始了一個旨在改進網路搜尋的研究計畫。他們的新穎方法是使用名為“PageRank”的演算法根據入站連結對頁面進行排名。
邏輯很簡單但具有革命性:如果其他頁面連結到某個網頁,則該網頁很重要。這標誌著谷歌的誕生,它透過提供比以往更相關的結果來改變網路搜尋範式。谷歌的創新方法很快就超越了競爭對手。
PageRank演算法說明
Google 的顯著特徵是其PageRank 演算法,這是搜尋技術中的革命性概念。 PageRank 評估網頁的重要性不僅基於其內容,還基於來自其他頁面的連結的數量和品質。
本質上,從一個頁面到另一個頁面的連結被視為信任投票,表明連結頁面的價值。頁面收到的高品質連結越多,其 PageRank 分數就越高,且出現在搜尋結果中的可能性就越大。這種對連結分析的關注使Google能夠提供更相關、更可靠的搜尋結果,使其有別於其他搜尋引擎。
即使在今天,連結建立仍然是 SEO 的重要組成部分,儘管遠不如以前。
早期的Google專利
PageRank 演算法改變了遊戲規則,以至於Google 申請了一項名為「連結資料庫中的節點排名方法」的專利。這項專利於 2001 年正式獲得授權,詳細介紹了 Google 如何使用連結分析對網頁進行排名。這種方法在搜尋技術領域是獨一無二的。正是這種理解和分類互聯網的方法比以前的系統有效得多,在谷歌崛起的過程中發揮了至關重要的作用。
現代搜尋引擎
如今,Google、Bing、百度代表了搜尋技術的前沿,各具特色。
- 谷歌憑藉其複雜的演算法,提供高度相關的結果,並提供一系列專門的搜尋功能。
- Microsoft 的產品 Bing 與許多 Microsoft 產品集成,並提供視訊主頁和圖像搜尋等獨特功能。
- 百度是中國領先的搜尋引擎,專為中文量身定制,提供與中國文化和法規深度融合的服務。
這些搜尋引擎中的每一個都開啟了自己的利基市場,滿足不同的用戶需求和偏好。
早期和現代搜尋引擎之間的差異
從早期搜尋引擎到現代搜尋引擎的轉變代表了速度、準確性和個人化方面的重大演變。
速度:由於技術限制,早期的搜尋引擎速度較慢,需要更長的時間來索引網路並返回搜尋結果。現代搜尋引擎可以在幾分之一秒內掃描數十億頁面的緩存,提供即時結果。注意“緩存”這個詞。搜尋引擎速度更快的原因之一是它們實際上並不是即時搜尋網絡,而只是搜尋網絡的快照。
準確性:最初的搜尋工具(例如 Archie)僅對 FTP 伺服器上的檔案名稱建立索引。現代搜尋引擎分析網頁的全部內容,包括文字、圖像和鏈接,從而產生更精確的結果。 Google 的 PageRank 演算法透過考慮頁面入站連結的品質和數量,徹底改變了準確性。
個人化:早期的搜尋引擎向所有使用者提供相同的結果。如今,像Google這樣的搜尋引擎會根據個人用戶的搜尋歷史記錄、位置和其他個人資料來客製化結果,從而增強搜尋結果的相關性和實用性。這種程度的個人化在搜尋技術的早期是難以想像的。
現代 Google 搜尋結果的要素
現代谷歌搜尋結果不僅僅是簡單的連結列表。它們現在是豐富的、結構化的演示文稿,融合了各種元素,為用戶提供了全面的體驗。讓我們探討一下現代 Google 搜尋結果的關鍵要素。
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_19-1.jpg)
AutoSuggest 和 AutoComplete:幫助使用者制定查詢
當您開始在 Google 中輸入搜尋查詢時,您會注意到一個下拉列表,其中提供了您可能要查找的內容的建議。此功能稱為AutoSuggest。它可以根據其他用戶的搜尋內容和趨勢提出查詢,從而提供幫助。自動建議是您可能輸入的內容的預測。
自動完成是不同的,它嘗試在您鍵入時預測並完成您的查詢。對於不確定如何表達搜尋或正在尋找快速結果的用戶來說,這些功能非常寶貴。
AutoSuggest 查詢是基於:
- 熱門話題
- 搜尋的受歡迎程度
- 搜尋紀錄
- 使用者位置
- 使用者語言
Google 使用 RankBrain (2015) 來了解搜尋查詢的使用者意圖。它是一種連接單字之間含義的理解演算法。
圖像輪播:視覺搜尋結果
在某些搜尋結果中,您可能會注意到頁面頂部有一個水平滾動的圖像列表,稱為「圖像輪播」。它們看起來像這樣:
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_20-1.jpg)
此功能對於面向視覺的搜尋特別有用,例如在尋找產品、食譜或地點時。透過提供內容的視覺表示,圖像輪播允許使用者在點擊特定頁面之前快速評估結果的相關性。
人們也問:深度用戶查詢
另一個常用的功能是「People Also Ask (PAA)」框,它提供與您的搜尋查詢相關的問題清單以及簡短的答案。當您單擊問題時,它會展開以顯示簡短的答案和來源連結。 PAA 框對於尋求有關某個主題的更深入資訊的使用者特別有幫助,因為它們通常提供使用者最初可能沒有考慮到的不同角度或相關方面。
熱門故事
當被搜尋的實體產生足夠的新聞報告時,頭條新聞部分將出現在 SERP 的頂部。熱門新聞直接從「新聞」標籤中提取,主要來自可信賴的新聞網站。
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_21-1.jpg)
知識面板
知識面板顯示在搜尋結果的右側,提供有關特定主題的大量信息,例如著名人物、地點、組織或事件。它們看起來像這樣:
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_22-1.jpg)
這些面板是自動生成的,並從維基百科等各種來源收集信息,以提供摘要、圖像和相關數據,例如出生日期或地址。知識面板對於正在尋找某個主題的快速概述或特定資訊的使用者特別有用。
附加連結
附加連結是出現在第一個 Google 搜尋結果下方的附加子列表,通常針對知名品牌和組織。這些連結為人們提供了跳到網站上正確頁面的快速方法。分配的最大網站連結數為 6。任何搜尋結果獲得的網站連結數量取決於網站的結構良好程度以及其擁有多少獨特內容。想要了解更多有關網站連結的資訊 –這是一個很好的資源。
豐富的片段
然後還有豐富的片段。豐富的摘要提供附加信息,例如照片或星級。由於豐富的摘要在視覺上更令人愉悅並且提供了更好的起點,因此它們通常具有更高的點擊率。品牌可以透過在網站上添加結構化資料來增加獲得豐富摘要的機會。豐富的程式碼片段如下所示:
![](https://webrto.com/wp-content/uploads/2024/06/Screenshot_23-1.jpg)
其他元素:廣告、地圖、本地包等。
Google 搜尋結果還包括其他幾個旨在增強使用者體驗的元素:
- 廣告:廣告通常出現在搜尋結果的頂部,標記清晰且與您的搜尋查詢相關。這些都是廣告商付費的展示位置。
- 地圖:對於基於位置的查詢,可能會出現一張小地圖,顯示您附近的相關位置。
- 本地資訊包:本地資訊包通常附有地圖,顯示本地企業的信息,包括評論、地址和營業時間。
人工智慧在搜尋中的作用
人工智慧 (AI) 以令人驚嘆的方式顯著重塑了搜尋引擎格局。坦白說,人們開始有點害怕了。 2022 年底 ChatGPT 的出現導致Google重新思考其整個搜尋引擎。但在此之前,還有其他與人工智慧相關的重要突破。
例如,Google 的RankBrain是 Google 搜尋演算法中基於人工智慧的元件。它利用機器學習來理解使用者查詢背後的上下文和意圖,即使措辭不明確或以前從未使用過。
人工智慧還支援個人化搜索,根據個人用戶過去的行為、偏好和位置提供結果。這種客製化為每個用戶提供了獨特的搜尋體驗,使結果更加相關和有用。
AI支援語音搜尋和自然語言處理。隨著 Siri、Google Assistant 和 Alexa 等虛擬助理的興起,搜尋查詢越來越基於語音。人工智慧有助於解釋這些口頭查詢、理解上下文並提供準確的結果。
人工智慧在圖像和影片搜尋中發揮著重要作用,透過理解圖像和影片中的內容來提高視覺搜尋結果的準確性。
人工智慧已發展成為現代搜尋技術的基石,促進更直觀、準確和個人化的搜尋體驗。隨著技術的進步,它的影響力將會不斷增強,為搜尋的未來提供令人興奮的潛力。
搜尋的未來:預測搜尋、語音搜尋和更多人工智慧
搜尋的未來已經展現在我們面前,預測搜尋、語音搜尋以及 ChatGPT 和 Google Bard 等人工智慧的持續整合正在塑造未來。
預測搜索,也稱為主動搜索,旨在在用戶進行搜索之前預測用戶的資訊需求。 Google Discover 就是一個例子,它根據使用者的瀏覽歷史記錄、互動和位置推薦內容。隨著人工智慧和資料收集技術變得更加先進,我們可以預期預測搜尋將變得越來越準確和個人化。
由於 Google Assistant、Alexa 和 Siri 等語音啟動助理的激增,語音搜尋一直在增長。隨著自然語言處理和理解的改進,語音搜尋預計將變得更加複雜,能夠理解複雜的查詢並進行更自然的對話互動。
持續的人工智慧整合將進一步徹底改變搜尋領域。谷歌甚至正在以重大方式改變其搜尋引擎,將巴德結果添加到搜尋結果的頂部,並將傳統的藍色連結移至搜尋結果頁面的下方。
從本質上講,搜尋的未來旨在為用戶創造更直觀、更具預測性和個性化的體驗,在正確的時間提供精確的信息,而無需顯式查詢。隨著科技的進步,這個未來正迅速成為現實。