什么是搜索引擎

更新時間:2023-03-01 02:26:06 閱讀：評論：0

什么是搜索引擎？

常用的如百度搜索、360搜索、必應搜索等都是網絡搜索引擎。以下專業內容來自百度百科，供參考：
所謂搜索引擎，就是根據用戶需求與一定算法，運用特定策略從互聯網檢索出制定信息反饋給用戶的一門檢索技術。搜索引擎依托于多種技術，如網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等，為信息檢索用戶提供快速、高相關性的信息服務。搜索引擎技術的核心模塊一般包括爬蟲、索引、檢索和排序等，同時可添加其他一系列輔助模塊，以為用戶創造更好的網絡使用環境。

什么是搜索引擎？

搜索引擎其實就是從互聯網上采集的一些信息，對于信息進行組織并且處理，為用戶提供一些檢索的服務。
搜索引擎的一般包括爬蟲以及索引，檢索，排序等等，當用戶進行搜索的時候，排在最前面的一般都是用戶體驗比較好的。
在當前的大數據時代，如何讓用戶更快的從海量的數據中精準的找到用戶自己想要的信息呢？其實說白了，這些還是一個用戶體驗的問題，當用戶進行搜索的時候，展現在最前面的就是用戶體驗好一點到。
而大數據和搜索引擎是并行，而且是融合的，搜索引擎技術會融合大數據來做一些個性化的推薦。但是本質上還是搜索引擎為大數據帶來的數據。為什么這么說呢？因為有人搜索才會產生數據的來源，而這些數據則是通過大數據里面篩選出來的一些數據。
希望以上的說法對你有所幫助。

名詞解釋：什么是搜索引擎

搜索引擎（英語：arch engine）是一種信息檢索系統，旨在協助搜索存儲在計算機系統中的信息。搜索結果一般被稱為“hits”，通常會以表單的形式列出。網絡搜索引擎是最常見、公開的一種搜索引擎，其功能為搜索萬維網上儲存的信息。

搜索引擎為一組項目提供了一個接口，使用戶能夠指定關于感興趣的項目的標準，并讓引擎找到匹配的項目，這些標準稱為搜索查詢。在文本搜索引擎的情況下，搜索查詢通常表示為識別一個或多個文檔可能包含的期望概念的一組單詞。

有多種樣式的搜索查詢語法在嚴格性上有差異。它也可以在以前的站點中搜索搜索引擎中的名稱。而一些文本搜索引擎要求用戶輸入由白色空格分隔的兩個或三個字，其他搜索引擎可以使用戶能夠指定整個文檔，圖片，聲音和各種形式的自然語言。

一些搜索引擎對搜索查詢進行改進，以增加通過稱為查詢擴展的過程提供質量集合的可能性。查詢理解方法可用于標準化查詢語言。

擴展資料：

一個完整的搜索引擎需要有網頁爬取和收錄，建立索引，查詢詞分析，搜索排序，推薦系統五個部分組成。

1、網頁爬取和收錄。

網絡爬蟲技術是網頁爬取的核心技術，可以通過編寫一定的程序或者腳本來對互聯網的信息進行抓取。在網頁抓取之后，要構建相應的數據庫來存儲我們爬取的網頁信息。

但是互聯網的信息具有冗余性，主要原因是各大網站也都會在后臺進行爬蟲爬取，他們也會通過爬蟲來檢測一些熱點的內容或者文章，然后爬取其信息并對格式進行重新的組織，但其實網頁的內容幾乎都是一致的。

所以在收錄爬蟲爬取的網頁信息之前，我們還要加入一個關鍵的環節——網頁去重，來確保我們數據庫中網頁的唯一性。

2、建立索引

在抓取了網頁的信息之后，需要對網頁的信息進行解析，抽取到網頁的主題內容和類別信息。其主要涉及的技術為文本識別和文本分類技術。

網頁解析后的輸出往往是一些結構化的信息（每個網頁的信息完整度是不同的，需要統一對數據進行結構化操作），一般的結構化信息包括網頁的URL、網頁編碼、網頁標題、作者、生成時間、類別信息、摘要等等。

在獲取了網頁結構化信息后，就要構建相應的索引了。為了加快響應用戶査詢的速度，網頁內容通過"倒排索引"這種高效查詢數據結構來保存，而網頁之間的鏈接關系也會予以保存。

之所以要保存鏈接關系，是因為這種關系在網F相關性排序階段是可利用的，通過"鏈接分析"可以判斷頁面的相對重要性，對于為用戶提供準確的搜索結果幫助很大。

由于互聯網的網頁信息是海量的，所以搜索引擎的構建離不開大數據處理平臺和云計算技術，目前較為常用的大數據處理平臺為Hadoop生態架構。

3、查詢詞分析。

查詢詞分析就是query分析或者query聚類。當搜索引擎接收到用戶的査詢詞后，首先需要對查詢詞進行分析，希望能夠結合查詢詞和用戶信息來正確推導用戶的真正搜索意圖。

比如，一個用戶輸入的查詢詞為“養水仙花”，那么除了基本的內容匹配外，搜索引擎需要讀懂用戶，其實用戶的查詢詞還可以這樣被理解“水仙花的養法”，“水仙花好養不” 等等近意的查詢詞。

在此之后，首先在緩存中査找，搜索引擎的緩存系統存儲了不同的查詢意圖對應的搜索結果，如果能夠在緩存系統找到滿足用戶需求的信息，則可以直接將搜索結果返回給用戶，這樣既省掉了重復計算對資源的消耗，又加快了響應速度。

4、搜索排序

搜索引擎在分析了用戶的查詢詞以后，如果緩存的信息無法滿足用戶的查詢需求，搜索引擎要根據索引來查詢數據庫的網頁內容，并根據網頁內容與用戶需求來進行網頁排序。

網頁排序需要眾多的因素，其中最為主要的因素為網頁內容與用戶查詢內容的相似度（匹配度），這個不難理解，搜索引擎的基本功能就是查詢。

如果一個搜索引擎無法為用戶提供用戶需要查詢的內容，那其也就不能稱為是一個搜索引擎，所以網頁內容與用戶查詢內容的相似度是網頁排序的一個首要依據；

另外網頁的重要程度也是以關鍵元素，一個網頁的重要程度關乎了網頁內容的質量，在滿足用戶需求的基礎之上，用戶更加希望獲得高質量的內容，這是無可厚非的。

根據上述因素，搜索引擎對查詢到的結果進行排序，然后展示給用戶。

5、推薦系統

其實從不嚴格的角度來說，整個網頁排序的過程就屬于一種推薦策略。從嚴格意義上來說，推薦系統并不屬于一個搜索引擎架構的必要環節，而且推薦系統在上述示意圖中并沒有顯示。

但是一個優秀的搜索引擎不止要能分析出用戶查詢的基本需求，進一步來講，要能了解到或者猜測用戶的可能的下一步需求。

目前隨著大數據的熱潮，各大互聯網公司和眾多專家認為推薦系統是解決互聯網大數據的一種有效途徑。而且，最近越來越多個性化推薦知識受到了熱捧。其實推薦系統在搜索引擎中往往是以中間頁的形式展示的，它的主要作用就是為推薦系統進行導流。

參考資料來源：百度百科——搜索引擎

什么是搜索引擎？

搜索引擎是一個對互聯網信息資源進行搜索整理和分類，并儲存在網絡數據庫中供用戶查詢的系統，包括信息搜集、信息分類、用戶查詢三部分。

工作原理
1.爬行：搜索引擎是通過一種特定規律的軟件跟蹤網頁的鏈接，從一個鏈接爬到另外一個鏈接，像蜘蛛在蜘蛛網上爬行一樣，所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規則的，它需要遵從一些命令或文件的內容。
2.抓取存儲：搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁，并將爬行的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時，也做一定的重復內容檢測，一旦遇到權重很低的網站上有大量抄襲、采集或者復制的內容，很可能就不再爬行。
3.預處理：搜索引擎將蜘蛛抓取回來的頁面，進行各種步驟的預處理。

搜索引擎是什么意思？？

搜索引擎是什么意思?

本文發布于:2023-02-28 19:19:00，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/167760876657112.html

本文word下載地址：什么是搜索引擎.doc

本文 PDF 下載地址：什么是搜索引擎.pdf

上一篇：最簡單的蔥油餅做法(最簡單的蔥油餅做法不放雞蛋)

下一篇：返回列表

標簽：搜索引擎

留言與評論（共有 0 條評論）