搜索引擎是seo從業(yè)人員每天都要打交道的,所以想做好優(yōu)化就必需要了解搜索引擎的工作原理,首先要明白搜索引擎由哪些部分構(gòu)成,因?yàn)檫@些都跟搜索引擎的工作流程相關(guān)連,今天就對(duì)搜索引擎的構(gòu)成部份進(jìn)行淺析。
一、爬蟲(chóng)
我們一般稱為蜘蛛,它的來(lái)訪非常的重要,爬蟲(chóng)會(huì)抓取出網(wǎng)絡(luò)上的頁(yè)面、程序或者腳本,采集網(wǎng)站可以訪問(wèn)的頁(yè)面內(nèi)容從而進(jìn)行緩存。搜索引擎最重要的是響應(yīng)時(shí)間,如果你在搜索內(nèi)容的時(shí)候,需要一分鐘后才能反饋給你結(jié)果,用戶的體驗(yàn)感會(huì)大打折扣,搜索引擎為了滿足速度的需求,都采取緩存的做法。
對(duì)于爬蟲(chóng)來(lái)說(shuō),更青睞網(wǎng)站運(yùn)營(yíng)時(shí)間長(zhǎng)、持續(xù)高質(zhì)量?jī)?nèi)容產(chǎn)出、有抓取深度的站點(diǎn)比較感興趣。那么爬蟲(chóng)什么時(shí)候會(huì)來(lái)抓取頁(yè)面,baiduspider會(huì)檢測(cè)你的網(wǎng)頁(yè)文章的更新頻率,對(duì)每一個(gè)URL集合計(jì)算出最適合爬蟲(chóng)抓取的時(shí)間,然后在訪問(wèn)抓取。爬蟲(chóng)也有自己的工作目標(biāo),它要對(duì)抓取的網(wǎng)頁(yè)進(jìn)行描述和定義、要對(duì)網(wǎng)頁(yè)進(jìn)行過(guò)濾、還有URL的索引策略。
二、用戶搜索界面
目前搜索引擎市場(chǎng)份額最大的仍是百度,隨著信息量的不斷增加,技術(shù)的不斷成熟,搜索界面也變得越加規(guī)范化。用戶在搜索的時(shí)候經(jīng)常會(huì)涉及到這幾個(gè)方面:
1、展現(xiàn)提示詞:用戶在搜索框輸入任何文字的時(shí)候都會(huì)展示提示詞,而且中文搜索中若用戶輸入拼音,系統(tǒng)照樣可以識(shí)別提示;
2、相關(guān)搜索提示詞:當(dāng)用戶搜索一個(gè)關(guān)鍵詞的時(shí)候,系統(tǒng)會(huì)根據(jù)用戶的搜索詞給出更多的提示詞,換一個(gè)關(guān)鍵詞搜索到的內(nèi)容有可能就大不相同;
三、預(yù)處理
要說(shuō)搜索引擎最復(fù)雜的是什么,那一定是預(yù)處理了,排名的算法幾乎都是在這個(gè)環(huán)節(jié)產(chǎn)生。在搜索引擎抓取到一個(gè)頁(yè)面的時(shí)候,要將網(wǎng)頁(yè)中的代碼、非正文內(nèi)容等進(jìn)行去除,留下關(guān)鍵詞,利用代碼和關(guān)鍵詞密度等等分析出重要的詞組,進(jìn)行分詞儲(chǔ)存在數(shù)據(jù)庫(kù)中與URL一一對(duì)應(yīng)。搜索引擎還要去除重復(fù)與轉(zhuǎn)載網(wǎng)頁(yè)、對(duì)重要信息進(jìn)行分析。概括來(lái)說(shuō),搜索引擎是控制蜘蛛爬取,對(duì)數(shù)據(jù)進(jìn)行篩選報(bào)錯(cuò),處理好URL的對(duì)應(yīng)關(guān)系,將其保存在索引數(shù)據(jù)庫(kù)當(dāng)中,方便在用戶搜索內(nèi)容時(shí)快速提取展示。
四、文本挖掘
文本挖掘的方法有很多,常用的就是全文搜索、關(guān)鍵詞提取、文本摘要、中文分詞等等。搜索引擎有個(gè)文檔集,進(jìn)行文檔挖掘可以對(duì)文本進(jìn)行分析識(shí)別數(shù)字、日期名字等等,也可以做特征提取比如文本摘要、關(guān)鍵詞提取和特征選擇,或者進(jìn)行分類、檢索、聚類、自動(dòng)問(wèn)答等等。
寫(xiě)在文末:對(duì)于seoer來(lái)說(shuō),排名優(yōu)化的第一步就是解決收錄問(wèn)題,我們每天都在更新,可有時(shí)就是不收錄。所以如果想網(wǎng)站快速被收錄,那么我們就要懂得蜘蛛的爬行原理和規(guī)律,同時(shí)也要知道什么樣內(nèi)容、頁(yè)面更容易被搜索引擎收錄,如何提高蜘蛛對(duì)內(nèi)容的發(fā)現(xiàn)時(shí)間等。