先給大家說幾個概念,為了下面的講述中,大家都能看得懂。
1、文檔:我們是以網(wǎng)頁的形式看到互聯(lián)網(wǎng)頁面的,而網(wǎng)頁中包含很多的東西,比如:TXT、EXCEL、PDF等等很多各式各樣的文件都被成為文檔。
2、文檔集合:由很多的文檔組成一個集合,稱為文檔集合。
3、文檔編號:互聯(lián)網(wǎng)上每一個文檔都有各自且獨一無二的編號。
4、單詞編號:每個單詞都有各自的唯一編號,用編號來代表這個單詞或、短語者句子。
5、倒排索引:是在搜索引起的索引庫中,以單詞對應(yīng)網(wǎng)頁的一種存儲的形式,可以根據(jù)單詞快速的獲取相關(guān)的文檔。
其實倒排索引非常的簡單,下面就結(jié)合一些特征案例來漸漸深入的分析這個算法,大家先了解一些基本的思路即可。
另外由于中文和英文的文化屬性不相同,中文的漢字之間沒有明顯像英文單詞那樣的分隔符,索引首先對中文要進(jìn)行一下分詞(下面舉例中暫時不去掉停止詞),這樣就把一句話變成了一個個的詞組,
比如單詞“小明”,其其單詞編號為“1”,倒排列表“1,2,4,5”,表示這幾個文檔集合中都包含了這個單詞。實際上搜索引擎更為復(fù)雜,不僅僅記錄了單詞的文檔編號,還記錄了單詞的頻率(TF,什么意思呢?很多seo從業(yè)者都在說關(guān)鍵詞的密度,
市面上計算頁面中關(guān)鍵詞密度的計算公式有三個:
公式一: 關(guān)鍵詞次數(shù)/頁面總字?jǐn)?shù) x100%
公式二: 關(guān)鍵詞次數(shù)/頁面總字?jǐn)?shù)/關(guān)鍵詞字?jǐn)?shù) x 100%
公式三: 關(guān)鍵詞次數(shù)/頁面分詞數(shù)量 x 100%
先不討論哪個公式的計算方式更加精準(zhǔn),我們發(fā)現(xiàn)公式中都出現(xiàn)了關(guān)鍵詞的次數(shù),那這個TF就是該單詞在頁面中出現(xiàn)的次數(shù))
這個TF在搜索引擎計算搜索結(jié)果排序時,分析查詢詞和文檔庫中哪個文檔更為相關(guān)的一個參考因素。
以首頁自然排名的10個網(wǎng)站的網(wǎng)頁類型和標(biāo)題為例:
首頁,排名第一,“早點培訓(xùn)_早餐培訓(xùn)班_早點培訓(xùn)學(xué)?!久赓M吃住】”
首頁,排名第二,“早餐培訓(xùn)_早餐培訓(xùn)班_早餐培訓(xùn)學(xué)?!久赓M加盟】”
首頁,排名第三,“上海頂正小吃培訓(xùn)學(xué)校_早點培訓(xùn)_生煎包培訓(xùn)_燒烤培訓(xùn)全國最專…..”
首頁,排名第四,“上海早點培訓(xùn)|重慶小面培訓(xùn)|山東雜糧餅培訓(xùn)|鹵菜培訓(xùn)|小吃培訓(xùn)…….”
首頁,排名第五,“小吃培訓(xùn)_特色小吃_小吃項目加盟-老灶臺特色小吃培訓(xùn)學(xué)?!?/p>
內(nèi)頁,排名第六,“早點培訓(xùn) 正規(guī)早點培訓(xùn)班-培訓(xùn)通”
首頁,排名第七,“藝尚食代-早餐早點培訓(xùn)”
首頁,排名第八,“小吃培訓(xùn),早點培訓(xùn),上海面點培訓(xùn),上海德志廚藝美食培訓(xùn)中心021-…”
首頁,排名第九,“早餐店加盟_營養(yǎng)早餐加盟_特色早點加盟店_早餐店連鎖加盟培訓(xùn)_開…”
內(nèi)頁,排名第十,“早點培訓(xùn)班 正宗早點培訓(xùn)中心-培訓(xùn)通”
分析得出:早點培訓(xùn)在這個10個網(wǎng)站中基本上都出現(xiàn)了2詞,大家有沒有發(fā)現(xiàn)早點和早餐是近義詞,(比如:我早點吃了什么,我早餐吃了什么。這兩句話表達(dá)的是同一個意思。)等于是增加了一遍詞頻,也就是3次了,在這里提醒大家關(guān)鍵詞千萬不要堆砌,要保持一個自然性。
泉州華夏天寶婦產(chǎn)醫(yī)院https://yyk.familydoctor.com.cn/21333/
煙臺煙城男科醫(yī)院https://yyk.familydoctor.com.cn/21338/