亚洲精品高清国产一久久,亚洲av永久无码精品网站在线观看,亚洲精品tv久久久久久久久久,亚洲,另类,激情av在线播放,亚洲av成人一区二区三区在线看

首頁 首頁 >  文章資訊

百度分詞算法:最通俗易懂的講解百度中文分詞算法

發(fā)布者:追逐夢(mèng)想    發(fā)布時(shí)間:2020-01-14 23:14:14    瀏覽次數(shù):575次

  說到百度中文分詞算法,我們廣大SEO站長(zhǎng)一般是很少去研究,但只要我們網(wǎng)民還在使用百度搜索,就離不開百度分詞算法,而百度之所以能夠超越其他搜索引擎,就是百度對(duì)中文分詞的領(lǐng)悟有超強(qiáng)功底。比如像我們做百度SEO的站長(zhǎng),即使我們文章寫的比較好,但是標(biāo)題寫的一般,也會(huì)導(dǎo)致關(guān)鍵詞排名靠后,因?yàn)榘俣葧?huì)把我們輸入的標(biāo)題文字拆分成一個(gè)個(gè)單獨(dú)的詞匯。同樣這也就是為什么標(biāo)題堆積關(guān)鍵詞是毫無意義的。雖然百度分詞技術(shù)算法是非常復(fù)雜的,但我們?nèi)钥梢蕴骄肯掳俣人阉饕鎸?shí)現(xiàn)的原理,管中窺豹,可見一斑,對(duì)我們做百度SEO的站長(zhǎng)而言還是非常有意義。


百度分詞算法:最通俗易懂的講解百度中文分詞算法

  
  什么是百度中文分詞算法
  
  百科的解釋是這樣的:百度針對(duì)用戶提交查詢的關(guān)鍵詞串進(jìn)行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。而百度中文分詞算法就是把漢語句子分成若干個(gè)相互獨(dú)立、完整、正確的單詞。詞是最小的、能獨(dú)立活動(dòng)的、有意義的語言成分。計(jì)算機(jī)的所有語言知識(shí)都來自機(jī)器詞典(給出詞的各項(xiàng)信息) 、句法規(guī)則(以詞類的各種組合方式來描述詞的聚合現(xiàn)象) 以及有關(guān)詞和句子的語義、語境、語用知識(shí)庫。說得很專業(yè),從這里我們SEO站長(zhǎng)大致可以了解到百度的中文分詞算法主要依賴于機(jī)器詞典,因此百度搜索引擎在進(jìn)行分詞時(shí)是有一個(gè)專有詞典的,里面大概包含了眾多的歷史人名、地名以及各行各業(yè)的專有名詞,從而來判斷我們搜索的句子所表達(dá)的是什么意思,并展示一個(gè)我們想要的結(jié)果頁,我們用簡(jiǎn)單的例子來看一下。
  
  比如在百度搜索“域名注冊(cè)查詢申請(qǐng)_網(wǎng)站建設(shè)制作開發(fā)_網(wǎng)絡(luò)推廣優(yōu)化-北京中萬網(wǎng)絡(luò)”,百度搜索引擎就會(huì)將標(biāo)題拆分為“域名/注冊(cè)/查詢/申請(qǐng)/網(wǎng)站/建設(shè)/制作/網(wǎng)絡(luò)/推廣/優(yōu)化/北京/中萬/網(wǎng)絡(luò)”。那百度是不是一定會(huì)這樣進(jìn)行分詞呢?這也不一定,因?yàn)椤皩O小雨”這個(gè)詞可能并未進(jìn)入百度的專有詞典,但“中、萬”這個(gè)詞是在百度專有詞典中的,所以百度也有可能將標(biāo)題分詞為“域名/注冊(cè)/查詢/申請(qǐng)/網(wǎng)站/建設(shè)/制作/網(wǎng)絡(luò)/推廣/優(yōu)化/北京/中/萬/網(wǎng)絡(luò)”。
  
  當(dāng)然,隨著百度的專有詞典詞匯大量增加,這個(gè)分詞判斷也會(huì)不斷改變,來適應(yīng)人們的搜索行為。有時(shí)候我們網(wǎng)民也會(huì)發(fā)現(xiàn),本來表達(dá)的是同樣的意思,但是用不同的詞來搜索,展現(xiàn)的信息也是不盡相同,這也許是分詞技術(shù)還不太完善的關(guān)系造成的。不妨我們?cè)賮砜纯窗俣确衷~算法的分類,以下選自百科。
  
  百度分詞算法分類
  
  1.正向最大匹配法(由左到右的方向)
  
  首先粗分,按照句子把文本切成一個(gè)一個(gè)句子。然后把每個(gè)句子切成單字。字典按照樹形結(jié)構(gòu)存儲(chǔ),比如這句話“春天還會(huì)遠(yuǎn)嗎”首先查找“春”字開頭的詞,然后按照字典樹形結(jié)構(gòu)往下走一個(gè)節(jié)點(diǎn),查找“春”后面一個(gè)字是“天”的詞,然后又下沉一個(gè)節(jié)點(diǎn),找“還”下面是“會(huì)”的詞,如果找不到,查找就結(jié)束。
  
  2.逆向最大匹配法(由右到左的方向)
  
  就是朝相反的方向發(fā)掘可以匹配的文字,比如網(wǎng)上商城這個(gè)文字串,那么會(huì)向左延伸在網(wǎng)上的前面會(huì)出現(xiàn)的結(jié)果是區(qū)域性的文字,比如上?;蛘弑本┑?,在商城的前面會(huì)出現(xiàn)更精準(zhǔn)的定義文字符,比如愛家,女人等專屬性強(qiáng)的文字符。
  
  3.最少切分(使每一句中切出的詞數(shù)最小)
  
  正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。就是向左右縱深挖掘比較匹配的結(jié)果值。
  
  上面這三種便是百度常見的分詞處理手段了,下面我們?cè)賮硖骄肯掳俣人阉饕嫱ㄟ^分詞算法是如何給關(guān)鍵詞進(jìn)行排名的,我們SEO站長(zhǎng)在寫原創(chuàng)文章的時(shí)候又有哪些需要注意的呢?
  
  百度分詞排名注意事項(xiàng):
  
  a.當(dāng)我們?cè)诎俣人阉骺蜉斎攵陶Z,里面包含分詞時(shí),百度就會(huì)進(jìn)行切詞來展現(xiàn)結(jié)果頁。百度根據(jù)切分出來的詞在網(wǎng)頁內(nèi)容中出現(xiàn)的密度和相關(guān)性進(jìn)行判斷,當(dāng)內(nèi)容質(zhì)量比較高就會(huì)優(yōu)先展示。
  
  b.如果完全匹配,就是網(wǎng)民搜索的短語完全出現(xiàn)在網(wǎng)頁內(nèi)容中,并且網(wǎng)頁內(nèi)容質(zhì)量比較高,那么網(wǎng)頁就回得到搜索引擎優(yōu)先排列。
  
  c.如果是不完全匹配,即便內(nèi)容質(zhì)量比較高,但關(guān)鍵詞在網(wǎng)頁中出現(xiàn)得不完整,那么不完全匹配的網(wǎng)頁會(huì)比完全匹配的網(wǎng)頁有劣勢(shì),排名靠后。所以,在做百度SEO時(shí),我們也要注意分詞,確保網(wǎng)頁出現(xiàn)的關(guān)鍵詞是符合大多數(shù)網(wǎng)民的搜索需求的。
  
  中萬網(wǎng)絡(luò)總結(jié):
  
  百度中文分詞算法就先講這么多,通過以上這些小細(xì)節(jié),我們SEO站長(zhǎng)就可以利用百度這種中文分詞手段來展現(xiàn)我們的關(guān)鍵詞排名。百度分詞算法的目的不是為了展示所有結(jié)果,全部展示也沒有意義可言,只需把優(yōu)質(zhì)和相關(guān)性高的內(nèi)容排在前面即可。所以我們站長(zhǎng)首先要做的還是生產(chǎn)優(yōu)質(zhì)內(nèi)容,同時(shí),讓我們的網(wǎng)站標(biāo)題和內(nèi)容最大化去完全匹配關(guān)鍵詞,這樣,我們的網(wǎng)頁就會(huì)在百度關(guān)鍵詞搜索中得到優(yōu)先排列。


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 1830498703@qq.com ,我們將及時(shí)溝通刪除處理。 以上內(nèi)容均為網(wǎng)友發(fā)布,僅代表網(wǎng)友個(gè)人觀點(diǎn),不代表平臺(tái)觀點(diǎn),涉及言論、版權(quán)與本站無關(guān)。