?將三篇關于搜索引擎指紋算法的文章收集整理在一起,剔除了沒用,匯總了有價值的內容。另外,想深入了解搜索引擎指紋算法的,可以移步:http://blog.csdn.net/wh_springer/article/details/52177236(認真看了3遍,還是云里霧里,或者你能看懂~)
? ?搜索引擎網頁指紋技術在百度百科中的解釋是:就是提取一個信息的特征,通常是一組詞或者一組詞+權重,然后根據這組詞調用特別的算法,例如MD5,將之轉化為一組代碼,這組代碼就成為標識這個信息的指紋。
? ??搜索引擎在抓取內容之后,會首先剔除掉文章中的一些非特征信息關鍵詞:我、你、他等稱謂,而且、但是等連接詞,了、么、呢、吧、啊等語氣詞。這些詞 對于信息標識是沒有幫助的。然后就是對文字信息的提取。文字信息的指紋信息提示是不容易的,而對于語音、圖像指紋的提取就更加困難了,這也就是為什么搜索 引擎無法識別語音和圖像的原因。
? ? 之前經??吹揭恍╆P于搜索引擎如何進行偽原創(chuàng)內容的文章,提到的方法主要有以下幾種:
1、修改標題,將標題中的相近詞進行替換,或是文字排序等。例如:原標題為“如何判斷偽原創(chuàng)內容”,可以修改為“怎樣對偽原創(chuàng)內容進行判斷”。
根據信息指紋技術,這樣的修改是無效的,我們要想讓搜索引擎認為 我們的標題不同,則需要比較大的改動。例如我可以將原標題修改為“搜索引擎判斷偽原創(chuàng)內容的標準”,這個標題就更容易被搜索引擎判定為原創(chuàng)。
2、內容段落的錯落排序,將別人的文章段落進行顛倒,或是文章中的一些文字結構進行顛倒。
這樣的方法其實是沒用的,因為信息指紋技術提取的內容還是和原文章基本一樣,搜索引擎能夠在數據庫中找到相同信息指紋的文章,所以會將你的文章判定為采集文章。
3、文章拼合,將相同主題的不同文章進行段落的拼合。
很多人想顛倒段落不行,那么多篇文章進行拼合總是可以的。但事實是這種方法同樣是沒有效果的,因為搜索引擎抓取信息指紋后與整個數據庫進行比對,不同段落的信息指紋還是能夠在數據庫中找到相同的指紋。
4、在文章中強行添加關鍵詞,這一般是在一些相關性的文章,進行稍微的修改,然后強行添加關鍵詞,這是比較早的一種偽原創(chuàng)內容方法。
這個就要說到我們圖片中的內容了,圖片中前面一列的指紋是原來文章的指紋,而后一列是強行添加SEO關鍵詞后的指紋,明顯能夠看到指紋出現很大的變 化,所以這種方法是有效的。所以有些時候,我們在下載的小說中加入關鍵詞,最后卻能夠得到很好的收錄,原因就在于其由于信息指紋的不同,被搜索引擎認為是 原創(chuàng)內容(站群網站可以這樣操作?。?。但是從用戶體驗的角度來說,這樣的文章可讀性不高。
http://jbk.39.net/yiyuanfengcai/zn_blszfyy/ |
http://jbk.39.net/yiyuanfengcai/hj_blszfyy/ |
http://jbk.39.net/yiyuanfengcai/lx_blszfyy/ |