現(xiàn)在互聯(lián)網(wǎng)上的垃圾太多了。大多數(shù)網(wǎng)站文章都是采集來的,給互聯(lián)網(wǎng)造成了大量的垃圾,那么我們該如何判斷網(wǎng)站內(nèi)容重復呢?這里給你一個簡單的分析,希望對你有幫助,如果遇到相同的情況很快就判斷出來文章屬于相同的了。
1、如何判斷兩個內(nèi)容能否相反呢?
假設讓人來判別,可以就要逐字逐句地把文章讀完才氣判別得出來,當然可以通過計算機去判別這一點。此外,當天天需要處理的內(nèi)容達到十多萬篇次的時分。這么做即便關于盤算機來也太費事了。
2、有更復雜的方法嗎?
是的,通過零散的計算,一篇文章、主題、圖片的文本可以轉換成一系列數(shù)字代碼,就像我們的每張個人身份證一樣,假設兩組的身份證完全相同,然后你可以肯定這是兩個一樣的人了,仔細看看他們的外表。文本消息的“ID卡”也可以被類似地污染。有關圖像、視頻的信息類似。事理也是相似的。
3、什么是信息指紋
這里介紹的只是盤算事理,并非實際發(fā)作的盤算進程。
信息的「身份證」,更為罕見的名稱是“信息指紋”,它常用于確定計算機應用程序規(guī)模判別信息反復性的辦法。有很多方法可以計算“信息指紋”,但這種情況類似:
你可以知道,無論中文、外文照樣數(shù)字,在盤算機零碎里,實際上多是以0或1的代碼辦法存儲的。例如,大寫字母A的ASCII碼是01000001,小寫字母z的ASCII碼是01111010(實際上有很多編碼規(guī)范,ASCII是一種罕見的英文編碼規(guī)范,采用8位二進制數(shù)字編碼)。這實際上相當于為每個角色提供唯一的信息指紋。
在復雜的情況下,盤算會對文本中呈現(xiàn)的不合字符的信息指紋,結合它們在內(nèi)容中呈現(xiàn)的次數(shù),重復的中斷算術運算,最終失落丟失一篇內(nèi)容的信息指紋。理論上說,假定運算足夠多的次數(shù),就會發(fā)生發(fā)火足夠無獨有偶的數(shù)字后果。