杭州SEO专用(yòng)徐少辉要说的(de)是:网(wǎng)页(yè)查重算法,也就是搜索引(yǐn)擎是怎么(me)检查(chá)两个网(wǎng)页(yè)的相似性的?这应该是大家应该比较关(guān)心的问题吧,因为这(zhè)有助于让你的“伪原创(chuàng)”更像一(yī)个“原创”
首先(xiān)我跟大家讲有名的I—MATCH算法(fǎ)。
我们在比较两件事(shì)物的相似性时,往往都会拿能均衡的反应这事物本质的东西(xī)来比较,就像比赛时,要去除一个最(zuì)高分和最低(dī)分,然后再变算总分一样~~
I—MATCH算(suàn)法(fǎ)基于的(de)依据是,在文挡(dǎng)中,特别(bié)高频的词和特别低频的词无法反应这一个文挡的真实内容,所以在比较之前,先将文挡中高频词和低频(pín)词去掉(注意:这里(lǐ)的高频和低(dī)频指(zhǐ)的是文档频率,并非(fēi)关键词在你网页中(zhōng)的密(mì)度!)
我们来看一个例子:
这里有两段网页文字:
1.中国(guó)足球队在米卢的率领下首次获得世界杯决赛阶段的比(bǐ)赛资格,新浪(làng)体育播(bō)报(bào) 。
2.米卢率(lǜ)领中国(guó)足球队员首次杀入世界杯决赛阶(jiē)段,搜狐体育播报。(嘿嘿,看到这两句很熟吧?)
文(wén)档(一)中去掉高频:中国,在,的,获得,比赛,资格,新浪,体(tǐ)育(yù),播报
去掉低(dī)频:米卢
则剩下中频词有:足球队,率领,首次,世(shì)界(jiè)杯,决赛,阶段
文档(二)中(zhōng)去掉高频:中国,搜狐,体育,播(bō)报
去掉(diào)低(dī)频:米卢(lú),杀(shā)入
则剩下中(zhōng)频词有:率领,足球(qiú)队,首次,世界杯,决赛 ,阶段
看到了吧(ba)?剩下的,两者(zhě)是一模一样 这就是相似(sì)性的存在
呵呵,其(qí)实(shí)这个例子很早就(jiù)有过的。。
综上所述:搜(sōu)索引擎要检测相似性,主要就是要分(fèn)词和词频的比(bǐ)较!!
|