|
网站SEO优化(huà)之Google分词法(fǎ) |
|
Google分词算法(fǎ)值得我们好好研究一下。Google的搜索结果页(SERP)与搜索关键字(zì)的相关(guān)性,明显大于百度,这是因为Google把(bǎ)搜索关键(jiàn)字都拆分成最基本(běn)的词组(zǔ)和单字(zì)后,在根据(jù)相关性(xìng)去匹配(pèi)数据库的中(zhōng)内容,而且Google拆分后(hòu)的最基本(běn)词组,完(wán)全是根据词典里的(de)词组匹(pǐ)配的,也是说它符(fú)合国家(jiā)语言文(wén)字工作委员(yuán)会(huì)的规(guī)范和标准的,这只限(xiàn)于普(pǔ)通词组(公众人(rén)名、著名品牌名)。
实例1:测试Google是否有专业名词(cí)库(kù)
在(zài)Google搜索“搜索(suǒ)引擎(qíng)关键字”,Google会把这(zhè)个关键字短语(yǔ)拆分为“搜索—引擎(qíng)—关(guān)键—字”,这是因(yīn)为“搜(sōu)索引(yǐn)擎”和“关键(jiàn)字”都是网络(luò)专业词(cí)组,可(kě)能(néng)Google没有(yǒu)专业词(cí)组库,所以(yǐ)就(jiù)被拆分成了“搜(sōu)索—引擎—关(guān)键—字”。
实例2:测试Google拆分长关键(jiàn)字
在Google搜(sōu)索“他舅WAP流量(liàng)统计(jì)分析”,Google把这个关键字(zì)短语拆分为“他—舅—wap—流(liú)量—统计(jì)—分(fèn)析”六部分,“WAP”是一个英文词组,包括Google和(hé)其他搜索引擎一般是(shì)不拆分英文词组的(就算它不是英文单(dān)词),“流量”、“统计”、“分(fèn)析”都(dōu)是符合国家(jiā)语言规范(fàn)的标准(zhǔn)词组(zǔ),“他舅”只是中国老百姓一个(gè)口头称谓用(yòng)语,不符合国(guó)家(jiā)语言规范,在词(cí)典中(zhōng)根本(běn)就(jiù)查不到这,所以Google就把“他舅”拆分成了两个单字(zì)。
实例3:测试品牌名是否被Google收(shōu)录(lù)为词组
在(zài)Google搜索(suǒ)“海尔冰箱”、“惠普电脑”、“华为通讯”、“美的(de)电器”,“五(wǔ)粮液酒(jiǔ)”,“夏利汽(qì)车”、“北京同仁堂”这七个都是著名的品牌,结果是(shì)“海(hǎi)尔”、“惠普(pǔ)”、“华为(wéi)”、“五粮液”、“同(tóng)仁堂(táng)”都是(shì)单独的(de)词组,没有被拆分为单字,“夏利”、“美的(de)”这(zhè)两个品(pǐn)牌却被拆(chāi)分成了单字(zì)。不是所有(yǒu)品牌(pái)都能被Google作为(wéi)一个词组收录进(jìn)品牌词库,Google有(yǒu)自己的收录标(biāo)准的(de)。
实(shí)例4:测试Google是否会拆分成语
下面我们搜索(suǒ)一下韩乔生的经典名句“迅(xùn)雷不(bú)及掩(yǎn)耳之势”和“山清(qīng)水秀丽(lì)”,结果“迅雷不(bú)及掩耳之势”这个短句被拆分成了(le)“迅雷—不(bú)及—掩耳(ěr)盗铃—之—势”,“迅雷”是一个符(fú)合汉语(yǔ)言规范的标准词组(zǔ),不是指下载工(gōng)具那个“迅雷”,“不及(jí)”也(yě)是一个词组,“掩耳(ěr)盗(dào)铃”也是符合国家语言规(guī)范(fàn)的成语,“之势(shì)”不是(shì)标准词组,所以就被拆分(fèn)为两个单字(zì)。“山清水(shuǐ)秀(xiù)丽”被拆分为了“山清水(shuǐ)秀(xiù)—丽”,“山清水秀(xiù)”是一个成语没有拆分。Google把成(chéng)语作为(wéi)几(jǐ)个(gè)基本词组,不会进一步(bù)拆分。
实例5:测试普通之间是否有(yǒu)权重高低之分
搜索“山河(hé)水灾”这个关键字短语,结果Google拆分为“山河”和(hé)“水(shuǐ)灾”两个词组;然后(hòu)搜(sōu)素“山河水灾情”这个关键字短语,结(jié)果(guǒ)Google拆分为“山河”、“水”、“灾情”三部分,“水(shuǐ)”字没有和“灾”组(zǔ)成(chéng)词组,反而“灾”和“情”组成了词组,这说“灾情”这(zhè)个词(cí)的权(quán)重(chóng)高于“水灾(zāi)”的权重。这说明(míng)词组(zǔ)之(zhī)间也是有权重之分(fèn)的。
根据实例测试推断:Google会把(bǎ)搜索(suǒ)的关键字(短语)拆(chāi)分为(wéi)最(zuì)基本的词组,这些普通词组都是符合汉语言规范的标准词组,不像百度那样收录(lù)“人造名词”。Google的词(cí)组大致可分为(wéi)普通名词、地名、人(rén)名(míng)等(děng)几类,关键字(短语)都是从左(zuǒ)向右,按权(quán)重(chóng)高低拆(chāi)分(fèn)。这些词(cí)组权重从低到高依次如下(xià):人名<普通词组<地名<成语<领导人(rén)名字。进(jìn)一步测试品牌(pái)名和人名的权重是一(yī)样,都是最低的,这只是(shì)一(yī)个大致顺序,因为同一类(lèi)词组还会根据日常使用的频(pín)率进(jìn)一步的分级,每(měi)一级的分配不同的(de)权重,所以同一(yī)类词组之间也有(yǒu)权(quán)重(chóng)高低之分。
|
|