主页 > 知识库 > 搜索引擎的分词技术的简单测试

搜索引擎的分词技术的简单测试

热门标签:阿里云 科大讯飞语音识别系统 电销机器人 Linux服务器 铁路电话系统 解决方案 Win7旗舰版 苹果

第一个问题就是百度最近算法调整的影响,让很多朋友都没有了头绪。其实这次最大的调整在分词上,很多朋友也都注意到了。就像前几天说的,原来大家只要把干词做好,周围辅助做好长尾词就OK了,不管你用什么词搜,排名就像百度竞价一样牢牢不可动摇.

因为种种原因,已经有很长时间没有发过东西了。天刃今天抽时间,把大家最近反应最多的问题整理下,和大家聊聊。

第一个问题就是百度最近算法调整的影响,让很多朋友都没有了头绪。其实这次最大的调整在分词上,很多朋友也都注意到了。就像前几天说的,原来大家只要把干词做好,周围辅助做好长尾词就OK了,不管你用什么词搜,排名就像百度竞价一样牢牢不可动摇。但是貌似这次百度算法调整后就不是这么回事了,你做的主词还一样可以排好,但那些长尾词却很少可以搜到了……

那么这次的分词算法改在哪儿呢?天刃就拿最基本的TITLE撰写来给大家说明一下。百度31汉字的TITLE里,相信SEOER们都会充分利用的。朋友们都知道,在TITLE里将关键词隔开我们常会用到英文半角的逗号,或是“|”来区分,而百度这次分词算法调整之后,虽然还是会把这些认为是分隔符,但用法已经没有原来那么规范了。原因很简单,百度对它的分词越来越自信,已经慢慢放弃或减轻对传统分隔符的依赖了。

现在的百度,可以很容易的识别整个句子中的特定分词,而刻意的将我们想要的关键词用分隔符进行强调有的时候收到的效果是相反的,一个很明显的现象就是,你的TITLE里将你想要的各个关键词用分隔符清清楚楚的列出来,但最后你在搜索结果看到的情况却是:明明这个句子里很明显的有这个分词(两个分开的关键词),但却没有给你加红。也就是说百度根本没有认出你这个句子里的关键词。

这是怎么回事呢?不是百度分词技术垃圾,而是百度放弃了这个句子。(说到这里可能朋友们有些晕了,那我就简单的举个例子。关键词“AAABBB”其中“AAA”“BBB”分别是百度分词库里的独立关键词,而这个时候,你的TITLE这样写:“AAA长尾BBB长尾,AAABBB长尾”,结果你搜索“AAABBB”时,百度的搜索结果里有时竟是:“AAA长尾BBB长尾,AAABBB长尾”,前面句子里的AAA和BBB并没有被百度认为是关键词。)

当然,百度并没有自大到否认一切分隔符,而是根据中文的使用习惯对不符合中文撰写习惯的作法进行淘汰。或者也可以从另一个角度去理解,百度这个更改有针对SEO的原因,一个中英文混写的TITLE,避免不了优化的嫌疑。(也就是很多SEOER朋友开玩笑时说的,百度有的时候允许你作弊,但也不会允许你优化)

那么,现在我们该如何来撰写TITLE呢?天刃通过最近一段时间的琢磨,TITLE的撰写,我们要放弃原来为了给仅有的31个汉字节省字符来刻意使用英文符号的作法,这种作法虽还没有完全被百度摈弃,但这个趋势朋友们应该可以看的出来。“英文半角逗号,英文中间杠(占半个字符)”,这些符号可以换成中文的符号,哪怕损失了放长尾词的字符也是值得的。“|”这个分隔符现在 已经介乎字符与分隔符之间了,所以这个符号现在应该完全的淘汰了。难道我们以后TITLE的分隔符就没有合适的了吗?当然不是。通过对百度自身产品以及新浪的观察,现在最合适的分隔符是只占半个字符的“_”下杠,以后大家可以试着考虑用下这个。当然,必须要照顾中文句子的语法。

关于分词,这里就说下TITLE的撰写,其他的就不一一细说了。TITLE的分词算法绝对不适用用其他元素,这点大家不要混淆。

标签:毕节 湖州 邵阳 安阳 呼伦贝尔 湘西 辛集 三门峡

巨人网络通讯声明:本文标题《搜索引擎的分词技术的简单测试》,本文关键词  ;如发现本文内容存在版权问题,烦请提供相关信息告之我们,我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
  • 相关文章
  • 收缩
    • 微信客服
    • 微信二维码
    • 电话咨询

    • 400-1100-266