王鹏飞seo博客,专注郑州seo,郑州网站优化,百度seo优化,提供免费seo诊断方案。seo外包顾问QQ:931519643,电话15617834052。
Loading
0

搜索引擎预处理深度分析

网站被收录前,搜索引擎要对网站进行预处理操作。在百度蜘蛛对网站抓取过后,要对网站进行提取文字、中文分词、去停止词、消除噪声、去重、正向索引、倒排索引、链接关系计算和特殊文件处理操作。百度的索引库数据是非常庞大的,如果不对页面进行预处理操作,用户搜索某个关键词时,百度是无法快速给出优质结果的。我们就搜索引擎预处理深度分析一下。

搜索引擎预处理

搜索引擎预处理

一、提取文字

百度蜘蛛抓取的html代码中含有大量的html标签和js代码等,这些标签是不参与排名的,所以预处理的首要操作就是剔除html代码中的标签,提取出能够参与排名的重要文字。

二、中文分词

中文分词是百度特有的功能,它可以很智能的将一句话中不相连的几个词组合起来,比如我的博客标题:郑州seo_郑州网站优化_百度seo优化_王鹏飞seo博客,不仅仅只有4个关键词那么简单,通过关键词之间的重组可以组合出很多的关键词,这也是虽然我没写某些关键词,但是却有排名的原因,比如郑州seo优化,郑州百度优化。

中文分析的识别原理包括两部分,一个是参考词典,另一个就是基于统计。词典很好理解,就是参考已经收集的数据就可以了,统计就要大量分析数据样本了,百度在这一块还是比较智能的。

三、去停止词

停止词可以理解为出现频率高却没有任何意义的词,比如:“的”“得”“地”“哈”等。这些词经常会出现,但是对页面内容不会有什么影响。去掉这些停止词来使页面内容更加突出,更好的判断页面内容。

四、消除噪声

页面内容一般都会有主题内容,比如文章页文章就是主题。百度会将对主题没有贡献的板块或者内容去除掉,比如版权声明、广告等。

五、去重(qu chong)

去重与我们的认知应该是最为相近了,我们更新文章要原创的来由也是因为此。百度不喜欢文章重复性的出现,相同文章在搜索结果中一般只显示一篇,所以百度在进行索引前要删除重复性的索引,这也是为什么抄袭的文章不容易被收录的原因。

百度去重是有一套很精准的特征关键词去重算法,通常一些语气词的替换、段落打乱顺序等所谓的伪原创其实是不能逃脱百度去重的。

六、正向索引

正向索引用于记录网页中关键词的信息,比如该网站页出现了几个关键词,关键词的位置是什么,以及出现了几次,格式是什么等。相当于将网页中的一些关键信息备案了。可以理解为:一个页面包含了哪些关键词。

七、倒排索引

倒排索引也很好理解,就是搜索某个关键词的信息,有哪些页面包含了这个关键词的需求。可以理解为:一个关键词,被哪些页面包含。

八、链接关系计算

页面中的链接可以传递权重的,搜索引擎在抓取页面后必须要计算出该链接导向了哪里,锚文本是什么,是否有特殊样式,而每个页面都有不同的导向链接,这就形成了复杂的链接关系。

九、特殊文件处理

有很多文件是百度无法识别的,比如视频、图片、flash等,对于这些文件的识别,百度还停留在与文件相关文字的识别。所以网站想要有好的排名,这类内容不要过多的出现。

随着百度大脑的推出,相信在搜索引擎这方面百度会做的越来越好,搜索结果高质量,能够更好的解决用户需求才是搜索引擎的最终目标,而seo的最终目的也是要帮助用户找到他们想要的内容。

声明:本文为原创,作者为 王鹏飞SEO,转载时请保留本声明及附带文章链接:http://www.wpfseo.com/ssm/276.html
鞭挞我吧!鞭挞我吧! 鞭挞我吧!鞭挞我吧!

如果你觉得不错,不如打赏一下!

最后编辑于:2016/9/4作者: 王鹏飞SEO

王鹏飞seo,专注郑州SEO网站优化,分享百度SEO优化知识,提供免费seo优化方案。

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

arrow grin ! ? cool roll eek evil razz mrgreen smile oops lol mad twisted wink idea cry shock neutral sad ???

扫一扫,获取免费seo诊断!

扫一扫,获取免费seo诊断!