很多站长都会遇到这个问题,网站开发完成上线后,百度一直不收录。
即使收录也只是收录个首页,内页很难快速被收录。这样网站优化工作是难以开展的,如何解决这个问题?
搜索引擎的进化
互联网早期,网站数量有限,所以人工整理是可行的,比如就有DMOZ这样的人工编辑的网站数据库,分门别类的整理好各种网址。
后来全球网站数量爆炸性增长,人工整理就不现实了,于是有了网络爬虫(也叫蜘蛛)代替人工去访问抓取网站,这就是最原始的搜索引擎。
虽然互联网是一个网状结构,但是抓取整个互联网上的所有网站还是有难度的,首先要解决的问题就是如何发现这些网站。
为了解决这个问题,搜索引擎都会有一个基础的网站数据库,从这里的网站开始爬取,希望能抓取整个互联网上的信息。而且依靠链接之间的引用关系和使用的链接文本来计算网页的权重,从而能对搜索结果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的网站作为爬虫的抓取起点,而且我怀疑Google也使用DMOZ数据,因为10多年前做网站时,大家都希望自己的网站能被DMOZ收录,甚至贿赂DMOZ的编辑人员。
还有那时候大家都拼命交换友情链接,PR值高的网站就是大爷。这背后对应着网站的收录速度和排名高低。
一个新网站,如果有PR值高的网站给你加友情链接,很快网站就可以被抓取收录。
早期互联网内容贫乏,随便做个网站,找有权重的网站交换友情链接,这些搜索引擎爬虫都如饥似渴的抓取收录。
可现在互联网上的内容太多了(Google的总索引页面数477亿左右)),搜索引擎也变得越来越挑剔,所以新站起流量越来越难了。
标签:东营
乌鲁木齐
林芝
盐城
九江