科普：搜索引擎的基本工作原理-巨人网络通讯

主页 > 知识库 > 科普：搜索引擎的基本工作原理

科普：搜索引擎的基本工作原理

今天江西SEO曾庆平写篇科普文，讲讲搜索引擎的技术机理和市场竞争的一些特点。当然，作为从事或有兴趣从事流量运营的朋友，是可以用另一个角度去理解本文。

搜索引擎的核心技术架构，大体包括以下三块，第一，是蜘蛛/爬虫技术；第二，是索引技术；第三是查询展现的技术；当然，我不是搜索引擎的架构师，我只能用比较粗浅的方式来做一个结构的切分。

1、蜘蛛/爬虫技术

蜘蛛，也叫爬虫，是将互联网的信息，抓取并存储的一种技术实现。

搜索引擎的信息收录，很多不明所以的人会有很多误解，以为是付费收录，或者有什么其他特殊的提交技巧，其实并不是，搜索引擎通过互联网一些公开知名的网站，抓取内容，并分析其中的链接，然后有选择的抓取链接里的内容，然后再分析其中的链接，以此类推，通过有限的入口，基于彼此链接，形成强大的信息抓取能力。

有些搜索引擎本身也有链接提交入口，但基本上，不是主要的收录入口，不过作为创业者，建议了解一下相关信息，百度，google都有站长平台和管理后台，这里很多内容是需要非常非常认真的对待的。

反过来说，在这样的原理下，一个网站，只有被其他网站所链接，才有机会被搜索引擎抓取。如果这个网站没有外部链接，或者外部链接在搜索引擎中被认为是垃圾或无效链接，那么搜索引擎可能就不抓取他的页面。

分析和判断搜索引擎是否抓取了你的页面，或者什么时候抓取你的页面，只能通过服务器上的访问日志来查询，如果是cdn就比较麻烦。而基于网站嵌入代码的方式，不论是cnzz，百度统计，还是google analytics，都无法获得蜘蛛抓取的信息，因为这些信息不会触发这些代码的执行。

一个比较推荐的日志分析软件是awstats。

在十多年前，分析百度蜘蛛抓取轨迹和更新策略，是很多草根站长每日必做的功课，比如现在身价几十亿的知名80后上市公司董事长，当年在某站长论坛就是以此准确的分析判断而封神，很年轻的时候就已经是站长圈的一代偶像。

但关于蜘蛛的话题，并不只基于链接抓取这么简单，延伸来说

第一，网站拥有者可以选择是否允许蜘蛛抓取，有一个robots.txt的文件是来控制这个的。

一个经典案例是 https://www.taobao.com/robots.txt

你会看到，淘宝至今仍有关键目录不对百度蜘蛛开放，但对google开放。

另一个经典案例是 http://www.baidu.com/robots.txt

你看出什么了？你可能什么都没看出来，我提醒一句，百度实质上全面禁止了360的蜘蛛抓取。

但这个协议只是约定俗成，实际上并没有强制约束力，所以，你们猜猜，360遵守了百度的蜘蛛抓取禁止么？

第二，最早抓取是基于网站彼此的链接为入口，但实际上，并不能肯定的说，有可能存在其他抓取入口，比如说，

客户端插件或浏览器，免费网站统计系统的嵌入式代码。

会不会成为蜘蛛抓取的入口，我只能说，有这个可能。

所以我跟很多创业者说，中国做网站，放百度统计，海外做网站，放google analytics，是否会增加搜索引擎对你网站的收录？我只能说猜测，有这个可能。

第三，无法被抓取的信息

有些网站的内容链接，用一些特殊效果完成，比如浮动的菜单等等，这种连接，有可能搜索引擎的蜘蛛程序不识别，当然，我只是说有可能，现在搜索引擎比以前聪明，十多年前很多特效链接是不识别的，现在会好一些。

需要登录，需要注册才能访问的页面，蜘蛛是无法进入的，也就是无法收录。

有些网站会给搜索特殊页面，就是蜘蛛来能看到内容（蜘蛛访问会有特殊的客户端标记，服务端识别和处理并不复杂），人来了要登录才能看，但这样做其实是违反了收录协议（需要人和蜘蛛看到的同样的内容，这是绝大部分搜索引擎的收录协议），有可能遭到搜索引擎处罚。

所以一个社区要想通过搜索引擎带来免费用户，必须让访客能看到内容，哪怕是部分内容。

带很多复杂参数的内容链接url，有可能被蜘蛛当作重复页面，拒绝收录。

很多动态页面是一个脚本程序带参数体现的，但蜘蛛发现同一个脚本有大量参数的网页，有时候会给该网页的价值评估带来困扰，蜘蛛可能会认为这个网页是重复页面，而拒绝收录。还是那句话，随着技术的发展，蜘蛛对动态脚本的参数识别度有了很大进步，现在基本上可以不用考虑这个问题。

但这个催生了一个技术，叫做伪静态化，通过对web服务端做配置，让用户访问的页面，url格式看上去是一个静态页，其实后面是一个正则匹配，实际执行的是一个动态脚本。

很多社区论坛为了追求免费搜索来路，做了伪静态化处理，在十多年前，几乎是草根站长必备技能之一。

爬虫技术暂时说到这里，但是这里强调一下，有外链，不代表搜索蜘蛛会来爬取，搜索蜘蛛爬取了，不代表搜索引擎会收录；搜索引擎收录了，不代表用户可以搜索的到；

site语法是检查一个网站收录数的最基本搜索语法，我开始以为是abc的常识，直到在新加坡做一些创业培训后交流才发现，大部分刚进入这个行业的人，或者有兴趣进入这个行业的人，对此并不了解。

一个范例，百度搜索一下 site:qingpingseo.com

2、索引系统

蜘蛛抓取的是网页的内容，那么要想让用户快速的通过关键词搜索到这个网页，就必须对网页做关键词的索引，从而提升查询效率，简单说就是，把网页的每个关键词提取出来，并针对这些关键词在网页中的出现频率，位置，特殊标记等诸多因素，给予不同的权值标定，然后，存储到索引库中。

标签：晋城陇南延边韶关固原南京合肥贵阳

巨人网络通讯声明：本文标题《科普：搜索引擎的基本工作原理》，本文关键词；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

电销机器人到底如何运作的？

很多人对电销机器人到底如何运作存在着巨大的好奇心，那么今天，小编就带大家看一下机器人的运作流程！电销...

10-24

电话机器人的兴起对电销行业来说是“惊喜”还

随着互联网大数据的普及，许多电销行业如雨后春笋般争先恐后地冒出来。而今电销行业的混乱，让各位涉足电销...

10-24

百应电话机器人有哪些功能？百应电话机器人好

百应智能电话机器人能够协助企业进行呼入接待、外呼回访等服务场景，能够经过不断的培训学习，逐步完善成专...

10-24

客服外呼系统都有哪些优势？

当前呼叫中心电话系统被企业用于业务电销以及客户服务，然而随着企业需求不断扩大，原来传统的自建呼叫中心...

10-24

电销机器人效果怎么样？智能电话机器人可行吗

几百数千年后，或许没人会记得卡斯帕罗夫曾是世界第一的围棋高手，但人们会记得，他败给了电脑深蓝。那虽算不...

10-24

百应智能外呼系统，贷后管理科技升级

去年底开始，接连出台政策和法规加强对消费金融等金融形态进行规范。强监管下，行业走向规范发展，行业竞...

10-24

百应智能外呼系统引领外呼行业新风向

电话销售：您好，我这边是XX地产，给您推荐一下精装酒店式公寓，有兴趣了解一下吗? 客户：具体位置在哪里啊?...

10-24

小贷企业为什么需要电销机器人？

随着信贷行业逐步进入我们的生活中，越来越多人选择借款来处理资金难题。信贷企业不断涌现，业务开展迅猛，行...

10-24

雷霆电话机器人是如何转接人工的？

当我们在拨通移动、联通或电信运营商的客服电话时，总会要先经过一些机械化的选择，然后成功连接人工坐席反馈...

10-24

米卡迪电话机器人效果怎么样？

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。 ASR 语音识别米卡迪电话机器人...

10-24

灵声电话机器人效果怎么样？好用吗

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。灵声电话机器人效果怎么样？...

10-24

电销机器人要想效果好，话术定制有多重要

电话机器人是基于智能语音技术的智能营销工具。它会像真人一样主动拨打客户的电话，介绍产品并回答客户的咨询...

10-24

智能电话机器人的实现原理，使用安全吗？

随着科学技术的进步和人工智能的发展，越来越多的智能产品已经进入我们的工作和生活。智能手机、智能电视、智...

10-24

福州哪里有电话机器人研发公司？

人工智能再次成为各行各业关注的焦点，自从这个概念首次提出以来，60年已经过去了。自从AlphaGo以巨大优势击败人...

10-24

电销机器人销售能力怎么样？

自从电话机器人一出现，在电销行业火爆了起来。面对电话机器人的各种优势，企业跃跃欲试，但又害怕效果不理...

10-24

推荐文章

由于COVID-19而采取的与知识产权有关的措施

Win10预览版14942 Edge浏览器闪退怎么办？Win10 Edge闪退官方解决方法

黑龙江去年全省商标申请同比增长9.51%

衡水学院校名简称校徽商标注册获批

Oracle中查看引起Session阻塞的2个脚本分享

PHP实现的创建带logo图标二维码生成类详解

sqlserver 此数据库没有有效所有者错误的解决方法

Linux命令之文件内容查阅od命令使用实例

上一篇：号百商旅电子商务有限公司获“电子商务示范企业”

下一篇：强讯科技打造神华陕西甲醇呼叫中心

一起分享吧

科普：搜索引擎的基本工作原理

QQ咨询

电话咨询