基于 Mysql 实现一个简易版搜索引擎-巨人网络通讯

主页 > 知识库 > 基于 Mysql 实现一个简易版搜索引擎

基于 Mysql 实现一个简易版搜索引擎

基于 Mysql 实现一个搜索引擎

前言：

其实 Mysql 很早就支持全文索引了，只不过一直只支持英文的检索，从5.7.6 版本开始，Mysql 就内置了 ngram 全文解析器，用来支持中文、日文、韩文分词。

Mysql 全文索引采用的是倒排索引的原理，在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

本文测试，基于 Mysql 8.0 版本，数据库引擎采用的是 InnoDB

一、ngram 全文解析器

ngram 就是一段文字里面连续的 n 个字的序列。ngram 全文解析器能够对文本进行分词，每个单词是连续的 n 个字的序列。例如，用 ngram 全文解析器对“你好靓仔”进行分词:

n=1: '你', '好', '靓', '仔' 
n=2: '你好', '好靓', '靓仔' 
n=3: '你好靓', '好靓仔' 
n=4: '你好靓仔'

MySQL 中使用全局变量 ngram_token_size 来配置 ngram 中 n 的大小，它的取值范围是1到10，默认值是 2。通常 ngram_token_size 设置为要查询的单词的最小字数。如果需要搜索单字，就要把 ngram_token_size 设置为 1。在默认值是 2 的情况下，搜索单字是得不到任何结果的。因为中文单词最少是两个汉字，推荐使用默认值 2。

可以通过以下命令查看 Mysql 默认的 ngram_token_size 大小：

show variables like 'ngram_token_size'

有两种方式可以设置全局变量 ngram_token_size 的值：

（1）启动 mysqld 命令时指定：

mysqld --ngram_token_size=2

（2）修改 Mysql 配置文件 my.ini，末尾增加一行参数：

ngram_token_size=2

二、创建全文索引

1、建表时创建全文索引

CREATE TABLE `article` (
  `id` bigint NOT NULL,
  `url` varchar(1024) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `title` varchar(256) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `source` varchar(32) COLLATE utf8mb4_general_ci DEFAULT '',
  `keywords` varchar(32) COLLATE utf8mb4_general_ci DEFAULT NULL,
  `publish_time` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_index` (`title`) WITH PARSER `ngram`
) 

ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

2、通过 alter table 方式

ALTER TABLE article ADD FULLTEXT INDEX title_index(title) WITH PARSER ngram;

3、通过 create index 方式

CREATE FULLTEXT INDEX title_index ON article (title) WITH PARSER ngram;

三、检索方式

1、自然语言检索（NATURAL LANGUAGE MODE）

自然语言模式是 MySQL 默认的全文检索模式。自然语言模式不能使用操作符，不能指定关键词必须出现或者必须不能出现等复杂查询。

示例：

select * from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

// 不指定模式，默认使用自然语言模式
select * from article where MATCH(title) AGAINST ('北京旅游');

可以看出，该模式下根据“北京旅游”搜索，可以搜索出包含“北京”的或者包含“旅游”的内容，因为它是根据自然语言分成了两个关键词。

上面示例中返回的结果会自动按照匹配度排序，匹配度高的在前面，匹配度是一个非负浮点数。

示例：

// 查看匹配度
select * , MATCH(title) AGAINST ('北京旅游') as score from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

2、布尔检索（BOOLEAN MODE）

布尔检索模式可以使用操作符，可以支持指定关键词必须出现或者必须不能出现或者关键词的权重高还是低等复杂查询。

示例：

// 无操作符
// 包含“约会”或“攻略”
select * from article where MATCH(title) AGAINST ('约会 攻略' IN BOOLEAN MODE);

// 使用操作符
// 必须包含“约会”，可包含“攻略”
select * from article where MATCH(title) AGAINST ('+约会 攻略' IN BOOLEAN MODE);

更多操作符示例：

'约会 攻略' 
无操作符，表示或，要么包含“约会”，要么包含“攻略”

'+约会 +攻略'
必须同时包含两个词

'+约会 攻略'
必须包含“约会”，但是如果也包含“攻略”的话，匹配度更高。

'+约会 -攻略'
必须包含“约会”，同时不能包含“攻略”。

'+约会 ~攻略'
必须包含“约会”，但是如果也包含“攻略”的话，匹配度要比不包含“攻略”的记录低。

'+约会 +(>攻略 技巧)'
查询必须包含“约会”和“攻略”或者“约会”和“技巧”的记录，但是“约会 攻略”的匹配度要比“约会 技巧”高。

'约会*'
查询包含以“约会”开头的记录。

'"约会攻略"'
使用双引号把要搜素的词括起来，效果类似于like '%约会攻略%'，
例如“约会攻略初级篇”会被匹配到，而“约会的攻略”就不会被匹配。

四、与 Like 对比

全文索引和 like 查询对比，有以下优点：

like 只是进行模糊匹配，全文索引却提供了一些语法语义的查询功能，会将要查的字符串进行分词操作，这决定于 Mysql 的词库。
全文索引可以自己设置词语的最小、最大长度，要忽略的词，这些都是可以设置的。
用全文索引去某个列查一个字符串，会返回匹配度，可以理解为匹配的关键字个数，是个浮点数。

而且全文检索的性能也是优于 like 查询的

以下是以 50w 左右数据进行的测试：

// like 查询
select * from article where title like '%北京%';

// 全文索引查询
select * from article where MATCH(title) AGAINST ('北京' IN BOOLEAN MODE);

可以看出 like 查询是 1.536s，全文索引查询是 0.094s，快了16倍左右。

全文索引能快速搜索，但是也存在维护索引的开销。字段长度越大，创建的全文索引也越大，会影响DML语句的吞吐量。数据量不大的情况下可以采用全文索引来做搜索，简单方便，但是数据量大的话还是建议用专门的搜索引擎 ElasticSearch 来做这件事。

以上就是基于 Mysql 实现一个简易版搜索引擎的详细内容，更多关于 Mysql 实现搜索引擎的资料请关注脚本之家其它相关文章！希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

mysql字符集和数据库引擎修改方法分享
MySQL修改字符集的实战教程
MySQL查看与修改字符集的方法实例教程
mysql 启动1067错误及修改字符集重启之后复原无效问题
Linux下MySQL 5.5/5.6的修改字符集编码为UTF8的方法
Mysql数据库支持的存储引擎对比
Mysql中存储引擎的区别及比较
MySQL 学习总结之初步了解 InnoDB 存储引擎的架构设计
MySQL修改默认引擎和字符集详情

标签：山西扬州福州阿里温州三明无锡定西

巨人网络通讯声明：本文标题《基于 Mysql 实现一个简易版搜索引擎》，本文关键词基于,Mysql,实现,一个,简易,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《基于 Mysql 实现一个简易版搜索引擎》相关的同类信息！

基于 Mysql 实现一个简易版搜索引擎

目录基于 Mysql 实现一个搜索引擎一、ngram 全文解析器二、创建全文索引 1、建表时创建全文索引 2、通过 alter table 方式 3、通过 create index 方式三、检索方式 1、自然语言检索（NATUR...

10-18

使用企业名称的规范要求

（一）企业名称经核准登记注册后方可使用因为企业法人是经工商行政管理机关核准登记，才能取得法人资格，所以企业成...

10-23

实现客户保持的主要方法

根据以上效果影响因素的分析，结合客户保持策略，客户保持有以下方法可以采用。 1.提高客户保持率提高客户保持率的关...

10-20

北京网络外呼系统供应商（北京网络外呼系统供应商名录）

本文目次一览： 1、德律风主动外呼零碎 2、此刻外呼零碎哪家公司做的对照好？ 3、德律风外呼零碎哪家的好用！ 4、外呼零...

11-25

新疆ai智能电话机器人效果（ai电话机器人软件下载）

本文目录一览：1、用智能AI电话机器人效果好吗?2、人工电话机器人选哪家实惠？3、智能AI电话机器人效率怎么样?4、ai智能语...

06-20

福州电销电话机器人怎么样（电话机器人销售）

本文目录一览：1、电话机器人好用吗,有什么优势?2、电话销售机器人靠谱吗3、电销机器人使用效果怎么样4、电销机器人真的...

06-20

电销机器人效果

1 电销：通常，呼叫中心的客服需要对电话号码列表进行盲打，寻找和判断出有意向和值得跟进的客户，向有需求客户进行信...

10-24

福建智能外呼系统功能（智能外呼系统费用）

今日给各位共享福建智能外呼体系功用的常识，其间也会对智能外呼体系费用进行解说，假如能可巧处理你现在面对的问题，...

05-18

mysql 8.0.12 winx64详细安装教程

本文为大家分享了mysql 8.0.12的安装教程，供大家参考，具体内容如下安装教程环境：系统：Windows8.1 安装包：mysql-8.0.12-wi...

10-18

我国声音商标显著性认定现状及存在的问题

来源：法制与经济作者：樊华（一）我国声音商标显著性认定现状我国2014年《商标法》第八条对商标申请进行了原则性的...

10-23

电销让人办信用卡违法吗吗（电销办信用卡话术）

本文目录一览：1、在网上找兼职说只要打电话问对方是否需要办理信用卡需要就登记个地址这...2、电销pos机员工犯法吗3、合...

07-09

为什么很多人对更新电销机器人系统很反感，甚至有相当大的偏见？

这道题可以从投资收益的角度来考虑：首先看更新系统，我们付出了什么？一般电销机器人系统的更新包少则100多M，多了要...

12-14

外呼系统渠道客户（做外呼系统的要怎样找客户）

本篇文章给咱们谈谈外呼体系途径客户，以及做外呼体系的要怎样找客户对应的知识点，期望对各位有所协助，不要忘了保藏...

11-06

阿里云 ubuntu16.04搭建IPSec服务

IPSec简介 IPSec（Internet Protocol Security）：是一组基于网络层的，应用密码学的安全通信协议族。IPSec不是具体指哪个协议，而是...

10-16

电话机器人技术原理图（电话聊天机器人）

本文目录一览： 1、电话机器人是什么工作原理2、智能电话机器人是如何工作的?3、电话机器人的工作原理是什么4、电话机器...

11-28

外呼系统失败的简单介绍

本文目录一览： 1、忘掉暗码外呼失利什么意思2、外呼付出结算失利啥意思3、用呼叫体系拨打电话，等候时长50秒显现呼叫失...

04-23

电销机器人假的（电销机器人效果怎么样???）

本篇文章给大家谈谈电销机器人假的，以及电销机器人效果怎么样???对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

05-16

如何编写有吸引力的抖音运营方案？

跟着抖音的张狂走红，各种“抖音涨粉”、“抖音上热门”课程应运而生，可见人们关于抖音的关注度继续升温。那么，到...

03-01

工作效率是人工的5倍，国内已开始引入AI营销机

目前人工智能已经深入到各行各业，就连企业的电话销售也将会有机器人去替代。当然，目前国内AI营销机器人才刚起步，做...

10-30

抖音代运营公司如何帮助装修公司打造高质量的抖音权重账号？

这两年抖音的受众率越来越高，不少朋友都最先在抖音上发个人生涯轨道、开直播，以至还有许多人在抖音做起了买卖，还有...

03-01

百度地图商户标注现在起对“办事难跑断腿”说不

04-14

金华联通呼叫中心系统办理价格,呼叫中心系统-[热门]

金华联通呼叫中心系统办理价格,呼叫中心系统使用户能够获得各种自助服务，使代理代表有更多的时间为其他有特殊需要的...

12-16

包含石家庄语音电销机器人系统的词条

本文目录一览： 1、智能语音电销机器人哪家好，怎么做出正确挑选2、电销机器人是什么呢？为什么现在越来越多的企业开端...

04-23

石家庄电话机器人如何使用（石家庄机器人公司）

本篇文章给大家谈谈石家庄电话机器人如何使用，以及石家庄机器人公司对应的知识点，希望对各位有所帮助，不要忘了收藏...

05-16

400电话的套餐和资费是怎么样的？（400电话最低套餐）

不要看重太低廉的价格，您要清楚没有哪个商家会做亏本买卖，因为我们在联通等运营商拿号是存在一个成本的，如果价格太...

11-07

吉林电销外呼系统线路（外呼线路供应电话销售专用）

今日给各位共享吉林电销外呼体系线路的常识，其间也会对外呼线路供给电话出售专用进行解说，假如能可巧处理你现在面对...

11-06

微信公众平台开发之发送文本消息.Net代码解析

.Net实现微信公共服务平台开发中的发送文本消息功能，具体内容如下首先建立一个微信消息类。 class wxmessage { public string ...

10-18

三五数字电销卡套餐

数维通信主营电销卡、防封电话卡、电销专用卡、高频不封外呼系统、电销软件、防封电销卡、电销不封号软件，办理简单、...

01-16

杭州外呼系统线路（外呼系统吧）

本篇文章给咱们谈谈杭州外呼体系线路，以及外呼体系吧对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。本文...

05-17

SQL Server 游标语句声明/打开/循环实例

SQL Server游标语句使用方法：复制代码代码如下: --声明一个游标 DECLARE MyCursor CURSOR FOR SELECT TOP 5 FBookName,FBookCoding FROM TBookIn...

10-18

通过批处理修改DNS的代码(推荐)

10-18

个人白酒商标转让如何操作？怎么选择合适的商标？

为了可以得到法律的保护，很多企业都会很关注自家产品的商标申请，这其实也是进行知识产权保护要完成的内容，需要关注...

10-23

电商外呼系统怎么选（外呼系统销售好做吗?）

今天给各位分享电商外呼系统怎么选的知识，其中也会对外呼系统销售好做吗?进行解释，如果能碰巧解决你现在面临的问题...

08-28

2019年3月统计商标注册用时

为了方便申请人更加直观的了解商标注册需要的时间，自本月起企红网每月更新最新商标注册用时，以下内容为3月份商标注...

10-23

柳州房产电销机器人招商（柳州房产电销机器人招商项目）

本篇文章给咱们谈谈柳州房产电销机器人招商，以及柳州房产电销机器人招商项目对应的知识点，期望对各位有所协助，不要...

05-17

联通400电话号码中国联通400电话好不好

作为全国统一的强大虚拟总机，400电话号码没有9位数字，都是从400开始的，但是运营商不同，数字段不同。目前联通400电话...

01-12

郑州呼叫中心外呼系统价钱（郑州呼叫中心服务人员）

本文目录一览： 1、做电话营销。一套一键外呼系统多少钱？2、电销外呼系统多少钱一个月？3、外呼系统一个多少钱，有哪...

11-27

ai电话机器人有用吗（ai电话语音机器人）

本文目录一览： 1、ai智能电话机器人有什么作用？2、用智能AI电话机器人效果好吗？3、智能电话机器人怎么样？ai智能电话...

11-27

湖南外呼网络系统（长沙外呼系统）

本文目录一览： 1、什么是网络电话外呼系统？2、网络电话外呼系统哪个好？3、哪家的外呼系统好用？4、可以简单说一下外...

11-27

商标信息搜集的原则

商标信息搜集的主要任务在于,根据商标发展的需要,将商标内部、外部的各种分散信息有效地加以汇集,以便商标管理者能够及...

10-23

深圳不标记客服哪里好-以客为尊

深圳不标记客服哪里好也利于系统对其进行特性提取。看识别技术。识别技能是整套智能外呼系统的底层技能，也是重要的根...

01-15

上海电销卡封停（电销卡封了对自己有什么影响）

本篇文章给咱们谈谈上海电销卡封停，以及电销卡封了对自己有什么影响对应的知识点，期望对各位有所协助，不要忘了保藏...

05-17

教育培训行业解决方案

10-19

信用卡电销客服述职案例（信用卡电销客服述职案例范文）

本文目录一览：1、有做过中信的信用卡电话销售的吗,这份工作怎样!~2、广发信用卡电话销售好做吗3、信用卡客服专员的工作...

07-10

濮阳百应电话机器人价格（百应电销机器人价格）

本篇文章给咱们谈谈濮阳百应电话机器人价格，以及百应电销机器人价格对应的知识点，期望对各位有所协助，不要忘了保藏...

11-07

绍兴电信电销线路服务商,电话营销线路-诚信服务

绍兴电信电销线路服务商,电话营销线路几乎每一种计算机与电话集成（CTI）技术的应用系统都可以笼统的称之为呼叫中心，...

12-16

重庆电销的手机卡购买

重庆电销的手机卡购买电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，所以这...

12-16

江门电销防封系统

江门电销防封系统,办理江门电销防封系统,江门电销防封系统办理防封号系统从源头解决电销封号问题，防止高频和投诉封号...

11-18

mac系统崩溃怎么办？MAC系统鼠标变成一直旋转彩球现象的解决方法介绍

mac系统鼠标变成一直旋转的彩球怎么办？你遇到电脑崩溃、死机的问题怎么解决的呢？你是不是也会直接按住电源键几秒钟强...

10-20

重庆防封电销系统价钱（防封电销软件）

本篇文章给大家谈谈重庆防封电销系统价钱，以及防封电销软件对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

08-28

南京市餐饮行业快手代运营公司拍摄短视频需要哪些装备？

快手作为新年代的流量新平台，在这个自媒体年代现已成为了新一代流量广场的代名词，相信现已出现在很多人的耳朵里了。...

03-01

基于 Mysql 实现一个简易版搜索引擎

10-18

本页收集关于基于 Mysql 实现一个简易版搜索引擎的相关信息资讯供网民参考！

推荐文章

上一篇：MySQL的从库Seconds_Behind_Master延迟总结

下一篇：Mysql ALTER TABLE加字段的时候到底锁不锁表

一起分享吧