Python利用机器学习算法实现垃圾邮件的识别-巨人网络通讯

主页 > 知识库 > Python利用机器学习算法实现垃圾邮件的识别

Python利用机器学习算法实现垃圾邮件的识别

开发工具

**Python版本：**3.6.4

相关模块：

scikit-learn模块；

jieba模块；

numpy模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

逐步实现

（1）划分数据集

网上用于垃圾邮件识别的数据集大多是英文邮件，所以为了表示诚意，我花了点时间找了一份中文邮件的数据集。数据集划分如下：

训练数据集：

7063封正常邮件(data/normal文件夹下)；

7775封垃圾邮件(data/spam文件夹下)。

测试数据集：

共392封邮件(data/test文件夹下)。

（2）创建词典

数据集里的邮件内容一般是这样的：

首先，我们利用正则表达式过滤掉非中文字符，然后再用jieba分词库对语句进行分词，并清除一些停用词，最后再利用上述结果创建词典，词典格式为：

{“词1”: 词1词频, “词2”: 词2词频…}

这些内容的具体实现均在**“utils.py”**文件中体现，在主程序中(train.py)调用即可：

最终结果保存在**“results.pkl”**文件内。

大功告成了么？当然没有！！！

现在的词典里有52113个词，显然太多了，有些词只出现了一两次，后续特征提取的时候一直空占着一个维度显然是不明智的做法。因此，我们只保留词频最高的4000个词作为最终创建的词典：

最终结果保存在**“wordsDict.pkl”**文件内。

（3）特征提取

词典准备好之后，我们就可以把每封信的内容转换为词向量了，显然其维度为4000，每一维代表一个高频词在该封信中出现的频率，最后，我们将这些词向量合并为一个大的特征向量矩阵，其大小为：

(7063+7775)×4000

即前7063行为正常邮件的特征向量，其余为垃圾邮件的特征向量。

上述内容的具体实现仍然在**“utils.py”**文件中体现，在主程序中调用如下：

最终结果保存在**“fvs_%d_%d.npy”**文件内，其中第一个格式符代表正常邮件的数量，第二个格式符代表垃圾邮件的数量。

（4）训练分类器

我们使用scikit-learn机器学习库来训练分类器，模型选择朴素贝叶斯分类器和SVM(支持向量机)：

（5）性能测试

利用测试数据集对模型进行测试：

结果如下：

可以发现两个模型的性能是差不多的(SVM略胜于朴素贝叶斯)，但SVM更倾向于向垃圾邮件的判定。

到此这篇关于Python实现垃圾邮件的识别的文章就介绍到这了,更多相关Python识别垃圾邮件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python实现自动化办公邮件合并功能
Python 发送SMTP邮件的简单教程
Python一行代码实现自动发邮件功能
Python基础详解之邮件处理
Python 调用API发送邮件
Python基于SMTP发送邮件的方法
python基于SMTP发送QQ邮件
python 自动监控最新邮件并读取的操作
python实现发送邮件
python 实现网易邮箱邮件阅读和删除的辅助小脚本
python如何发送带有附件、正文为HTML的邮件
python使用Windows的wmic命令监控文件运行状况,如有异常发送邮件报警
用python监控服务器的cpu,磁盘空间,内存,超过邮件报警
python邮件中附加文字、html、图片、附件实现方法
Python用20行代码实现完整邮件功能

标签：湖北西宁珠海盘锦宜昌潮州上饶佳木斯

巨人网络通讯声明：本文标题《Python利用机器学习算法实现垃圾邮件的识别》，本文关键词 Python,利用,机器,学习,算法,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Python利用机器学习算法实现垃圾邮件的识别》相关的同类信息！

Python利用机器学习算法实现垃圾邮件的识别

开发工具 **Python版本：**3.6.4 相关模块： scikit-learn模块； jieba模块； numpy模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。逐步实...

10-18

PyTorch 多GPU下模型的保存与加载(踩坑笔记)

这几天在一机多卡的环境下，用pytorch训练模型，遇到很多问题。现总结一个实用的做实验方式：多GPU下训练，创建模型代码...

10-18

宁波联通群呼防封代理商-诚信经营

宁波联通群呼防封代理商然后直接把那些客户的信息反映到员工。这样一来就等于已经预先的排除掉了一批无意向的客户，还...

01-15

400电话在哪里申请办理流程详解

400电话在哪里申请办理流程详解随着科技的发展和企业的不断扩张，越来越多的企业开始使用400电话服务。而很多人对于如...

08-14

【注册400电话】常见的三个问题与解答

现在正规的企业的服务热线一般是400电话，特别是对于初创企业来说，越早办理，就能享受到400电话带来的长期收益，但注册...

05-09

腾讯地图怎么添加公司名称地址？腾讯地图添加公司名称和地址

腾讯地图怎么添加商家地址？现在出行导航都少不了标注，标注地址的信息准确性直接影响到查找的效率，常用地图地位就...

11-26

电话机器人首选门萨维（电话机器人厂家）

本文目录一览：1、新卓越电话营销机器人怎么样?2、电话机器人效果好吗?3、什么是智能电话机器人新卓越电话营销机器人怎...

06-20

电销团队外包第三方公司（电销外包服务）

本文目录一览： 1、电话销售客服外包公司,这个求告知2、济南金融外包电销公司有哪些3、电话销售外包也可以外包吗？？...

04-22

所有地图上都没有我的店铺，为什么我的地图都没有定位？

如何在所有地图上标注我的店铺？ https://www.51dongshi.com/ebedfreeehh.html【摘要】如何在所有地图上标注我的店铺？【提问】 ht...

10-08

企业电销机器人软件（企业电销机器人软件有哪些）

本篇文章给咱们谈谈企业电销机器人软件，以及企业电销机器人软件有哪些对应的常识点，期望对各位有所协助，不要忘了保...

05-17

隆之源智能外呼系统（ai智能语音外呼系统）

本文目录一览： 1、什么是智能外呼营销系统？求详细解答2、什么是智能外呼？3、自动外呼系统是什么，使用自动外呼营销...

11-27

长春抗封号防封号公司-终于知道

长春抗封号防封号公司好的话术源自于对智能电销机器人逻辑的树立，尤其是对机器人问题库的树立和设置等，决议了机器人...

01-15

什么是400电话号码(400电话好不好)

400电话套餐价格_400电话收费标准_400电话是否免费_优音通信 400电话号码是一个10位数字的虚拟号码，针对企事业单位办理的，...

11-07

无锡教育电话营销线路价格,电话系统办理-热点

无锡教育电话营销线路价格,电话系统办理传统行业展开中心就是树立商品品牌效应，找到合适的。现在的电销机器人的识别...

12-17

湖南电销外呼系统怎么样（电销外呼软件手机版）

本文目录一览： 1、电销客外呼体系这个体系好用么？2、外呼体系怎么样？3、主动外呼体系好用吗？电销客外呼体系这个体...

04-23

嘉兴知识产权电话销售系统在哪可以办理,群呼系统如何办理-优质服务！

嘉兴知识产权电话销售系统在哪可以办理,群呼系统如何办理例如，在夜间休息时间不可能停止外呼。在中国的研发、机器人...

12-16

电话机器人常用话术（机器人话术通用的）

本篇文章给大家谈谈电话机器人常用话术，以及机器人话术通用的对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

11-06

400的电话怎样办理(400电话怎么申请流程)

400的电话怎样办理(400电话怎么申请流程) 400电话怎么申请流程办理申请公司400电话的步骤如下： 1. 登陆电信运营商官网：在...

08-14

物联卡怎么开通（物联卡怎么开通流量业务）

物联网卡是三大运营商为公司机器设备连接网络所发布的一种上网卡，仅有数据信息连接网络作用，不可以打电话和发短信，...

11-07

如何延长电销卡的使用时间?

电销卡虽然有高频防封机制，但也不是绝对不会被封号的，高频呼出或被投诉就会被封号，可能导致电销卡无法再使用。那么...

10-13

固网宽带新生意经：网络电话运营商“捆绑”互

宽带，绝对是一门好生意！随着马路修的越来越宽，包括电信运营商、互联网企业等产业链上的每个阵营都希望在这条黄金马...

01-16

SQL Server代理：理解SQL代理错误日志处理方法

SQL Server代理是所有实时数据库的核心。代理有很多不明显的用法，因此系统的知识，对于开发人员还是DBA都是有用的。这系...

10-18

申请400电话之前需要考虑哪些因素

申请400电话之前，我们应该正确的做好各个方面的了解，申请400电话要知道公司是否有这方面的需求。虽然是正规的公司电话...

05-15

ip对讲系统方案-ip网络对讲系统解决方案-巨☉人☉网☉络通信

ip对讲系统方案，是一种融合通信解决方案，可以实现语音对讲、寻呼、广播、调度等功能，广泛应用于医疗、学校、高速公...

12-14

聪慧的电销公司都是用智能语音机器人了！

2017年，深度学习大热，人工智能迎来了从科学到技术，从技术到运用，从运用再到产业化的飞速发展势态；推动了AI技术与产...

01-13

任城区智能外呼系统（任城区智能外呼系统招聘）

本文目录一览： 1、什么是智能外呼？2、什么是智能外呼营销系统？求详细解答3、自动外呼系统是什么4、自动外呼系统是什...

2015年03月19日讯为了更好地适应电力营销形势的变化，近日，云南国际成立营销工作领导小组，安排做好今年的电力营销工作...

10-19

客户管理系统的功能

企业与客户关系的处理大部分在于销售管理，CRM 外呼系统能够多维度进行销售过程管理。八骏CRM系统中的公海池制度、客户...

10-26

《那年花开月正圆》即将开播，腾讯视频携手沙发管家抢先看

由著名导演丁黑执导，孙俪、陈晓、何润东、胡杏儿等主演的讲述陕商传奇故事的大剧《那年花开月正圆》将于腾讯视频TV版...

10-16

徐州电话机器人怎么样用（徐州机器人教育机构）

本文目录一览： 1、电话机器人怎样操作？操作难吗？2、电话机器人怎样用？3、智能电话机器人,怎样正确的运用?电话机器人...

11-28

为英国公司注册中国商标的4个步骤

为英国企业注册中国商标所需的4个步骤：首先在英国提交雇用中国的商标律师提交商标申请（通过商标局或《马德里议定...

10-23

IDC称萨蒂扬财务丑闻或致印度外包失去优势

新浪科技讯 2月2日下午消息，针对印度第三大IT及业务流程外包服务商萨蒂扬(Satyam)爆发的财务丑闻，IDC亚太区服务研究总监...

10-22

Java数据库编程中的技巧

1、java数据库操作基本流程 2、几个常用的重要技巧：可滚动、更新的记录集批量更新事务处理 java数据库操作基本流程：取...

10-18

西藏外呼系统哪家不错（西藏电话）

今天给各位分享西藏外呼系统哪家不错的知识，其中也会对西藏电话进行解释，如果能碰巧解决你现在面临的问题，别忘了关...

05-17

广西桂林局电访呼叫中心全面升级受好评

烟草在线据BPO行业资讯网报道广西桂林烟草是继08年底广西柳州烟草呼叫中心全面升级试运营，取得重大成功后的全区13地市...

10-22

台州不封号电销卡好用吗

台州不封号电销卡好用吗现在的房产行业竞争压力也是非常大的，因为现在市面上有很多中介公司，比如：贝壳找房，美满...

12-15

每年失踪儿童数据惊人，谁来管？这个创始人出一招，他说要管到底

神兔侠创始人李安前几天在网上看到一篇文章，文中提到，中国每年的失踪儿童不完全统计有20万，找回来的大概只占到...

10-16

我国共存协议下建立商标共存机制和监管建议

虽然我国已有商标共存协议判例，但《商标法》中对于商标共存、商标共存协议及其机制均还处于空白。为有效促进商标共存...

10-23

为什么要建设呼叫中心?您需要的解决方案

1.什么是呼叫中心 1.1呼叫中心（Call Center），又称客户服务中心，是指综合利用先进的通信及计算机技术，对信息和物资流程...

10-22

关于泉州回拨外呼系统哪家强的信息

今天给各位分享泉州回拨外呼系统哪家强的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站...

02-06

兰州人工外呼系统哪家强（甘肃外呼系统）

本篇文章给大家谈谈兰州人工外呼系统哪家强，以及甘肃外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

11-06

商标权产生及取得制度变迁竞争政策内涵分析

实用主义财产理论认为,包括财产法在内的法律的目的是为了实现最多数人的福利,将这一理论运用于商标法中,可解释为商标权...

10-23

400电话申请都有哪些途径，有什么区别吗？

400电话作为主被叫共同承担资费的电话业务，常被企业申请用来作为服务咨询电话或者售后服务电话，那么有哪些途径可以进...

04-03

深圳稳定电话系统供应商,群呼线路怎么办理-意味深长!

深圳稳定电话系统供应商,群呼线路怎么办理机器人转人工无感知切换 AI加持快速锁定目标客户智能对话式群呼，...

12-16

苏州ai电销机器人排名(ai电销机器人的市场哪里找)

昨天，在美国加州圣芭芭拉举办的创新峰会（The Innovation Summit）上，CB Insight 的CEO Anand Sanwal 揭晓苏州ai电销机器人排名了全球...

11-29

抖音代运营有哪些抖音赚钱引流的方法？为什么企业要选择抖音代运营？

03-01

400电话要从哪些方面完善自己

在做事情的时候就要找到适合的方式和途径，只有当你自己找到了这个方向之后，无论是发展还是其他的方面都会真正有保障...

05-15

浦发银行电话机器人（浦发银行财智机器人）

本文目录一览： 1、浦发95528为什么转不了人工2、电话机器人最近很火，那么它到底有什么用？3、为什么上海浦发银行给我打...

11-27

为什么在MySQL中不建议使用UTF-8

最近我遇到了一个 bug，我试着通过 Rails 在以“utf8”编码的 MariaDB 中保存一个 UTF-8 字符串，然后出现了一个离奇的错误： ...

10-18

贵州高频电销卡售后有保障（电销高频电话卡）

本文目录一览：1、电销卡有售后吗?2、电销卡有哪些优势?3、电销卡真的无限制高频吗?4、电销卡哪家费用和服务比较好,能推...

07-10

Python利用机器学习算法实现垃圾邮件的识别

10-18

本页收集关于Python利用机器学习算法实现垃圾邮件的识别的相关信息资讯供网民参考！

四合一精品企业网站建设

多一个网站就为企业多增加一条营销渠道

¥888元限时抢购

立即咨询 快速购买

企业400电话

智能AI客服机器人
￥15000

在线订购

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

推荐文章

上一篇：浅谈Python中的正则表达式

下一篇：Python爬虫框架之Scrapy中Spider的用法

一起分享吧

Python利用机器学习算法实现垃圾邮件的识别

开发工具

环境搭建

逐步实现

四合一精品企业网站建设

¥888元限时抢购

立即咨询快速购买

企业400电话

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

在线咨询