Python机器学习入门(四)之Python选择模型-巨人网络通讯

主页 > 知识库 > Python机器学习入门(四)之Python选择模型

Python机器学习入门(四)之Python选择模型

1.数据分离与验证

要知道算法模型对未知的数据表现如何，最好的评估办法是利用已经明确知道结果的数据运行生成的算法模型进行验证。此外还可以使用新的数据来评估算法模型。

在评估机器学习算法时，不将训练集直接作为评估数据集最直接的原因就是过度拟合。过度拟合是指为了得到一致性假设而变得过度严格，简单来说就是指模型仅对训练数据有较好的效果，而对于新数据则适应性很差。

如图所示是一个分类实例，绿色曲线表示过拟合，黑色曲线表示正常模型。可以看到过拟合模型仅对当前数据表现较好，而对新数据适应性明显不如正常模型。

接下来将讲解四种不同的分离数据集的方法，用来分离训练集和评估集，并用其评估算法模型。

1.1分离训练数据集和评估数据集

可以简单地将原始数据集分为两部分，第一部分用来训练算法生成模型，第二部分通过模型来预测结果，并于已知的结果进行比较，来评估算法模型的准确度。

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import ShuffleSplit
 
 
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# print(data.head(10))
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.33
seed = 4
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
model.fit(X_train, Y_train)
result = model.score(X_test, Y_test)
print("算法评估结果：%3f%%" % (result * 100))

执行后得到的结果约为80%。为了让算法模型具有良好的可复用性，在指定了分离数据大小的同时，还指定了随机粒度（seed=4），将数据随即进行分离。通过指定随机的粒度，可以确保每次执行程序得到相同的结果，这有助于比较两个不同的算法生成模型的结果。

算法评估结果：80.314961%

1.2K折交叉验证分离

K折交叉验证是将原始数据分成K组（一般是均分）,将第一部分作为测试集，其余作为训练集，训练模型，计算模型在测试集上的准确率，每次用不同部分作为测试集，重复上述步骤K次，最后将平均准确率作为最终的模型准确率。

# K折交叉验证分离
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=kfold)
print("算法评估结果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

执行后得到评估得分及标准方差。

算法评估结果：77.216% (4.968%)

1.3弃一交叉验证分离

相较于K折交叉验证分离，弃一交叉验证有显著优点：

每一回合中几乎所有样本你皆用于训练模型，因此最接近原始样本的分布，这样评估所得的结果比较可靠。
实验过程中没有随机因素会影响实验数据，确保实验过程可重复。

但弃一交叉验证计算成本高，当原始数据样本数量多时，弃一交叉验证需要花费大量时间完成评估。

# 弃一交叉验证分离
# 计算量非常大!!
loocv = LeaveOneOut()
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model,X,Y,cv = loocv)
print("算法评估结果：%.3f%% (%.3f%%)"% (result.mean()*100,result.std()*100))

运算得出的标准方差与K折交叉验证有较大差距。

算法评估结果：77.604% (41.689%)

1.4重复随机分离评估数据集与训练数据集

另外一种K折交叉验证的用途是随即分离数据为训练数据集和评估数据集。

n_splits = 10
test_size = 0.33
seed = 7
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=kfold)
print("算法评估结果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

算法评估结果：76.535% (2.235%)

2.算法评估

2.1分类算法评估

2.1.1分类准确度

分类准确度就是算法自动分类正确的样本数除以所有的样本数得出的结果。准确度是一个很好、很直观的评价指标，但是有时候准确度高并不代表算法就一定好。

from pandas import read_csv
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
 
#分类准确度
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename,names=names)
#print(data.head(10))
#将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X,Y,cv=kfold)
print("算法评估结果准确度：%.3f(%.3f)" % (result.mean(),result.std()))

算法评估结果准确度：0.772(0.050)

2.1.2分类报告

在scikit-learn中提供了一个非常方便的工具，可以给出对分类问题的评估报告，Classification__report()方法能够给出precision,recall,F1-score,support。

from pandas import read_csv
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import classification_report
 
#分类准确度
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename,names=names)
print(data.head(10))
#将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
model.fit(X_train,Y_train)
predicted = model.predict(X_test)
report = classification_report(Y_test, predicted)
print(report)

precision recall f1-score support
0.0 0.84 0.87 0.86 171
1.0 0.71 0.66 0.69 83
accuracy 0.80 254
macro avg 0.78 0.77 0.77 254
weighted avg 0.80 0.80 0.80 254

2.2回归算法评估

回归算法评估将使用波士顿房价（Boston House Price）数据集。可通过百度网盘下载

链接：https://pan.baidu.com/s/1uyDiXDC-ixfBIYmTU9rrAQ
提取码：eplz

2.2.1平均绝对误差

平均绝对误差是所有单个观测值与算术平均值偏差绝对值的平均值。平均绝对误差相比于平均误差能更好地反映预测值误差的实际情况。

cross_val_score中的scoring参数详解可见官方开发文档

https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
 
filename = 'housing.csv'
names = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PRTATIO','B','LSTAT','MEDV']
data = read_csv(filename,names=names,delim_whitespace=True)
array = data.values
X = array[:,0:13]
Y = array[:,13]
n_splits = 10
seed = 7
kfold = KFold(n_splits=n_splits,random_state=seed,shuffle=True)
model = LinearRegression()
 
#平均绝对误差
scoring = 'neg_mean_absolute_error'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('MAE:%.3f(%.3f)'%  (result.mean(),result.std()))

MAE:-3.387(0.667)

2.2.2均方误差

均方误差是衡量平均误差的方法，可以评价数据的变化程度。均方根误差是均方误差的算术平均跟。均方误差越小，说明用该预测模型描述实验数据准确度越高。

#均方误差
scoring = 'neg_mean_squared_error'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('MSE:%.3f(%.3f)'%  (result.mean(),result.std()))

MSE:-23.747(11.143)

2.2.3判定系数（ $R^2$ ）

判定系数（coefficient of determination），也叫可决系数或决定系数，是指在线性回归中，回归平方和与总离差平方和之比值，其数值等于相关系数的平方。

#决定系数
scoring = 'r2'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('R2:%.3f(%.3f)'%  (result.mean(),result.std()))

R2:0.718(0.099)

K折交叉验证是用来评估机器学习算法的黄金准则。黄金准则为：当不知如何选择分离数据集的方法时，选择K折交叉验证来分离数据集；当不知如何设定K值时，将K设为10。

到此这篇关于Python机器学习入门(四)选择模型的文章就介绍到这了,更多相关Python机器学习内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python机器学习入门(一)序章
Python机器学习入门(二)之Python数据理解
Python机器学习入门(三)之Python数据准备
Python机器学习入门(五)之Python算法审查
Python机器学习入门(六)之Python优化模型
python机器学习高数篇之函数极限与导数

标签：漯河南平盘锦林芝普洱大同海南宁夏

巨人网络通讯声明：本文标题《Python机器学习入门(四)之Python选择模型》，本文关键词 Python,机器,学习,入门,四,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Python机器学习入门(四)之Python选择模型》相关的同类信息！

Python机器学习入门(四)之Python选择模型

目录 1.数据分离与验证 1.1分离训练数据集和评估数据集 1.2K折交叉验证分离 1.3弃一交叉验证分离 1.4重复随机分离评估数据集与训练数据集 2.算法评估 2.1分类算法评估 2.1.1分类准确度...

10-18

美团订单出现支付故障官方称已陆续恢复

腾讯科技讯(相欣) 12 月 7 日，今日午间美团因技术原因导致平台部分订单出现支付故障，用户支付成功后显示页面出现延迟，...

10-15

深圳电话机器人电话机器人

4.电话作为联系客户最重要的方式，每天需要联系大量的客户。如果采用人工客服，必然需要大量的人工成本和设备成本，不...

10-24

电话机器人对公司有用吗（电话机器人公司哪家好）

本文目录一览：1、电销机器人真的有用吗?2、电话机器人使用效果怎么样3、用智能AI电话机器人效果好吗?4、电话机器人有什...

06-20

安宁移动外呼系统查询电话（中国移动安宁分公

本文目录一览：1、10085是什么？2、10085是什么电话？3、10085是什么号码4、中国移动的人工服务电话号码是多少5、10085是什么...

11-29

了解400电话就上信通网赢www.trust400.com

【了解400电话就上企号卡网】企号卡网网站(www.qihaoka.com)上面还可以找客服来解答对于400不懂的事情。所以说如果你对于400电...

11-07

运营商应当欢迎MVNO加入，但市场还有利可图吗

工信部一纸《移动通信转售业务试点方案》的通知，将移动虚拟网络运营商（简称MVNO）这个角色推到聚光灯下。在海外很多...

01-16

esim物联网卡与普通esim卡的那些不解之谜

随着物联网技术的高速发展，现在国内越来越多的企业都在慢慢接受和使用它。不过随着物联网卡的大量使用，出现了各种各...

11-07

联通物联卡虚拟运营商你了解吗？

你知道虚拟运营商吗?运营商你一定知道，国内来说就是三大运营商中国移动、联通、电信。那么虚拟运营商是什么呢?其实虚...

10-13

抖音代运营有哪些最好的抖音流量来源？

抖音的到来，改变了咱们对短视频的认识，跟着抖音的不断发展，抖音现已进入了千家万户，成为了咱们日子中不可缺失的一...

03-01

电销机器人怎么销售（电销机器人销售话术）

本篇文章给大家谈谈电销机器人怎么销售，以及电销机器人销售话术对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

02-24

潍坊市好用防封电话卡便宜

那么，分享通信面临当前困境，究竟是运营好用防封电话卡便宜状况不景气，还是因为之争所导致的呢？先从运营角度来看，...

03-01

云南电话机器人效果怎么样

有意通过呼叫任务筛选的客户可以进行手动操作，也可以在事后由销售人员进行跟踪访问。我们可以根据呼叫场景进行不同...

10-31

网络电话外呼系统带数据（互联网化外呼管理系统）

本文目录一览： 1、哪家的外呼系统好用？ 2、什么是网络电话外呼系统？ 3、网络电话外呼系统哪个好？哪家的外呼系统好...

11-26

企业电话机器人功能（电话机器人厂商）

今天给各位分享企业电话机器人功能的知识，其中也会对电话机器人厂商进行解释，如果能碰巧解决你现在面临的问题，别忘...

05-17

品牌保护：加强法律意识

我国许多拥有传统名牌商标的企业，由于缺乏商标法律意识，给国内外一些“不义之徒”抢先注册，给他们带来巨大的损失。...

10-23

佛山微信代运营怎么增加粉丝量？

03-01

“一带一路”对专利、商标申请人敞开“胸怀”

“亚洲之星农业产业合作区欢迎您！”在一天之内转机两次、历经七八个小时、飞越三个国家后，走出比什凯克玛纳斯国际机...

10-23

如何办理抗封的话机通讯助手呢

之前我有一个朋友是做那种餐饮加盟的，就是给客户打电话邀约客户过来公司考察，然后让客户来加盟他们公司的项目，但是...

11-23

四川电话系统有哪些

电销外呼系统批量自动外呼系统原理：电话批量自动外呼系统能够解决以下问题：把海量号码数据导入系统，由程序自动外呼...

10-25

售后软件

售后服务的质量直接影响到客户对品牌和产品的满意度，忠诚度。二次销售和口碑推荐，其实是对收入的助长。所以我们更应...

10-25

南通市7个县级呼叫中心平台服务万余名老人

目前，南通市已建成7个县级呼叫平台，为全市1万多名独居、空巢老年人提供相关服务。日前，市政协主席王德忠率市政协主...

10-19

纽约岛民为新竞技场申请“ THE BANK”商标

纽约岛民提出了三项商标申请，这些商标与该团队正在建设的新竞技场有关。一个应用程序是短语“ THE BANK”，它似乎是竞...

10-23

MySQL之导出整个及单个表数据的操作

导出单个表 mysqldump -u user -p dbname tablename db.sql 导入单个表 mysqldrop tablename; mysql -u user -p dbname db.sql 导出整个表 mysqldump --opt ...

10-18

机器人语音对话app云呼ai_电话机器人

【机器人语音对话app】云呼：一个电话机器人的外呼次数约为1000/天，根据接话率和话术内容而变动【机器人语音对话app】...

10-31

扁桃首播80万不雅观众围不雅观籽岷奇怪君等一众MC大佬助阵

若说当前《我的世界》最火主播是谁，莫非狂拽酷炫嘴炸天的扁桃是也， 9 亿多的全平台视频不雅观看。 9 月 2 日在触手直播...

10-16

400电话作用大吗400电话怎么收费的？400电话套餐推荐

企业将高度重视宣传内容，高度重视与消费者的沟通，这也是为了提高营销效率，提升外部形象。正因为如此，许多企业将...

01-13

巨人科技—巨人科技的新名字

00电话作为一个专业的标志，已经被各种大型企业接受。许多客户使用电话的时候，都会更容易倾向相信这样的号码。也许这...

05-15

杭州有哪些好的网站代运营公司？

随着互联网技术的发展趋势，越来越多的传统公司刚刚开始做网络运营。但是对于大多数中小企业来说，自己组件的互联网销...

03-31

办理400电话的收费标准400电话申请容易吗？有什么优惠套餐？

现在市场上使用的400电话很火爆，企业之所以会放心办理400电话，是因为收费很合理，在使用过程中也很方便，大家可以看看...

01-12

怎么技巧性的通过搜索引擎来获取流量?

今日与咱们共享对于在SEO的操作中哪些会被搜索引擎认为是做弊的手法，请咱们要理解小编么的主题不是要教咱们怎么去做弊...

10-19

电销卡如何养卡（电销卡如何使用）

本文目录一览：1、电销卡是否真的不封号?卡总被停怎么办回拨真的不封吗?电销卡多少钱靠谱...2、电话销售,卡总是被停,怎么...

07-10

鹤壁正规外呼系统代理商（鹤壁呼叫产业园干嘛的）

本篇文章给大家谈谈鹤壁正规外呼系统代理商，以及鹤壁呼叫产业园干嘛的对应的知识点，希望对各位有所帮助，不要忘了收...

05-17

互联时代下中译语通引领语音行业激流勇进

如今，移动互联网给传统语音行业带来了不小的冲击。风云变化中，如何处变不惊，奋力开辟新天地，这是许多行业企业都在...

10-21

pytorch显存一直变大的解决方案

在代码中添加以下两行可以解决： torch.backends.cudnn.enabled = Truetorch.backends.cudnn.benchmark = True 补充：pytorch训练过程显存一直增加...

10-18

文思海辉符山服务外包观察：印度外包重镇金奈洪水中我们的同理心

从今年十月开始，印度东南海岸地区遭受了百年一遇的强降雨，随之而来的洪水淹没了泰米尔纳德邦首府金奈。说淹没一点儿...

10-22

苏州电销机器人招代理吗（苏州机器人代理商）

本文目录一览： 1、有没有哪种电话机器人能够做招商项意图啊？需求联络的合作方太多了，想要能够智能高效和客户交流的...

11-28

赤峰市酒店地图，赤峰市金方大酒店地图

酒店怎么上高德地图？和高德地图联系，有一些要赞助费的，或者使用纠错功能自己注册，然后申请标注，填写资料，上传...

11-27

办理400电话哪里办理流程（办理400电话需要什么手续）

办理400电话哪里办理流程（办理400电话需要什么手续）想要拥有一条专属于自己企业的400电话，不仅可以提升企业形象，还...

08-14

苏州包月电销外呼线路开发-号外！

苏州包月电销外呼线路开发导出、修改等数据管理功能。电销机器人在智能客服领域应用，还会受到通信传输的影响。在电话...

01-16

餐饮酒店类企业彩铃内容61

【餐饮酒店213】完美品质，追求卓越！南昌市达乐宾馆酒店用品有限公司欢迎您的来电，我们将专业订做台布、口布、椅套、...

11-27

易电销app高频不封号系统官方

易电销app 高频不封号系统官方适用于教育，房产，代理记账，装修，增值应有尽有，029，外显手机号等多种线路电话外呼系...

11-15

温州移动电话营销线路服务商,电销系统-深入探讨

温州移动电话营销线路服务商,电销系统提升企业经济效益。电销效率提升的同时，企业无需再像以前一样雇佣太多电销人员...

12-17

北京财税电话营销线路办理商家,电销机器人-终于明白

北京财税电话营销线路办理商家,电销机器人在工作质量方面还能达到更好的标准，因为电销机器人具有更为稳颜色定的系统...

12-17

怎样在高德地图上留店名？高德地图留店名

怎么才能在高德地图上留上店名？增地点您可以在地图上找长按此位置2秒直至出现蓝色气泡内，然后点击右下角新增地容点...

11-26

特步申请“特不服”商标商标分类为服装鞋帽

来源：界面新闻近日，特步（中国）有限公司新增商标申请信息，商标名称为“特不服”，注册号为51006936，商标分类为25...

10-23

搬运机器人如何实现更快的搬运物料

随着科技的快速发展，搬运机器人越来越受到大家的欢迎，那么搬运机器人怎么搬运物料更快呢？一、物料单位容量在自动搬...

10-30

智能电销机器人开启人工智能共生时代。

深圳市数心科技有限公司历经多年的技术积累和研发实践，融合互联网、云计算及人工智能、通信、大数据等技术，研发推出...

10-24

400电话的优点和缺点400电话的特点有哪些

400本质上是一个智能虚拟号码，通过呼叫转移转移到企业指定或手机接收400是800电话业务升级版本，是基于智能网络语音增值...

01-13

高精度高德地图标注公司地址让无人驾驶汽车“认路”

你出门都不认路，怎么写地图的稿子?当记者动笔时，身旁的友人这样问道。未来的无人驾驶汽车也面临同样的问题。虽然作...

04-14

莱芜自动电销机器人公司（销售电销机器人）

今天给各位分享莱芜自动电销机器人公司的知识，其中也会对销售电销机器人进行解释，如果能碰巧解决你现在面临的问题，...

05-16

Python机器学习入门(四)之Python选择模型

10-18

本页收集关于Python机器学习入门(四)之Python选择模型的相关信息资讯供网民参考！

四合一精品企业网站建设

多一个网站就为企业多增加一条营销渠道

¥888元限时抢购

立即咨询 快速购买

企业400电话

智能AI客服机器人
￥15000

在线订购

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

推荐文章

上一篇：用python写个颜值评分器筛选最美主播

下一篇：Python机器学习入门(二)之Python数据理解

一起分享吧

Python机器学习入门(四)之Python选择模型

目录

1.数据分离与验证

1.1分离训练数据集和评估数据集

1.2K折交叉验证分离

1.3弃一交叉验证分离

1.4重复随机分离评估数据集与训练数据集

2.算法评估

2.1分类算法评估

2.1.1分类准确度

2.1.2分类报告

2.2回归算法评估

2.2.1平均绝对误差

2.2.2均方误差

2.2.3判定系数（）

四合一精品企业网站建设

¥888元限时抢购

立即咨询快速购买

企业400电话

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

在线咨询

2.2.3判定系数（ $R^2$ ）