利用Python如何实现K-means聚类算法-巨人网络通讯

主页 > 知识库 > 利用Python如何实现K-means聚类算法

利用Python如何实现K-means聚类算法

前言

K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集，该算法试图将数据划分为聚类，使得聚类内部具有较高的相似性，聚类与聚类之间具有较低的相似性。

算法原理

1. 初始化聚类中心，或者在输入数据范围内随机选择，或者使用一些现有的训练样本(推荐)

2. 直到收敛

将每个数据点分配到最近的聚类。点与聚类中心之间的距离是通过欧几里德距离测量得到的。
通过将聚类中心的当前估计值设置为属于该聚类的所有实例的平均值，来更新它们的当前估计值。

目标函数

聚类算法的目标函数试图找到聚类中心，以便数据将划分到相应的聚类中，并使得数据与其最接近的聚类中心之间的距离尽可能小。

给定一组数据X1，...，Xn和一个正数k，找到k个聚类中心C1，...，Ck并最小化目标函数：

其中是质心，计算表达式为

上图a表达了初始的数据集，假设k=2。在图b中，我们随机选择了两个k类所对应的类别质心，即图中的红色质心和蓝色质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心，如图4所示，新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。当然在实际K-Mean算法中，我们一般会多次运行图c和图d，才能达到最终的比较优的类别。

算法流程

注意点：

对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值
在确定了k的个数后，我们需要选择k个初始化的质心，就像上图b中的随机质心。由于我们是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心，最好这些质心不能太近。

流程：

输入是样本集D={x1,x2,...xm},聚类的簇树k,最大迭代次数N

输出是簇划分C={C1,C2,...Ck}

　　　　1) 从数据集D中随机选择k个样本作为初始的k个质心向量： {μ1,μ2,...,μk}

　　　　2）对于n=1,2,...,N

　　　　　　a) 将簇划分C初始化为Ct=∅ t=1,2...k

　　　　　　b) 对于i=1,2...m,计算样本xi和各个质心向量μj(j=1,2,...k)的距离：，将xixi标记最小的为所对应的类别。此时更新

　　　　　　c) 对于j=1,2,...,k,对Cj中所有的样本点重新计算新的质心

　　　　　　e) 如果所有的k个质心向量都没有发生变化，则转到步骤3）

　　　　3）输出簇划分C={C1,C2,...Ck}

Python实现

import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
np.random.seed(123)
from sklearn.cluster import KMeans
class Kmeans:
    def __init__(self,data,k):
        self.data=data
        self.k = k
    def cluster_data_Bysklearn(self):
        kmeans_model = KMeans(self.k,random_state=1)
        labels = kmeans_model.fit(self.data).labels_
        print(labels)
        return labels
 
    def kmeans(self):
        # 获取4个随机数
        rarray = np.random.random(size=self.k)
        # 乘以数据集大小——>数据集中随机的4个点
        rarray = np.floor(rarray * len(self.data))
        # 转为int
        rarray = rarray.astype(int)
        print('数据集中随机索引', rarray)
        # 随机取数据集中的4个点作为初始中心点
        center = data[rarray]
        # 测试比较偏、比较集中的点，效果依然完美，测试需要删除以上代码
        # center = np.array([[4.6,-2.5],[4.4,-1.7],[4.3,-0.7],[4.8,-1.1]])
        # 1行80列的0数组，标记每个样本所属的类(k[i])
        cls = np.zeros([len(self.data)], np.int)
        print('初始center=\n', center)
        run = True
        time = 0
        n = len(self.data)
        while run:
            time = time + 1
            for i in range(n):
                # 求差
                tmp = data[i] - center
                # 求平方
                tmp = np.square(tmp)
                # axis=1表示按行求和
                tmp = np.sum(tmp, axis=1)
                # 取最小（最近）的给该点“染色”（标记每个样本所属的类(k[i])）
                cls[i] = np.argmin(tmp)
            # 如果没有修改各分类中心点，就结束循环
            run = False
            # 计算更新每个类的中心点
            for i in range(self.k):
                # 找到属于该类的所有样本
                club = data[cls == i]
                # axis=0表示按列求平均值，计算出新的中心点
                newcenter = np.mean(club, axis=0)
                # 如果新旧center的差距很小，看做他们相等，否则更新之。run置true，再来一次循环
                ss = np.abs(center[i] - newcenter)
                if np.sum(ss, axis=0) > 1e-4:
                    center[i] = newcenter
                    run = True
            print('new center=\n', center)
        print('程序结束，迭代次数：', time)
        # 按类打印图表，因为每打印一次，颜色都不一样，所以可区分出来
        # for i in range(self.k):
        #     club = data[cls == i]
        #     self.showtable(club)
        # 打印最后的中心点
        self.showtable(center)
        #打印聚类标签
        print(cls)
 
    def showtable(self,data):
        x = data.T[0]
        y = data.T[1]
        plt.scatter(x, y)
        plt.show()
 
if __name__ == '__main__':
    data = np.random.rand(10,2)
    K = 4
    model = Kmeans(data,K)
 
    model.kmeans()
    model.cluster_data_Bysklearn()

结果：

自写得出的 [0 2 0 0 0 2 3 2 1 2]
调用模型的出的[0 2 0 1 0 2 3 2 3 0]

jupyter notebook实现

import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
 
 
%matplotlib inline

X, y = make_blobs(centers=6, n_samples=1000)
print(f'Shape of dataset: {X.shape}')
 
fig = plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], c=y)
plt.title("Dataset with 6 clusters")
plt.xlabel("First feature")
plt.ylabel("Second feature")
plt.show()

class KMeans():
    def __init__(self, n_clusters=6):
        self.k = n_clusters
 
    def fit(self, data):
        """
        Fits the k-means model to the given dataset
        """
        n_samples, _ = data.shape
        # initialize cluster centers
        self.centers = np.array(random.sample(list(data), self.k))
        self.initial_centers = np.copy(self.centers)
 
        # We will keep track of whether the assignment of data points
        # to the clusters has changed. If it stops changing, we are 
        # done fitting the model
        old_assigns = None
        n_iters = 0
 
        while True:
            new_assigns = [self.classify(datapoint) for datapoint in data]
 
            if new_assigns == old_assigns:
                print(f"Training finished after {n_iters} iterations!")
                return
 
            old_assigns = new_assigns
            n_iters += 1
 
            # recalculate centers
            for id_ in range(self.k):
                points_idx = np.where(np.array(new_assigns) == id_)
                datapoints = data[points_idx]
                self.centers[id_] = datapoints.mean(axis=0)
 
    def l2_distance(self, datapoint):
        dists = np.sqrt(np.sum((self.centers - datapoint)**2, axis=1))
        return dists
 
    def classify(self, datapoint):
        """
        Given a datapoint, compute the cluster closest to the
        datapoint. Return the cluster ID of that cluster.
        """
        dists = self.l2_distance(datapoint)
        return np.argmin(dists)
 
    def plot_clusters(self, data):
        plt.figure(figsize=(12,10))
        plt.title("Initial centers in black, final centers in red")
        plt.scatter(data[:, 0], data[:, 1], marker='.', c='y')
        plt.scatter(self.centers[:, 0], self.centers[:,1], c='r')
        plt.scatter(self.initial_centers[:, 0], self.initial_centers[:,1], c='k')
        plt.show()

X = np.random.randn(10,100)
kmeans = KMeans(n_clusters=6)
kmeans.fit(X)
for data in X:
    print(kmeans.classify(data))

总结

K-Means的主要优点：

1）原理简单，容易实现

2）可解释度较强

K-Means的主要缺点：

1）K值很难确定

2）局部最优

3）对噪音和异常点敏感

4）需样本存在均值（限定数据种类）

5）聚类效果依赖于聚类中心的初始化

6）对于非凸数据集或类别规模差异太大的数据效果不好

到此这篇关于利用Python如何实现K-means聚类算法的文章就介绍到这了,更多相关Python实现K-means聚类算法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python中实现k-means聚类算法详解
python实现鸢尾花三种聚类算法（K-means,AGNES,DBScan）
python基于K-means聚类算法的图像分割
K-means聚类算法介绍与利用python实现的代码示例
Python机器学习之K-Means聚类实现详解
在Python中使用K-Means聚类和PCA主成分分析进行图像压缩
Python机器学习算法之k均值聚类（k-means）
python实现k-means聚类算法
Python用K-means聚类算法进行客户分群的实现
k-means 聚类算法与Python实现代码

标签：普洱大同南平林芝宁夏海南漯河盘锦

巨人网络通讯声明：本文标题《利用Python如何实现K-means聚类算法》，本文关键词利用,Python,如何,实现,K-means,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《利用Python如何实现K-means聚类算法》相关的同类信息！

利用Python如何实现K-means聚类算法

目录前言算法原理目标函数算法流程 Python实现总结前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集，该算法试图将数据划分...

10-18

电销卡如何养卡（电销卡如何使用）

本文目录一览：1、电销卡是否真的不封号?卡总被停怎么办回拨真的不封吗?电销卡多少钱靠谱...2、电话销售,卡总是被停,怎么...

07-10

怎样在高德地图上留店名？高德地图留店名

怎么才能在高德地图上留上店名？增地点您可以在地图上找长按此位置2秒直至出现蓝色气泡内，然后点击右下角新增地容点...

11-26

搬运机器人如何实现更快的搬运物料

随着科技的快速发展，搬运机器人越来越受到大家的欢迎，那么搬运机器人怎么搬运物料更快呢？一、物料单位容量在自动搬...

10-30

智能电销机器人开启人工智能共生时代。

深圳市数心科技有限公司历经多年的技术积累和研发实践，融合互联网、云计算及人工智能、通信、大数据等技术，研发推出...

10-24

运营商应当欢迎MVNO加入，但市场还有利可图吗

工信部一纸《移动通信转售业务试点方案》的通知，将移动虚拟网络运营商（简称MVNO）这个角色推到聚光灯下。在海外很多...

01-16

扁桃首播80万不雅观众围不雅观籽岷奇怪君等一众MC大佬助阵

若说当前《我的世界》最火主播是谁，莫非狂拽酷炫嘴炸天的扁桃是也， 9 亿多的全平台视频不雅观看。 9 月 2 日在触手直播...

00电话作为一个专业的标志，已经被各种大型企业接受。许多客户使用电话的时候，都会更容易倾向相信这样的号码。也许这...

05-15

企业电话机器人功能（电话机器人厂商）

今天给各位分享企业电话机器人功能的知识，其中也会对电话机器人厂商进行解释，如果能碰巧解决你现在面临的问题，别忘...

05-17

鹤壁正规外呼系统代理商（鹤壁呼叫产业园干嘛的）

本篇文章给大家谈谈鹤壁正规外呼系统代理商，以及鹤壁呼叫产业园干嘛的对应的知识点，希望对各位有所帮助，不要忘了收...

05-17

“一带一路”对专利、商标申请人敞开“胸怀”

“亚洲之星农业产业合作区欢迎您！”在一天之内转机两次、历经七八个小时、飞越三个国家后，走出比什凯克玛纳斯国际机...

10-23

纽约岛民为新竞技场申请“ THE BANK”商标

纽约岛民提出了三项商标申请，这些商标与该团队正在建设的新竞技场有关。一个应用程序是短语“ THE BANK”，它似乎是竞...

10-23

办理400电话哪里办理流程（办理400电话需要什么手续）

办理400电话哪里办理流程（办理400电话需要什么手续）想要拥有一条专属于自己企业的400电话，不仅可以提升企业形象，还...

08-14

esim物联网卡与普通esim卡的那些不解之谜

随着物联网技术的高速发展，现在国内越来越多的企业都在慢慢接受和使用它。不过随着物联网卡的大量使用，出现了各种各...

11-07

怎么技巧性的通过搜索引擎来获取流量?

今日与咱们共享对于在SEO的操作中哪些会被搜索引擎认为是做弊的手法，请咱们要理解小编么的主题不是要教咱们怎么去做弊...

10-19

400电话的优点和缺点400电话的特点有哪些

400本质上是一个智能虚拟号码，通过呼叫转移转移到企业指定或手机接收400是800电话业务升级版本，是基于智能网络语音增值...

01-13

苏州包月电销外呼线路开发-号外！

苏州包月电销外呼线路开发导出、修改等数据管理功能。电销机器人在智能客服领域应用，还会受到通信传输的影响。在电话...

01-16

易电销app高频不封号系统官方

易电销app 高频不封号系统官方适用于教育，房产，代理记账，装修，增值应有尽有，029，外显手机号等多种线路电话外呼系...

11-15

电话机器人对公司有用吗（电话机器人公司哪家好）

本文目录一览：1、电销机器人真的有用吗?2、电话机器人使用效果怎么样3、用智能AI电话机器人效果好吗?4、电话机器人有什...

06-20

赤峰市酒店地图，赤峰市金方大酒店地图

酒店怎么上高德地图？和高德地图联系，有一些要赞助费的，或者使用纠错功能自己注册，然后申请标注，填写资料，上传...

11-27

深圳电话机器人电话机器人

4.电话作为联系客户最重要的方式，每天需要联系大量的客户。如果采用人工客服，必然需要大量的人工成本和设备成本，不...

10-24

四川电话系统有哪些

电销外呼系统批量自动外呼系统原理：电话批量自动外呼系统能够解决以下问题：把海量号码数据导入系统，由程序自动外呼...

10-25

pytorch显存一直变大的解决方案

在代码中添加以下两行可以解决： torch.backends.cudnn.enabled = Truetorch.backends.cudnn.benchmark = True 补充：pytorch训练过程显存一直增加...

10-18

美团订单出现支付故障官方称已陆续恢复

腾讯科技讯(相欣) 12 月 7 日，今日午间美团因技术原因导致平台部分订单出现支付故障，用户支付成功后显示页面出现延迟，...

10-15

售后软件

售后服务的质量直接影响到客户对品牌和产品的满意度，忠诚度。二次销售和口碑推荐，其实是对收入的助长。所以我们更应...

10-25

苏州电销机器人招代理吗（苏州机器人代理商）

本文目录一览： 1、有没有哪种电话机器人能够做招商项意图啊？需求联络的合作方太多了，想要能够智能高效和客户交流的...

11-28

联通物联卡虚拟运营商你了解吗？

你知道虚拟运营商吗?运营商你一定知道，国内来说就是三大运营商中国移动、联通、电信。那么虚拟运营商是什么呢?其实虚...

10-13

MySQL之导出整个及单个表数据的操作

导出单个表 mysqldump -u user -p dbname tablename db.sql 导入单个表 mysqldrop tablename; mysql -u user -p dbname db.sql 导出整个表 mysqldump --opt ...

10-18

餐饮酒店类企业彩铃内容61

【餐饮酒店213】完美品质，追求卓越！南昌市达乐宾馆酒店用品有限公司欢迎您的来电，我们将专业订做台布、口布、椅套、...

11-27

电销机器人怎么销售（电销机器人销售话术）

本篇文章给大家谈谈电销机器人怎么销售，以及电销机器人销售话术对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

02-24

品牌保护：加强法律意识

我国许多拥有传统名牌商标的企业，由于缺乏商标法律意识，给国内外一些“不义之徒”抢先注册，给他们带来巨大的损失。...

10-23

莱芜自动电销机器人公司（销售电销机器人）

今天给各位分享莱芜自动电销机器人公司的知识，其中也会对销售电销机器人进行解释，如果能碰巧解决你现在面临的问题，...

05-16

特步申请“特不服”商标商标分类为服装鞋帽

来源：界面新闻近日，特步（中国）有限公司新增商标申请信息，商标名称为“特不服”，注册号为51006936，商标分类为25...

10-23

网络电话外呼系统带数据（互联网化外呼管理系统）

本文目录一览： 1、哪家的外呼系统好用？ 2、什么是网络电话外呼系统？ 3、网络电话外呼系统哪个好？哪家的外呼系统好...

11-26

安宁移动外呼系统查询电话（中国移动安宁分公

本文目录一览：1、10085是什么？2、10085是什么电话？3、10085是什么号码4、中国移动的人工服务电话号码是多少5、10085是什么...

11-29

抖音代运营有哪些最好的抖音流量来源？

抖音的到来，改变了咱们对短视频的认识，跟着抖音的不断发展，抖音现已进入了千家万户，成为了咱们日子中不可缺失的一...

03-01

了解400电话就上信通网赢www.trust400.com

【了解400电话就上企号卡网】企号卡网网站(www.qihaoka.com)上面还可以找客服来解答对于400不懂的事情。所以说如果你对于400电...

11-07

高精度高德地图标注公司地址让无人驾驶汽车“认路”

你出门都不认路，怎么写地图的稿子?当记者动笔时，身旁的友人这样问道。未来的无人驾驶汽车也面临同样的问题。虽然作...

04-14

杭州有哪些好的网站代运营公司？

随着互联网技术的发展趋势，越来越多的传统公司刚刚开始做网络运营。但是对于大多数中小企业来说，自己组件的互联网销...

03-31

南通市7个县级呼叫中心平台服务万余名老人

目前，南通市已建成7个县级呼叫平台，为全市1万多名独居、空巢老年人提供相关服务。日前，市政协主席王德忠率市政协主...

10-19

如何办理抗封的话机通讯助手呢

之前我有一个朋友是做那种餐饮加盟的，就是给客户打电话邀约客户过来公司考察，然后让客户来加盟他们公司的项目，但是...

11-23

北京财税电话营销线路办理商家,电销机器人-终于明白

北京财税电话营销线路办理商家,电销机器人在工作质量方面还能达到更好的标准，因为电销机器人具有更为稳颜色定的系统...

12-17

潍坊市好用防封电话卡便宜

那么，分享通信面临当前困境，究竟是运营好用防封电话卡便宜状况不景气，还是因为之争所导致的呢？先从运营角度来看，...

03-01

办理400电话的收费标准400电话申请容易吗？有什么优惠套餐？

现在市场上使用的400电话很火爆，企业之所以会放心办理400电话，是因为收费很合理，在使用过程中也很方便，大家可以看看...

01-12

温州移动电话营销线路服务商,电销系统-深入探讨

温州移动电话营销线路服务商,电销系统提升企业经济效益。电销效率提升的同时，企业无需再像以前一样雇佣太多电销人员...

12-17

互联时代下中译语通引领语音行业激流勇进

如今，移动互联网给传统语音行业带来了不小的冲击。风云变化中，如何处变不惊，奋力开辟新天地，这是许多行业企业都在...

10-21

机器人语音对话app云呼ai_电话机器人

【机器人语音对话app】云呼：一个电话机器人的外呼次数约为1000/天，根据接话率和话术内容而变动【机器人语音对话app】...

10-31

400电话作用大吗400电话怎么收费的？400电话套餐推荐

企业将高度重视宣传内容，高度重视与消费者的沟通，这也是为了提高营销效率，提升外部形象。正因为如此，许多企业将...

01-13

文思海辉符山服务外包观察：印度外包重镇金奈洪水中我们的同理心

从今年十月开始，印度东南海岸地区遭受了百年一遇的强降雨，随之而来的洪水淹没了泰米尔纳德邦首府金奈。说淹没一点儿...

10-22

云南电话机器人效果怎么样

有意通过呼叫任务筛选的客户可以进行手动操作，也可以在事后由销售人员进行跟踪访问。我们可以根据呼叫场景进行不同...

10-31

利用Python如何实现K-means聚类算法

10-18

本页收集关于利用Python如何实现K-means聚类算法的相关信息资讯供网民参考！

四合一精品企业网站建设

多一个网站就为企业多增加一条营销渠道

¥888元限时抢购

立即咨询 快速购买

企业400电话

智能AI客服机器人
￥15000

在线订购

合计11份范本：公司章程+合伙协议+出资协议+合作协议+股权转让协议+增资扩股协议+股权激励+股东会决议+董事会决议

推荐文章

上一篇：(手写)PCA原理及其Python实现图文详解

下一篇：Django使用HTTP协议向服务器传参方式小结

一起分享吧