公告:
边界代数算法 您当前所在位置:龙虎和计划免费软件 > 边界代数算法 > 正文

对于选择曼哈顿距离度量样本间距离的k近邻算法

来源:未知作者:admin 更新时间:2018-05-16 04:30
:kmeans算法作为无监视算法的一种,对初始点的选择比力敏感;而k近邻作为一种惰性且有监视的算法,对k值和样本间距离怀抱体例的选择也会影响成果。改良的kmeans算法通过遍历样本,筛选初始点,其精确率跨越了k近邻算法,同时不变性也优于保守的kmeans算法。

  :kmeans算法作为无监视算法的一种,对初始点的选择比力敏感;而k近邻作为一种惰性且有监视的算法,对k值和样本间距离怀抱体例的选择也会影响成果。改良的kmeans算法通过遍历样本,筛选初始点,其精确率跨越了k近邻算法,同时不变性也优于保守的kmeans算法。无监视算法在一些环境下优于有监视算法。

  摘要:kmeans算法作为无监视算法的一种,对初始点的选择比力敏感;而k近邻作为一种惰性且有监视的算法,对k值和样本间距离怀抱体例的选择也会影响成果。改良的kmeans算法通过遍历样本,筛选初始点,其精确率跨越了k近邻算法,同时不变性也优于保守的kmeans算法。无监视算法在一些环境下优于有监视算法。

  上个世纪60年代,MacQueen初次提出kmeans算法[1],尔后的数十年中,kmeans算法被普遍使用于各类范畴,好比马勇等人将kmeans算法使用在医疗系统中[2],杨明峰等人将kmeans聚类算法使用于对烤烟外观的区域分类[3]。同时良多的学者投入到对kmeans算法本身特征的研究中[4-5],目前kmeans算法曾经成为机械进修,数据挖掘等范畴比力主要的方式之一。而k近邻算法是图像以及文天职类范畴使用比力普遍的算法之一[6-7],对k近邻算法而言,k值的选择以及样本间距离的怀抱体例城市影响到分类的切确度。可是同样有很多学者对该算法进行了一些改善,好比孙秋月等[8]通过对怀抱的样本数据的每个维度赋分歧权值的体例,24小吋澳门娱乐手机版在线降低了样本数据分布不服均导致的分类误差。严晓明等通过类别平均距离进行加权对大于某一个阈值的数据样本点进行剔除的体例来提高k近邻算法的精度[9]。k近邻算法本身是一种惰性的监视算法,相较于其他监视算法好比支撑向量机、逻辑回归、随机树等,具有算法简单、易于理解、易于实现、无需估量参数的特征。kmeans算法因为对初始点选择较敏感,分歧的初始点将会导致分歧的聚类成果。因而本文对kmeans算法进行改良,改良的kmeans算法对二分类的成果能够接近k近邻算法的准确率,以至在k近邻算法选择分歧的k值时,分类结果会优于采用k近邻算法的分类成果准确率,同时分类的成果也远高于随机指定初始点的kmeans算法。

  对于保守的kmeans算法而言,对于给定的数据集n个样本,在不晓得数据集的标识表记标帜时,通过指定该数据集中的k(k≤n)数据样本作为初始核心,通过如下的体例进行聚类:

  (1)对该数据集中肆意一个数据样本求其到k个核心的距离,将该数据样本归属到数据样本距离核心最短的类;

  (3)反复上述过程1和2更新类核心,若是类核心不变或者类核心变化小于某一个阈值,则更新竣事,构成类簇,不然继续。

  可是对于保守的kmeans聚类算法而言,因为随机指定初始点,对kmeans算法通过迭代如许一种开导式的贪默算法而言不克不及构成一个全局最优解,迭代最终收敛的成果可能都是局部最优解。如许分类的精度就会难以意料,对最终的样天职类就难以消弭随机指定初始点形成的聚类成果不分歧的影响。

  对于保守的k近邻算法而言,对于给定的数据集,有n个数据样本是已标识表记标帜的,另一部门数据样本是未标识表记标帜的,对未标识表记标帜的数据样本,通过如下的体例进行分类:

  (2)对所有求出的距离选择与未标识表记标帜数据样本距离比来的k(k≤n)个已标识表记标帜数据样本;

  (3)统计这k个已标识表记标帜的数据样本,哪一类的数据样本个数最多,则未标识表记标帜的数据样本标识表记标帜为该类样本K近邻算法没有一个数据样本锻炼的过程,本身是一种惰性的监视算法,该算法对k值的选择以及距离的怀抱体例城市影响最终的分类精度。由于该算法只是选择。澳门娱乐场手机游戏

  k个近邻而没有判断近邻中样天性否分布得平均。因而,该算法若是样天职布不服均,也会大大影响分类的成果。

  对于给定的数据集样本,kmeans能够通过两两比力数据集中数据样本点间的距离,选择距离最远的两个点A,B作为初始标识表记标帜。同时为了去除噪声对初始点的影响,对于选定的初始标识表记标帜点,能够选择以初始标识表记标帜点为核心,与初始标识表记标帜点距离小于阈值的若干个点的几何均值作为最终的初始点。对于A初始标识表记标帜点的若干点的选择准绳是离初始标识表记标帜A距离与离B距离的比值大于必然阈值的若干点,而对于B初始标识表记标帜点的若干点的选择准绳是离初始标识表记标帜B距离与A距离的比值大于必然阈值的若干点。选定了初始点后,其后的步调如下:

  (1)对该数据集中肆意一个数据样本求其到两个核心的距离,将该数据样本归属到数据样本距离短的类;

  (3)反复上述过程1和2更新类核心,若是类核心不变或者类核心变化小于某一个阈值,则更新竣事,构成类簇,不然继续。

  采用手写数字集MNIST Handwritten Digits[10]进行尝试,该数字集库含有0-9的10类手写锻炼数据集和0-9的10类手写测试数据集。每个数据集样本的大小是28*28的图片,转化成向量是1*784维大小。从手写数据集中抽取标识表记标帜为1和2的两类数据集样本,从这类数据集中随机抽取标识表记标帜为1和2的数据样本各1000个,共计2000个数据样本进行尝试阐发。从这2000个数据样本中随机选择1600个数据样本(标识表记标帜为1和2的两类数据各800个数据样本)进行k近邻阐发,400个数据样本(标识表记标帜为1和2的两类数据样本各200个)进行测试。对于改良的kmeans算法,将小于阈值的5个点取几何均值作为最终的初始点和保守的kmeans算法采用400个数据样本进行测试。改良的kmeans算法测试的准确率为84.25%,保守的kmeans算法初始值不确定,可能的准确率为15.75%,51%以及83.75%等。很较着,改良的kmeans算法不管从精度仍是不变性方面都优于保守的kmeans算法。k近邻算法选择曼哈顿距离和欧式距离作为距离怀抱的体例,同时改变k值对k近邻算法的成果进行丈量,成果如图1所示, 横轴暗示k值选择的样本数,纵轴暗示对应的测试准确率。

  从图1中能够看出,跟着近邻数的增加,在必然的范畴内,k近邻的精度是下降趋向。澳门娱乐场手机游戏对于选择曼哈顿距离怀抱样本间距离的k近邻算法,当k值大于200的时候,k近邻算法对样本的分类准确率较着低于改良的kmeans算法对样天职类的准确率。而采用欧式距离怀抱样本间距离的k近邻算法,当k值大于380的时候,k近邻算法对样本的分类准确率才较着低于改良的kmeans算法对样天职类的准确率。因而对于k近邻算法而言,k近邻数目标选择以及样本间距离怀抱的体例对分类的成果都是至关主要的。同时从中能够发觉,在某些环境下,无监视的进修体例可能比有监视的进修体例更有益,也更便利。

  本文来历于中国科技焦点期刊《电子产物世界》2016年第1期第79页,接待您写论文时援用,并说明出处。

关于我们
联系我们
  • 杭州浩博建筑装饰工程有限公司
  • 联系地址:杭州市益乐路方家花苑43号2楼
  • 电 话:0571-85360638
  • 传 真:0571-85360638