腾讯分分彩组三杀号 > 数据挖掘 >

运营商大数据挖掘——缺失数据处理

2018-07-10 02:23

  在运营商大数据挖掘的应用中,由于数据获取的渠道以及数据结构理解的差异等原因,经常会把一些数据记为“未知”,“空白”或使用一些特殊的标识来表示,这类数据通常被称为缺失数据(missing data)或者是不完备数据(incomplete data)。这些缺失数据通常会造成非常大的影响,比如缺失数据会在一定程度上影响抽取数据模式的正确性和导出规则的准确性,从而导致建立错误的数据挖掘模型,并且由于现阶段的大多数数据分析的算法都没有具备分析和处理缺失数据的能力,因而当数据集中含有缺失数据时这些已经被广泛使用的数据分析算法或者系统往往是无能为力的。目前,数据缺失的问题网舟科技团队在工作中已经取得了一些研究性成果,其中包括应用近似值替换方法、随机回归填补方法、神经网络、贝叶斯网络等理论来处理缺失数据的填补问题。

  下面就几种常用的数据补齐方法进行对分析:删除样本法、0-1填补法、均值填补法、EM算法填补、回归填补、MI算法、K-最邻近法。

  这方法的思想是将原来数据集中含有缺失数据的样本删除,从而得到一个包含完整数据的数据集。这种方法简易可行,在含有数据缺失的样本数量比较少的情况下数据补齐效果比较不错。但是,这种方法是以删除含有缺失数据的样本来得到完整数据集,经常会有浪费资源的情况发生。例如,在删除含有缺失数据样本的同时,也失去了隐含在这些样本中的大量有价值信息。并且当含有缺失数据的样本数量比较多时,这种方法对处理后得到的数据集的均值和方差分布方面都会产生较大的偏差。

  该方法是将原数据集中包含缺失数据的项全都简单地填充为0、1或者相应属性的样本均值,从而得到一个完整的数据集。

  这方法的思想是通过建立回归模型,将回归模型计算得到的预测值作为样本中缺失值的估计值。其中线性回归填补法是最常用的方法。这种方法的基本思想就是通过建立响应变量

  的缺失数据的预测值。使用回归模型的方法对缺失数据进行填补,经常会人为地增大响应变量与自变量的相关性。因此响应变量与自变量之间必须高度相关,才能使得回归效果明显。

  个最邻近样本的中位数、众数或者平均值作为缺失值的估计值;第二种方法是计算这

  的距离增加而变小。采用高斯函数作为核函数根据距离计算得到权重。假设近邻样本距样本

  EM算法是一种迭代的算法,E步(求期望值)和M步(极大化过程)构成了它的每一次迭代过程。E步是在现有的观测数据和已有参数的条件下,求解出缺失数据的相应条件期望;M步则是计算相应参数的最大似然估计值。

  EM算法在每次迭代完成后都会增大观测极大似然密度函数的函数值,因此具有很好的全局收敛性。这种方法的不足就是可能会被约束在局部的极值,所以这种方法的收敛速度不是很好,而且计算也相对比较复杂。

  个处理结果,最后寻找出较优的填补值作为缺失值的估计值。多重填补法是做出缺失数据值的一系列随机样本,这种方法准确地表明了数据缺失的不确定性,从而使得统计的推断更加准确。

  通过不同的方法对原始缺失数据补齐后,采用支持向量机对补齐后的数据进行分类,从而对比不同补齐算法对于分类性能的影响。

  支持向量机(Support Vector Machine,SVM)是一种新型的数据挖掘算法,用于分类问题。即对已经给出的一个含有

  使得训练样本从输入空间映射到特征空间。设计一个基于支持向量机的分类器,其实就是在训练集中寻找一个满足最大间隔条件下的最优超平面。

  是一个自定义的惩罚因子,使得训练误差与最大分类间隔之间达到平衡。该优化问题是一个凸二次规划问题,它的Whole对偶问题如下:

  这4个数据集均含有不同数量的缺失数据,表1列出了这4个数据集的包含样本总数、属性个数、含有缺失数据样本数以及数据缺失比例。

  针对以上4个数据集,分别应用填补0、填补1、填补均值、EM算法(EM)、回归填补法、MI算法(MI)、KNN算法(KNN)以及删除样本的方法对其缺失值进行处理,得到相应的完整数据集。其中KNN算法的k值取10。

  采用支持向量机的分类结果作为检验补齐性能指标度量。SVM的核函数分别采用线性核和Gaussian核。数据集的Gaussian核的Sigma值分别为0.00001,0.0001,0.001,0.01,0.1,1,10,100,1000,10000。使用n-折交叉检验来检验不同缺失值填补方法的处理效果,其中n值均取10。

  图1-4分别给出了支持向量机在Gaussian核下,不同Sigma值下各填补方法的效果。从图中可以选出在合适的Sigma值下,相比其他填补方法,删除样本法及回归法的填补效果比较好。从图1-4的实验结果中,我们可以选出针对不同数据的高斯核参数,即在4组数据下的相对最优Sigma参数分别为100、100、10、10。

  表2给出了支持向量机在线性核下(选用线性核的原因是该核无参数),对4个数据集使用不同填补方法的效果,从表2中可以看出删除样本准确率相对较高。

  表3给出了支持向量机在Gaussian核下,对4个数据集使用不同填补方法的效果。

  针对4个分类数据集中的数据缺失问题展开对比分析,分别应用填补0、填补1、填补均值、EM算法、回归填补法、MI算法、KNN算法以及删除样本的方法对其缺失值进行处理。使用支持向量机对数据集进行分类验证不同的缺失数据补齐方法的效果。从数值实验结果可以看出,回归补齐法及删除样本法的效果相对较好,补齐后的数据的分类准确率更高。在实际的运营商应用中,其数据样本大,或者样本中缺失属性比较多的情况,删除样本法就不够实用了,因此回归法补齐缺失数据是各类补齐数据方法中相对较好的一种。

  比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。

  比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!

  比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。

  比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。

  比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。

  比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。

  新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。

  比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。

  比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。

  IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。

  X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。