腾讯分分彩组三杀号 > Web分析 >

一款Web数据清洗系统的介绍

2018-07-21 12:35

  目前信息技术不断发展,数据库技术日益成熟,BigData技术不断崛起,很多企业数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理、企业发展、企业的利益有决策性的作用。同时,随着Web的迅速普及,网站的数量越来越多,也越来越多的企业和个人都习惯在网站上发布信息,查找信息,获取信息。

  问题就来了,一个网站不可能汇集到企业所需的所有的信息,就要从多个网站采集挖掘所需信息。由于各个专业素养不一致,网站滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位等等一系列 问题导致产生了 不完整的数据、错误的数据和重复的数据,这三大类数据又称为脏数据。所以企业在得到最有用的数据之前,需要对脏数据进行清洗,消除这三大类的脏数据,提高数据的可用性,保证数据的质量,实现数据的高效查询与利用。

  探码基于Web中采集到的数据,检测并消除数据源中存在的属性错误和重复与相似的记录问题,研发出一种通用的数据清洗系统,从而保证数据的可信度和可用性。

  关于Web数据清洗,主要时为了提高数据的可用性与可信度。目前数据清洗主要应用于这几个领域:数据仓库、数据挖掘、数据质量管理。

  首先,数据仓库是为了支持决策分析的数据集合,数据挖掘是建立在数据仓库基础上的增值技术。数据清洗对于数据仓库应用和数据挖掘应用来说,是获取可靠、有效数据的一个基本步骤,是基础中的基础。

  其次,数据质量管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据质量管理必须做到数据的完整性、唯一性、一致性、准确性和合法性,做到这些,就需要数据质量处理数据标准化、匹配、生存和质量监测。

  采用云主机提供商Ucloud的云主机或者阿里云,保证7*24 小时运行。

  探码主要是采用的技术前沿先进的技术框架,实现Web前端展示,展示处爬虫程序抓取的数据,利于清洗。