根据早期的大数据行业的调查发现,数据科学家工作中“最难受”的方面是数据清理,这占据了他们约60%的时间。
即使在近几年,数据清理仍是数据科学家耗时较长的工作内容。虽然2020年进行的一项调查显示出现在只将约45%的时间用于数据清理等数据准备工作,但这仍然表明,数据清理依然是个令人头疼的问题。
大多数人都同意,我们在使用数据时,您的见解和分析的质量与您所使用的数据的质量直接相关。如何保证数据的质量,在大数据分析计算工作中,是最为重要的一个内容。
如果您希望在企业内部建立一种围绕使用高质量数据进行分析决策的企业文化,最关键的第一步也是数据清理。
正如我们在之前的文章《什么是大数据》中所说的大数据的价值密度低的特征:价值密度的高低与数据总量的大小成反比。这也意味着如何从大规模数据中提炼高价值的内容是大数据分析最为重要的部分。
那么什么是数据清理?为什么它如此重要?它能解决什么问题,本章内容将带您深入探讨。
数据清理,也叫数据清洗,是大数据分析的一项重要工作。它的主要目的是组织和修复错误的、结构不正确的或无序的数据的过程。
譬如说,您可以以不同的方式取得客户的电话号码,比如调查问卷,抽奖活动等等。但最终这些电话号码都需要标准化,以保证在使用它们之前,它们的格式都是相同的。
有序的、结构化的标准数据才能为我们所用,产生实际的价值。但多数情况下,有各种不同的原因导致数据可能无序、无组织、不标准。有可能地址格式不一致,记录重复,有些需要适当地处理空格等等。
遇到这种问题,就需要用到数据清理。
你可以使用多种技术来清理数据。可以用Excel清理,使用Python或SQL查询中手动处理。也可以使用专门的清理数据的软件,如Trifacta。此外,它偶尔也会用于ETL(Extract Transform Load,数据仓库技术)过程中,当数据从源中提取并装入仓库时,ETL过程会清理数据。
只要有错误或无用的数据产生,就需要进行数据清理。而产生错误、无用数据又是不可避免的,特别是当数据是由个人手动提交时,信息经常是不正确的,机器生成的数据也可能包含潜在的错误,特别是如果生产数据与来自测试数据源的数据相结合。
机器产生的很多数据都是以一种对机器有帮助而对人类没有帮助的方式产生的。举个例子,在记录大量事件数据时,一些字段经常被放在另一个字段中,以使数据更容易存储。虽然这种结构通常对机器人有利,但它对人类的分析具有挑战性。
推荐阅读:《2023年7大数据清理工具!》
更高质量的数据会影响包含数据的每项活动。几乎所有现代业务流程都涉及数据。当数据清理被视为一项重要的组织工作时,它可以为所有人带来广泛的好处。一些最大的优势包括:
另外,很多企业正在努力利用数据分析来提高公司绩效并获得相对于竞争对手的竞争优势,这也导致业务运营和决策正变得越来越受数据驱动。因此,干净的数据对于企业领导、市场经理、销售代表、运营人员以及BI和数据科学团队都是必不可少的。这一点适用于所有大大小小的企业,但尤其适用于零售、金融服务和其他数据密集型行业。
如果数据没有得到充分的清理,客户记录和其他的企业数据可能不可靠,分析工具可能产生不准确的信息,然后产生一系列糟糕的业务决策和错误的规划,最终可能会增加费用、降低收入和利润。根据IBM在2016年的一项估算,数据质量问题让美国企业损失了3.1万亿美元。
通过定位和消除错误来清理数据集,这是数据清理的本质。保证您所处理的数据总是准确和高质量的,这是数据清理的最终目标。
另外一些调查表明,如果不加以有效管理,企业数据集的质量也可能以惊人的速度恶化。例如,根据大多数分析师的说法,B2B客户数据以每年至少30%的速度恶化,在一些高周转率的业务中,甚至可以达到每年70%。
数据集的洁净度和一般质量的度量包括数据的以下属性和特征:
数据质量度量是由数据管理团队开发的,用于监控这些特征以及数据集中的错误率和总体错误数量等元素。许多人还努力确定数据质量问题的商业影响,以及解决这些问题的潜在财务价值,部分是通过调查和与公司领导的对话。
而关于如何清理数据,清理数据的方法有哪些,我们在《如何清理数据?数据清理的方法有哪些?》一文继续探讨。
本文链接:http://task.lmcjl.com/news/16423.html