一文看懂探索性数据分析 | EDA(基本概念+3步实践法)
- Home
- AI 知识库
- 特征工程
探索性数据分析 | EDA
heading.anchorLabel文章目录
探索性数据分析是拿到原始数据后,通过技术手段帮助自己更好的理解数据、提取出「好特征」、建立初步模型的过程。
本文将介绍数据的分类方式,以及不同类型的数据如何可视化的具体方法。
什么是探索性数据分析?
heading.anchorLabel说到篮球,大家都知道身高、臂展是运动员的关键特征。 那手球呢?相信大部分人都说不出来。 遇到自己不熟悉的领域,需要快速对陌生领域有一定的理解。 有2种方法来帮助我们理解陌生领域:
- 咨询业内人士。资深的业内人士会传授一些他们的经验。
- 去研究一下陌生领域的数据。我们可以把手球运动员的身体数据和成绩数据拿过来做分析,看看最优秀的手球运动员都有哪些特点。在没有任何行业经验的情况下,通过对数据的洞察,也能有一些发现。
上面的第二条路就是:探索性数据分析 | Exploratory Data Analysis | EDA
探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。
探索性数据分析的目的是尽可能是洞察数据集、发现数据的内部结构、提取重要的特征、检测异常值、检验基本假设、建立初步的模型。
探索性数据分析的3步方法
heading.anchorLabel
探索性数据分析的过程大致分为3步:
- 数据分类
- 数据可视化
- 洞察数据
第一步:数据分类
heading.anchorLabel当我们拿到数据后,第一步就是把这些数据进行分类,然后用不同方法来处理不同类型的数据。
数据由粗到细可以按照下面的方式来分类:
结构化数据 VS 非结构化数据
结构化数据:能够用表格来组织的数据都算是结构化的数据。
例如:Excel里的数据、MySQL里的数据…
非结构化数据:非表格形式组织的都是。
例如:文本、图片、视频…
定量数据 VS 定性数据
定量数据:数值类型,衡量某样东西的数量。
例如:1985
定性数据:类别,描述某样东西的性质。
例如:80后
数据的4个等级
定类等级(norminal level):是数据的第一个等级,其结构最弱。只需要按照名称来分类。
例如:血型(A,B,AB,O)、姓名、颜色
定序等级(ordinal level):定序等级在定类等级的基础上加了自然排序,这样我们就可以对不同数据进行比较。
例如:餐厅的评星,公司的考核等级
定距等级(interval level):定距等级一定是数值类型的,并且这些数值不仅可以用来排序,还可以用来加减。
例如:华氏度、摄氏度(温度有负数,不可以进行乘除运算)
定比等级(ratio level):在定距等级的基础上,加入了绝对零点,不但可以做加减的运算,还可以做乘除的运算。
例如:金钱、重量
第二步:数据可视化
heading.anchorLabel为了更好的洞察数据,我们可以将数据可视化,从而更好的观察数据的特点。
常用的数据可视化有下面几种:
上面的4个数据等级需要对应不同的可视化方法,下面整理了一个表格,可以帮助大家更好的选择可视化的方案。
下面是一些基础的可视化方案,在实际应用中,会有更复杂的,组合图表可以使用。
数据等级
属性
描述性统计
图表
定类
离散、无序
频率占比、众数
条形图、饼图
定序
有序类别、比较
频率、众数、中位数、百分位数
条形图、饼图
定距
数字差别有意义
频率、众数、中位数、均值、标准差
条形图、饼图、箱线图
定比
连续
均值、标准差
条形图、曲线图、饼图、箱线图
第三步:洞察数据
heading.anchorLabel数据的可视化可以帮助我们更好的洞察数据,我们可以更高效的发现哪些数据更重要,不同数据之间可能存在的关系,哪些数据会相互影响… 之所以叫探索性数据分析,就是没什么固定的套路,所以这一步没什么好讲的。
探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。 探索性数据分析的过程大致分为3步:
- 数据分类
- 数据可视化
- 洞察数据 2021年3月8日 by 打不死的小强 Updated: 2022年8月16日
EDA, 探索性数据分析, 特征工程 Thanks for your rating! You have already rated this article An error occured, please try again later
Was This Article Helpful?
heading.anchorLabel3
这篇文章讲了什么?
heading.anchorLabel本文介绍了相关AI概念的基本原理和应用场景。
有什么实际应用?
heading.anchorLabel该技术在计算机视觉、自然语言处理、推荐系统等领域有广泛应用。