一文看懂探索性数据分析 | EDA(基本概念+3步实践法)
- Home
- AI 知识库
- 特征工程
探索性数据分析 | EDA
Section titled “探索性数据分析 | EDA”文章目录
探索性数据分析是拿到原始数据后,通过技术手段帮助自己更好的理解数据、提取出「好特征」、建立初步模型的过程。
本文将介绍数据的分类方式,以及不同类型的数据如何可视化的具体方法。
什么是探索性数据分析?
Section titled “什么是探索性数据分析?”说到篮球,大家都知道身高、臂展是运动员的关键特征。 那手球呢?相信大部分人都说不出来。 遇到自己不熟悉的领域,需要快速对陌生领域有一定的理解。 有2种方法来帮助我们理解陌生领域:
- 咨询业内人士。资深的业内人士会传授一些他们的经验。
- 去研究一下陌生领域的数据。我们可以把手球运动员的身体数据和成绩数据拿过来做分析,看看最优秀的手球运动员都有哪些特点。在没有任何行业经验的情况下,通过对数据的洞察,也能有一些发现。
上面的第二条路就是:探索性数据分析 | Exploratory Data Analysis | EDA
探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。
探索性数据分析的目的是尽可能是洞察数据集、发现数据的内部结构、提取重要的特征、检测异常值、检验基本假设、建立初步的模型。
探索性数据分析的3步方法
Section titled “探索性数据分析的3步方法”
探索性数据分析的过程大致分为3步:
- 数据分类
- 数据可视化
- 洞察数据
第一步:数据分类
Section titled “第一步:数据分类”当我们拿到数据后,第一步就是把这些数据进行分类,然后用不同方法来处理不同类型的数据。
数据由粗到细可以按照下面的方式来分类:
结构化数据 VS 非结构化数据
结构化数据:能够用表格来组织的数据都算是结构化的数据。
例如:Excel里的数据、MySQL里的数据…
非结构化数据:非表格形式组织的都是。
例如:文本、图片、视频…
定量数据 VS 定性数据
定量数据:数值类型,衡量某样东西的数量。
例如:1985
定性数据:类别,描述某样东西的性质。
例如:80后
数据的4个等级
定类等级(norminal level):是数据的第一个等级,其结构最弱。只需要按照名称来分类。
例如:血型(A,B,AB,O)、姓名、颜色
定序等级(ordinal level):定序等级在定类等级的基础上加了自然排序,这样我们就可以对不同数据进行比较。
例如:餐厅的评星,公司的考核等级
定距等级(interval level):定距等级一定是数值类型的,并且这些数值不仅可以用来排序,还可以用来加减。
例如:华氏度、摄氏度(温度有负数,不可以进行乘除运算)
定比等级(ratio level):在定距等级的基础上,加入了绝对零点,不但可以做加减的运算,还可以做乘除的运算。
例如:金钱、重量
第二步:数据可视化
Section titled “第二步:数据可视化”为了更好的洞察数据,我们可以将数据可视化,从而更好的观察数据的特点。
常用的数据可视化有下面几种:
上面的4个数据等级需要对应不同的可视化方法,下面整理了一个表格,可以帮助大家更好的选择可视化的方案。
下面是一些基础的可视化方案,在实际应用中,会有更复杂的,组合图表可以使用。
数据等级
属性
描述性统计
图表
定类
离散、无序
频率占比、众数
条形图、饼图
定序
有序类别、比较
频率、众数、中位数、百分位数
条形图、饼图
定距
数字差别有意义
频率、众数、中位数、均值、标准差
条形图、饼图、箱线图
定比
连续
均值、标准差
条形图、曲线图、饼图、箱线图
第三步:洞察数据
Section titled “第三步:洞察数据”数据的可视化可以帮助我们更好的洞察数据,我们可以更高效的发现哪些数据更重要,不同数据之间可能存在的关系,哪些数据会相互影响… 之所以叫探索性数据分析,就是没什么固定的套路,所以这一步没什么好讲的。
探索性数据分析就是利用各种技术手段(大部分都是利用数据可视化)探索数据内部结构和规律的一种数据分析方法和理念。 探索性数据分析的过程大致分为3步:
- 数据分类
- 数据可视化
- 洞察数据 2021年3月8日 by 打不死的小强 Updated: 2022年8月16日
EDA, 探索性数据分析, 特征工程 Thanks for your rating! You have already rated this article An error occured, please try again later
Was This Article Helpful?
Section titled “Was This Article Helpful?”3
这篇文章讲了什么?
Section titled “这篇文章讲了什么?”本文介绍了相关AI概念的基本原理和应用场景。
有什么实际应用?
Section titled “有什么实际应用?”该技术在计算机视觉、自然语言处理、推荐系统等领域有广泛应用。