<
>

数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理

以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。

数理统计基础-描述性统计分析1、数理统计基础2、描述性统计分析概述(1)概念(2)变量的类型3、统计量(1)频数与频率a. 频数b. 频率(2)集中趋势a. 均值b. 中位数c. 众数d. 分位数(3)离散程度a. 极差b. 方差c.标准差(4)分布形状a. 偏度b. 峰度4、总结
1、数理统计基础

数理统计,以概率论为基础,研究大量随机现象的统计规律性。数理统计分为如下两类:

描述统计
推断统计

数理统计在数据分析领域具有非常重要的地位。

2、描述性统计分析概述
(1)概念

什么是描述性统计分析?

描述性统计分析,就是从总体数据中提取变量的主要信息(总和、均值等),从而从总体层面上,对数据进行统计性描述。在统计的过程中,通常会配合绘制相关的统计图来进行辅助。

描述性统计所提取统计的信息,我们称为**

统计量
**,主要包括以下几个方面:

频数与频率
- 频数
- 频率

集中趋势分析
- 均值
- 中位数
- 众数
- 分位数

离散程度分析
- 极差
- 方差
- 标准差

分布现状
- 偏度
- 峰度

(2)变量的类型

从统计学角度看,变量可以分为以下两种类型。

变量的类型:

类别变量(变量的值是一个具体的类别)

无序类别变量(名义变量)
(变量的各个取值之间没有大小顺序之分)
有序类别变量(等级变量)
(变量值之间有大小之分)

数值变量(具体的一个数值)

连续变量(区间之内取任意一个值)
离散变量(不能取区间内的任意值,只能取整数值)

3、统计量
(1)频数与频率

数据的频数与频率统计适用于类别变量。

a. 频数

频数,指数据中类别变量每个不同取值出现的次数。
例如:我们去超市买苹果,买了5次,这个就是频数。

b. 频率

频率,指每个类别变量的频数与总次数的比值,通常采用百分数表示。
例如:我们取超市买苹果5次,总公去了10次,那么5/10(50%)就是频率。

我们以鸢尾花(iris)数据集进行分析:
鸢尾花数据集中包含150行4列3类数据,每类各50个数据。

暂时禁止评论

微信扫一扫

易采站长站微信账号