<
>

数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理

reshape
来将一维数组转换为二维数组。
axis=1 表示纵向,此时为纵向拼接。
在这里插入图片描述
我们以类型(type)列为例,来计算鸢尾花每个类别的频数和频率。

# 计算鸢尾花数据中,每个类别出现的频数。
frequency = data["type"].value_counts()
display(frequency)
# 计算每个类别出现的频率,通常使用百分比表示。
percentage = frequency * 100 / len(data)
display(percentage)

len(data) 鸢尾花数据的总长度;
因为要用百分比表示所以要乘以100;
value_counts() 计算个数。
在这里插入图片描述
从结果可知,类别中0,1,2分别出现了50次,他们的频率分别为33.333333
我们用柱形图来看下类别的个数情况:
在这里插入图片描述

(2)集中趋势
a. 均值

均值,即平均值,其为一组数据的总和除以数据的个数。

b. 中位数

将一组数据升序排列,位于该组数据最中间位置的值,就是中位数,如果数据个数为偶数,则取中间两个数值的均值。

c. 众数

一组数据中出现次数最多的值。

关于三者,说明如下:
在这里插入图片描述
三者的关系如下图所示:
在这里插入图片描述
什么是正态分布(对称分布)?
正态分布是以均值作为对称的一种分布形式。
左偏分布:
存在少数的极小值。
右偏分布:
存在少数的极大值。
怎么区分左偏分布和右偏分布?
从图形中间切一刀,哪边面积少就是什么分布。
例如:下面图形右边的面积少,所以就是右偏分布
这里右边的面积少,所以就是右偏分布

接下来我们以鸢尾花长度为例,计算其集中趋势:

 # 计算花萼长度的均值。
mean = data["sepal_length"].mean()
# 计算花萼长度的中位数。
median = data["sepal_length"].median()
# 计算花萼长度的众数。
暂时禁止评论

微信扫一扫

易采站长站微信账号