<
>

数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理


s = data["sepal_length"].mode()
# 注意,mode方法返回的是Series类型。
mode = s.iloc[0]print(mean, median, mode)

mean()
均值,
median()
中位数,
mode()
众数
结果:在这里插入图片描述
我们可以看到结果中鸢尾花的花萼长度列,均值和中位数几乎相等,我们猜想该数据应该是对称分布的,符合正态分布,这也应了自然界的数据都符合正态分布的说法。

我们也可以使用scipy中的stats模块来求一组数据的众数。

from scipy import stats
stats.mode(data["sepal_length"]).mode

结果:array([5.]),可以看到和Series算出来的众数是一样的。
接下来把上面的数据进行可视化:

# 绘制数据的分布(直方图 + 密度图)。
sns.distplot(data["sepal_length"])
# 绘制垂直线。
plt.axvline(mean, ls="-", color="r", label="均值")
plt.axvline(median, ls="-", color="g", label="中值")
plt.axvline(mode, ls="-", color="indigo", label="众数")
plt.legend()

distplot
核密度图
在这里插入图片描述

d. 分位数

在这里插入图片描述
把数据集分成若干个区间,分为几就为几分位数。
先排序再分位,分位大致相等的若干区间。
在这里插入图片描述
给定一组数据,假设存放在数组中,我们要如何计算其四分位值呢?首先要明确一点,四分位值未必一定等同于数组中的某个元素。
在Python中四分位值的计算方式如下:

首先,计算四分位的位置。
在这里插入图片描述
其中,位置索引index从0开始,n为数组中元素的个数。
假设现在n=5,我们来计算下四分位值分别是多少?
在这里插入图片描述
根据位置计算四分位值。
在这里插入图片描述

暂时禁止评论

微信扫一扫

易采站长站微信账号