数据分析师一定要掌握的基础——描述性统计分析
2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理
s = data["sepal_length"].mode()
# 注意,mode方法返回的是Series类型。
mode = s.iloc[0]print(mean, median, mode)
mean()均值,
median()中位数,
mode()众数结果:
我们可以看到结果中鸢尾花的花萼长度列,均值和中位数几乎相等,我们猜想该数据应该是对称分布的,符合正态分布,这也应了自然界的数据都符合正态分布的说法。
我们也可以使用scipy中的stats模块来求一组数据的众数。
from scipy import stats
stats.mode(data["sepal_length"]).mode
结果:array([5.]),可以看到和Series算出来的众数是一样的。
接下来把上面的数据进行可视化:
# 绘制数据的分布(直方图 + 密度图)。
sns.distplot(data["sepal_length"])
# 绘制垂直线。
plt.axvline(mean, ls="-", color="r", label="均值")
plt.axvline(median, ls="-", color="g", label="中值")
plt.axvline(mode, ls="-", color="indigo", label="众数")
plt.legend()
distplot 核密度图
d. 分位数

把数据集分成若干个区间,分为几就为几分位数。
先排序再分位,分位大致相等的若干区间。
给定一组数据,假设存放在数组中,我们要如何计算其四分位值呢?首先要明确一点,四分位值未必一定等同于数组中的某个元素。
在Python中四分位值的计算方式如下:
首先,计算四分位的位置。
其中,位置索引index从0开始,n为数组中元素的个数。
假设现在n=5,我们来计算下四分位值分别是多少?
根据位置计算四分位值。
暂时禁止评论













闽公网安备 35020302000061号