数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源：易采站长站作者：易采站长站整理

s = data["sepal_length"].mode()
# 注意，mode方法返回的是Series类型。
mode = s.iloc[0]print(mean, median, mode)

mean()

均值，

median()

中位数，

mode()

众数
结果：

我们可以看到结果中鸢尾花的花萼长度列，均值和中位数几乎相等，我们猜想该数据应该是对称分布的，符合正态分布，这也应了自然界的数据都符合正态分布的说法。

我们也可以使用scipy中的stats模块来求一组数据的众数。

from scipy import stats
stats.mode(data["sepal_length"]).mode

结果：array([5.])，可以看到和Series算出来的众数是一样的。
接下来把上面的数据进行可视化：

# 绘制数据的分布（直方图 + 密度图）。
sns.distplot(data["sepal_length"])
# 绘制垂直线。
plt.axvline(mean, ls="-", color="r", label="均值")
plt.axvline(median, ls="-", color="g", label="中值")
plt.axvline(mode, ls="-", color="indigo", label="众数")
plt.legend()