<
>

数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理

默认情况下,describe方法会统计各个四分位的值,我们可以通过percentiles参数来自定义需要统计的分为(百分位)。
在这里插入图片描述

(3)离散程度
a. 极差

极差指一组数据中,最大值和最小值之差。

b. 方差

方差体现的是一组数据中,每个元素与均值偏离的大小。
在这里插入图片描述

c.标准差

标准差为方差的开方。

关于极差、方差和标准差:
在这里插入图片描述

我们以花萼长度来看下离散程度:

# 计算极差。
sub = data["sepal_length"].max() - data["sepal_length"].min()
# 计算方差。
var = data["sepal_length"].var()
# 计算标准差。
std = data["sepal_length"].std()
print(sub, var, std)

var()
方差、
std()
标准差
结果:
3.6000000000000005 0.6856935123042505 0.8280661279778629

可视化显示:

plt.figure(figsize=(15, 4))
plt.ylim(-0.5, 1.5)
plt.plot(data["petal_length"], np.zeros(len(data)), ls="", marker="o", ms=10, color="g", label="花瓣长度")
plt.plot(data["petal_width"], np.ones(len(data)), ls="", marker="o", ms=10, color="r", label="花瓣宽度")
plt.axvline(data["petal_length"].mean(), ls="--", color="g", label="花瓣长度均值")
plt.axvline(data["petal_width"].mean(), ls="--", color="r", label="花瓣宽度均值")
plt.legend()

在这里插入图片描述
从图形可以看出:
花瓣宽度(红色的)围绕均值更加集中,而花瓣长度(绿色的)围绕均值更加分散。
从方差或者标准差的角度绿色的方差就会大,而红色的方差就会小。

(4)分布形状
a. 偏度

偏度是统计数据分布倾斜方向和程度的度量,是统计数据分布非对称程度的数学特征。
在这里插入图片描述
在这里插入图片描述

# 构造左偏分布数据。
              
暂时禁止评论

微信扫一扫

易采站长站微信账号