数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源：易采站长站作者：易采站长站整理

t1 = np.random.randint(1, 11, size=100)
t2 = np.random.randint(11, 21, size=500)
t3 = np.concatenate([t1, t2])
left_skew = pd.Series(t3)
# 构造右偏分布数据。
t1 = np.random.randint(1, 11, size=500)
t2 = np.random.randint(11, 21, size=100)
t3 = np.concatenate([t1, t2])
right_skew = pd.Series(t3)
# 计算偏度。
print(left_skew.skew(), right_skew.skew())
# 绘制核密度图。
sns.kdeplot(left_skew, shade=True, label="左偏")
sns.kdeplot(right_skew, shade=True, label="右偏")
plt.legend()

偏度结果：
-0.858626159687255 0.8159924321369632
核密度（概率密度分布）图：
在这里插入图片描述

有极大或极小值时，也就是出现左偏或者右偏分布数据的时候，不适用使用均值，因为均值会被异常值所影响，这个时候可以使用中位数或者众数说明，又或者我们提前把异常值处理掉再使用也可以。

b. 峰度

峰度是描述总体中所有取值分布形态陡缓程度的统计量。可以将峰度理解为数据分布的高矮程度。峰度的比较是相对于标准正态分布的。

在这里插入图片描述

standard_normal = pd.Series(np.random.normal(0, 1, size=10000))
print("标准正态分布峰度：", standard_normal.kurt(), "标准差：", standard_normal.std())
print("花萼宽度峰度：", data["sepal_width"].kurt(), "标准差：", data["sepal_width"].std())
print("花瓣长度峰度：", data["petal_length"].kurt(), "标准差：", data["petal_length"].std())
sns.kdeplot(standard_normal, label="标准正态分布")
sns.kdeplot(data["sepal_width"], label="花萼宽度")
sns.kdeplot(data["petal_length"], label="花瓣长度")

结果：
在这里插入图片描述

和标准正态分布比较：
峰度越大，标准差越小并且小于标准正态分布的标准差，其图形月窄。
峰度越小，标准差越大并且大于标准正态分布的标准差，其图形越宽。