数据分析师一定要掌握的基础——描述性统计分析
2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理
t1 = np.random.randint(1, 11, size=100)
t2 = np.random.randint(11, 21, size=500)
t3 = np.concatenate([t1, t2])
left_skew = pd.Series(t3)
# 构造右偏分布数据。
t1 = np.random.randint(1, 11, size=500)
t2 = np.random.randint(11, 21, size=100)
t3 = np.concatenate([t1, t2])
right_skew = pd.Series(t3)
# 计算偏度。
print(left_skew.skew(), right_skew.skew())
# 绘制核密度图。
sns.kdeplot(left_skew, shade=True, label="左偏")
sns.kdeplot(right_skew, shade=True, label="右偏")
plt.legend()
偏度结果:
-0.858626159687255 0.8159924321369632
核密度(概率密度分布)图:
有极大或极小值时,也就是出现左偏或者右偏分布数据的时候,不适用使用均值,因为均值会被异常值所影响,这个时候可以使用中位数或者众数说明,又或者我们提前把异常值处理掉再使用也可以。
b. 峰度
峰度是描述总体中所有取值分布形态陡缓程度的统计量。可以将峰度理解为数据分布的高矮程度。峰度的比较是相对于标准正态分布的。

standard_normal = pd.Series(np.random.normal(0, 1, size=10000))
print("标准正态分布峰度:", standard_normal.kurt(), "标准差:", standard_normal.std())
print("花萼宽度峰度:", data["sepal_width"].kurt(), "标准差:", data["sepal_width"].std())
print("花瓣长度峰度:", data["petal_length"].kurt(), "标准差:", data["petal_length"].std())
sns.kdeplot(standard_normal, label="标准正态分布")
sns.kdeplot(data["sepal_width"], label="花萼宽度")
sns.kdeplot(data["petal_length"], label="花瓣长度")
结果:

和标准正态分布比较:
峰度越大,标准差越小并且小于标准正态分布的标准差,其图形月窄。
峰度越小,标准差越大并且大于标准正态分布的标准差,其图形越宽。
4、总结
描述性统计分析的概念和应用。
频率与频数的使用。
集中趋势与离散程度。
数据分析形状之偏度和峰度。
各种统计量使用Python实现。
作者:糖潮丽子~辣丽
暂时禁止评论













闽公网安备 35020302000061号