数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源：易采站长站作者：易采站长站整理

每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于（iris-setosa, iris-versicolour, iris-virginica）中的哪一品种。

》》》导入库、设置图形样式等：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
import warnings# 设置seaborn绘图的样式。
# darkgrid 设置成暗色的网格的形式
sns.set(style="darkgrid")
# 设置字体
plt.rcParams["font.family"] = "SimHei"
# 对符号的支持
plt.rcParams["axes.unicode_minus"] = False
# 忽略警告信息。
warnings.filterwarnings("ignore")

我们来加载数据查看下：

# 加载鸢尾花数据集。
iris = load_iris()
display(iris)

data 就是鸢尾花的数据，我们这里只展示部分数据：
在这里插入图片描述
target 就是鸢尾花的类别，类别为0，1，2

三种鸢尾花的类别分别是什么呢？

分类是山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)、维吉尼亚鸢尾花(Iris Virginica)。
接着我们看下具体的数据：
因为数据太多，我们只利用切片查看前10行数据，类别也查看前10行。

# iris.data：鸢尾花数据集。
# iris.target：每朵鸢尾花对应的类别。（取值为0,1,2）
display(iris.data[:10], iris.target[:10])
# iris.feature_names：特征列的名称。
# iris.target_names：鸢尾花类别的名称。
display(iris.feature_names, iris.target_names)

在这里插入图片描述
4列（特征列）数据分别代表：花萼长度、花萼宽度、花瓣长度、花瓣宽度。
接下来我们进行简单的分析
首先我们需要把鸢尾花的数据和类别拼接到一起：

# 将鸢尾花数据与对应的类型合并，组合成完整的记录。
data = np.concatenate([iris.data, iris.target.reshape(-1, 1)], axis=1)
data = pd.DataFrame(data,
        columns=["sepal_length", "sepal_width", "petal_length", "petal_width", "type"])
data.sample(10)

因为鸢尾花的数据iris.data为二维数组，但是类别iris.target为一维数组，此时我们需要通过

2/8 首页上一页 1 2 3 4 5 6 下一页尾页