数据分析师一定要掌握的基础——描述性统计分析
2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理
每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
》》》导入库、设置图形样式等:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
import warnings# 设置seaborn绘图的样式。
# darkgrid 设置成暗色的网格的形式
sns.set(style="darkgrid")
# 设置字体
plt.rcParams["font.family"] = "SimHei"
# 对符号的支持
plt.rcParams["axes.unicode_minus"] = False
# 忽略警告信息。
warnings.filterwarnings("ignore")
我们来加载数据查看下:
# 加载鸢尾花数据集。
iris = load_iris()
display(iris)
data 就是鸢尾花的数据,我们这里只展示部分数据:
target 就是鸢尾花的类别,类别为0,1,2
三种鸢尾花的类别分别是什么呢?
分类是山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)、维吉尼亚鸢尾花(Iris Virginica)。
接着我们看下具体的数据:
因为数据太多,我们只利用切片查看前10行数据,类别也查看前10行。
# iris.data:鸢尾花数据集。
# iris.target:每朵鸢尾花对应的类别。(取值为0,1,2)
display(iris.data[:10], iris.target[:10])
# iris.feature_names:特征列的名称。
# iris.target_names:鸢尾花类别的名称。
display(iris.feature_names, iris.target_names)

4列(特征列)数据分别代表:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
接下来我们进行简单的分析
首先我们需要把鸢尾花的数据和类别拼接到一起:
# 将鸢尾花数据与对应的类型合并,组合成完整的记录。
data = np.concatenate([iris.data, iris.target.reshape(-1, 1)], axis=1)
data = pd.DataFrame(data,
columns=["sepal_length", "sepal_width", "petal_length", "petal_width", "type"])
data.sample(10)
因为鸢尾花的数据iris.data为二维数组,但是类别iris.target为一维数组,此时我们需要通过













闽公网安备 35020302000061号