<
>

数据分析师一定要掌握的基础——描述性统计分析

2020-06-28 10:17:12 来源:易采站长站 作者:易采站长站整理


每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。

》》》导入库、设置图形样式等:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
import warnings

# 设置seaborn绘图的样式。
# darkgrid 设置成暗色的网格的形式
sns.set(style="darkgrid")
# 设置字体
plt.rcParams["font.family"] = "SimHei"
# 对符号的支持
plt.rcParams["axes.unicode_minus"] = False
# 忽略警告信息。
warnings.filterwarnings("ignore")

我们来加载数据查看下:

# 加载鸢尾花数据集。
iris = load_iris()
display(iris)

data 就是鸢尾花的数据,我们这里只展示部分数据:
在这里插入图片描述
target 就是鸢尾花的类别,类别为0,1,2
在这里插入图片描述
三种鸢尾花的类别分别是什么呢?
在这里插入图片描述
分类是山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)、维吉尼亚鸢尾花(Iris Virginica)。
接着我们看下具体的数据:
因为数据太多,我们只利用切片查看前10行数据,类别也查看前10行。

# iris.data:鸢尾花数据集。
# iris.target:每朵鸢尾花对应的类别。(取值为0,1,2)
display(iris.data[:10], iris.target[:10])
# iris.feature_names:特征列的名称。
# iris.target_names:鸢尾花类别的名称。
display(iris.feature_names, iris.target_names)

在这里插入图片描述
4列(特征列)数据分别代表:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
接下来我们进行简单的分析
首先我们需要把鸢尾花的数据和类别拼接到一起:

# 将鸢尾花数据与对应的类型合并,组合成完整的记录。
data = np.concatenate([iris.data, iris.target.reshape(-1, 1)], axis=1)
data = pd.DataFrame(data,
columns=["sepal_length", "sepal_width", "petal_length", "petal_width", "type"])
data.sample(10)

因为鸢尾花的数据iris.data为二维数组,但是类别iris.target为一维数组,此时我们需要通过

暂时禁止评论

微信扫一扫

易采站长站微信账号