关键词

Python数据集切分实例

以下是关于“Python 数据集切分实例”的完整攻略,其中包含两个示例说明。

示例1:随机切分数据集

步骤1:导入必要库

在切分数据集之前,我们需要导入一些必要的库,包括numpysklearn

import numpy as np
from sklearn.model_selection import train_test_split

步骤2:定义数据

在这个示例中,我们使用随机生成的数据来演示如何随机切分数据集。

# 定义随机生成的数据
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)

步骤3:切分数据集

使用定义的数据,随机切分数据集。

# 切分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 输出结果
print(f'Train set size: {len(X_train)}')
print(f'Test set size: {len(X_test)}')

步骤4:结果分析

使用train_test_split()函数可以方便地随机切分数据集。在这个示例中,我们使用train_test_split()函数随机切分了数据集,并成功地输出了结果。

示例2:按照类别切分数据集

步骤1:导入必要库

在切分数据集之前,我们需要导入一些必要的库,包括numpysklearn

import numpy as np
from sklearn.model_selection import train_test_split

步骤2:定义数据

在这个示例中,我们使用随机生成的数据来演示如何按照类别切分数据集。

# 定义随机生成的数据
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)

步骤3:切分数据集

使用定义的数据,按照类别切分数据集。

# 按照类别切分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# 输出结果
print(f'Train set size: {len(X_train)}')
print(f'Test set size: {len(X_test)}')

步骤4:结果分析

使用train_test_split()函数可以方便地按照类别切分数据集。在这个示例中,我们使用train_test_split()函数按照类别切分了数据集,并成功地输出了结果。

本文链接:http://task.lmcjl.com/news/5204.html

展开阅读全文