以下是关于“Python 划分数据集为训练集和测试集的方法”的完整攻略,其中包含两个示例说明。
在使用 Python 和 scikit-learn 库划分数据集之前,我们需要导入一些必要的库,包括numpy
和sklearn
。
import numpy as np
from sklearn.model_selection import train_test_split
在这个示例中,我们使用 scikit-learn 库自带的 iris 数据集来演示如何使用 Python 和 scikit-learn 库划分数据集。
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
使用train_test_split
函数划分数据集。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
通过以上步骤,我们可以使用 Python 和 scikit-learn 库划分数据集,并成功地输出了结果。
在使用 Python 和 numpy 库划分数据集之前,我们需要导入一些必要的库,包括numpy
。
import numpy as np
在这个示例中,我们使用 numpy 库自带的 iris 数据集来演示如何使用 Python 和 numpy 库划分数据集。
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
使用numpy
库划分数据集。
np.random.seed(42)
indices = np.random.permutation(len(X))
train_indices, test_indices = indices[:int(len(X)*0.8)], indices[int(len(X)*0.8):]
X_train, X_test = X[train_indices], X[test_indices]
y_train, y_test = y[train_indices], y[test_indices]
通过以上步骤,我们可以使用 Python 和 numpy 库划分数据集,并成功地输出了结果。
本文链接:http://task.lmcjl.com/news/5213.html