按给定的比例随机分割一个Pandas数据框架的完整攻略如下:
import pandas as pd
from sklearn.model_selection import train_test_split
df = pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases/iris/iris.data',
header=None)
X = df.iloc[:, :-1].values # 特征
y = df.iloc[:, -1].values # 目标变量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
其中,test_size参数表示测试集数据量所占比例,这里为30%;random_state参数表示随机种子,保证每次运行时分割结果相同。
print('训练集样本数:', X_train.shape[0])
print('测试集样本数:', X_test.shape[0])
train_df = pd.DataFrame(X_train, columns=df.columns[:-1])
train_df['target'] = pd.Series(y_train, index=train_df.index)
test_df = pd.DataFrame(X_test, columns=df.columns[:-1])
test_df['target'] = pd.Series(y_test, index=test_df.index)
以上就是按给定的比例随机分割一个Pandas数据框架的完整攻略,下面是完整实例代码
本文链接:http://task.lmcjl.com/news/17356.html