当我们从文件、数据库或其他来源读入数据时,有时为了保证数据集的随机性,需要将数据集打乱。在Python Pandas中,可以通过shuffle()函数轻松实现数据集打乱。下面就是Python Pandas如何shuffle(打乱)数据的完整攻略:
import pandas as pd
要打乱数据集,首先需要读入数据。可以使用Pandas中的read_csv()函数读入csv文件中的数据集。示例如下:
data = pd.read_csv('data.csv')
读入数据集后,就可以使用shuffle()函数将数据集打乱。示例如下:
data_shuffled = data.sample(frac=1)
这里使用sample()函数完成数据集打乱。其中frac参数表示返回数据集的比例,当其值为1时,就表示返回整个数据集,并打乱数据顺序。打印数据集输出的顺序就可以验证数据是否被打乱。
可以将shuffle()函数封装为一个函数,以便反复使用。
def shuffle_data(data):
return data.sample(frac=1)
下面给出两个示例说明。
假设我们有一个csv文件"data.csv",其内容如下:
name,age,score
Jack,18,85
Lucy,17,80
Mike,19,70
Tom,20,90
我们可以使用以下代码读入csv文件并打印输出:
import pandas as pd
data = pd.read_csv('data.csv')
print(data)
输出的结果如下:
name age score
0 Jack 18 85
1 Lucy 17 80
2 Mike 19 70
3 Tom 20 90
接下来使用以下代码打乱数据集并打印输出:
data_shuffled = data.sample(frac=1)
print(data_shuffled)
输出的结果如下:
name age score
1 Lucy 17 80
3 Tom 20 90
0 Jack 18 85
2 Mike 19 70
可以看到,数据集被成功打乱。
下面是一个更为实用的示例。假设我们有一个MNIST数据集,其包含数字0到9的数字图像。我们可以使用以下方式读入MNIST数据集:
import pandas as pd
data = pd.read_csv('mnist.csv')
print(data)
然后,我们可以使用以下方式打乱MNIST数据集:
data_shuffled = shuffle_data(data)
print(data_shuffled)
这里,shuffle_data()函数用于打乱数据集。我们可以通过输出的数据集内容和顺序验证数据是否被打乱。如果顺序已被打乱,就可以继续进行后续的数据分割、训练和预测。
本文链接:http://task.lmcjl.com/news/17587.html