在开始为自然语言处理任务进行深度学习时,您需要练习数据集。
最好使用可以快速下载的小型数据集,并且不会花费太长时间来拟合模型。此外,使用易于理解和广泛使用的标准数据集也很有帮助,这样您就可以比较您的结果以查看您是否正在取得进展。
在这篇文章中,您将发现一套用于自然语言处理任务的标准数据集,您可以在开始使用深度学习时使用它们。
这篇文章分为7个部分,根据不同的数据集需求提供不同的下载地址,分别是:
这些分类的数据集,几乎所有可以免费下载。让我们开始吧!
文本分类是指对句子或文档进行标记,例如垃圾邮件分类和情绪分析。
下面是一些不错的初学者文本分类数据集。
语言建模涉及开发一个统计模型,用于预测句子中的下一个单词或单词中的下一个字母,给定之前出现的任何内容。它是语音识别和机器翻译等任务中的前光标任务。
它是语音识别和机器翻译等任务中的前光标任务。
下面是一些不错的初学者语言建模数据集。
古腾堡计划,大量免费书籍,可以多种语言的纯文本检索。
还有更正式的语料库得到了很好的研究;
布朗大学现代美式英语标准语料库。英语单词的大量样本。
图像标题是为给定图像生成文本描述的任务。
以下是一些不错的初学者图像字幕数据集。
机器翻译是将文本从一种语言翻译成另一种语言的任务。
以下是一些不错的初学者机器翻译数据集。
加拿大第36届议会的汉萨德结盟。英语和法语的成对句子。
欧洲议会程序平行语料库1996-2011。一套欧洲语言的句子对。
有大量标准数据集用于年度机器翻译挑战:
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
以下是一些很好的初学者问答数据集。
语音识别是将口语音频转换为人类可读文本的任务。
以下是一些不错的初学者语音识别数据集。
文档摘要是为较大文档创建简短有意义的描述的任务。
以下是一些不错的初学者文档摘要数据集。
在这篇文章中,您发现了一套标准数据集,您可以在开始使用深度学习时将其用于自然语言处理任务。
本文链接:http://task.lmcjl.com/news/5138.html