关键词

用于NLP的7大免费数据集!

在开始为自然语言处理任务进行深度学习时,您需要练习数据集。

最好使用可以快速下载的小型数据集,并且不会花费太长时间来拟合模型。此外,使用易于理解和广泛使用的标准数据集也很有帮助,这样您就可以比较您的结果以查看您是否正在取得进展。

在这篇文章中,您将发现一套用于自然语言处理任务的标准数据集,您可以在开始使用深度学习时使用它们。

概述

这篇文章分为7个部分,根据不同的数据集需求提供不同的下载地址,分别是:

  • 文本分类
  • 语言建模
  • 图片说明
  • 机器翻译
  • 问答
  • 语音识别
  • 文档摘要

这些分类的数据集,几乎所有可以免费下载。让我们开始吧!

1. 文本分类

文本分类是指对句子或文档进行标记,例如垃圾邮件分类和情绪分析。

下面是一些不错的初学者文本分类数据集。

2. 语言建模

语言建模涉及开发一个统计模型,用于预测句子中的下一个单词或单词中的下一个字母,给定之前出现的任何内容。它是语音识别和机器翻译等任务中的前光标任务。

它是语音识别和机器翻译等任务中的前光标任务。

下面是一些不错的初学者语言建模数据集。

3. 图片说明

图像标题是为给定图像生成文本描述的任务。

以下是一些不错的初学者图像字幕数据集。

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些不错的初学者机器翻译数据集。

5. 问答

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

以下是一些很好的初学者问答数据集。

6. 语音识别

语音识别是将口语音频转换为人类可读文本的任务。

以下是一些不错的初学者语音识别数据集。

7. 文件摘要

文档摘要是为较大文档创建简短有意义的描述的任务。

以下是一些不错的初学者文档摘要数据集。

总结

在这篇文章中,您发现了一套标准数据集,您可以在开始使用深度学习时将其用于自然语言处理任务。

本文链接:http://task.lmcjl.com/news/5138.html

展开阅读全文