目录
背景
第一部分 开放数据集
参考文献及资料
背景
数据科学研究的对象是数据,学习过程中需要相关数据集辅助大家练习、做实验。从而体会数据科学中算法方法论。中国古语云:巧妇难有无米之炊,说的就是数据对于数据科学学习的重要性。
这篇文章收集介绍了各种常用的开放数据集,供大家学习参考。会持续更新。
第二部分 开放数据集
这里主要将开放数据分为三类:图像类、自然语言(NLP)类、音频类。
1.1 图像类
MNIST手写数据集
介绍:
MNIST(全称:Modified National Institute of Standards and Technology database)数据集是常见的深度学习开放数据集(基本属于深度学习的hello world数据集)。这是一个手写阿拉伯数据集(0-9数字),数据主要采集于美国高中学生。数据集总量为7W个手写数字图像(训练集6w个、测试机1w个)。
文件 | 内容 |
---|---|
train-images-idx3-ubyte.gz | 训练集图片 - 60000张训练图片 |
train-labels-idx1-ubyte.gz | 训练集图片对应的数字标签(0-9) |
t10k-images-idx3-ubyte.gz | 测试集图片 - 10000 张 图片 |
t10k-labels-idx1-ubyte.gz | 测试集图片对应的数字标签 |
数据存储大小:二进制文件,50M,压缩形式约10M。每张图像被归一化成28*28的像素矩阵。
图像数据格式:像素值为0到255. 0表示背景(白色),255表示前景(黑色)。例如下面手写数字1的数据矩阵表示:
读取数据案例(Python):
Tensorflow中已经有对MNIST数据集解析的脚本,我们可以直接调用:
文件 | 目的 |
---|---|
input_data.py、mnist.py | 用于读取MNIST数据集 |
1 | import tensorflow as tf |
上面的例子划分好数据就可以喂给各种算法模型进行训练。
扩展:EMNIST数据集:https://arxiv.org/abs/1702.05373。
按照MNIST规范,数据集更大:包含240,000个训练图像和40,000个手写数字测试图像。
MS-COCO图像分割数据集
介绍:
MS-COCO(全称是Common Objects in Context)是微软团队提供的一个可以用来进行图像识别的数据集。数据集中的图像分为训练、验证和测试集。COCO数据集现在有3种标注类型:object instances(目标实例), object keypoints(目标上的关键点), 和image captions(看图说话),使用JSON文件存储。
一共有33w张图像,80个对象类别,每幅图5个字母、25w个关键点。
数据存储大小:约25G(压缩形式)
数据格式:中文介绍可以参考知乎这篇文章:COCO数据集的标注格式 。
官方网站:http://mscoco.org/
ImageNet图像数据集
介绍:
Imagenet是深度学习中大名鼎鼎的数据集。数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。深度学习中关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。
数据存储大小:约150G
Open Image图像数据集
介绍:
Open Image为Google提供。数据集包含近900万个图像URL。这些图像已经用数千个类的图像级标签边框进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。
数据大小:500G
VisualQA图像数据库
介绍:
VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。数据集有265,016张图片。
数据大小:25G
The Street View House Numbers (SVHN) Dataset街边号码牌数据集
介绍:
SVHN图像数据集用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它可以被看作与MNIST相似,但是将更多标记数据(超过600,000个数字图像)并入一个数量级并且来自显着更难以解决的真实世界问题(识别自然场景图像中的数字和数字)。SVHN数据从谷歌街景图片中的房屋号码中获得的。书记含有用于训练的73257个数字,用于测试的26032个数字以及用作额外训练数据的531131个附加数字。
数据集大小: [train.tar.gz], [test.tar.gz], [extra.tar.gz ] 共三个文件。
CIFAR-10图像数据集
介绍:
CIFAR-10数据集由10个类的60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个培训批次和1个测试批次。每批有10,000个图像。
数据大小:170M
Fashion-MNIST
介绍
Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。
数据集大小:30M
1.2 自然语言类数据库
IMDB电影评论数据集
介绍:
这是电影爱好者的梦幻数据集。它具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据供您使用。原始文本和预处理的单词格式包也包括在内。
数据集大小:80 M
Twenty Newsgroups Data Set
介绍:
该数据集包含有关新闻组的信息。为了管理这个数据集,从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有典型特征,如主题行,签名和引号。
数据集大小:20 M
官方网站:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
Sentiment140情感分析数据集
介绍:
Sentiment140是一个可用于情感分析的数据集。
数据集大小:80 M
WordNet
介绍:
WordNet是英语synsets的大型数据库。Synsets是同义词组,每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。
数据集大小:10 M
Yelp评论
介绍:
这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论,商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。
数据集大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部压缩)
维基百科语料库
介绍:
该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。什么使得这个强大的NLP数据集是你可以通过单词,短语或段落本身的一部分进行搜索。
数据集大小: 20 MB
博客作者身份语料库
介绍:
此数据集包含从数千名博主收集的博客帖子,从blogger.com收集。每个博客都作为一个单独的文件提供。每个博客至少包含200次常用英语单词。
数据集大小: 300 MB
欧洲语言的机器翻译
介绍:
数据集包含四种欧洲语言。
数据集大小: 约15 G
1.3 音频/语音数据集
口语数字数据集
介绍:
为了解决识别音频样本中的口头数字的任务而创建。这是一个开放的数据集,所以希望随着人们继续贡献更多样本,它会不断增长。
数据集大小: 约10 G=M
记录数量:1500个音频样本
官方网站:https://github.com/Jakobovski/free-spoken-digit-dataset
免费音乐档案(FMA)
介绍:
FMA是音乐分析的数据集。数据集由全长和HQ音频,预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集,用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表:
数据集大小: 约1T
记录数量:1500个音频样本
舞厅
介绍:
该数据集包含舞厅跳舞音频文件。以真实音频格式提供了许多舞蹈风格的一些特征摘录。 以下是数据集的一些特征:
数据集大小: 约14 G
记录数量:约700个音频样本
官方网站:http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
模型案例:https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf
百万歌曲数据集
介绍:
百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。 其目的是:
- 鼓励对扩大到商业规模的算法进行研究
- 为评估研究提供参考数据集
- 作为使用API创建大型数据集的捷径(例如Echo Nest的)
- 帮助新研究人员在MIR领域开始工作
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从7digital等服务中获取。
数据集大小: 约280 G
记录数量:它的一百万首歌曲!
模型案例:http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf
LibriSpeech
介绍:
该数据集是大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐。如果您正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估,网址为http://www.openslr.org/11/。
数据集大小: 约60 G
记录数量:1000小时的演讲
VoxCeleb
介绍:
VoxCeleb是一个大型的说话人识别数据集。它包含约1,200名来自YouTube视频的约10万个话语。数据大部分是性别平衡的(男性占55%)。名人跨越不同的口音,职业和年龄。开发和测试集之间没有重叠。对于隔离和识别哪个超级巨星来说,这是一个有趣的用例。
数据集大小: 约150 M
记录数量: 1,251位名人的100,000条话语
模型案例:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
1.4 比赛数据
Twitter情绪分析数据
介绍:
仇恨以种族主义和性别歧视为形式的言论已成为叽叽喳喳的麻烦,重要的是将这类推文与其他人分开。在这个实践问题中,我们提供既有正常又有仇恨推文的Twitter数据。您作为数据科学家的任务是确定推文是仇恨推文,哪些不是。
数据集大小: 约3 M
记录数量: 31,962条推文
官方网站:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
印度演员的年龄检测
介绍:
对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动选择的,并从视频帧中剪切,导致尺度,姿势,表情,照度,年龄,分辨率,遮挡和化妆的高度可变性。
数据集大小: 约48 M
记录数量: 训练集中的19,906幅图像和测试集中的6636幅图像
官方网站:https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
城市声音分类
介绍:
这个数据集包含超过8000个来自10个班级的城市声音摘录。这个实践问题旨在向您介绍常见分类方案中的音频处理。
数据集大小: 训练集 - 3 GB(压缩),测试集 - 2 GB(压缩)
记录数量: 来自10个班级的8732个城市声音标注的声音片段(<= 4s)
官方网站:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
参考文献及资料
【1】 https://www.tensorflow.org/versions/r1.1/get_started/mnist/beginners
【2】 https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/