Antkillerfarm Hacking V7.0

知名数据集(一)

2017-08-24

知名数据集

MNIST

MNIST是一个手写字符集,也是学习深度学习和SVM的入门必备数据集。目前由Yann LeCun维护。网址:

http://yann.lecun.com/exdb/mnist/

MNIST是NIST的一个子集,包含了6万个训练样本和1万个测试样本。为了避免碎小文件的问题,所有的手写字符图片都被放到一个文件中。整个数据集包含4个这样的文件。它们的格式说明,实际上在官网就有,只是比较靠后面,容易被忽视。

Iris flower Data Set

Iris是一种叫做鸢尾的植物。Iris flower Data Set是Ronald Fisher在1936年的论文中给出的数据集。该数据集包含了三种鸢尾花的4个特征的样本集。Fisher基于该数据集,提出了linear discriminant analysis算法。

下图是该数据集的LDA图示。

这个数据集并没有专门的网站,但实际上大多数ML软件都自带该数据集,比如R、sklearn等。

参考:

https://en.wikipedia.org/wiki/Iris_flower_data_set

http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

CIFAR-10

CIFAR-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。

说白了,就是看你穷的没钱搞研究,就施舍给你。Hinton、Bengio和他的学生在2004年拿到了Cifar投资的少量资金,建立了神经计算和自适应感知项目。

这个项目结集了不少计算机科学家、生物学家、电气工程师、神经科学家、物理学家、心理学家,加速推动了DL的进程。从这个阵容来看,DL已经和ML系的数据挖掘分的很远了。

DL强调的是自适应感知和人工智能,是计算机与神经科学交叉。DM强调的是高速、大数据、统计数学分析,是计算机和数学的交叉。

CIFAR-10由60000张32x32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姊妹数据集CIFAR-100达到100类,ILSVRC比赛则是1000类)。

官网:

https://www.cs.toronto.edu/~kriz/cifar.html

参考:

http://www.cnblogs.com/neopenx/p/4480701.html

CNN训练Cifar-10技巧

ImageNet

ImageNet是由李飞飞等创建的一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。

官网:

http://www.image-net.org/

需要注意的是,由于ImageNet的数据过于庞大,因此主页下载的数据文件,仅仅只是图片的URL而已。

ImageNet的标签包含在图片的文件名中,具体的对应关系参见imagenet_class_index.json:

"812": ["n04266014", "space_shuttle"],

以上面片段为例:

812:类别ID。

n04266014:该类别在图片文件名中的名字前缀。

space_shuttle:该类别的真实名称。

参考:

https://blog.csdn.net/weixin_41770169/article/details/80482942

ImageNet图像库1000个类别名称

PASCAL VOC

PASCAL VOC是一个标有物体类别和位置的图片库。

官网:

http://host.robots.ox.ac.uk/pascal/VOC/

2005~2012年期间,围绕着该数据集展开了Pascal VOC挑战赛。

参考:

https://zhuanlan.zhihu.com/p/53068162

如何用自己的数据制作Pascal VOC格式数据集详细教程(附带所有代码脚本)

https://mp.weixin.qq.com/s/INyw9X2dXJfpfZbBHbXPJg

PASCAL VOC2012数据集详解

MSCOCO

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning的数据集,包含超过200000张图片,250000个标注的人体实例,每个人体包含17个关键点。

官网:

http://cocodataset.org/

参考:

https://mp.weixin.qq.com/s/EKh9lq9TDum4zC3snNi5bA

MS COCO数据集详解

UCI数据集

UCI大学有个专门提供数据集的网站:

http://archive.ics.uci.edu/ml/datasets

其中包含360+的数据集,实在是个宝库啊。

猫狗数据集

最早的宠物数据集,当属Ronald Fisher在1947年的论文中给出的数据集。它包含了144只猫的性别、体重和心脏重量。该数据集的地址:

https://github.com/mathisonian/datasets-cats

其他的宠物数据集还包括:

http://www.robots.ox.ac.uk/~vgg/data/pets/

VGG提供的图片数据集,有语义分割的标签。

https://www.kaggle.com/c/dogs-vs-cats/data

kaggle的猫狗图片数据集

http://vision.stanford.edu/aditya86/ImageNetDogs/

Stanford的狗图片数据集。

WMT

WMT数据集是一个多语种的机器翻译数据集。

官网:

http://www.statmt.org/

这里不仅包含数据,还包含了若干相关软件。

数据下载:

http://data.statmt.org/

合集

https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw

AI研发者福利!谷歌推出数据集搜索专用引擎Dataset Search

https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA

从文本处理到自动驾驶:机器学习最常用的50大免费数据集

https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd

深度学习从“数据集”开始

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

100+诡异的数据集

https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

机器学习高质量数据集大合辑

http://www.sogou.com/labs/

搜狗实验室的网站可以下载很多NLP和图片识别方面的数据

https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA

这是一份非常全面的开源数据集,你真的不想要吗

https://zhuanlan.zhihu.com/p/25138563

各领域公开数据集下载

https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA

最强数据集集合:50个最佳机器学习公共数据集

https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA

100大机器学习数据集,总有一款适合你!

https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ

开放数据集

http://www.dataonthemind.org/data-resources/datasets

认知科学数据集大列表Center for Data on the Mind

https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ

史上最全数据集网站汇总

https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg

数据科学家必用的25个深度学习的开放数据集!

https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA

从医疗语音到灾难响应,这八大优质数据集快抱走

https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg

微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ

最强数据集50个最佳机器学习公共数据,可以帮你验证idea!

https://mp.weixin.qq.com/s/e_mVkS-mZdKwHiGvrNeaMQ

8种寻找机器学习数据集的方法

https://www.datasetlist.com/

收藏:全网最大机器学习数据集,视觉、NLP、音频都在这了

https://mp.weixin.qq.com/s/_7uGn2HadW896co4qSzC3g

这是一份非常全面的开源数据集!

NLP

SQuAD(The Stanford Question Answering Dataset)大概算是NLP领域最知名的数据集了。


https://mp.weixin.qq.com/s/xoOFbUjABKmQIVzTcHE6KQ

CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集

https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg

MIT发布的10大自然语言处理数据集和语料库

https://github.com/candlewill/Dialog_Corpus/blob/master/README.md

用于对话系统的中英文语料

https://mp.weixin.qq.com/s/6T7hNPNtWtBSXyno4MQ3jQ

中文公开聊天语料库

https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg

囊括欧亚非大陆多种语言的25个平行语料库数据集

https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA

阅读理解与问答数据集

https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA

免费文本语料训练数据集

https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw

百度的中文问答数据集WebQA

https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA

百万级字符:清华大学提出中文自然文本数据集CTW

https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw

机器能做中/高考英语试题吗?

https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg

100+个自然语言处理数据集大放送,再不愁找不到数据!

https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA

DuReader:百度大规模的中文机器阅读理解数据集

https://mp.weixin.qq.com/s/tENiB4P1–sD5B5r3Af16w

Chinese Word Vectors:目前最全的中文预训练词向量集合

https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q

今日头条新闻文本分类数据集

https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA

耶鲁大学发布自然语言处理资源引擎TutorialBank: 让NLP学习不再困难

https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg

腾讯AI Lab开源800万中文词的NLP数据集

https://mp.weixin.qq.com/s/isUT–guYrsIWRXApcutrg

耶鲁大学11名学生标注完成大规模复杂跨域Text-to-SQL数据集Spider

http://universaldependencies.org/

一个依存语法方面的标注数据集。这类数据也叫做treebank数据,原因是依存语法生成的结果是一棵语法树。

https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg

让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA

https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ

端到端对话模型新突破!Facebook发布大规模个性化对话数据库

https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg

最全中华古诗词数据库:近14k唐宋古诗人, 55k首唐诗,60k宋诗

https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA

FAIR重磅发布大规模语料库XNLI:解决跨15种语言理解难题

https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A

最新任务型对话数据集大全

https://github.com/fighting41love/funNLP

40个中文NLP词库

https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg

CMU多语种语音数据集:700多种语言的语音/文本对齐语料

https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA

你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理

https://mp.weixin.qq.com/s/v4XjU2UGe1ikVj8d70gTSw

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

https://mp.weixin.qq.com/s/a1XhQKOfxTCD9wVddQG8gw

Google发布新的问答语料库,专攻篇章级的NLU问题

https://mp.weixin.qq.com/s/5NWqq3iRnTB_FJAfopBEeg

NLP Chinese Corpus项目:大规模中文自然语言处理语料

https://mp.weixin.qq.com/s/txlWG1yAFlSMMVNKYssMsw

微软亚洲研究院开源表格数据集TableBank,数据量达41.7万

https://mp.weixin.qq.com/s/dlmzRrAeB-jkhk7rbUrNpg

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

Fork me on GitHub