MNIST是一个手写字符集,也是学习深度学习和SVM的入门必备数据集。目前由Yann LeCun维护。网址:
http://yann.lecun.com/exdb/mnist/
MNIST是NIST的一个子集,包含了6万个训练样本和1万个测试样本。为了避免碎小文件的问题,所有的手写字符图片都被放到一个文件中。整个数据集包含4个这样的文件。它们的格式说明,实际上在官网就有,只是比较靠后面,容易被忽视。
Iris是一种叫做鸢尾的植物。Iris flower Data Set是Ronald Fisher在1936年的论文中给出的数据集。该数据集包含了三种鸢尾花的4个特征的样本集。Fisher基于该数据集,提出了linear discriminant analysis算法。
下图是该数据集的LDA图示。
这个数据集并没有专门的网站,但实际上大多数ML软件都自带该数据集,比如R、sklearn等。
参考:
https://en.wikipedia.org/wiki/Iris_flower_data_set
http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
CIFAR-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。
说白了,就是看你穷的没钱搞研究,就施舍给你。Hinton、Bengio和他的学生在2004年拿到了Cifar投资的少量资金,建立了神经计算和自适应感知项目。
这个项目结集了不少计算机科学家、生物学家、电气工程师、神经科学家、物理学家、心理学家,加速推动了DL的进程。从这个阵容来看,DL已经和ML系的数据挖掘分的很远了。
DL强调的是自适应感知和人工智能,是计算机与神经科学交叉。DM强调的是高速、大数据、统计数学分析,是计算机和数学的交叉。
CIFAR-10由60000张32x32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姊妹数据集CIFAR-100达到100类,ILSVRC比赛则是1000类)。
官网:
https://www.cs.toronto.edu/~kriz/cifar.html
参考:
http://www.cnblogs.com/neopenx/p/4480701.html
CNN训练Cifar-10技巧
ImageNet是由李飞飞等创建的一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。
官网:
http://www.image-net.org/
需要注意的是,由于ImageNet的数据过于庞大,因此主页下载的数据文件,仅仅只是图片的URL而已。
ImageNet的标签包含在图片的文件名中,具体的对应关系参见imagenet_class_index.json:
"812": ["n04266014", "space_shuttle"],
以上面片段为例:
812
:类别ID。
n04266014
:该类别在图片文件名中的名字前缀。
space_shuttle
:该类别的真实名称。
参考:
https://blog.csdn.net/weixin_41770169/article/details/80482942
ImageNet图像库1000个类别名称
PASCAL VOC是一个标有物体类别和位置的图片库。
官网:
http://host.robots.ox.ac.uk/pascal/VOC/
2005~2012年期间,围绕着该数据集展开了Pascal VOC挑战赛。
参考:
https://zhuanlan.zhihu.com/p/53068162
如何用自己的数据制作Pascal VOC格式数据集详细教程(附带所有代码脚本)
https://mp.weixin.qq.com/s/INyw9X2dXJfpfZbBHbXPJg
PASCAL VOC2012数据集详解
COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning的数据集,包含超过200000张图片,250000个标注的人体实例,每个人体包含17个关键点。
官网:
http://cocodataset.org/
参考:
https://mp.weixin.qq.com/s/EKh9lq9TDum4zC3snNi5bA
MS COCO数据集详解
UCI大学有个专门提供数据集的网站:
http://archive.ics.uci.edu/ml/datasets
其中包含360+的数据集,实在是个宝库啊。
最早的宠物数据集,当属Ronald Fisher在1947年的论文中给出的数据集。它包含了144只猫的性别、体重和心脏重量。该数据集的地址:
https://github.com/mathisonian/datasets-cats
其他的宠物数据集还包括:
http://www.robots.ox.ac.uk/~vgg/data/pets/
VGG提供的图片数据集,有语义分割的标签。
https://www.kaggle.com/c/dogs-vs-cats/data
kaggle的猫狗图片数据集
http://vision.stanford.edu/aditya86/ImageNetDogs/
Stanford的狗图片数据集。
WMT数据集是一个多语种的机器翻译数据集。
官网:
http://www.statmt.org/
这里不仅包含数据,还包含了若干相关软件。
数据下载:
http://data.statmt.org/
https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw
AI研发者福利!谷歌推出数据集搜索专用引擎Dataset Search
https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA
从文本处理到自动驾驶:机器学习最常用的50大免费数据集
https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd
深度学习从“数据集”开始
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1
100+诡异的数据集
https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw
机器学习高质量数据集大合辑
http://www.sogou.com/labs/
搜狗实验室的网站可以下载很多NLP和图片识别方面的数据
https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA
这是一份非常全面的开源数据集,你真的不想要吗
https://zhuanlan.zhihu.com/p/25138563
各领域公开数据集下载
https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA
最强数据集集合:50个最佳机器学习公共数据集
https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA
100大机器学习数据集,总有一款适合你!
https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ
开放数据集
http://www.dataonthemind.org/data-resources/datasets
认知科学数据集大列表Center for Data on the Mind
https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ
史上最全数据集网站汇总
https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg
数据科学家必用的25个深度学习的开放数据集!
https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA
从医疗语音到灾难响应,这八大优质数据集快抱走
https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg
微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域
https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ
最强数据集50个最佳机器学习公共数据,可以帮你验证idea!
https://mp.weixin.qq.com/s/e_mVkS-mZdKwHiGvrNeaMQ
8种寻找机器学习数据集的方法
https://www.datasetlist.com/
收藏:全网最大机器学习数据集,视觉、NLP、音频都在这了
https://mp.weixin.qq.com/s/_7uGn2HadW896co4qSzC3g
这是一份非常全面的开源数据集!
SQuAD(The Stanford Question Answering Dataset)大概算是NLP领域最知名的数据集了。
https://mp.weixin.qq.com/s/xoOFbUjABKmQIVzTcHE6KQ
CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集
https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg
MIT发布的10大自然语言处理数据集和语料库
https://github.com/candlewill/Dialog_Corpus/blob/master/README.md
用于对话系统的中英文语料
https://mp.weixin.qq.com/s/6T7hNPNtWtBSXyno4MQ3jQ
中文公开聊天语料库
https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg
囊括欧亚非大陆多种语言的25个平行语料库数据集
https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA
阅读理解与问答数据集
https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA
免费文本语料训练数据集
https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw
百度的中文问答数据集WebQA
https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA
百万级字符:清华大学提出中文自然文本数据集CTW
https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw
机器能做中/高考英语试题吗?
https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg
100+个自然语言处理数据集大放送,再不愁找不到数据!
https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA
DuReader:百度大规模的中文机器阅读理解数据集
https://mp.weixin.qq.com/s/tENiB4P1–sD5B5r3Af16w
Chinese Word Vectors:目前最全的中文预训练词向量集合
https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q
今日头条新闻文本分类数据集
https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA
耶鲁大学发布自然语言处理资源引擎TutorialBank: 让NLP学习不再困难
https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg
腾讯AI Lab开源800万中文词的NLP数据集
https://mp.weixin.qq.com/s/isUT–guYrsIWRXApcutrg
耶鲁大学11名学生标注完成大规模复杂跨域Text-to-SQL数据集Spider
http://universaldependencies.org/
一个依存语法方面的标注数据集。这类数据也叫做treebank数据,原因是依存语法生成的结果是一棵语法树。
https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg
让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA
https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ
端到端对话模型新突破!Facebook发布大规模个性化对话数据库
https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg
最全中华古诗词数据库:近14k唐宋古诗人, 55k首唐诗,60k宋诗
https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA
FAIR重磅发布大规模语料库XNLI:解决跨15种语言理解难题
https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A
最新任务型对话数据集大全
https://github.com/fighting41love/funNLP
40个中文NLP词库
https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg
CMU多语种语音数据集:700多种语言的语音/文本对齐语料
https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA
你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理
https://mp.weixin.qq.com/s/v4XjU2UGe1ikVj8d70gTSw
基于知识图谱的问答系统入门—NLPCC2016KBQA数据集
https://mp.weixin.qq.com/s/a1XhQKOfxTCD9wVddQG8gw
Google发布新的问答语料库,专攻篇章级的NLU问题
https://mp.weixin.qq.com/s/5NWqq3iRnTB_FJAfopBEeg
NLP Chinese Corpus项目:大规模中文自然语言处理语料
https://mp.weixin.qq.com/s/txlWG1yAFlSMMVNKYssMsw
微软亚洲研究院开源表格数据集TableBank,数据量达41.7万
https://mp.weixin.qq.com/s/dlmzRrAeB-jkhk7rbUrNpg
微软亚洲研究院发布业界最全面的语义分析数据集MSParS
您的打赏,是对我的鼓励