huchuan2025/30-Resource/32-Work/神经网络入门知识/数据集集合.md

319 lines
19 KiB
Markdown
Raw Normal View History

2025-03-17 00:41:03 +08:00
**作者:宋天龙
链接https://www.zhihu.com/question/63383992/answer/222718972
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。**
## 1. 综合数据集
**UCI数据集**
UCI数据集中包括了众多用于监督式和非监督式学习的数据集数量大概400多个其中很多数据集在其他众多数据工具中被反复引用例如Iris、Wine、Adult、Car
Evaluation、Forest Fires等。
每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习,数据挖掘
介绍和下载地址:[http://archive.ics.uci.edu/ml/](https://link.zhihu.com/?target=http%3A//archive.ics.uci.edu/ml/)
**UCI KDD数据集**
UCI KDD知识发现是数据挖掘和可视化的研究项目专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分UCI始于2002年10月。
推荐度:★★,推荐应用方向:监督式、非监督式机器学习
介绍地址:[http://kdd.ics.uci.edu/](https://link.zhihu.com/?target=http%3A//kdd.ics.uci.edu/)
下载地址:[http://kdd.ics.uci.edu/databases/](https://link.zhihu.com/?target=http%3A//kdd.ics.uci.edu/databases/)
**雅虎Webscope**
雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查以符合雅虎的数据保护标准包括严格的隐私控制。数据集中包含了多个主题数据集广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等
介绍和下载地址:[https://webscope.sandbox.yahoo.com/](https://link.zhihu.com/?target=https%3A//webscope.sandbox.yahoo.com/)
**AWS 公开数据集**
亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据并且这些数据可直接集成到AWS进行数据挖掘和学习。
推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等
介绍和下载地址:[https://aws.amazon.com/cn/datasets/](https://link.zhihu.com/?target=https%3A//aws.amazon.com/cn/datasets/)
**斯坦福网络数据集**
斯坦福网络分析平台SNAP是一种用于分析和操纵大型网络的通用高性能系统其本身使用的网络相关数据也对外开放包括设计、社区、通信、网络图、互联网、道路、维基百度网络、在线社区和评论等不同主题可用于分析大型社会和信息网络方面的研究成果。
推荐度:★★★,推荐应用方向:神经网络
介绍和下载地址:[http://snap.stanford.edu/data/index.html](https://link.zhihu.com/?target=http%3A//snap.stanford.edu/data/index.html)
**KONECT网络数据集**
KONECT数据集是一个大型网络数据集的项目在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT包含数百种各种类型的网络数据集包括有向、无向、二分、加权、未加权、签名和评级的网络。 KONECT的网络覆盖了许多不同领域如社交网络超链接网络、作者网络、物理网络、交互网络和通信网络等。
推荐度:★★★,推荐应用方向:神经网络
介绍和下载地址:[http://konect.uni-koblenz.de/](https://link.zhihu.com/?target=http%3A//konect.uni-koblenz.de/)
## 2. 图像和视频数据集
**MNIST数据集**
机器学习领域内用于手写字识别的数据集数据集中包含6个万训练集、10000个示例测试集。每个样本图像的宽高为28*28。这些数据集的大小已经归一化并且形成固定大小因此预处理工作基本已经完成。在机器学习中主流的机器学习工具包括sklearn很多都使用该数据集作为入门级别的介绍和应用。
推荐度:★★★,推荐应用方向:机器学习入门
介绍和下载地址:[http://yann.lecun.com/exdb/mnist/](https://link.zhihu.com/?target=http%3A//yann.lecun.com/exdb/mnist/)
**CIFAR 10 & CIFAR 100数据集**
CIFAR-10数据集由10个类别的60000 32x32彩色图像组成每个类别有6000张图像。 有50000个训练图像和10000个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别可用于计算机视觉相关方向。
推荐度:★★★,推荐应用方向:图像处理和图像识别
介绍和下载地址:[http://www.cs.toronto.edu/~kriz/cifar.html/](https://link.zhihu.com/?target=http%3A//www.cs.toronto.edu/%7Ekriz/cifar.html/)
**谷歌Open Images Dataset图像数据集**
其中包括大约9百万标注图片、横跨6000个类别标签平均每个图像拥有8个标签。该数据集的标签涵盖比拥有1000个类别标签的ImageNet具体更多的现实实体可用于计算机视觉方向的训练。
推荐度:★★★,推荐应用方向:图像处理和图像识别
介绍地址:[https://research.googleblog.com/2016/09/introducing-open-images-dataset.html](https://link.zhihu.com/?target=https%3A//research.googleblog.com/2016/09/introducing-open-images-dataset.html)
下载地址:[https://github.com/openimages/dataset](https://link.zhihu.com/?target=https%3A//github.com/openimages/dataset)
**ImageNet数据集**
ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域该数据集有1000多个图像涵盖图像分类、定位、检测等应用方向。Imagenet数据集文档详细有专门的团队维护在计算机视觉领域研究论文中应用非常广几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛包括百度、谷歌、微软等。
推荐度:★★★,推荐应用方向:图像识别
介绍和下载地址:[http://www.image-net.org/](https://link.zhihu.com/?target=http%3A//www.image-net.org/)
**Tiny Images Dataset**
该数据集由79302017张图像组成每张图像为32x32彩色图像。 该数据以二进制文件的形式存储大约有400Gb图像。
推荐度:★★,推荐应用方向:图像识别
介绍和下载地址:[http://horatio.cs.nyu.edu/mit/tiny/data/index.html](https://link.zhihu.com/?target=http%3A//horatio.cs.nyu.edu/mit/tiny/data/index.html)
**CoPhIR**
CoPhIR是从Flickr中采集的大概1.06亿个图像数据集图像中不仅包含了图表本身的数据例如位置、标题、GPS、标签、评论等还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。
推荐度:★★,推荐应用方向:图像识别
介绍和下载地址:[http://cophir.isti.cnr.it/whatis.html](https://link.zhihu.com/?target=http%3A//cophir.isti.cnr.it/whatis.html)
**LSUN数据集**
国外的PASCAL
VOC和ImageNet ILSVRC比赛使用的数据集数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。
推荐度:★★,推荐应用方向:图像识别
介绍和下载地址:[http://lsun.cs.princeton.edu](https://link.zhihu.com/?target=http%3A//lsun.cs.princeton.edu)
**Labeled Faces in the Wild数据集**
该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字图片中的1680人在数据集中有两个或更多不同的照片。
推荐度:★★,推荐应用方向:人脸识别
介绍和下载地址:[http://vis-www.cs.umass.edu/lfw/](https://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/)
**SVHN**
SVHN数据来源于 Google 街景视图中房屋信息它是一个真实世界的图像数据集用于开发机器学习和对象识别算法对数据预处理和格式化的要求最低。它跟MNIST相似但是包含更多数量级的标签数据超过60万个数字图像并且来源更加多样用来识别自然场景图像中的数字。
推荐度:★★,推荐应用方向:机器学习、图像识别
介绍和下载地址:[http://ufldl.stanford.edu/housenumbers/](https://link.zhihu.com/?target=http%3A//ufldl.stanford.edu/housenumbers/)
**COCO**
COCOCommon Objects in Context是一个新的图像识别、分割和图像语义数据集由微软赞助图像中不仅有标注类别、位置信息还有对图像的语义文本描述。COCO数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展也几乎成为了图像语义理解算法性能评价的“标准”数据集。
推荐度:★★★,推荐应用方向:图像识别、图像语义理解
介绍和下载地址:[http://mscoco.org/](https://link.zhihu.com/?target=http%3A//mscoco.org/)
**谷歌YouTube-8M**
YouTube-8M一个大型的多样性标注的视频数据集目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类、平均每个视频拥有3个标签。
推荐度★★★推荐应用方向视频理解、表示学习representation learning、嘈杂数据建模、转移学习transfer learning和视频域适配方法domain
adaptation approaches
数据集介绍和下载地址:[https://research.google.com/youtube8m/](https://link.zhihu.com/?target=https%3A//research.google.com/youtube8m/)。
**Udacity开源的车辆行使视频数据集**
数据集大概有223G主要是有关车辆驾驶的数据其中除了车辆拍摄的图像以外还包括车辆本身的属性和参数信息例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。
推荐度:★★★,推荐应用方向:自动驾驶
介绍和下载地址:[https://github.com/udacity/self-driving-car](https://link.zhihu.com/?target=https%3A//github.com/udacity/self-driving-car)
**牛津RobotCar视频数据集**
RobotCar数据集包含时间范围超过1年测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。
推荐度:★★★,推荐应用方向:自动驾驶
介绍和下载地址:[http://robotcar-dataset.robots.ox.ac.uk/](https://link.zhihu.com/?target=http%3A//robotcar-dataset.robots.ox.ac.uk/)
**Udacity开源的自然场景短视频数据集**
数据集大概为9T由3500万个视频剪辑组成每个视频为短视频32帧大约1秒左右的时长。
推荐度:★★★,推荐应用方向:目标跟踪、视频目标识别
介绍和下载地址:[http://web.mit.edu/vondrick/tinyvideo/#data](https://link.zhihu.com/?target=http%3A//web.mit.edu/vondrick/tinyvideo/%23data)
## 3. 自然语言数据集
**MS MARCO**
MS MARCO是一种新的大规模阅读理解和问答数据集。 在MS MARCO中所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本从实际的Web文档中提取数据集中的答案的上下文段落。
推荐度:★★★,推荐应用方向:自然语言理解、智能问答
介绍和下载地址:[http://www.msmarco.org/](https://link.zhihu.com/?target=http%3A//www.msmarco.org/)
**Question Pairs**
第一个来源于
Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。
推荐度:★★★,推荐应用方向:自然语言理解、智能问答
介绍和下载地址:[https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs](https://link.zhihu.com/?target=https%3A//data.quora.com/First-Quora-Dataset-Release-Question-Pairs)
**SQuAD**
斯坦福问答回答数据集SQuAD是一个新的阅读理解数据集从维基百科中提炼出的问题组成每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。
推荐度:★★★,推荐应用方向:文本挖掘、自然语言理解、智能问答
介绍和下载地址:[https://rajpurkar.github.io/SQuAD-explorer/](https://link.zhihu.com/?target=https%3A//rajpurkar.github.io/SQuAD-explorer/)
**Maluuba NewsQA**
Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。
推荐度:★★,推荐应用方向:文本挖掘、自然语言理解、智能问答
介绍地址:[https://datasets.maluuba.com/NewsQA](https://link.zhihu.com/?target=https%3A//datasets.maluuba.com/NewsQA)
下载地址:[https://github.com/Maluuba/newsqa](https://link.zhihu.com/?target=https%3A//github.com/Maluuba/newsqa)
**1 Billion Word Language Model Benchmark**
这是一个大型、通用的语言建模数据集,该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。
推荐度:★★,推荐应用方向:文本挖掘、自然语言理解
介绍和下载地址:[http://www.statmt.org/lm-benchmark/](https://link.zhihu.com/?target=http%3A//www.statmt.org/lm-benchmark/)
**Maluuba Datasets**
这是一个用于自然语言理解研究的复杂的人工数据集主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。
推荐度:★★,推荐应用方向:自然语言理解、智能问答
介绍和下载地址:[https://datasets.maluuba.com/](https://link.zhihu.com/?target=https%3A//datasets.maluuba.com/)
**Common Crawl**
Common Crawl包含了超过7年的网络爬虫数据集拥有PB级规模常用于学习词嵌入。
推荐度:★★,推荐应用方向:文本挖掘、自然语言理解
介绍和下载地址:[http://commoncrawl.org/the-data/](https://link.zhihu.com/?target=http%3A//commoncrawl.org/the-data/)
**20 Newsgroups**
该数据集包含大约20000个新闻组文档在20个不同的新闻组中平均分配是一个文本分类的经典数据集它是机器学习技术的文本应用中的实验的流行数据集如文本分类和文本聚类。
推荐度:★★,推荐应用方向:文本挖掘
介绍和下载地址:[http://qwone.com/~jason/20Newsgroups/](https://link.zhihu.com/?target=http%3A//qwone.com/%7Ejason/20Newsgroups/)
## 4. 音频数据集
**大型音乐分析数据集FMA**
该数据集是免费音乐存档FMA的转储这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息共计689种歌曲和68种类型。该数据集可用于音乐分析。
推荐度:★★★,推荐应用方向:音乐分析挖掘
介绍和下载地址:[https://lts2.epfl.ch/datasets/fma/](https://link.zhihu.com/?target=https%3A//lts2.epfl.ch/datasets/fma/)
**音频数据集AudioSet**
谷歌发布的大规模一品数据集AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图覆盖广泛的人类和动物声音乐器和风格以及常见的日常环境声音。
推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘
介绍和下载地址:[https://github.com/audioset/ontology](https://link.zhihu.com/?target=https%3A//github.com/audioset/ontology)
**2000 HUB5 English Evaluation Transcripts**
该数据集由NIST国家标准与技术研究院2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成其仅包含英语的语音数据集百度最近的论文《深度语音扩展端对端语音识别》使用的是这个数据集。
推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别
介绍和下载地址:[https://catalog.ldc.upenn.edu/LDC2002T43](https://link.zhihu.com/?target=https%3A//catalog.ldc.upenn.edu/LDC2002T43)
**LibriSpeech**
该数据集为包含文本和语音的有声读物数据集由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物并经过细致的细分和一致。
推荐度:★★,推荐应用方向:自然语音理解和分析挖掘
介绍和下载地址:[http://www.openslr.org/12/](https://link.zhihu.com/?target=http%3A//www.openslr.org/12/)
**VoxForge**
该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。
推荐度:★★,推荐应用方向:语音识别
介绍和下载地址:[http://www.voxforge.org/](https://link.zhihu.com/?target=http%3A//www.voxforge.org/)
**TIMIT**
这是一份英文语音识别数据集包含630个扬声器的宽带录音八个主要方言的美式英语每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法语音和单词转录以及每个话语的16位16kHz语音波形文件。
推荐度:★★,推荐应用方向:语音识别
介绍和下载地址:[https://catalog.ldc.upenn.edu/LDC93S1](https://link.zhihu.com/?target=https%3A//catalog.ldc.upenn.edu/LDC93S1)
**CHIME**
这份语音一份包含环境噪音的用于语音识别挑战赛CHiME Speech Separation and Recognition Challenge的数据集。该数据集包含了训练集、开发机、测试集三部分每份里面包括了多个扬声器在不同噪音环境下的数据。
推荐度:★★★,推荐应用方向:语音识别
介绍和下载地址:[http://spandh.dcs.shef.ac.uk/chime_challenge/index.html](https://link.zhihu.com/?target=http%3A//spandh.dcs.shef.ac.uk/chime_challenge/index.html)
**TED-LIUM**
TED Talk 的音频数据集包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。
推荐度:★★★,推荐应用方向:语音识别
介绍和下载地址:[http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus](https://link.zhihu.com/?target=http%3A//www-lium.univ-lemans.fr/en/content/ted-lium-corpus)
除了上述公开数据集外不要忘记大多数机器学习和数据挖掘工具本身也附带有datasets资源甚至像sklearn还提供了生成模拟数据的功能实际上专业的数据工具都有很多请见sklearn中的datasets方法。