人工智能学习资源——AI导航




AI 在线教程
Section titled “AI 在线教程”吴恩达视频
很多在线课程,都是机器学习相关的。其中吴恩达的机器学习课程是最出名的,很适合新手入门。
视频科学上网
Google 出品,针对不同人群,不同阶段推荐了不同的课程。少量视频教程
微软出品的相关教程,内容很细致,step by step的详细教程。很注重工程实践。
[亚马逊机器学习教程](https://aws.amazon.com/cn/training/learning-paths/machine-
Section titled “[亚马逊机器学习教程](https://aws.amazon.com/cn/training/learning-paths/machine-”learning/)
视频
主要是以 AWS 为核心的教程。大量视频教程,比较适合新手。
[IBM 的教程](https://developer.ibm.com/clouddataservices/docs/ibm-watson-
Section titled “[IBM 的教程](https://developer.ibm.com/clouddataservices/docs/ibm-watson-”machine-learning/)
视频科学上网
IBM出品,依然是主推自家的 Watson 。
数据集查找器
一个综合的教学网站,不但有大量的教程,还有很多数据集。还有高达 10w 美金的比赛。
手把手式的教程,每天一节课。包含简单的操作步骤,还有每一步骤对应的代码,同时准备好了训练的数据集。
适合非技术类的人了解 AI 相关的基础概念和历史。
非常好的科普入门书籍,从最底层的逻辑讲清楚了人工智能的运作逻辑。
从很多角度讲述了人工智能,是一个比较容易理解的科普书籍。
对于产品经理来说,是一本很不错的入门书籍,覆盖面比较广,不过不算很深入。
针对算法有很详细的介绍,并且从历史角度解释了算法的由来,算法的优劣势等。
深度学习领域的圣经,如果是技术人员,那么必读!
数据集查找器科学上网
开放数据集的搜索引擎,可以随意查找开放的数据集。
科学上网
Google 提供的视频和音频的注释数据集,可免费下载。
[Open Images
Section titled “[Open Images”Dataset](https://storage.googleapis.com/openimages/web/index.html)
图像
Google 提供的图像数据集。3000万注释,20000个分类,数量庞大。
数据集查找器
一个包含各种外部贡献数据集的数据科学网站。你可以在其主列表中找到各种合适的数据集,从拉面评级到篮球数据,甚至是西雅图宠物许可证,应有尽有。
数据集查找器
网络上最古老的数据集源之一,是寻找有趣的数据集的第一站。虽然这里的数据集是用户贡献的,因此清洁度不一,但绝大多数都是干净的。你可以直接从 UCI 机器学习库下载数据,无需注册。
图像
带图像标注的大型数据集。
图像
业界最新算法图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点由数百和数千个图像描述。
自动驾驶
在英国牛津的同一条路线重复行驶 100 多次、耗时一年多收集的数据集。该数据集包含天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
图像
13,000 张人脸标记图像,用于开发人脸识别应用程序。
图像
包含 20,580 张图片和 120 种不同的狗品种。
NLP英文
包含亚马逊 18 年来约 3500 万条评论。数据包括产品和用户信息、评级和明文审核。
[Google Books Ngrams](https://aws.amazon.com/datasets/google-books-
Section titled “[Google Books Ngrams](https://aws.amazon.com/datasets/google-books-”ngrams/)
NLP英文
Google 图书中的一系列文字,此数据集在Amazon S3上以Hadoop友好文件格式免费提供。
NLP英文科学上网
收集了来自 blogger.com 的 681288 篇博文。每个博客至少包含 200 个常用英语单词。
NLP英文科学上网
维基百科全文。该数据集包含来自 400 多万篇文章的近 19 亿个单词。你可以按段落、短语或段落本身的一部分进行搜索。
NLP英文科学上网
一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。
问答集英文
斯坦福问答数据集(SQuAD)是一个全新的阅读理解数据集,基于维基百科文章中的提问和答案,其中每个问题的答案是来自相应阅读段落的一段文本片段或区间。其中包括超过
500 篇文章中超过 100,000 个问答配对
手写数据英文
MultiNLI是SNLI的升级版,格式一样,规模相当,但是前者变化更多,也包含了一个辅助测试集用于cross-genre transfer 评估
NLP英文
Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
自动驾驶
目前是自动驾驶 AI 的最大数据集。包含超过 100000 个视频,包括一天中不同时段和天气条件下超过 1100
小时的驾驶体验。带注释的图像来自纽约和旧金山地区。
自动驾驶
大型数据集,定义了 26 种不同的语义项目,如汽车、自行车、行人、建筑物、路灯等。
图像
最大的时尚数据集,近百万对买家秀-卖家秀图像+海量标注。
语音
Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400
小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。
[IBM Diversity in Faces Dataset](https://www.research.ibm.com/artificial-
Section titled “[IBM Diversity in Faces Dataset](https://www.research.ibm.com/artificial-”intelligence/trusted-ai/diversity-in-faces/)
人脸图像
IBM 推出的“人脸多样性”(Diversity in Faces Dataset,DiF)是一个庞大而多样化的数据集,与以前的数据集相比,DiF
数据集提供了更均衡的分布和更广泛的面部图像覆盖率。DiFferences 提供了 100 万注释的数据集人类面部图像。
人脸图像
英伟达推出的 Flicker 人脸高清数据集(FFHQ)由 70,000 个高质量的 PNG 格式图像组成,分辨率为
1024*1024。这些图片在年龄、种族和图像背景方面有很强的多样性,并且还有如眼镜、太阳镜、帽子等元素。
图像
Tencent ML- Images 是最大的开源多标签图像数据集,包括 17,609,752 个训练和 88,739 个验证图像 URL,最多可注释
11,166 个类别。
视频
Youtube-8M 2018 是一个大型标记视频数据集,由 600 万个 YouTube 视频 ID 组成,目前具有 4700
多个视觉实体标签,同时它还配备了数十亿帧和音频片段的预先计算的视听功能。
图像
Fashion-MNIST 由德国研究机构 Zalando Research 公布,包含 60000 个样本,测试集包含 10000 个样本,分为 10
类,每一个都是 28×28 的灰度图。
AI 软件工具
Section titled “AI 软件工具”球上最流行的 AI 工具,没有之一
FACEBOOK 出品的机器学习开源工具。
亚马逊主推的深度学习框架
微软开发的机器学习和深度学习框架
ONNX使模型能够在一个框架中进行训练并转移到另一个框架中进行推理。
Caffe2是一个轻量级和模块化的深度学习框架,强调便携性,同时保持可扩展性和性能。
PaddlePaddle是百度推出的深度学习开源框架