深度学习数据样本来源

熊叔杏

2026-04-14 13:50:49

那天我在咖啡厅，和一个做AI的朋友聊起深度学习的事。他说，深度学习的灵魂就是数据。我问他，你们的数据都是从哪来的？他笑了笑，说：“，这事儿得从两年前说起。”
那时候，他们公司接了一个项目，要做一个图像识别的模型。他们找来了一个团队，专门负责收集数据。我好奇地问，那他们是怎么找数据的呢？朋友说，他们找到了一个大学的研究所，那边的老师负责提供。
时间回到2019年，地点在西南某省会城市。那个研究所里，有几十个本科生和研究生，每天的任务就是从互联网上下载各种图片。他们下载了超过一百万张图片，涵盖了动植物、城市景观、日常生活等各种主题。
我听着，突然想到，那这些数据都是公开的吗？朋友回答：“大部分是公开的，但也有不少是付费购买的。比如，一些公司的产品图片，就花了我们不少钱。”
等等，还有个事。我记得他们还和一家专门做数据标注的公司合作了。那家公司的员工，专门负责对图片进行标注，比如把猫的图片标记为“猫”，把狗的图片标记为“狗”。
这个过程中，他们确实遇到了不少挑战。比如，有些图片质量不好，或者标注不准确。但正是这些细节，让他们的模型越来越精准。等等，我突然想到，那这些标注的数据，也是他们自己收集的吗？

闳季同

2026-04-13 14:11:07

深度学习样本，来源广泛，如电商平台用户行为数据，2018年，淘宝用户画像，千万级。

堵伯琪

2026-04-18 11:28:12

使用公开数据集，如ImageNet（2012年，1300万张图片），作为深度学习样本来源。

深度学习数据样本来源

熊叔杏

闳季同

堵伯琪

相关推荐