那天我在咖啡厅,和一个做AI的朋友聊起深度学习的事。他说,深度学习的灵魂就是数据。我问他,你们的数据都是从哪来的?他笑了笑,说:“,这事儿得从两年前说起。”
那时候,他们公司接了一个项目,要做一个图像识别的模型。他们找来了一个团队,专门负责收集数据。我好奇地问,那他们是怎么找数据的呢?朋友说,他们找到了一个大学的研究所,那边的老师负责提供。
时间回到2019年,地点在西南某省会城市。那个研究所里,有几十个本科生和研究生,每天的任务就是从互联网上下载各种图片。他们下载了超过一百万张图片,涵盖了动植物、城市景观、日常生活等各种主题。
我听着,突然想到,那这些数据都是公开的吗?朋友回答:“大部分是公开的,但也有不少是付费购买的。比如,一些公司的产品图片,就花了我们不少钱。”
等等,还有个事。我记得他们还和一家专门做数据标注的公司合作了。那家公司的员工,专门负责对图片进行标注,比如把猫的图片标记为“猫”,把狗的图片标记为“狗”。
这个过程中,他们确实遇到了不少挑战。比如,有些图片质量不好,或者标注不准确。但正是这些细节,让他们的模型越来越精准。等等,我突然想到,那这些标注的数据,也是他们自己收集的吗?
深度学习样本,来源广泛,如电商平台用户行为数据,2018年,淘宝用户画像,千万级。
使用公开数据集,如ImageNet(2012年,1300万张图片),作为深度学习样本来源。