有一个非常形象的比喻——数据是21世纪的石油。
然而,大多数原始数据其实更像原油,并不能直接拿来就用。特别是在如火如荼的AI领域,更需要先进行数据标注,将原始数据变成算法可用数据。如果数据是原油,那么数据标注就是把原油提炼为成品油的过程。
数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从 95% 再提升到 99% 甚至 99.9% ,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。
京东众智负责人回忆说:“随着业务量的增大,我们在AI开发中需要的数据标注量越来越大。我们找过很多数据标注公司,但是合作效果都不理想。这些问题严重拖累了很多项目的开发进度。痛定思痛,我们决定开发自己的数据标注平台,立项的时间是去年5月,我们只用了三个月时间,就在去年8月上线了京东众智平台。”
京东众智开发团队总结了各类数据标注平台的优点,并针对效率、质量、数据安全等痛点,对症下药——
- 人员专业度: 通过科学的培训机制和激励机制,建立起一套从标注专员到标注专家,再到高级专家和讲师的完整人才体系。
2)场景丰富度:开发了覆盖无人驾驶、智能服务机器人、医疗影像辅助诊断等八大业务场景的一系列专业工具和丰富模板。
京东金融推出Pre-AI快速落地方案,将人工标注和智能标注同步进行——第一步由人工进行少量标注,生成标注样本。第二步对样本进行建模训练,然后用训练出来的模型进行数据预标注,由人工判断标注是否准确,并反馈结果用于优化算法,直到机器标注的准确率达到99%时,人工完全撤出。
本文地址:http://sjzytwl.xhstdz.com/quote/70344.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多