资料内容:
AI 的应用领域非常非常广,上图只是大家相对熟悉的几个,而且每一个领域用到的算法都
不一样。有很多想转型的产品,第一个考虑的点就是:不懂技术就做不了 AI,我是不是学
完算法才能入行?
其实不是。
大家可能知道:
不仅算法重要,很多时候数据可能更重要;有保质保量的数据,才可能有好的训练效果。
数据可分为两种类型:“被标记过”的数据和“未被标记过”的数据。什么是标记呢?意
同“贴标签”,当你看到一个西瓜,你知道它是属于水果。那么你就可以为它贴上一个水
果的标签。算法同事用“有标签的数据”去训练模型,这里就有了“监督学习”。
重点就是这里:只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自
然语言理解等等,他们都有一个必走的流程——
不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。
二、数据处理流程拆解
1、数据标注
数据的质量直接会影响到模型的质量,因此数据标注在整个流程中绝对是非要重要的一点。
1)一般来说,数据标注部分可以有三个角色
标注员:标注员负责标记数据。
审核员:审核员负责审核被标记数据的质量。
管理员:管理人员、发放任务、统计工资。
只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。
2)数据标记流程
任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,
也可将整个流程做成“抢单式”的,由后台直接分发。
标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都
有利于提高标记效率。
3)进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的
方式淘汰怠惰的人。
4)质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟
踪,可利用“末位淘汰”制提高标注人员质量。