欢迎光临E星体育·(中国)官方入口!
E星体育·(中国)官方入口24小时为您服务!赶快下载体验吧!
全国咨询热线:400-123-4567

E星体育官方网站没个985AI数据标注员的工作都找不到了?

时间:2024-07-10 05:09:49 作者:小编 点击:

  E星体育官方网站没个985AI数据标注员的工作都找不到了?前不久,Scale AI创始人表示了类似的观点:“我们需要最优秀和最聪明的头脑来贡献数据。”

  Scale AI是一家估值138亿美元的数据标注公司,估值都快赶上马斯克的x.AI了。它们的主要工作就是给OpenAI、Meta、谷歌等公司提供训练AI的数据,被称为“大模型公司的弹药库”。

  从实际行动上来看,Scale AI也的确在“开除”低学历人群。据Rest of World的报道,Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。

  这其实就是因为随着大模型的不断进化,所需要的数据质量水涨船高,而事实上,数据标注已经分化成了两种完全不同的行业。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图1)

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图2)

  用专业点的话来表述就是:针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集喂给机器训练和学习。

  这类数据标注任务的特点就是,简单但量大,和在流水线上打螺丝类似,是个劳动密集型产业,是个正常人就能做。

  比较知名且较为简单的数据标注就是李飞飞开发的ImageNet。在2009年推出时,是人工智能史上最大的数据集,包含1500万张图像,涉及22000个类别。

  下图就是一个ImageNet数据标注案例,比如将图片中的泰迪熊框出来E星体育官网E星体育官网,并标注上Teddy Bear。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图3)

  李飞飞的项目借助了亚马逊的mechanical turk平台,众包了来自167个国家的4.9万名工作者,从近10亿张候选图片中筛选出符合条件的数据。

  如今类似的数据标注众包网站,需求很大,像行人轨迹采集,经久不衰的宠物图片采集,人像分析,眼球采集等。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图4)

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图5)

  而随着技术进步,人们对于AI的要求越来越高,AI可执行的任务也变得复杂,因此AI对于数据的要求也变得复杂。

  举个例子,以前的AI只需要判断一张图片中的动物是不是猫,这个手写数字是1还是2,往往只需要学习二维数据。

  而如今AI不光要学习光谱、热成像等数据,还要在专业场景下用术语进行准确描述。就像文章开头那个X光片,没有专业知识如何分辨不同病状?

  同时,以ChatGPT为代表的生成式人工智能,还需要AI学会带有逻辑的编程工作,这时,我们就需要投喂AI带有“关系”的数据。

  简单来说,简单的数据标注工作只需要告诉机器“1是1,2是2”,但复杂的数据标注工作,要告诉机器“1+1=2”。

  具体来说,ChatGPT为代表的大模型所需要的数据标注,可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图6)

  第一阶段预训练,数据相对简单,用到的就是一些网页、书籍等,OpenAI、谷歌等公司陷入的侵权官司涉及的数据,也主要用在预训练中。

  虽然预训练用到的数据很多,但大多未经过滤,存在很多暴力、反话、脏话等“垃圾信息”,此时的预训练模型有一定的逻辑,但回答的内容效果往往不佳。

  比如你问预训练大模型,“张三偷税漏税该怎么处罚”,大模型原本应该根据法律条文进行回答,但预训练大模型可能直接使用罗翔讲的段子。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图7)

  这一阶段,虽然问题形式内容看起来都不难,但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集,如何快速找到/维护合适的数据,如何处理大量数据都有技术要求。

  同样拿法律大模型为例,Gtihub上有一个LexiLaw-中文法律大模型项目,项目中的微调数据如下图所示,不说有多难,但起码要是法律科班出身吧,还要懂一点大模型的技术。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图8)

  第三阶段人类反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分E星体育官网E星体育官网、排序,让模型知道什么才是好答案。

  比如,大模型会针对“人工智能有什么用”这个问题,给出四个答案,数据标注员就需要对这四个答案的好坏排个序。有时候,针对“张三偷税漏税该怎么处罚”这类专业问题,还需要做进一步的事实核实E星体育官网E星体育官网

  与“把猫框出来”这种有标准答案的数据标注不同,大模型的数据标注没有标准答案,更像是阅读理解。在数据标注员拿不定答案时,就得向有知识储备的数据标注员求助。

  如果是行业大模型的数据标注员,在微调/反馈阶段还需要具备行业知识,比如训练法律大模型就需要法律知识,微调古诗词大模型还需要具备文学素养,评价上海话大模型的回答就需要会上海话。

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图9)

E星体育官方网站没个985AI数据标注员的工作都找不到了?(图10)

  这也就是为什么,随着大模型向着能力越来越强的AGI、专业的垂类模型发展,对数据的要求越来越高,导致数据标注需要高学历、高素质人才。

  比如,OpenAI的前期数据标注员大多在肯尼亚,主要工作是帮大模型过滤掉“有害”内容,标注员月薪在200到300美元之间。