admin 發表於 2024-8-21 17:00:15

訓練人工智能的中國县城工人

全球都在评論辩論ChatGPT将带来倾覆性的技能革命,但人工智能練習師李杰却一點也冲動不起来。

為了完成单价4分錢的计件事情,李杰和几十小我坐在一間安排犹如初代網吧的房子里,天天對着電脑劃拉鼠標几千次。

他的职责是為練習人工智能模子筹备“饲料”,将大量的文字、语音、图象打上標识表記標帜——“眸子”、“四川话”、“绿化带”。只有被標注過的数据,才能被人工智能模子辨認,練習出它的辨别能力。

李杰做得至多的是門路图片標注,亦即给門路图片上的物體標注好名称、色彩等具體信息,業内俗称“拉框”。

效力高的時辰,他一天可以拉2000-3000個框,依照一個框4分錢计较,他一個月能賺三千块摆布。對付职校结業、身在西北县城的青年来讲,這份收入還過得去。

| 一派别据標注工場

一样的場景也呈現在非洲的肯尼亚。该國首都内罗毕有30多名工人,成了ChatGPT的数据標注員,他們天天事情9個小時,浏览150-200段文字,并標注出此中包括性、暴力與冤仇谈吐的内容。因為天天浏览大量极具打击力的文字,有人美白藥膏,會由於一段描述而做上一周恶梦。

這些工人能得到每小時1.32美元的税後收入,若是完成既定的使命,時薪可以上升至1.44美元,并有约莫70美元的奖金,至關於一個月挣2500元—3000元人民币,比本地一般蓝领事情强些。

在人工智能產物卷起巨浪的時辰,從肯尼亚、乌干达再到印度、中國,水下另有一群不被瞥見的“人工智能練習師”,在简陋的事情情况下,以最简略的技術,與最前沿的技能發生了接洽。

侍候人工智能

李杰對人工智能的理解,是手機上的智能语音助手,“就仿佛苹果的Siri”。

他在职校念電子商務,同窗大多去了電商公司當客服,他經常听到@同%Mi769%窗對事%JVt7J%情@的埋怨。相较之下,数据標注的事情死板,却也纯洁,他只必要循序渐進地完成使命、“可以在辦公室吹空调,也没甚麼難度,就是有點费眼睛”。

| 给汽車举行“拉框”,一张图片就要反复数次雷同操作

在2021年版的《人工智能練習師國度职業技術尺度》中,對该职業的能力特性描寫是“具备必定的進修能力、表达能力、计较能力;空間感、色觉正常”,廣泛受教诲水平寫的是“初中结業”。弦外之音,這是一份几近零門坎的职業。

年過50岁的郭梅,本来在山西本地的煤矿上班,“昂首是山,垂頭是煤”。分開煤矿以後,她长時候找不到事情,最後成為数据標注基地中的一位員工,天天要拉两千個以上的框。“我历来没有想過本身會和無人駕驶、人工智能有瓜葛。”

| 正在给汽車拉框的数据標注員

除“拉框”,李杰也會接到语音標注的項目,凡是是甲方收集到的分歧地區、分歧人群的语音,李杰必需戴上耳麦,细心地识别出每個声音的寄义。

一全國来,他要听来自几百個目生人在分歧場景下的讲话,多是陪伴着車流声、喇叭声的中年汉子在马路上高声诘责,多是讲着廣东平凡话的姨妈對着话筒發出指令,有時辰,他乃至會听到脏话。

這些声音被李杰逐一转录成正确的文字,有時還必要打上措辞人的性别、情感等更细分的標签,最後教會人工智能模子理解人類的说话,用於智能客服、智能音箱、舆图导航等產物中。

人工智能的三大基石是数据、算力與算法,数目越多質量越高的数据,常常越可以或许練習出更“聪慧”的模子。

人工智能的主流標的目的是深度進修。在曩昔,由人来奉告呆板,猫身上都有哪些特性,呆板按照這些特性果断一個物體是否是猫;深度進修則是經由過程“豢養”大量分歧猫的图片,呆板就可以自行归纳出猫的特性。這就必要大量經人工標注的图片,俗语说,有几多智能,就得支出几多人工。

数据標注范畴有過一個神话——ImageNet項目。這個項目数据库具有跨越1400万张已被標注的图片,此中辨認出的物體種類跨越20000種——包含120個分歧品種的狗。

| ImageNet图片集中有1400多万张標注图片,此中超100万张带有邊框

項目源於斯坦福大學的人工智能專家李飛飛。2009年,業内廣泛鑽研標的目的都是模子與算法,她另寻門路,改良数据質量。現在,ImageNet已是世界上最大的图象辨認数据库,被用於不计其数小我工智能鑽研項目和實行。

而在ImageNet項目暗地里,是来自167個國度的5万名数据標注員,他們足足花了三年時候才完成為了全数图片的標注。

李杰算是图片標注的内行了,凡是發给他的数据包内凡是會稀有百张不等的門路拍摄照片,李杰必要依照項目方的请求,對門路上的車辆、行人、绿化带等物體標注。此外另有一種常見的標注使命,則是標注門路的車道線。

這類数据標注请求出格多,“框框不克不及跨越也不克不及小於,更不克不及漏點,一犯错误验收分歧格就得從新拉”。這些数据的最大流向是用於主動駕驶的呆板進修,要确保駕驶平安,凡是必要供给数以百万计的標注数据對人工智能加以練習——暗地里則是無数在電脑前點击鼠標、敲击键盘的李杰們。

互联網版富士康

贵阳,大数据之城。

在間隔贵阳市中間约50千米的惠水县百鸟河数字小镇,有一家具有跨越500名数据標注員的公司梦動科技——此中的一半人,是四周盛华职業學院的學生。

大三學生郑成何在梦動科技練習,公司里的全人員工只有十来小我,辦理层也是黉舍里的教員,“上课就是上班,教員就是司理”。

| 位於百鸟河数字小镇的盛华职業學院

他很酷爱這份事情,数据標注给了他糊口多一種選擇。他在上高职以前乃至没碰過電脑,如今却可以凭仗一份電脑前的兼职,一個月能拿到1500元以上的收入。

郑成安地點的惠水县,在贵阳88個县區中經濟程度排在中遊,2020年時的GDP為139.16亿元,屯子常住住民人都可安排收入12924元——至關於每個月1000元出頭。

有時辰為了多挣一些糊口费,碰上告急的項目,郑成安會自動加班。他清晰地晓得,標注員的事情很難一向做下去,他暗自下定方针,要成為辦理標注員的人。

像贵阳如许的都會,中國不止一個。

数据標注財產的出生最先可以追溯到2005年。那時,闻名计较機視觉專家、人工智能專家朱纯松從美國回到了故里湖北鄂州,開辦了莲花山鑽研院,筹建据称是那時世界上最先的大数据標注l團队。

在深度進修成為人工智能主流以後,日趋增加的互联網大数据成了人工智能的最佳营養。

据数据公司IDC统计,全世界每一年出產的数据量将從2016年的16.1ZB猛增至2025年的163ZB,此中80%-90%都是原始数据数据。這些在颠末洗濯和標注後,酿成尺度化格局数据,才能被人工智能所理解。

作為劳動密集型財產,数据標注企業更多地選在三四線都會落地,處所當局不管是為了扶贫或是搭上互联網的顺風車,都能與互联網公司們一拍即合。

2018年,位於太原的山西转型综合鼎新树模區就與baidu告竣互助,打造了号称“天下范畴内助員和產值范围最大的单體数据標注基地”,基地占地面积超1万平米,已引進了最少35派别据標注公司,跨越2000名数据標注員。

| baidu山西数据標注基地

在新疆和田,有4000人在本地的数字經濟財產園從事数据標注事情,和田地域更是抛出了“数据標注財產之都”和10万人数据標注就業基地的方针。

在河南,数百派别据標注公司從無到有;在濟南,山东第一個数据標注基地,已容纳了1500名“人工智能練習師”;在新三板上市的数据堂,也在保定、合肥,别離創建了容纳数百名数据標注員同時事情的基地。

而数据標注員身上的標签是“互联網民工”、“赛博流水線”。而對付绝大大都身在此中的人而言,一個互联網版的富士康,已是當下不成多得的選擇。

“教會門徒,饿死師傅”

當数据標注成為“風口”,淘金者也随之而来。

2017年,周华偶尔在朋侪口中得悉,做数据標注能賺錢,方才創業失败的他,决议再赌一把。

他算過一笔账,一位数据標注員一個月的產值能到7000元,除掉3000元的工資和質檢、園地装备等用度,還能賺1500元。“若是招100小我,一個月就賺15万元。”

他找来互助火伴,采購電脑、肯定園地,又敏捷地雇用了一批没有學历、事情履历请求的数据標注員,紧锣密鼓地接单。

| 正在事情的数据標注員

此時的数据標注財產,遇上人工智能創業潮。按照前瞻財產鑽研院统计,数据標注公司從2014年起頭不竭增长,并在2017年到达岑岭,昔時数据標注相干融資事務到达9起,到2021年4月,已有有18家公司得到融資,投融資事務39起。

数据標注行業有三種分歧的公司,一種是大型互联網公司内部的数据標注部分,處置公司内部的数据;一種是像数据堂這種有本身基地的数据標注公司,他們有自力承接定单的能力萬用膏,,乃至外包给第三方;数目至多的則因此事情室形态存在的小公司,他們凡是只能在眾包平台上接单,或第三方中介公司转過来的层层分包的定单——在平台上,他們或被称為“公會”、“l團队”。

周华的事情室便属於最後一種,那時重要依靠baidu眾測的平台定单,平台上會分發各種使命,在行業内称為“放题”,日本代購,包含数据收集、图片標注、文本標注等。据baidu眾測的数据,平台上有2500万的注册用户。

但baidu眾測上的单其實不是都能到周华的手里。有時辰他必需自動承接一些二手甚至三手的定单,那些把握渠道的公司則可以賺取差价。

一样和他同样撞優势口的,另有那時仍是創業公司的星尘数据。

星尘数据的開創人章磊,在华尔街、硅谷事情10年,曾在投資平台CircleUp担當資深数据科學家。2017年回國時,他本想继续在投資范畴創業,測验考试打造一個投研呆板人——經由過程對大量公司年報、招股書等金融文档的進修,辅助投資人决议计劃。那時海内的数据標注常常常常只能機器化地完成客户需求,這類“别致”的数据標注请求,業内難以實現。章磊却看到了機遇。

他開辦的星尘数据,号称為客户量身打造数据標注方案。這家位於北京三里屯的公司,早在2018年1月就完成1000万元人民币的Pre-A轮融資,最新在客岁8月又完成為了5000万人民币的A轮融資,現在更可能是做“数据標注平台”的買賣——他們會去竞標至公司给出的数据標注定单,再分包给雷同一些小型的“数据工場“,周华是他們的此中一個互助火伴。

2005年建立的海天瑞声,在這次天生式人工智能風潮中更是“賺麻了”。這家在業内以语音数据標注著称的公司,21年在科創板樂成上市,本年一月以来,股价從每股60元摆布暴涨到了每股跨越200元。

| 海天瑞声最先從语音標注項目發迹

究竟结果對付海内浩繁研發人工智能的大廠而言,根本的数据標注是刚需,却不成能永久本身来做。那末只要有定单,不管是周华如许的事情室,仍是海天瑞声、星尘数据如许的至公司,都能賺個盆满钵满。并不是所有入局者都能有周华的命運,周华就晓得很多同業,由於定单缺少、结算周期长,公司早早退場。

固然,跟着GPT-4和文心一言的陸续進場,人工智能正“進级換代”,数据標注行業也陪伴着新的變革。

人工智能鑽研者們已起頭測验考试向呆板“豢養”未標注的数据與部門標注数据,亦即“半监視進修”,而不依靠於人工標注的自监視進修與数据標注,也在業界起頭呈現實践。

客岁6月尾,美國加州圣马特奥县的特斯拉辦公室,多名特斯拉員工在一次集會中被告诉,他們被裁人了。终极被裁人的200人中,大大都都是数据標注員。特斯拉今朝正在開辟的计较機Dojo,就采纳自监視進修技能,用於練習人工智能模子,對数据標注的需求正愈来愈低。

| 非洲的数据標注員

腾讯、阿里、字節跳動等一眾大廠,也都在研發自监視進修的算法,乃至有些数据標注公司也都已有60%内容来豐胸食品,自於呆板的主動化標注。

李杰听過一個说法,数据標注員是“人工智能的教員”,是他和同事們日复一日的拉框,教會了人工智能理解人類世界。

但他從没想過,當人工智能期間真正到来的那一天,代替他們的,偏偏會是本身曾的學生。

(為庇护隐私,文中人物均為假名)

参考資料:

TIME《OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic》

財經《火爆“智能”下的暗澹“人工”》

第一財經《人工智能暗地里的“人工”:谁在練習AI?》
頁: [1]
查看完整版本: 訓練人工智能的中國县城工人