數據標注為AI發展加工“優質原料”
圖為廣東省公共數據標注基地(清遠)。 受訪者供圖
隨著人工智能迅猛發展,高質量訓練數據短缺逐漸成為制約行業進步的一大瓶頸,而數據標注產業可為人工智能創新發展提供強大動力。國家發展改革委、國家數據局、財政部、人力資源和社會保障部四部門日前聯合印發的《關于促進數據標注產業高質量發展的實施意見》(以下簡稱《實施意見》),提出到2027年的發展目標:數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%。
我國數據標注產業現狀如何?數據標注產業高質量發展還需要跨過哪些“門檻”?針對這些問題,科技日報記者進行了采訪。
原始數據變為可用資源
“通俗地說,訓練人工智能大模型的過程就像老師教學生識字。”華南理工大學計算機科學與工程學院副院長張通形象地解釋道,數據標注就是給數據“貼標簽”或者“做記號”,需要專業人員向大模型闡釋各個數據的標簽及需執行的相應任務。他們“教導”大模型參與訓練的數據是什么,給圖像、語音、文本等各種數據“貼標簽”。高質量的數據標注,有助于機器精準理解、快速學習、高效訓練,顯著提升大模型的準確性和泛化能力。
在訓練ChatGPT時,美國開放人工智能研究中心(OpenAI)就投入了大量資源用于數據標注。為確保標注任務高質量完成,使ChatGPT能更好地理解人類指令,保障大模型的準確性與可靠性,OpenAI聘請了眾多“老師”。這些“老師”涵蓋一般數據標注人員和專業人士,還包括博士級別的專家。
數據標注是人工智能發展的核心基石之一。“數據標注產業是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業,其核心任務是對原始數據進行加工,使之成為可用于訓練人工智能大模型的優質原料。”張通介紹,數據標注作為訓練大模型至關重要的一環,直接影響機器學習模型的性能,對支撐人工智能能力水平提升有重要作用。
在張通看來,未經處理的原始數據只是潛在資源,而經過標注處理后沉淀的數據,才能在市場上進行有效交易和流通,從而充分釋放數據要素價值。培育壯大數據標注產業,對于提升數據供給質量、推動人工智能創新發展不可或缺。
業內人士認為,隨著人工智能技術不斷成熟、應用領域持續拓展,數據標注行業將迎來更廣闊市場空間,尤其是在低空經濟、智慧城市、自動駕駛、智慧醫療等新興科技領域展現出巨大潛力。
產業步入快速發展階段
全球數據標注市場目前正處于迅速增長期。近年來,我國數據標注產業已進入快速發展階段,產業鏈條不斷完善,技術創新成果逐步實現市場化應用。據測算,2023年我國數據標注產業規模已達800億元左右。
四川成都、遼寧沈陽、安徽合肥、湖南長沙等7個承擔數據標注基地建設任務的城市,在大模型標注、自動化標注等領域取得重要突破。長沙信息產業園作為長沙首批數據標注基地之一,已吸引智能網聯汽車、數據標注、網絡安全等1萬余家各類數字企業入駐,成功打造了人工智能創新中心算力服務平臺。
廣東積極推進數據標注訓練試點和基地建設,為大模型訓練提供堅實數據支撐。2023年9月,廣東省公共數據標注訓練試點正式啟動。在廣東省公共數據標注基地(清遠),百度、燕湖科技、好思達等一批在自動駕駛、政務公共標注領域表現突出的企業已率先入駐。憑借龍頭企業的帶動作用和數字經濟產業的集聚效應,清遠的數據標注產業蓬勃發展。
“我們以數字經濟產業為核心,與數字經濟產業龍頭企業緊密合作,致力于打造國家級數據標注產業集聚區和產教融合示范區。”廣東省公共數據標注基地(清遠)負責人李艷康介紹,落戶在此的百度智能云(清遠)人工智能基礎數據產業基地已累計引進孵化數據標注企業5家,培育專業數據標注師超300人。未來,基地將持續培育孵化更多優秀數據標注企業,推動清遠數據服務產業不斷壯大發展。
復合型人才缺口仍然較大
《實施意見》的出臺,將進一步提升數據供給質量,有效解決制約人工智能產業發展的高質量數據短缺問題。
值得注意的是,隨著人工智能應用的不斷深化,對數據標注的需求也愈發細分化和專業化。2024年7月,張通團隊和廣州華銀康醫療集團股份有限公司在人工智能與數字經濟廣東省實驗室(廣州)共建AI病理研究中心,著手研發人工智能病理大模型,讓人工智能模型能像專業醫生一樣看病問診。在其中的數據預處理環節,中心特別聘請了3位資深的主任級醫師進行數據標注。
“醫療、材料等專業領域,涉及到專業對象和術語結合的標注過程,只有專業從業人員才能勝任標注工作。而且,標注任務極其耗時、耗力、耗資源。整個標注工作并非一蹴而就,而是需要在實際應用場景中優化、持續迭代,促使模型智能化水平不斷升級。”張通說,當前我國數據標注行業人才缺口仍然較大,亟待培養復合型數據標注人才,這是我國數據標注產業高質量發展必須跨過的“門檻”。
《實施意見》對加強標注人才隊伍建設作出部署。以人才項目計劃和科技項目等為抓手,培育和引進高端專業人才;制(修)定人工智能訓練、數據標注相關職業國家職業標準;支持數據標注領域職業資格與職業技能等級銜接互認……一項項舉措,將為數據標注產業高質量發展提供支撐。
完善的產業生態建設對數據標注行業發展同樣重要。《實施意見》提出,暢通數據采集、標注、人工智能應用產業鏈,推動數據標注產業上下游協同發展;支持數據標注龍頭企業和第三方機構等建設數據標注開源平臺,助力中小企業發展;培育一批人力資源、供需對接、國際合作、法律審計等服務數據標注的第三方機構,完善數據標注產業生態。
“未來數據標注行業的發展,也可考慮‘以人工智能促人工智能’的思路,即讓已經完成學習的人工智能反哺數據標注工作,提高效率。這是值得深入探討且極具價值的研究方向。”張通認為,數據標注行業的發展有望加速推動數字經濟與實體經濟深度融合,加快形成新質生產力。
標簽:
搶先讀
- 股票價格漲跌的原因是什么?股票主力是什么意思?
- 持續提升算力國際競爭力
- 數據標注為AI發展加工“優質原料”
- 40.5萬億元 制造業加速提質增效
- 筆記本cpu溫度多少正常?游戲本長期90度會壞嗎?
- 萬兆光網將帶來哪些變化
- 系統推進制造業數字化轉型
- 歐洲半導體商加大在亞洲設廠布局力度
- 2025年“春風行動”提供就業崗位超10萬個
- 歐洲半導體商加大在亞洲設廠布局力度
- 激發千行百業走技能報國之路
- 2024年內蒙古綜合運輸貨運量同比增長6.0%
- 我國5G基站達到425萬個
- 激發千行百業走技能報國之路
- 萬兆光網將帶來哪些變化
- 殺菌除螨AI智能 洗衣機換新升級
- 工業和信息化部:集群化發展態勢明顯 成為數字產業發展的重要引擎
- 我國國家級制造業創新中心達到33家
- 八省市數字產業規模超過萬億級
- 湖南寧鄉:“家門口”送上新春“就業大禮包”
- 520億元!第二批長期股票投資試點獲批
- “人流”“客流”“投資流” 冰雪經濟“節節高”
- 腐竹涼拌怎么拌好吃呢?腐竹用冷水泡了可以直接吃嗎?
- 促進人工智能助力教育變革
- 智能時代 合作才能應對挑戰
- 人形機器人如何跑好產業“馬拉松”?
- 人形機器人如何跑好產業“馬拉松”?
- 中美網友熱絡交流說明了什么?
- 發揮智慧大數據優勢 讓大城市治理更“智慧”
- 我國已有570多家工業企業入圍全球研發投入2500強
- 發揮智慧大數據優勢 讓大城市治理更“智慧”
- 中美網友熱絡交流說明了什么?
- 大模型“獨角獸”亟須差異化應對價格沖擊
- 多重利好因素共振 消費電子產業鏈有望加速復蘇
- 880萬架 算力產業量質齊升
- 中外團隊“聽”到遙遠太空合聲波
- 880萬架 算力產業量質齊升
- 知識產權領域2024交出“高分答卷”
- 星空有約|人類首次!“天關”衛星探測到宇宙早期爆發的軟X射線信號
- 2024年制造業產品質量合格率為93.93%
- “文化+科技”助推假日經濟持續繁榮
- “文化+科技”助推假日經濟持續繁榮
- 大模型身瘦路更寬
- 促進平臺經濟持續健康發展
- 量子計算機距廣泛應用還遠嗎
- 科學家成功解析大腦掌管學習記憶的“分子開關”
- 科學家成功解析大腦掌管學習記憶的“分子開關”
- 河南西峽農商銀行金融備戰“春節假日游”
- 新野縣王集鎮:新春慰問暖人心
- 西峽縣法院召開2025年度司法白皮書、司法建議書、優秀文書、優秀案例工作推進會
- 駐馬店市驛城區朱古洞鄉:“兜”住困難群體 春節慰問暖民心
- 鄧州市法院:想方設法解“薪”愁 安心過年不憂“薪”
- 鎮平縣法院:暖心調解“案中案” 錦旗相送謝意傳
- 南陽宛城區法院:夜間普法忙 送法暖人心
- 駐馬店市驛城區東風街道雪松路東段社區:慰問暖人心 爭創幸福和諧星
- 行車記錄儀把卡拔了里面有沒有記錄?手機查看行車記錄儀怎么弄?
- 冬天玻璃水凍住了咋辦?雨刮器能動但是不噴水是咋回事?
- 瓜田李下打一生肖答案是什么?亡羊補牢打一生肖答案是什么?
- 民不卿生的含義是什么?民不卿生的反義詞是什么?
- 與世隔絕的絕是什么意思?絡繹不絕的絕是什么意思?
- 起子是什么意思呢?起子與螺絲刀的區別是什么?
- 2024年度山西省級中小企業園名單出爐
- 北京2024年萬元GDP用水量降低至8.45立方米
- 中國考古博物館推出云展覽 八千年龍文化精品文物永久展示
- 制造業的涵蓋范圍有哪些?采購經理指數是什么意思?
- 嶺南詩人劉斯翰講述父親《唐詩小札》的成功密碼
- 王鶴棣:像許七安一樣熱血闖蕩
- 全國首個荊楚文化主題室內沉浸式演藝街區開街
- 犯罪懸疑劇《余燼之上》定檔 王子奇孫陽共赴人性歷險
- 全國首個荊楚文化主題室內沉浸式演藝街區開街
- “電影+旅游”新消費場景拓展延伸 釋放春節文旅市場活力
- “電影+旅游”新消費場景拓展延伸 釋放春節文旅市場活力
- (新春走基層)杭州德壽宮“紋樣”迎春 以“屏”會友共賞宋韻年
- (新春走基層)杭州德壽宮“紋樣”迎春 以“屏”會友共賞宋韻年
- 1月廣州新建商品房網簽面積同比增長37%
- 春節檔武俠電影《射雕英雄傳:俠之大者》曝特別預告
- 海南民宿預訂火熱 春節前平均入住率達80%
- 寧波阪急開年彩蛋,20+新店快速入駐,解鎖蛇年春節新玩法
- “蛇”我其誰!臺灣春節熱播《甄嬛傳》
- “蛇”我其誰!臺灣春節熱播《甄嬛傳》
- 劉廣迎新作探討“足球美學”與中國足球經營之道
- 《票友大會》以“聲”入戲 呈現鮮活票友群像
- 劉廣迎新作探討“足球美學”與中國足球經營之道
- 文明的坐標丨“這里的先民8000多年前就種水稻”有實證
- 文明的坐標丨“這里的先民8000多年前就種水稻”有實證
- 文明的坐標丨“這里的先民8000多年前就種水稻”有實證
- (新春見聞)古籍整理讓古書“活”在當下
- (新春見聞)古籍整理讓古書“活”在當下
- 第十二屆景泰藍皇家藝術廟會大年初二開鑼一展大師新作
- “蛇”我其誰!臺灣春節熱播《甄嬛傳》
- (新春走基層)福建永定土樓人家張燈結彩迎新年
- (新春見聞)古籍整理讓古書“活”在當下
- 內蒙古阿爾寨石窟遺址出土罕見遺物
- 內蒙古阿爾寨石窟遺址出土罕見遺物
- (新春走基層)“遇見敦煌”首秀天津 傳統與科技碰撞出新春“火花”
- 內蒙古阿爾寨石窟遺址出土罕見遺物
- (新春走基層)福建永定土樓人家張燈結彩迎新年
- “群星點亮的夜空——波斯文化藝術五千年”特展在蓉開幕
- (新春走基層)“遇見敦煌”首秀天津 傳統與科技碰撞出新春“火花”
- 房地產稅收新政策實施首月新增減免稅116.9億元