核心提示
去年5月,國(guó)家數(shù)據(jù)局布局建設(shè)7個(gè)國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地,我省成為其中之一,開始探索發(fā)展數(shù)據(jù)標(biāo)注這一新興產(chǎn)業(yè)。一年來,全省數(shù)據(jù)標(biāo)注從業(yè)人員快速增長(zhǎng),產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大。在今年召開的第八屆數(shù)字中國(guó)建設(shè)峰會(huì)上,遼寧有4個(gè)數(shù)據(jù)標(biāo)注案例獲評(píng)國(guó)家級(jí)優(yōu)秀案例,成為入選數(shù)量最多的省份。不久前,遼寧省數(shù)據(jù)標(biāo)注基地建設(shè)推進(jìn)會(huì)議暨數(shù)據(jù)標(biāo)注供需對(duì)接會(huì)召開,簽約金額超2億元。
為支撐人工智能創(chuàng)新發(fā)展,我省提出推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)盡快實(shí)現(xiàn)大的突破。那么,我省應(yīng)該如何發(fā)力推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展?記者對(duì)此進(jìn)行了深入采訪。
人工智能的“數(shù)據(jù)糧食”
當(dāng)前,隨著人工智能應(yīng)用持續(xù)走深向?qū),?shù)據(jù)標(biāo)注的概念也隨之“浮出水面”。
什么是數(shù)據(jù)標(biāo)注?
“數(shù)據(jù)標(biāo)注是人工智能訓(xùn)練過程中的關(guān)鍵環(huán)節(jié),通俗來說,就是教AI認(rèn)識(shí)世界——通過標(biāo)記數(shù)據(jù)的特征,讓AI理解‘這是什么’”。遼寧宏圖創(chuàng)展測(cè)繪勘察有限公司董事長(zhǎng)劉莉萍與數(shù)據(jù)打了20多年交道,她說,日常生活的眾多領(lǐng)域都有數(shù)據(jù)標(biāo)注的貢獻(xiàn),比如物流配送、電子政務(wù)、導(dǎo)航定位等。簡(jiǎn)單來說,將現(xiàn)實(shí)世界的萬事萬物轉(zhuǎn)化為數(shù)字信息,存儲(chǔ)于計(jì)算機(jī)系統(tǒng)中,建立各類數(shù)據(jù)集,為大模型計(jì)算和推理提供數(shù)據(jù)支撐,這一過程即為數(shù)據(jù)標(biāo)注。
為了更具體地了解數(shù)據(jù)標(biāo)注,6月27日,記者來到遼寧宏圖創(chuàng)展測(cè)繪勘察有限公司,1萬多平方米的大樓里,上千名數(shù)據(jù)標(biāo)注員在不同生產(chǎn)線上忙碌。
“我的工作是將道路上的白色虛實(shí)線、馬路牙子、各種車輛及路旁欄桿等一一標(biāo)注出來。”數(shù)據(jù)標(biāo)注員王鑫滑動(dòng)鼠標(biāo),熟練地處理數(shù)據(jù)。
標(biāo)注過的數(shù)據(jù),還要進(jìn)行數(shù)據(jù)清洗!巴貊螛(biāo)注的數(shù)據(jù)經(jīng)過質(zhì)檢,達(dá)到一定準(zhǔn)確率,才能交付給客戶!必(fù)責(zé)數(shù)據(jù)清洗的質(zhì)檢組組長(zhǎng)張威畢業(yè)于沈陽工業(yè)大學(xué)建筑專業(yè),他告訴記者,這些數(shù)據(jù)是用于智能駕駛的,必須保證精準(zhǔn),否則會(huì)出事故。
“數(shù)據(jù)標(biāo)注的概念這兩年才出現(xiàn),但這項(xiàng)工作一直在做,20年前我們做測(cè)繪,主要靠人,很辛苦。現(xiàn)在不僅有激光LiDAR、視頻影像、慣導(dǎo)等,還有無人機(jī)等輔助工具,采集數(shù)據(jù)方便多了。”劉莉萍說。
“這個(gè)市區(qū)3D建模,就是用無人機(jī)+5個(gè)相機(jī)采集的傾斜攝影數(shù)據(jù),真實(shí)還原城市原貌,非常逼真!比S技術(shù)中心項(xiàng)目經(jīng)理任達(dá)介紹,這種基于航空傾斜攝影構(gòu)建的城市數(shù)字孿生項(xiàng)目,通過實(shí)景三維技術(shù)數(shù)字化呈現(xiàn)城市空間,為城市規(guī)劃、應(yīng)急管理和交通優(yōu)化等工作提供便利。
數(shù)據(jù)標(biāo)注是人工智能大模型發(fā)展離不開的“數(shù)據(jù)糧食”,尤其是高質(zhì)量數(shù)據(jù)集。專家指出,高質(zhì)量數(shù)據(jù)集是人工智能大模型訓(xùn)練、推理和驗(yàn)證的關(guān)鍵基礎(chǔ),是按照特定標(biāo)準(zhǔn),經(jīng)過采集、清洗、歸類和標(biāo)注等智能化處理,具有相應(yīng)更新和維護(hù)機(jī)制的數(shù)據(jù)集合。
以遼寧省12345熱線平臺(tái)為例,作為全國(guó)唯一政務(wù)領(lǐng)域數(shù)據(jù)標(biāo)注優(yōu)秀案例,它下面標(biāo)注了多少數(shù)據(jù)呢?
“總量達(dá)16T,每年新增1400萬條,每月更新15%至30%。”遼寧省12345熱線平臺(tái)技術(shù)部部長(zhǎng)張時(shí)佳透露,這是他們動(dòng)員全省1400余名話務(wù)員與3.7萬名基層人員共同參與的成果,非常難得。
但標(biāo)注完的不是高質(zhì)量數(shù)據(jù)集,還要經(jīng)過人工復(fù)核才行。雖然今年年初,遼寧12345熱線就“先行一步”用上了DeepSeek大模型,事實(shí)也證明AI標(biāo)注準(zhǔn)確率明顯高于人類,但有些問題還得靠專業(yè)人員解決。張時(shí)佳舉例說,某快遞白天不派單晚上派,要求索賠。這時(shí)就要判斷是態(tài)度問題還是寄送延誤問題,問題不同,責(zé)任主體不同!爱(dāng)人和AI標(biāo)注不一致時(shí),到底誰對(duì)?若兩者都錯(cuò),就得另選一個(gè)對(duì)的,這就需要專家給標(biāo)注出來!
全省熱線常見訴求有1400種,不常見的有5000多種,一天幾萬件,張時(shí)佳直言,靠人來標(biāo)并不現(xiàn)實(shí),通過建立訴求數(shù)據(jù)治理平臺(tái),自動(dòng)進(jìn)行標(biāo)注,標(biāo)錯(cuò)的,專家來復(fù)核,最后才能形成一整套高質(zhì)量數(shù)據(jù)集。他同時(shí)表示:“這項(xiàng)工作太瑣碎,沒有專家愿意干這么一件小事。我們沉下心,整整干了20年,把自己變成了專家,才成就最典型的應(yīng)用案例,在全國(guó)推廣!
正如業(yè)內(nèi)人士所言,有多少標(biāo)注就有多少智能。沒有數(shù)據(jù)標(biāo)注,AI寸步難行,標(biāo)注質(zhì)量直接決定了AI的“智商”。
“冰山之下”的承載
如果說,遼寧12345熱線平臺(tái)的數(shù)據(jù)標(biāo)注是AI+人工,宏圖創(chuàng)展是多源數(shù)據(jù)融合、大模型應(yīng)用和人工輔助。那么,東軟智能醫(yī)療科技研究院研發(fā)的針對(duì)醫(yī)學(xué)影像的智能數(shù)據(jù)標(biāo)注平臺(tái)則實(shí)現(xiàn)了以機(jī)器標(biāo)注為主。
作為全球首個(gè)基于醫(yī)學(xué)影像大模型研發(fā)的多模態(tài)醫(yī)學(xué)影像數(shù)據(jù)標(biāo)注平臺(tái),它打破醫(yī)學(xué)影像標(biāo)注工具、金標(biāo)準(zhǔn)數(shù)據(jù)集(經(jīng)過嚴(yán)格標(biāo)注、具有高可靠性和權(quán)威性的數(shù)據(jù)集)嚴(yán)重依賴國(guó)外的瓶頸,集數(shù)據(jù)、模型、工具、場(chǎng)景為一體,實(shí)現(xiàn)標(biāo)注工具自主可控及國(guó)產(chǎn)化替代。
對(duì)于建立醫(yī)學(xué)影像標(biāo)注“中國(guó)標(biāo)準(zhǔn)”,東軟集團(tuán)研究院院長(zhǎng)、東軟智能醫(yī)療科技研究院院長(zhǎng)張霞深感自豪:“我們起名‘飛標(biāo)’就是因?yàn)樗芸焖倬珳?zhǔn)標(biāo)注!
“只需點(diǎn)一下,就能把想要標(biāo)注的整個(gè)病灶都清晰顯現(xiàn)出來!7月1日,在東軟智能醫(yī)療科技研究院工作區(qū),面對(duì)屏幕上的彩色三維立體可視化模型,工作人員馮雪介紹,這是肺結(jié)節(jié)病例,醫(yī)生做術(shù)前規(guī)劃,能直觀了解病人身體情況,想要分析哪個(gè)部位點(diǎn)哪就行。
不僅手術(shù),對(duì)于放療靶區(qū)的勾畫、科研教學(xué)等,“飛標(biāo)”平臺(tái)都非常重要。張霞強(qiáng)調(diào),它讓標(biāo)注效率提升100多倍,質(zhì)量提升30%且成本降低60%以上。目前已廣泛應(yīng)用于多省市數(shù)據(jù)局、大數(shù)據(jù)公司、醫(yī)療機(jī)構(gòu)、醫(yī)學(xué)院校、醫(yī)療人工智能企業(yè)等,為100多家客戶提供數(shù)據(jù)標(biāo)注服務(wù),累計(jì)標(biāo)注多種模態(tài)的醫(yī)學(xué)影像數(shù)據(jù)達(dá)50T以上。
“開發(fā)醫(yī)學(xué)影像人工智能應(yīng)用,它的基礎(chǔ)養(yǎng)料就是有標(biāo)注的數(shù)據(jù)!睆埾颊f,人工智能軟件的數(shù)據(jù)有嚴(yán)格審查要求,要有一定資質(zhì)的人去做標(biāo)注,還有相當(dāng)資質(zhì)的人去做審核,來證明你的標(biāo)準(zhǔn)是金標(biāo)準(zhǔn)。
人工智能大模型的訓(xùn)練和推理高度依賴高質(zhì)量數(shù)據(jù)集的供給,谷歌研究發(fā)現(xiàn),對(duì)于圖像生成模型,當(dāng)計(jì)算資源受限時(shí),數(shù)據(jù)集大小比模型大小更加重要。紐約大學(xué)的一項(xiàng)研究表明,大型語言模型在使用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練過程中,即使含有0.001%的錯(cuò)誤信息,也可能導(dǎo)致模型輸出不準(zhǔn)確的醫(yī)學(xué)答案。
國(guó)家數(shù)據(jù)發(fā)展研究院院長(zhǎng)胡堅(jiān)波指出,高質(zhì)量數(shù)據(jù)集建設(shè)有利于推進(jìn)“人工智能+”行動(dòng)落地見效,對(duì)數(shù)字經(jīng)濟(jì)乃至整個(gè)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展具有重大意義。
去年5月,遼寧成為國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地,積極探索發(fā)展數(shù)據(jù)標(biāo)注這一新興產(chǎn)業(yè)。經(jīng)過一年多努力,全省數(shù)據(jù)標(biāo)注從業(yè)人員快速增長(zhǎng),產(chǎn)業(yè)規(guī)模持續(xù)擴(kuò)大。除了東軟在AI+醫(yī)療領(lǐng)域的標(biāo)桿性創(chuàng)新成果,包括遼寧12345熱線平臺(tái)、宏圖創(chuàng)展和大連金慧融智科技股份有限公司在內(nèi),遼寧有4個(gè)數(shù)據(jù)標(biāo)注案例獲評(píng)國(guó)家優(yōu)秀案例,成為入選數(shù)量最多的省份之一。
不久前,我省召開遼寧省數(shù)據(jù)標(biāo)注基地建設(shè)推進(jìn)會(huì)議暨數(shù)據(jù)標(biāo)注供需對(duì)接會(huì),會(huì)上,簽約金額超2億元。
數(shù)據(jù)標(biāo)注是激活數(shù)據(jù)價(jià)值、驅(qū)動(dòng)人工智能創(chuàng)新發(fā)展的基礎(chǔ)性工程,在智慧城市、智慧醫(yī)療和金融科技等場(chǎng)景發(fā)揮著不可替代的作用。省數(shù)據(jù)局(省營(yíng)商局)相關(guān)負(fù)責(zé)人表示,下一步,將研究制定全省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)創(chuàng)新發(fā)展的行動(dòng)計(jì)劃,深化數(shù)據(jù)資源開發(fā)利用和開放共享,促進(jìn)數(shù)據(jù)、技術(shù)、場(chǎng)景對(duì)接,推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)“盡快實(shí)現(xiàn)大的突破”,支撐人工智能創(chuàng)新發(fā)展。
數(shù)據(jù)標(biāo)注處于人工智能“冰山之下”,卻承載著數(shù)字經(jīng)濟(jì)“冰山之上”的無限可能。
協(xié)同發(fā)力“新賽道”
今年,國(guó)家發(fā)展改革委等四部委聯(lián)合印發(fā)《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見》,提出“到2027年,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產(chǎn)業(yè)規(guī)模大幅躍升,年均復(fù)合增長(zhǎng)率超過20%”的發(fā)展目標(biāo)。我國(guó)針對(duì)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)布系統(tǒng)性指導(dǎo)文件,是我國(guó)為護(hù)航人工智能產(chǎn)業(yè)、提升新質(zhì)生產(chǎn)力水平作出的重要布局。
“數(shù)據(jù)標(biāo)注產(chǎn)業(yè)是一個(gè)新賽道。”劉莉萍說,在這個(gè)賽道上,南方發(fā)達(dá)省份無論在經(jīng)濟(jì)實(shí)力、人才吸引,還是產(chǎn)業(yè)集聚上,都比遼寧更具優(yōu)勢(shì)。
那遼寧怎么突破?
一年來,我省堅(jiān)持政策端、企業(yè)端、人才端、創(chuàng)新端協(xié)同發(fā)力,推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)創(chuàng)新發(fā)展。
政策上,整體統(tǒng)籌,高位推動(dòng)。發(fā)揮省數(shù)字遼寧建設(shè)工作領(lǐng)導(dǎo)小組作用,出臺(tái)系列政策措施,以數(shù)據(jù)要素市場(chǎng)化配置改革為主線,以數(shù)據(jù)要素綜合試驗(yàn)區(qū)、沈陽數(shù)據(jù)標(biāo)注基地、大連隱私保護(hù)計(jì)算等3個(gè)國(guó)家級(jí)試點(diǎn)為引領(lǐng),推動(dòng)數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化。
有專家提出,對(duì)在數(shù)據(jù)采集、清洗、標(biāo)注等環(huán)節(jié)投入較大的企業(yè)給予政策支持,降低企業(yè)建設(shè)數(shù)據(jù)集的成本。
東軟、宏圖創(chuàng)展都得到遼寧省數(shù)字經(jīng)濟(jì)專項(xiàng)基金支持。為打造數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集群,我省強(qiáng)化數(shù)據(jù)標(biāo)注企業(yè)引育、龍頭帶動(dòng)、人才支撐,加大財(cái)稅金融支持力度,有效發(fā)揮省數(shù)字經(jīng)濟(jì)專項(xiàng)資金牽引作用,發(fā)展數(shù)字經(jīng)濟(jì)。
劉莉萍認(rèn)為,提升數(shù)據(jù)經(jīng)濟(jì)實(shí)力,應(yīng)充分發(fā)揮龍頭企業(yè)引領(lǐng)作用,激發(fā)政府、工業(yè)、醫(yī)療、教育等行業(yè)的數(shù)據(jù)應(yīng)用潛力。她同時(shí)建議,成立遼寧省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集團(tuán),以宏圖創(chuàng)展等核心企業(yè)為依托,吸引包括央企、字節(jié)跳動(dòng)、科大訊飛、聯(lián)通等在內(nèi)的數(shù)據(jù)服務(wù)企業(yè)落戶遼寧,強(qiáng)化本土數(shù)據(jù)經(jīng)濟(jì)建設(shè),通過整合數(shù)據(jù)資源,促進(jìn)產(chǎn)業(yè)升級(jí),培養(yǎng)數(shù)字人才。
“高端數(shù)據(jù)標(biāo)注人才還是短缺,而建設(shè)高質(zhì)量數(shù)據(jù)集需要的不僅是技術(shù)人才還有業(yè)務(wù)大拿!辈稍L中,張時(shí)佳反復(fù)強(qiáng)調(diào),只有技術(shù)+業(yè)務(wù),才能更好地實(shí)現(xiàn)人工智能落地應(yīng)用。
為解決人才問題,大連金慧融智科技股份有限公司推出場(chǎng)景化人機(jī)協(xié)同培養(yǎng)模式,案例已在多個(gè)業(yè)務(wù)基地落地實(shí)施,累計(jì)培養(yǎng)1萬多名專業(yè)標(biāo)注人員,有效縮短人才培養(yǎng)周期20%,提升培訓(xùn)效率40%。
“今后還將在創(chuàng)新主體培育和人才隊(duì)伍建設(shè)上再加力,培育一批深耕行業(yè)的數(shù)據(jù)標(biāo)注專精特新企業(yè),建設(shè)數(shù)據(jù)標(biāo)注人才庫,下更大氣力引進(jìn)更多專業(yè)人才!笔(shù)據(jù)局(省營(yíng)商局)相關(guān)負(fù)責(zé)人說。
重視人才之外,我省大力實(shí)施創(chuàng)新驅(qū)動(dòng)戰(zhàn)略,深化科技評(píng)價(jià)獎(jiǎng)勵(lì)、成果賦權(quán)等改革,促進(jìn)產(chǎn)學(xué)研用深度融合,重點(diǎn)突破多模態(tài)數(shù)據(jù)增強(qiáng)等10項(xiàng)核心技術(shù),成立數(shù)據(jù)標(biāo)注產(chǎn)業(yè)研究院,建成5個(gè)數(shù)據(jù)標(biāo)注技術(shù)創(chuàng)新平臺(tái)。
“為深化數(shù)據(jù)資源開發(fā)利用和開放共享,加快發(fā)展數(shù)據(jù)標(biāo)注新業(yè)態(tài),我省將在健全體制機(jī)制上再加力,在基礎(chǔ)理論和核心技術(shù)攻關(guān)上再加力,在場(chǎng)景應(yīng)用拓展上再加力。圍繞建設(shè)4個(gè)萬億級(jí)產(chǎn)業(yè)基地、22個(gè)重點(diǎn)產(chǎn)業(yè)集群以及交通、醫(yī)療、金融等重點(diǎn)行業(yè)領(lǐng)域,充分激活企業(yè)數(shù)據(jù)標(biāo)注需求,賦能產(chǎn)業(yè)轉(zhuǎn)型升級(jí)!笔(shù)據(jù)局(省營(yíng)商局)相關(guān)負(fù)責(zé)人說。
“虛擬現(xiàn)實(shí)之父”杰倫·拉尼爾曾生動(dòng)比喻信息洪流:“就像你跪著種下一棵樹的種子,在還沒來得及抬腳起身的時(shí)候,它已經(jīng)茂盛到吞沒了整個(gè)村莊。”
人工智能的迅猛發(fā)展,即使是業(yè)內(nèi)人士也始料未及。作為驅(qū)動(dòng)人工智能創(chuàng)新發(fā)展的基礎(chǔ)性工程,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)已然站上“風(fēng)口”,即將騰飛。
以上文章轉(zhuǎn)載自互聯(lián)網(wǎng),版權(quán)歸原創(chuàng)者所有。如有來源標(biāo)注錯(cuò)誤或者侵權(quán),請(qǐng)聯(lián)系我們,我們將及時(shí)處理。
|