2025年9月21日,青海數(shù)據(jù)要素生態(tài)大會(huì)在西寧舉行,本次大會(huì)以“激活數(shù)據(jù)要素價(jià)值,賦能青海高質(zhì)量發(fā)展”為核心主題,會(huì)聚了眾多行業(yè)領(lǐng)袖與專家,共同探討數(shù)據(jù)要素與區(qū)域經(jīng)濟(jì)的深度融合路徑。會(huì)議期間,中國(guó)信息通信研究院人工智能研究所平臺(tái)與工程化部副主任李蓀,以“站在AI產(chǎn)業(yè)與企業(yè)端”的務(wù)實(shí)視角,結(jié)合團(tuán)隊(duì)研究實(shí)踐,深入剖析了數(shù)據(jù)在人工智能領(lǐng)域的關(guān)鍵地位及未來(lái)趨勢(shì)。近年來(lái),人工智能的發(fā)展有目共睹,AI大模型的創(chuàng)新應(yīng)用也逐步進(jìn)入日常生產(chǎn)生活。隨著人工智能的模型訓(xùn)練及可信AI的研究實(shí)踐加速深入,人工智能領(lǐng)域正在經(jīng)歷一場(chǎng)深刻的范式變革。
轉(zhuǎn)向“以數(shù)據(jù)為中心”
自2022年開(kāi)始,人工智能研究和應(yīng)用重點(diǎn)逐步從“模型為中心”(Model-centricAI,MCAI)轉(zhuǎn)向“數(shù)據(jù)為中心”(Data-centricAI,DCAI)。也就是說(shuō),在模型相對(duì)固定的前提下,通過(guò)提升數(shù)據(jù)的質(zhì)量和數(shù)量來(lái)提升整個(gè)模型的訓(xùn)練效果。
“人工智能每次階段性的進(jìn)步,數(shù)據(jù)都扮演著重要角色,尤其在大模型時(shí)代,海量、高質(zhì)量、多樣化的數(shù)據(jù)集,成為拉開(kāi)模型能力差距的關(guān)鍵要素?!崩钌p認(rèn)為,人工智能持續(xù)演進(jìn)對(duì)數(shù)據(jù)集提出了新要求,而且,大模型技術(shù)對(duì)數(shù)據(jù)集質(zhì)量和工程路線也提出了更高要求。
在技術(shù)層面,大模型對(duì)數(shù)據(jù)集的要求主要體現(xiàn)在三個(gè)方面,包括規(guī)模可擴(kuò)展性增強(qiáng)、多任務(wù)適應(yīng)性增強(qiáng)以及能力可塑性增強(qiáng)。具體來(lái)說(shuō),參數(shù)規(guī)模和計(jì)算量的增加帶來(lái)了模型性能的持續(xù)提升,而一個(gè)模型能同時(shí)支持多種任務(wù)和多個(gè)模態(tài),甚至實(shí)現(xiàn)跨模態(tài),已成為新的技術(shù)追求。為了實(shí)現(xiàn)這些目標(biāo),迫切需要強(qiáng)化四類數(shù)據(jù)集的供給,包括多模態(tài)數(shù)據(jù)集、具身智能數(shù)據(jù)集、推理思維鏈數(shù)據(jù)集和長(zhǎng)視頻數(shù)據(jù)集。
李蓀表示,這些數(shù)據(jù)集將使模型更加全面和精準(zhǔn)地理解和處理任務(wù),增強(qiáng)機(jī)器人在多樣化環(huán)境和任務(wù)中的適應(yīng)性和決策智能,并促進(jìn)模型推理能力的大幅提升。此外,大模型的研究訓(xùn)練中,進(jìn)一步強(qiáng)化學(xué)習(xí)新范式聚焦于高質(zhì)量推理型數(shù)據(jù)集,通過(guò)收集大量的推理相關(guān)訓(xùn)練樣本和非推理訓(xùn)練樣本,推理訓(xùn)練監(jiān)督微調(diào)數(shù)據(jù)占比大幅減少,從而提高了模型的推理能力。
高質(zhì)量數(shù)據(jù)集建設(shè)
數(shù)據(jù)產(chǎn)業(yè)和人工智能的發(fā)展離不開(kāi)政策的助力,近年來(lái),國(guó)家部委和地方政府加大對(duì)“人工智能+高質(zhì)量數(shù)據(jù)集”的支持,政策協(xié)同效應(yīng)開(kāi)始顯現(xiàn)。作為數(shù)據(jù)要素領(lǐng)域的行動(dòng)指南,《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃》,強(qiáng)調(diào)打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。2025年國(guó)務(wù)院國(guó)資委發(fā)布首批30項(xiàng)央企高質(zhì)量數(shù)據(jù)集,覆蓋了能源、物流等關(guān)鍵領(lǐng)域。
同時(shí),《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見(jiàn)》的落地,提出通過(guò)提升數(shù)據(jù)集質(zhì)量、擴(kuò)大應(yīng)用場(chǎng)景、強(qiáng)化技術(shù)創(chuàng)新等舉措,為人工智能產(chǎn)業(yè)發(fā)展提供關(guān)鍵支撐。截至2025年3月底,沈陽(yáng)、保定等7個(gè)數(shù)據(jù)標(biāo)注基地建設(shè)高質(zhì)量數(shù)據(jù)集335個(gè)。而且,從地方層面的實(shí)踐來(lái)看,高質(zhì)量數(shù)據(jù)集建設(shè)已經(jīng)在各地開(kāi)花。比如,上海市明確“2025年形成1000個(gè)高質(zhì)量數(shù)據(jù)集”的目標(biāo),蘇州市發(fā)布首批30個(gè)工業(yè)、交通領(lǐng)域數(shù)據(jù)集,北京市、山東省等11個(gè)地區(qū)則通過(guò)獎(jiǎng)補(bǔ)政策激勵(lì)數(shù)據(jù)建設(shè)等。
李蓀提出,“AI與數(shù)據(jù)的融合,最終要形成產(chǎn)業(yè)‘飛輪’”,優(yōu)質(zhì)數(shù)據(jù)集能支撐企業(yè)研發(fā)出更優(yōu)行業(yè)大模型,而大模型應(yīng)用落地后,又會(huì)采集到更多真實(shí)場(chǎng)景數(shù)據(jù),反哺數(shù)據(jù)集迭代。基于此,她認(rèn)為,未來(lái)?yè)碛懈哔|(zhì)量數(shù)據(jù)的企業(yè),會(huì)持續(xù)拉開(kāi)與同行的差距。
不過(guò),在AI與數(shù)據(jù)的融合落地實(shí)踐中,仍存在一些問(wèn)題。李蓀指出,當(dāng)前企業(yè)在構(gòu)建數(shù)據(jù)集時(shí)普遍面臨目標(biāo)定位模糊、實(shí)施路徑碎片化以及技術(shù)底座薄弱等挑戰(zhàn)。許多企業(yè)陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),未能將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價(jià)值難以轉(zhuǎn)化為模型性能的實(shí)際提升。展望未來(lái),李蓀表示,隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的持續(xù)拓展,數(shù)據(jù)與人工智能的深度融合將成為不可逆轉(zhuǎn)的趨勢(shì)。