17日,記者從2025數(shù)據(jù)安全發(fā)展大會(huì)上獲悉,我國將培育壯大一批數(shù)據(jù)要素產(chǎn)業(yè)鏈上下游企業(yè),預(yù)計(jì)到2030年,我國數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)到7.5萬億元。
公共數(shù)據(jù)開放共享
激活海量“沉睡數(shù)據(jù)”
作為全球首個(gè)將數(shù)據(jù)納入生產(chǎn)要素的國家,我國已初步構(gòu)建起門類齊全的數(shù)據(jù)產(chǎn)業(yè)鏈。數(shù)據(jù)顯示,2024年我國年度數(shù)據(jù)生產(chǎn)總量達(dá)41.06澤字節(jié),同比增長25%。
截至目前,我國數(shù)據(jù)領(lǐng)域相關(guān)企業(yè)超19萬家,數(shù)據(jù)產(chǎn)業(yè)規(guī)模超2萬億元。按照20%以上的年均增長率測算,2030年我國數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)7.5萬億元。
國家數(shù)據(jù)局局長 劉烈宏:當(dāng)前我們正謀劃構(gòu)建橫向聯(lián)通、縱向貫通、協(xié)調(diào)有力的數(shù)據(jù)基礎(chǔ)設(shè)施體系,到2029年要基本建成國家數(shù)據(jù)基礎(chǔ)設(shè)施主體結(jié)構(gòu)。
公共數(shù)據(jù)開放共享成為數(shù)據(jù)要素市場化的重要突破口。2024年全國地市級以上的地方公共數(shù)據(jù)開放平臺數(shù)量增長7.5%,開放數(shù)據(jù)量增長7.1%,高質(zhì)量數(shù)據(jù)集數(shù)量同比增長27.4%。
在數(shù)據(jù)要素與產(chǎn)業(yè)融合方面,國家正加快打通公共數(shù)據(jù)共享開放壁壘,推動(dòng)公共數(shù)據(jù)與企業(yè)數(shù)據(jù)深度融合,激活海量“沉睡數(shù)據(jù)”。
構(gòu)建高質(zhì)量數(shù)據(jù)集
加速人工智能發(fā)展
眼下,數(shù)據(jù)已超越傳統(tǒng)生產(chǎn)要素,成為驅(qū)動(dòng)人工智能技術(shù)突破與產(chǎn)業(yè)變革的核心動(dòng)力。高質(zhì)量數(shù)據(jù)集不僅是人工智能模型性能躍升的基石,更重塑了從技術(shù)研發(fā)到商業(yè)落地的全產(chǎn)業(yè)鏈條。那高質(zhì)量數(shù)據(jù)集是如何構(gòu)建的?
在浙江溫州,作為全國數(shù)據(jù)要素市場化改革的“試驗(yàn)田”,這里構(gòu)建了一套數(shù)據(jù)安全與合規(guī)體系,保障數(shù)據(jù)要素規(guī)模化流動(dòng),形成數(shù)據(jù)交易生態(tài)圈,讓更多數(shù)據(jù)“活了起來”。
浙江省溫州市數(shù)據(jù)局副局長 金傳拉:打造了469款“實(shí)用、好用、安全”的數(shù)據(jù)產(chǎn)品,在醫(yī)療、交通、低空經(jīng)濟(jì)等領(lǐng)域建設(shè)了一批高質(zhì)量數(shù)據(jù)集。
技術(shù)人員告訴記者,構(gòu)建大模型數(shù)據(jù)集主要包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、質(zhì)量評估等核心環(huán)節(jié)。各環(huán)節(jié)需要根據(jù)大模型數(shù)據(jù)集的規(guī)模大、多樣性足、行業(yè)垂直屬性強(qiáng)等特點(diǎn)進(jìn)行針對性技術(shù)研發(fā)和適配。
北京大學(xué)計(jì)算機(jī)學(xué)院教授 黃鐵軍:文本類的數(shù)據(jù),文獻(xiàn)、圖書、論文、研究報(bào)告,這些數(shù)據(jù)大部分已經(jīng)用了。未來還是需要更多非文本的,比如說圖像、視頻、各種傳感器的,這些數(shù)據(jù)也是大模型學(xué)習(xí)的重要來源。
數(shù)據(jù)標(biāo)注與清洗是高質(zhì)量數(shù)據(jù)集建設(shè)的關(guān)鍵環(huán)節(jié)。
數(shù)據(jù)標(biāo)注通過“貼標(biāo)簽”,教會(huì)人工智能“認(rèn)知世界”,未經(jīng)標(biāo)注的數(shù)據(jù)如同亂碼教材,導(dǎo)致人工智能無法有效學(xué)習(xí); 數(shù)據(jù)清洗則通過剔除重復(fù)、修正錯(cuò)誤等操作凈化數(shù)據(jù),混亂數(shù)據(jù)將直接影響人工智能訓(xùn)練效果。
賽迪研究院副總工程師 劉權(quán):當(dāng)數(shù)據(jù)覆蓋足夠廣泛的場景并經(jīng)過專業(yè)標(biāo)注時(shí),AI模型才能突破“實(shí)驗(yàn)室精度”,真正具備產(chǎn)業(yè)落地的能力,帶動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。
我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)產(chǎn)值超80億元
在2025數(shù)據(jù)安全發(fā)展大會(huì)發(fā)布的《2025高質(zhì)量數(shù)據(jù)集研究報(bào)告》顯示,隨著人工智能、大模型技術(shù)迭代,我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)產(chǎn)值已突破80億元,高質(zhì)量數(shù)據(jù)建設(shè)進(jìn)入規(guī)?;?、規(guī)范化發(fā)展新階段。
2024年,我國開發(fā)或應(yīng)用人工智能的企業(yè)數(shù)量同比增長36%,高質(zhì)量數(shù)據(jù)集數(shù)量同比增長27.4%,有力支撐人工智能訓(xùn)練和應(yīng)用。利用大模型的數(shù)據(jù)技術(shù)企業(yè)和數(shù)據(jù)應(yīng)用企業(yè)同比分別增長57.21%、37.14%。
賽迪研究院副院長 劉文強(qiáng):我們大模型的參數(shù)已經(jīng)達(dá)到了幾千億級別。推進(jìn)全國七個(gè)數(shù)據(jù)標(biāo)注基地建設(shè),構(gòu)建醫(yī)療、工業(yè)、教育等領(lǐng)域的335個(gè)高質(zhì)量數(shù)據(jù)集,標(biāo)注總規(guī)模達(dá)到1.7萬億TB,支撐了121個(gè)國產(chǎn)大模型的研發(fā)。
報(bào)告顯示,當(dāng)前我國正加速推動(dòng)高質(zhì)量數(shù)據(jù)集創(chuàng)新發(fā)展,但是仍然面臨數(shù)據(jù)存量小產(chǎn)量低、數(shù)據(jù)集質(zhì)量良莠不齊、缺乏主流高價(jià)值數(shù)據(jù)引領(lǐng)、數(shù)據(jù)利用效率低等問題。
賽迪研究院副總工程師 劉權(quán):做好數(shù)據(jù)源頭管控,確保數(shù)據(jù)來源的可靠性、完整性。加強(qiáng)數(shù)據(jù)隱私與安全保障,推動(dòng)數(shù)據(jù)集安全評估能力建設(shè)。
(總臺央視記者 王世玉 張偉 唐志堅(jiān) 張延 韓棟)
Copyright ? 2001-2025 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved
互聯(lián)網(wǎng)新聞信息許可證 42120170001 -
增值電信業(yè)務(wù)經(jīng)營許可證 鄂B2-20231273 -
廣播電視節(jié)目制作經(jīng)營許可證(鄂)字第000號
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證 1706144 -
互聯(lián)網(wǎng)出版許可證 (鄂)字3號 -
營業(yè)執(zhí)照
鄂ICP備 13000573號-1 鄂公網(wǎng)安備 42010602000206號
版權(quán)為 荊楚網(wǎng) www.cnhubei.com 所有 未經(jīng)同意不得復(fù)制或鏡像