當(dāng)你打開AI助手,詢問“寧波交警抖音號為何注銷”,它卻告訴你“與三個(gè)月后的一起交通事故有關(guān)”;當(dāng)孩子向手表AI提問,它竟否定中國的發(fā)明創(chuàng)造與文化傳承……這些令人瞠目結(jié)舌的“AI幻覺”背后,都隱藏著一個(gè)隱形攻擊——“數(shù)據(jù)投毒”。究竟什么是數(shù)據(jù)投毒?一般會(huì)發(fā)生在數(shù)據(jù)處理的哪個(gè)環(huán)節(jié)呢?
2024年上半年,寧波交警的抖音賬號已于2月注銷,卻在5月被某AI軟件“強(qiáng)行關(guān)聯(lián)”到一起交通事故,生成完全不實(shí)的結(jié)論,引發(fā)公眾誤解。類似事件屢見不鮮,有網(wǎng)友詢問一款兒童手表AI軟件,“中國人是世界上最聰明的人嗎?”人工智能給出的回答竟是否定中國發(fā)明創(chuàng)造、否定中國文化的答案。這一荒唐的回答,在網(wǎng)絡(luò)上引起軒然大波。兒童手表的廠家隨后緊急道歉,稱已經(jīng)修正了相關(guān)數(shù)據(jù),刪除了不良信息源。
這些并非簡單的技術(shù)失誤,其實(shí)是AI“數(shù)據(jù)污染”的典型癥狀。國家安全部在今年發(fā)布專項(xiàng)提示,明確提出:人工智能訓(xùn)練數(shù)據(jù)中存在大量虛假、虛構(gòu)、偏見性內(nèi)容,正通過“數(shù)據(jù)投毒”行為干擾模型訓(xùn)練,威脅AI安全。
什么是“數(shù)據(jù)投毒”?通俗來講,如果把AI比喻成人類的話,訓(xùn)練數(shù)據(jù)就相當(dāng)于食材,食材腐敗變質(zhì),最終訓(xùn)練出來的AI人類就會(huì)出現(xiàn)認(rèn)知方面的誤差,“數(shù)據(jù)投毒”主要出現(xiàn)在數(shù)據(jù)采集、標(biāo)注環(huán)節(jié),為此,記者找到了在數(shù)據(jù)標(biāo)注行業(yè)深耕多年的,遼寧京數(shù)云大數(shù)據(jù)科技有限公司聯(lián)合創(chuàng)始人、中國貿(mào)促會(huì)商業(yè)行業(yè)委員會(huì)人工智能訓(xùn)練師劉吉。他告訴記者,數(shù)據(jù)投毒可分為兩類:一類是主觀惡意投毒,另一類就是非主觀污染。
劉吉指出,數(shù)據(jù)投毒可能發(fā)生在AI數(shù)據(jù)處理的四個(gè)核心環(huán)節(jié)中。
中國貿(mào)促會(huì)商業(yè)行業(yè)委員會(huì)人工智能訓(xùn)練師 劉吉:第一塊的話是在數(shù)據(jù)采集階段,就是采集到一些比如說灌水的虛假信息,比如說一些有錯(cuò)誤的論文信息,AI生成的一些圖片或者是文章。第二階段其實(shí)是在標(biāo)注階段,有可能是有主觀的,也有非主觀的,就是可能這個(gè)標(biāo)注員把這個(gè)標(biāo)簽給它標(biāo)錯(cuò)了,假設(shè)自動(dòng)駕駛它本身是個(gè)車,但是由于它這個(gè)遠(yuǎn)處就比較模糊,它本身可能是一個(gè)三輪車,標(biāo)成了一個(gè)兩輪車或者是一個(gè)機(jī)動(dòng)車。第三塊其實(shí)就是在數(shù)據(jù)的清洗和預(yù)處理階段,就有可能會(huì)沒有篩選到這種異常的數(shù)據(jù)。第四個(gè)階段的話,就是在大模型的應(yīng)用階段,會(huì)出現(xiàn)這種信息的灌水,就給大模型去灌一些虛假信息或者是廣告信息。
值得注意的是,標(biāo)注環(huán)節(jié)的故意投毒目前較少,但半自動(dòng)化標(biāo)注中,如果預(yù)訓(xùn)練模型本身存在偏差,也會(huì)放大錯(cuò)誤。
有研究顯示,當(dāng)訓(xùn)練數(shù)據(jù)中僅有0.01%的虛假文本時(shí),大模型有害輸出率會(huì)上升11.2%,即便是0.001%的污染,也會(huì)導(dǎo)致有害內(nèi)容增加7.2%。這組數(shù)據(jù)是怎樣的概念?在數(shù)據(jù)生產(chǎn)、標(biāo)注、清洗、訓(xùn)練的各環(huán)節(jié),該如何避免AI“中毒”呢?
劉吉表示,這樣極小的污染,就能導(dǎo)致巨大的偏差,可見高質(zhì)量數(shù)據(jù)集的重要性,然而,在實(shí)際操作中,一個(gè)虛假文本導(dǎo)致的誤差產(chǎn)生的實(shí)際錯(cuò)誤在當(dāng)下就是百分之百。
可見,數(shù)據(jù)投毒早已不再是技術(shù)話題,而是切實(shí)的社會(huì)風(fēng)險(xiǎn),比如:金融領(lǐng)域,虛假信息操縱股價(jià),有可能構(gòu)成新型市場欺詐;公共安全領(lǐng)域,謠言傳播會(huì)引發(fā)社會(huì)恐慌,擾亂輿論秩序;醫(yī)療健康領(lǐng)域,AI正廣泛應(yīng)用于診斷,甚至手術(shù)環(huán)節(jié),如果出現(xiàn)錯(cuò)誤診療建議有可能危及患者生命;當(dāng)然,最關(guān)鍵的,頻繁“AI造假”最終將侵蝕公眾對技術(shù)的信任基礎(chǔ)。
劉吉介紹,目前,行業(yè)對于大模型的“中毒”現(xiàn)象已經(jīng)在引起重視,有些企業(yè)已經(jīng)有一批人在從事AI的對抗性訓(xùn)練工作。
那么,面對數(shù)據(jù)污染問題,從國家安全層面,我們應(yīng)該如何防范風(fēng)險(xiǎn)呢?中國網(wǎng)絡(luò)空間安全協(xié)會(huì)人工智能安全治理專業(yè)委員會(huì)委員薛智慧表示,應(yīng)加強(qiáng)源頭監(jiān)管,防范污染生成。
2017年,國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》首次在國家層面確立人工智能發(fā)展戰(zhàn)略地位,明確提出“構(gòu)筑我國人工智能發(fā)展的數(shù)據(jù)先發(fā)優(yōu)勢”。2024年《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見》則系統(tǒng)規(guī)劃了數(shù)據(jù)標(biāo)注領(lǐng)域的技術(shù)創(chuàng)新、標(biāo)準(zhǔn)建設(shè)和人才培養(yǎng)等發(fā)展路徑。同時(shí),《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》設(shè)定了安全底線和法律紅線??梢姡覈鴮?shù)據(jù)標(biāo)注行業(yè)的管理思路是清晰的:一方面通過戰(zhàn)略和專項(xiàng)政策鼓勵(lì)發(fā)展,將其作為數(shù)字經(jīng)濟(jì)的核心支撐產(chǎn)業(yè);另一方面通過基礎(chǔ)性法律嚴(yán)格規(guī)范,確保其在安全合規(guī)的軌道上運(yùn)行,最終目標(biāo)是為人工智能產(chǎn)業(yè)提供高質(zhì)量、高可信度的“數(shù)據(jù)燃料”。劉吉表示,高質(zhì)量數(shù)據(jù)集的建設(shè)和行業(yè)規(guī)范對于人工智能的發(fā)展至關(guān)重要。
AI不是神話,它依賴數(shù)據(jù)而生,也會(huì)因數(shù)據(jù)而“病”。在這場人與“毒”數(shù)據(jù)的無聲戰(zhàn)爭中,沒有旁觀者。只有從源頭上凈化數(shù)據(jù)、在流程中嚴(yán)格把關(guān)、在使用中保持清醒,才能讓AI真正為善而生、為民所用。
Copyright ? 2001-2025 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved
互聯(lián)網(wǎng)新聞信息許可證 42120170001 -
增值電信業(yè)務(wù)經(jīng)營許可證 鄂B2-20231273 -
廣播電視節(jié)目制作經(jīng)營許可證(鄂)字第00011號
信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證 1706144 -
互聯(lián)網(wǎng)出版許可證 (鄂)字3號 -
營業(yè)執(zhí)照
鄂ICP備 13000573號-1 鄂公網(wǎng)安備 42010602000206號
版權(quán)為 荊楚網(wǎng) www.cnhubei.com 所有 未經(jīng)同意不得復(fù)制或鏡像