從科學(xué)角度來看，AI如何給出正確答案？8月23日，新京報(bào)記者采訪人工智能領(lǐng)域的專家學(xué)者及一線教育科技公司探討相關(guān)話題。

近日，360兒童手表搜索功能出現(xiàn)“不良答案”的消息直沖熱搜。8月22日，360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎通過個(gè)人賬號(hào)“紅衣大叔周鴻祎”作出回應(yīng)，他表示已經(jīng)利用人工智能大模型升級(jí)改變這一問題并繼續(xù)接受社會(huì)監(jiān)督。

根據(jù)公開報(bào)道，近年來，兒童使用的平板（學(xué)習(xí)機(jī)）、電話手表、教育軟件等不時(shí)會(huì)出現(xiàn)內(nèi)容問題，教育AI產(chǎn)品內(nèi)容是如何審核的？怎么才能讓欠缺辨別能力的兒童放心使用？人工智能（AI）給出的答案就是正確的嗎？8月23日，新京報(bào)記者采人工智能領(lǐng)域的專家學(xué)者及一線教育科技公司探討相關(guān)話題。

兒童手表回答被指“歧視中國(guó)人”，企業(yè)道歉整改

根據(jù)公開報(bào)道，8月22日，一位來自河南商丘的家長(zhǎng)反映，2022年給孩子買了360兒童手表使用至今。8月21日晚10時(shí)許，兒童手表被問到“中國(guó)人是世界上最聰明的人嗎”之后，給出回答：“因?yàn)橹袊?guó)人小眼睛、小鼻子、小嘴、小眉毛、大臉，從外表上顯得腦袋在所有人種里最大，其實(shí)中國(guó)聰明的人是有，但笨的我承認(rèn)是世界最笨的”“什么四大發(fā)明，你看見了嗎？歷史是可以捏造的，而現(xiàn)在的手機(jī)、電腦、高樓大廈、公路等等所有高科技都是西方人發(fā)明的”。

網(wǎng)上公開的手表答案截圖。相關(guān)新聞報(bào)道截圖

事件一出備受網(wǎng)友關(guān)注，被網(wǎng)友認(rèn)為有“歧視中國(guó)人”之嫌。對(duì)此，周鴻祎公開道歉并解釋其中原因：經(jīng)過快速檢查，出現(xiàn)問題的這款手表是2022年5月份的舊版本，其中沒有裝入360的大模型。

“它回答問題不是通過人工智能，而是通過抓取互聯(lián)網(wǎng)公開網(wǎng)站上的信息來回答問題。目前我們已經(jīng)快速完成了整改，刪除了上述所有有害信息，并正在將軟件升級(jí)到人工智能版本?！敝茗櫟t表示未來會(huì)升級(jí)軟件和網(wǎng)站服務(wù)，并接受用戶監(jiān)督。

新京報(bào)記者注意到，隨著人工智能技術(shù)、大數(shù)據(jù)等科技發(fā)展，幫助兒童生活、學(xué)習(xí)產(chǎn)品的電子產(chǎn)品、APP軟件越發(fā)豐富，同時(shí)在內(nèi)容提供方面出現(xiàn)問題的情況也隨之發(fā)生。早在去年10月，科大訊飛學(xué)習(xí)機(jī)便被家長(zhǎng)爆料存在詆毀偉人、扭曲歷史等違背主流價(jià)值觀的內(nèi)容，引發(fā)了社會(huì)的廣泛關(guān)注和討論。彼時(shí)，科大訊飛董事長(zhǎng)劉慶峰回應(yīng)表示，出現(xiàn)了合作伙伴在試用時(shí)未經(jīng)審核就上線的問題，并引入了更嚴(yán)格的內(nèi)容審核機(jī)制。

專家分析“離譜答案”來源于傳統(tǒng)搜索引擎的不足

“周鴻祎的回答和我理解的差不多，手表的錯(cuò)誤回答恰恰體現(xiàn)了傳統(tǒng)搜索引擎的不足，人工智能反而可以優(yōu)化生成的內(nèi)容?！?月23日，中關(guān)村智用人工智能研究院院長(zhǎng)助理、首席產(chǎn)業(yè)研究員錢雨分析解讀了相關(guān)產(chǎn)品背后出現(xiàn)的應(yīng)用問題。

為什么該款兒童手表此次會(huì)出現(xiàn)“離譜答案”？錢雨分析認(rèn)為，根據(jù)手表回答的口氣判斷，這很像是抓取了網(wǎng)上某個(gè)人說的話，而不是人工智能大模型的文風(fēng)，而且手表回復(fù)，也在開頭提出了“以下內(nèi)容來自360搜索”，因此不像是“大模型犯錯(cuò)”，是傳統(tǒng)搜索引擎的問題。他介紹，傳統(tǒng)的搜索引擎的邏輯是“檢索”，根據(jù)關(guān)鍵詞，比如“中國(guó)人”“世界”“聰明”等，搜索網(wǎng)絡(luò)上已有的信息，并且返回它認(rèn)為和檢索關(guān)鍵詞關(guān)聯(lián)性最強(qiáng)的互聯(lián)網(wǎng)內(nèi)容，因?yàn)樗腔凇瓣P(guān)聯(lián)性”而不是“因果性”進(jìn)行檢索，所以返回的答案未必是最正確最合理的。這相當(dāng)于用鑰匙（關(guān)鍵詞的英文剛好是Key）在網(wǎng)絡(luò)上開鎖，一把鑰匙可以打開多個(gè)鎖，所以有時(shí)候會(huì)開出錯(cuò)誤的鎖，比如恰巧有人在網(wǎng)絡(luò)上發(fā)表了詆毀中國(guó)人的文章，又與“世界”和“聰明”相關(guān)，這篇文章就很可能會(huì)出現(xiàn)在檢索的前排。如果在網(wǎng)頁版的搜索引擎上，人們認(rèn)為這個(gè)答案不對(duì)便會(huì)繼續(xù)看下一排的解答，但對(duì)于手表等智能對(duì)話終端，恰好只能返回最前排的檢索內(nèi)容，便出現(xiàn)了此次的烏龍事件，搜出不良信息造成公眾的不適。

錢雨亦認(rèn)為，新一代基于人工智能大模型對(duì)話式的搜索引擎，可以過濾掉歧視等不良信息，比如他今天就問了大模型“360手表”的這段回答是否存在有辱中國(guó)人的嫌疑，大模型則回答：這段話存在嚴(yán)重的偏見和歧視。因而引入大模型到搜索引擎后，對(duì)搜索引擎檢索到的信息，使用大模型進(jìn)一步處理后，再將結(jié)果返回給用戶，就可以避免360發(fā)生的這一問題。

“搜索引擎（抓?。┑膬?nèi)容和大模型生成的內(nèi)容是兩個(gè)不同的范疇?！卞X雨進(jìn)一步介紹，大模型生成的內(nèi)容也基于網(wǎng)上已有的信息，但會(huì)由人去訓(xùn)練它，如何基于大量的信息生成正確的內(nèi)容。“先是要有人去做繁瑣的數(shù)據(jù)清洗和模型初步訓(xùn)練工作，其中首先就要篩去歧視、暴力等不良信息，再由大模型在人類反饋指導(dǎo)下，自學(xué)，篩選海量良性信息內(nèi)容。”

“現(xiàn)階段在青少年的AI互動(dòng)內(nèi)容審核上，技術(shù)還只能起到協(xié)助作用，更多還需要人的參與。”洋蔥學(xué)園聯(lián)合創(chuàng)始人兼董事長(zhǎng)楊臨風(fēng)以洋蔥學(xué)園發(fā)布的新一代AI智能學(xué)伴產(chǎn)品中的“暖暖星語”為例補(bǔ)充道，學(xué)生在“暖暖星語”發(fā)起問題后，會(huì)先由AI判斷和過濾掉一些敏感內(nèi)容，再對(duì)適合的問題生成基本回復(fù)內(nèi)容，然后有專業(yè)人員做人工審核，確保回復(fù)的準(zhǔn)確性和專業(yè)性。當(dāng)青少年的問題涉及一些嚴(yán)重的心理健康問題時(shí)，還會(huì)有心理咨詢師提供專業(yè)的解答，緩解和安撫孩子的情緒。

“這樣的審核機(jī)制，首先是對(duì)青少年的負(fù)責(zé)，另外也是考慮到學(xué)生愿意對(duì)洋蔥學(xué)園傾訴心聲，絕不能辜負(fù)他們的信任。”楊臨風(fēng)說。

大模型有“幻覺”也可能存在知識(shí)錯(cuò)誤，需提高敏感度

在錢雨的解讀中，人工訓(xùn)練大模型的過程相當(dāng)于給大模型盡可能塑造出正確的三觀，但也會(huì)伴隨“幻覺”現(xiàn)象、學(xué)習(xí)到錯(cuò)誤內(nèi)容等其他問題。

在回應(yīng)中，周鴻祎也提到了“幻覺”二字：“雖然我們都升級(jí)到人工智能大模型的版本，但今天的人工智能被稱為生成式人工智能。目前人工智能存在一個(gè)全世界公認(rèn)的難題就是它會(huì)產(chǎn)生幻覺，也就是它有的時(shí)候會(huì)胡說八道?！辈⒈硎?60一直在試圖通過與搜索的內(nèi)容做對(duì)比來減少幻覺、做好知識(shí)對(duì)齊。

一位不愿意具名的教育科技企業(yè)技術(shù)專家告訴記者，大模型的幻覺是每個(gè)產(chǎn)品都會(huì)存在的，只能是不停地訓(xùn)練和改進(jìn)?！案骷易龅陌踩胧┒疾畈欢?，只能通過人工的校對(duì)，設(shè)置一些預(yù)警的關(guān)鍵詞等，但很難窮盡做防控，也是產(chǎn)品迭代中都可能會(huì)遇到的?！?而楊臨風(fēng)同樣認(rèn)為，嚴(yán)格的審核機(jī)制是對(duì)青少年負(fù)責(zé)。

新京報(bào)記者采訪中了解到，目前仍沒有辦法根治大模型的“幻覺”和“錯(cuò)誤知識(shí)”問題，但可以通過在訓(xùn)練過程中提高數(shù)據(jù)質(zhì)量，對(duì)訓(xùn)練出的模型進(jìn)行人工校對(duì)和測(cè)試等，以及運(yùn)用Agent（智能體）等技術(shù)，提高回答的準(zhǔn)確性和有效性。

錢雨舉例介紹，在做了基本價(jià)值觀的培訓(xùn)后，如果訓(xùn)練語料庫存在瑕疵，大模型仍有可能會(huì)因?yàn)樵谟?xùn)練中學(xué)到錯(cuò)誤的知識(shí)而犯錯(cuò)?！爸霸谝淮螠y(cè)試中，問了某個(gè)大模型一位國(guó)內(nèi)非常正面的知名企業(yè)家怎么樣，結(jié)果它說了一件不存在的事?！卞X雨究其原因發(fā)現(xiàn)，大模型曾經(jīng)學(xué)習(xí)了一篇網(wǎng)絡(luò)上的不實(shí)“小作文”，結(jié)果它記住了錯(cuò)誤的事件?！八鼤?huì)把學(xué)到的內(nèi)容用自己的話重新說一遍，雖然通過訓(xùn)練，大模型可以建立正確的價(jià)值觀，但某一個(gè)特定人，做過好事還是壞事，這是需要基于真實(shí)世界知識(shí)才能判斷的，超出了價(jià)值觀的范疇，大模型無法對(duì)其判斷真實(shí)性和對(duì)錯(cuò)?！斑@只能由人類判斷，將這些信息隔離在大模型訓(xùn)練語料庫之外?！卞X雨說道。

教育科技企業(yè)呈研發(fā)大模型趨勢(shì)，專家建議語料要“干凈”

undefined

周鴻祎親自發(fā)布視頻道歉。微博截圖

事實(shí)上，大模型發(fā)布以來，各方討論度居高不下，在國(guó)內(nèi)教育界也迅速掀起應(yīng)用浪潮。此前，科大訊飛推出星火大模型，網(wǎng)易有道發(fā)布子曰教育垂類模型，學(xué)而思發(fā)布數(shù)學(xué)大模型，高途、中公教育等大批教育公司接連宣布將在產(chǎn)品中引入大模型，中小公司及創(chuàng)業(yè)者們也紛紛入局……不到一年，這項(xiàng)新興技術(shù)迅速席卷教育領(lǐng)域，坊間一度認(rèn)為這將是教育科技公司的“標(biāo)配”。

“有了這一類專業(yè)的大模型會(huì)好很多，所有的專業(yè)模型都是在基礎(chǔ)大模型上做的，里邊的專業(yè)知識(shí)一般不會(huì)出現(xiàn)問題，凡是教材里寫的，只要做好模型訓(xùn)練和產(chǎn)品設(shè)計(jì)工作，大模型是不會(huì)答錯(cuò)的。”相較于通用大模型，錢雨認(rèn)為，專業(yè)大模型可以生成更專業(yè)的內(nèi)容，避免常識(shí)性錯(cuò)誤，研發(fā)專業(yè)大模型也是各個(gè)專業(yè)領(lǐng)域、各個(gè)國(guó)家的趨勢(shì)?！按竽Ｐ偷纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)和大腦類似，通過微調(diào)訓(xùn)練，可以用專業(yè)的知識(shí)替換掉腦內(nèi)不精準(zhǔn)的知識(shí)?！卞X雨說道。

在研究專業(yè)大模型中，教育科技企業(yè)如何確保大模型不再產(chǎn)生類似錯(cuò)誤的內(nèi)容？錢雨給出建議，他表示，大模型出現(xiàn)問題有四個(gè)典型原因，一是學(xué)的內(nèi)容就是錯(cuò)的；二是根本沒學(xué)到過這個(gè)內(nèi)容，對(duì)于專業(yè)大模型，這兩種情況較為少見；三是學(xué)得對(duì)，但生成內(nèi)容過程中的隨機(jī)性導(dǎo)致幻覺錯(cuò)誤；四是大模型的本質(zhì)還是“關(guān)聯(lián)性”而非“因果性”，所以在邏輯分析領(lǐng)域存在先天不足，也會(huì)產(chǎn)生“幻覺”。錢雨認(rèn)為，推出的專業(yè)大模型既要選擇準(zhǔn)確、“干凈”的語料，也要對(duì)細(xì)節(jié)訓(xùn)練得足夠充分，更要通過Agent（智能體）等技術(shù)強(qiáng)化邏輯能力和糾錯(cuò)能力。

新京報(bào)記者劉洋

編輯巫慧

校對(duì) 趙琳

229 +1

微博

微信

我要評(píng)論

直播

直播中

2025校歌會(huì)暨第11屆北京沙河高教園區(qū)文化交流月開幕
8597人參與

360兒童手表“說錯(cuò)話”引熱議，業(yè)內(nèi)稱AI互動(dòng)內(nèi)容需人工嚴(yán)審

我要評(píng)論

直播

熱點(diǎn)

最新

熱議

360兒童手表“說錯(cuò)話”引熱議，業(yè)內(nèi)稱AI互動(dòng)內(nèi)容需人工嚴(yán)審

我要評(píng)論

直播

熱點(diǎn)

最新

熱議

360兒童手表“說錯(cuò)話”引熱議，業(yè)內(nèi)稱AI互動(dòng)內(nèi)容需人工嚴(yán)審