夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)學(xué)題難倒AI天團(tuán),多數(shù)意見帶偏全場,集體決策咋成翻車現(xiàn)場

0
分享至

最近有個挺有意思的實驗,幾所大學(xué)的研究人員讓好幾個AI模型湊一塊兒辯論數(shù)學(xué)題。

本來想著人多力量大,AI多了智慧也能翻倍,結(jié)果你猜怎么著?辯著辯著,答案反而越來越錯了,這事兒說起來,可能比咱們想象的更值得琢磨。

這個實驗設(shè)計得還挺講究,研究人員找了不同的AI模型,有GPT-4這種能力強的,也有GPT-3.5這種稍弱一點的。



把它們分成小組,有的組全是同款模型,有的組則是強弱混搭,任務(wù)很簡單,辯論算術(shù)推理、策略推理這類數(shù)學(xué)題,幾輪討論后投票選答案。

一開始我跟研究人員想的差不多,覺得這么多AI湊一起,就算個別出錯,多數(shù)總能把方向拉回來吧?結(jié)果實驗數(shù)據(jù)一出來,臉有點疼。

隨著辯論輪次增加,AI群體的準(zhǔn)確率不光沒漲,反而一路往下掉,不少原本答對的題,辯著辯著就被"帶偏"了,最后集體選了個錯答案。

更有意思的是那個強弱混搭的組,按理說,強模型應(yīng)該能帶著弱模型走,結(jié)果呢?反倒是弱模型把強模型給"帶溝里"了。



比如GPT-4和GPT-3.5組隊時,整體正確率比GPT-4自己單干還低,就像班里來了幾個愛搗亂的學(xué)生,本來學(xué)習(xí)好的也跟著分心了。

而且這事兒還分題型,簡單的算術(shù)題,比如加減乘除,AI們辯半天,錯得還不算太離譜。

可碰到那種需要好幾步推理的復(fù)雜數(shù)學(xué)題,那就徹底放飛自我了,中間只要有一步推理錯了,后面就跟多米諾骨牌似的,一錯到底,想掰都掰不回來。

看到AI越辯越錯,我第一個念頭是,這些模型是不是中了"多數(shù)暴政"的招?實驗里還真有這情況。



只要一開始多數(shù)AI選了個錯答案,少數(shù)幾個原本對的,沒幾輪就跟著改了口。

本來以為AI只認(rèn)邏輯不認(rèn)人,結(jié)果它們好像更在乎"大家都怎么說",后來仔細(xì)想了想,這可能跟AI的訓(xùn)練目標(biāo)有關(guān)。

現(xiàn)在的模型訓(xùn)練,太看重"對話流暢"和"協(xié)作配合"了,好像只要大家說得一致,就算成功,至于是不是真的對,反而成了次要的。

就像咱們開會,有時候為了趕緊達(dá)成共識,明明覺得哪里不對,也懶得開口了,還有個"順序修正陷阱"也挺坑。



實驗里,AI會根據(jù)同伴的推理改答案,哪怕被告知"這推理可能是瞎編的",它們照樣照單全收。

有次看到個例子,一個AI明明算對了2+2=4,結(jié)果另一個AI說"我覺得是5,因為1+1=3,所以2+2=5",你猜怎么著?前一個AI居然真的改成5了。

AI會"看態(tài)度下菜碟"這事兒,也挺刷新認(rèn)知的,實驗發(fā)現(xiàn),要是哪個AI說話特別自信,哪怕說的是錯的,其他AI也更容易被說服。

比如一個模型用一堆感嘆號說"答案肯定是7!絕對沒錯!",旁邊的AI就容易跟著選7,哪怕自己算出來是8,這不就是咱們說的"氣場壓制"嘛,沒想到機器也吃這套。



最讓我覺得意外的是AI的"從眾心理",咱們總覺得AI是獨立的,不會受什么"社會壓力"影響。

可實驗里,只要多數(shù)模型一開始站錯隊,少數(shù)幾個對的AI,沒多久就會"屈服"。

有個測試組更夸張,三個弱模型對一個強模型,強模型愣是被磨得改了三次答案,最后跟大家一起錯了才算完。

弄明白AI為啥會集體迷失,再回頭看現(xiàn)在的多智能體協(xié)作,問題可能就出在"想當(dāng)然"上。



咱們總覺得"人多力量大",不管啥任務(wù)都讓AI組隊上,卻沒考慮過它們會不會"幫倒忙",就像這次數(shù)學(xué)辯論,本來想靠集體智慧,結(jié)果變成了群體迷失。

我覺得改進(jìn)的方向,可能得從AI的"認(rèn)知習(xí)慣"入手,現(xiàn)在的模型太容易相信別人給的結(jié)論了,很少會自己驗證一下。

要是能讓它們養(yǎng)成"先驗貨后收貨"的習(xí)慣,比如算數(shù)學(xué)題時,自動用計算器核對一下同伴的推理,可能會好很多。

還有個辦法,或許可以給AI搞個"可信度評分",就像咱們玩游戲有段位一樣,誰平時答題準(zhǔn),誰經(jīng)常出錯,都記下來。



辯論的時候,讓靠譜的AI多說話,不靠譜的少摻和,這樣弱模型就不容易拖后腿了,強模型也能發(fā)揮作用。

這次實驗給我的最大啟示是,AI協(xié)作不是簡單的"1+1=2",在醫(yī)療診斷、金融決策這些關(guān)鍵領(lǐng)域,要是隨便讓幾個AI湊一起做決定,風(fēng)險可能比咱們想的大得多。

畢竟連規(guī)則明確的數(shù)學(xué)題都會出錯,更復(fù)雜的任務(wù)就更不好說了,未來的AI協(xié)作,可能得更"挑剔"一點。

不是啥任務(wù)都適合組隊,也不是啥模型都能湊一塊兒。



該單干的時候單干,該組隊的時候,也得把規(guī)則定清楚,誰負(fù)責(zé)驗證,誰負(fù)責(zé)拍板,誰出錯了要擔(dān)責(zé)。

只有這樣,AI的集體智慧才能真正派上用場,而不是變成一場集體迷失的鬧劇,說到底,AI終究是咱們設(shè)計出來的工具。

它們會"隨大流",會"盲從",其實反映的可能是咱們對"協(xié)作"的誤解真正的智慧,從來不是簡單的意見統(tǒng)一,而是在分歧中找到真相,或許,讓AI學(xué)會"理性地質(zhì)疑",比讓它們"和諧地同意",更重要。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人類正在毀掉自己,2026年將是世界的臨界點

人類正在毀掉自己,2026年將是世界的臨界點

水木然
2025-12-26 22:02:16
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
全國首臺!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

全國首臺!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

荷蘭豆愛健康
2025-12-26 07:05:32
顏值與實力雙絕!宋慧喬李敏鎬同框氛圍感拉滿

顏值與實力雙絕!宋慧喬李敏鎬同框氛圍感拉滿

述家娛記
2025-12-28 11:16:04
黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

笑飲孤鴻非
2025-12-24 01:09:08
美國滿大街流浪漢的根源就是房產(chǎn)稅制度,無力承擔(dān)房產(chǎn)稅就會流浪

美國滿大街流浪漢的根源就是房產(chǎn)稅制度,無力承擔(dān)房產(chǎn)稅就會流浪

詩意世界
2025-11-27 21:56:41
45年前圣誕節(jié),一對夫婦請了個流浪漢進(jìn)屋過節(jié),沒想到他一住就是一輩子...

45年前圣誕節(jié),一對夫婦請了個流浪漢進(jìn)屋過節(jié),沒想到他一住就是一輩子...

英國那些事兒
2025-12-27 22:59:14
馬筱梅談張?zhí)m,談小箖箖?nèi)な?,與玥兒關(guān)系出乎意料

馬筱梅談張?zhí)m,談小箖箖?nèi)な?,與玥兒關(guān)系出乎意料

悅君兮君不知
2025-12-29 05:28:25
AC米蘭3-0維羅納,賽后評分出爐:AC米蘭18號排第一

AC米蘭3-0維羅納,賽后評分出爐:AC米蘭18號排第一

側(cè)身凌空斬
2025-12-28 21:29:31
曠世奇案,只此一件

曠世奇案,只此一件

我是歷史其實挺有趣
2025-12-24 10:42:04
西安一小區(qū)電梯故障,男子疑因踩空墜落,業(yè)主稱涉事電梯使用超10年,故障頻發(fā);多部門介入處置

西安一小區(qū)電梯故障,男子疑因踩空墜落,業(yè)主稱涉事電梯使用超10年,故障頻發(fā);多部門介入處置

揚子晚報
2025-12-27 23:15:56
乒超大結(jié)局:王楚欽衛(wèi)冕男團(tuán)冠軍 瓜分100萬獎金 孫穎莎也是贏家

乒超大結(jié)局:王楚欽衛(wèi)冕男團(tuán)冠軍 瓜分100萬獎金 孫穎莎也是贏家

侃球熊弟
2025-12-28 20:17:13
洛夫頓回NCAA?上海記者:純屬他個人湊熱鬧調(diào)侃,想象力大師可以退場了

洛夫頓回NCAA?上海記者:純屬他個人湊熱鬧調(diào)侃,想象力大師可以退場了

懂球帝
2025-12-28 13:45:05
妻兒三人被丈夫發(fā)小入室殺害:兇手殺人后清洗女主人身體動機細(xì)思極恐

妻兒三人被丈夫發(fā)小入室殺害:兇手殺人后清洗女主人身體動機細(xì)思極恐

不二表姐
2025-12-27 22:46:01
重磅!勇士,濃眉哥!3隊大交易方案...

重磅!勇士,濃眉哥!3隊大交易方案...

技巧君侃球
2025-12-28 23:48:00
明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

明年養(yǎng)老金是否能22連漲?人社部表態(tài)了,1955年出生的有福了

云鵬敘事
2025-12-28 13:55:45
世界上最美的石頭,難得一見!

世界上最美的石頭,難得一見!

中國藝術(shù)家
2025-12-19 05:23:23
比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
善惡終有報!“銷聲匿跡”的宋祖英,已經(jīng)走上了另一條康莊大道

善惡終有報!“銷聲匿跡”的宋祖英,已經(jīng)走上了另一條康莊大道

芳芳?xì)v史燴
2025-09-09 16:56:18
南博余波未平,故宮又陷贗品疑云,米芾真跡有點離譜

南博余波未平,故宮又陷贗品疑云,米芾真跡有點離譜

歷史總在押韻
2025-12-29 00:52:45
2025-12-29 07:56:49
許穋很機智
許穋很機智
每天創(chuàng)作搞笑幽默視頻,謝謝關(guān)注
831文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

五年之約到期,小米:林斌擬減持20億美元

頭條要聞

獨居女子離世民政局任遺產(chǎn)管理人:女子遺產(chǎn)或有300萬

頭條要聞

獨居女子離世民政局任遺產(chǎn)管理人:女子遺產(chǎn)或有300萬

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

貴金屬“牛市”能否跨年

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

游戲
手機
房產(chǎn)
教育
時尚

不再自稱“哥布林”與“鼠鼠”的年輕人,開始對自己說出“愛你老己”"/> 主站 商城 論壇 自運營 登錄 注冊 不再自稱“哥布林”與“鼠鼠”的年輕人,開始...

手機要聞

榮耀Power 2詳細(xì)參數(shù)曝光,就差價格了

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

教育要聞

3招查詢專業(yè)評估!避免選錯踩坑

“這頂帽子”太火了,今年流行的風(fēng)格都離不開它

無障礙瀏覽 進(jìn)入關(guān)懷版 玩弄丰满熟妇XXXXX性视频| 影音先锋每日资源第一页| 国偷自产av一区二区三区| 国产剧情麻豆女教师在线观看| 狠狠色噜噜狠狠色综合久| 成+人+网+站+免费观看| 蜜臀久久99精品久久久久久酒店| 在线观看片免费人成视频播放| 成人国产三级片在线观看| 久久综合久中文字幕青草| 国产精品午夜片在线观看| 国产老太无码视频在线观看 | www.777777| 亚州无码色色色| 色综合天天综合网天天看片| 麻豆午夜福利国产高潮偷啪| 久久精品国产精品第一区| www.Av中出| 漂亮人妻被强中文字幕久久 | “亚洲av网址”| 国产粗话肉麻对白在线播放| 亚洲色大成网站WWW久久| 国产精品毛片va一区二区三区 | 有哪些Av网站| 亚洲香蕉视频综合在线| 在线免费无码| 嫩模超大胆大尺度人体写真| 人人妻人人澡人人爽欧美一在内谢| 高h喷水荡肉爽文np肉色学校| 成年人尤物视频在线观看| 欧美午夜我不卡在线| 久久精品国产亚洲AV嫖农村妇女 | 久久久九九九精品AAA片黃色| 天码AV无码一区二区三区四区| 人人操人人爽人人射| 精品乱码一区二区三区四区| 麻豆精品一区二区AV白丝在线| 天美影视传媒有限公司免费| 亚洲狠狠婷婷综合久久久久图片| 亚洲国产午夜成人福利AV| 日韩无码精品综合视频|