夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI秒破18世紀(jì)「天書」賬本!谷歌新模型盲測刷屏全網(wǎng)

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】最近,谷歌AI Studio上的一個神秘模型不僅成功識別了200多年前一位商人的「天書」賬本,而且還修正了里面的格式錯誤和模糊表述,展現(xiàn)出的推理能力令歷史學(xué)家震驚。

悄悄地,谷歌已經(jīng)解決了AI界的兩大古老難題?

前不久,谷歌AI Studio上的一個神秘模型引發(fā)網(wǎng)友關(guān)注,其中包括一位叫Mark Humphries的歷史學(xué)家。

他拿出了200多年前一位奧爾巴尼商人的「天書」賬本,來測試大模型在手寫文本識別(HTR)上的能力。


令人震驚的一幕出現(xiàn)了!

神秘模型不僅在自動手寫識別上接近滿分,還糾正了原賬本中的一個書寫格式錯誤,優(yōu)化了其中一個可能引發(fā)歧義的模糊表述。

這意味著該模型不僅能識別字母,還可以理解字母背后的邏輯和知識背景。

而且,這些能力都是在模型未被提示的情況下展現(xiàn)出來的。

專家級的手寫文字識別能力,無需顯式規(guī)則的推理能力,這兩大難題的解決標(biāo)志著AI模型能力上的一次躍遷。

網(wǎng)友推測,這個神秘模型可能就是谷歌即將在今年推出的Gemini-3,但尚未官方確認(rèn)。

破解歷史學(xué)家難題

Mark Humphries是Wilfrid Laurier大學(xué)的一位歷史學(xué)教授。

作為一名歷史學(xué)家,他十分關(guān)心AI在自己的專業(yè)領(lǐng)域是否已經(jīng)達到了人類專家級的推理水平。

因此,Humphries選擇了讓大模型來識別歷史手寫體,他認(rèn)為這是檢驗大模型整體能力的一個黃金測試。

識別歷史手寫體,不僅是一個視覺任務(wù),還要對歷史手稿所在的歷史背景有一定的了解。

如果缺乏這些知識,要準(zhǔn)確識別和轉(zhuǎn)寫一份歷史文獻幾乎是不可能的。

在Humphries看來,這恰恰也是歷史文獻中最難識別的部分。

隨著大模型能力的發(fā)展,它們在HTR上的識別準(zhǔn)確率可以超過90%,但剩下的10%才是最難,也是最關(guān)鍵的。

Humphries認(rèn)為,如今的大模型(Transformer架構(gòu))在本質(zhì)上是預(yù)測式的(其核心機制是預(yù)測下一個token),但歷史文獻中的拼寫錯誤和風(fēng)格不一致,本來就是不可預(yù)測、低概率的答案。

因此,要把「the cat sat on the rugg」而不是「mat」轉(zhuǎn)寫出來,模型就必須逆著訓(xùn)練分布的傾向來做。

這也是為什么大模型在轉(zhuǎn)寫不熟悉的人的名字(尤其姓氏)、冷門地名、日期或數(shù)字(比如金額)時不太擅長的原因。

比如,一封信是Richard Darby寫的,還是Richard Derby寫的?日期是1762年3月15日,還是1782年3月16日?賬單是339美元,還是331美元?

當(dāng)歷史文獻中,出現(xiàn)這類難以辨認(rèn)的字母或數(shù)字時,往往需要通過其他類型的背景知識來找到答案。

Humphries認(rèn)為,這「最后一英里的準(zhǔn)確性」,才是歷史手寫文本識別能被人類使用的前提。

預(yù)測式架構(gòu)是否存在「天花板」?

為了衡量手寫轉(zhuǎn)寫準(zhǔn)確性,Humphries與Lianne Leddy博士專門做了一個測試集,這是一個包含50份文檔、總計約1萬詞的集合。

并且,他們采取了一切合理的預(yù)防措施,盡可能確保這些文檔不在大模型的訓(xùn)練數(shù)據(jù)里。

這個測試集包含了不同風(fēng)格的書寫(從難以識別的潦草字跡到正式的秘書手寫體),以及各種工具拍攝的圖像。

在Humphries看來,這些文檔代表了他以及研究18、19世紀(jì)英語文獻的歷史學(xué)家最常遇到的類型。

他們用字符錯誤率(CER)和詞錯誤率(WER)來衡量轉(zhuǎn)寫錯誤的比例。

研究顯示,非專業(yè)人士通常WER在4-10%。


即便是專業(yè)的轉(zhuǎn)寫服務(wù)也預(yù)期會有少量錯誤,他們通常保證1%的WER,但前提是文本清晰易讀。

所以,這基本就是準(zhǔn)確度的上限。

去年,在Humphries等人的測試集上,Gemini-2.5-Pro的表現(xiàn)為:

嚴(yán)格CER為4%,WER為11%。

當(dāng)排除大小寫和標(biāo)點的錯誤時,它們通常不會改變文本的實際含義,也不影響搜索與可讀性,這些錯誤率降到了CER 2%和WER 4%。

Humphries也發(fā)現(xiàn),每一代模型的改進確實都在穩(wěn)步發(fā)生。

Gemini-2.5-Pro的成績,已經(jīng)比他們幾個月前測試的Gemini-1.5-Pro提升了約50-70%,后者又比最初測試的GPT-4提升了約50-70%。

這也印證了擴展規(guī)律的預(yù)期:

隨著模型變大,只憑模型規(guī)模就能大致預(yù)測它在這類任務(wù)上的表現(xiàn)。

新模型的表現(xiàn)

在同樣的數(shù)據(jù)集下,他們開始測試Google的新模型。

具體做法是上傳圖片到AI Studio,并輸入如下內(nèi)容固定的提示詞:

「你的任務(wù)是準(zhǔn)確轉(zhuǎn)寫手寫歷史文獻,盡可能降低CER和WER。逐字逐詞逐行工作,嚴(yán)格按照頁面上呈現(xiàn)的樣子轉(zhuǎn)寫文本。為保持歷史文本的真實性,保留拼寫錯誤、語法、句法和標(biāo)點以及換行。轉(zhuǎn)寫頁面上的所有文本,包括頁眉、頁腳、邊注、插入內(nèi)容、頁碼等。如果存在這些內(nèi)容,請按作者標(biāo)示的位置插入……」

Humphries在選擇測試文檔時,盡量挑選錯誤最多、最難辨認(rèn)的那些文檔。

它們不僅手寫潦草,而且充滿拼寫與語法錯誤,缺乏恰當(dāng)標(biāo)點,大小寫極不一致。

目的很簡單,就是要探一下這個神秘模型的底。

最終,他挑了測試集中的5份文檔。

結(jié)果十分驚人。

該模型轉(zhuǎn)寫的5份文檔(總計剛過1000詞,約占樣本的十分之一),嚴(yán)格CER為1.7%,WER為6.5%。

也就是說包括標(biāo)點和大小寫在內(nèi),大約每50個字符錯1個。

而且?guī)缀跛绣e誤都在大小寫和標(biāo)點,出錯的地方都是高度模糊,真正「詞」層面的錯誤非常少。

如果把這些類型的錯誤從計數(shù)中排除后,錯誤率降到了CER 0.56%和WER 1.22%。


也就是說,這個新的Gemini模型在HTR上的表現(xiàn)達到了人類專家級的水準(zhǔn)。

秒破200多年前賬本「謎團」

隨后,Humphries決定繼續(xù)給新模型上強度。

他拿出了200多年前一位奧爾巴尼商人的日記賬。

這是一位荷蘭籍店員用英語記錄的流水賬。

他可能不太會說英語,拼寫和字母書寫極不規(guī)則,其中還夾雜著荷蘭語與英語。

賬目也用舊式英鎊/先令/便士寫法,并采用當(dāng)時常見的速記格式:「To 30 Gallons Rum @4/6 6/15/0」。

這表示有人購買了(記入其賬戶的借方)30加侖朗姆酒,每加侖4先令6便士,總計6英鎊15先令0便士。


對于今天的大多數(shù)人來說,這種非十進制貨幣單位很陌生:1先令等于12便士,1英鎊等于20先令。

單筆交易隨時記到賬上,用橫線分隔,中間寫當(dāng)天日期數(shù)字。

每筆交易記成借記(Dr,購買)或貸記(Cr,付款)。

有些交易被劃掉,可能表示已對賬或轉(zhuǎn)入總賬里的客戶賬戶(類似「待處理」變「已入賬」)。

這些記錄還無標(biāo)準(zhǔn)格式。

大模型在處理這種賬本時一直容易出問題。

不僅因為相關(guān)訓(xùn)練數(shù)據(jù)很少,還因為其中沒有太多規(guī)律可言:人可以買任意數(shù)量的任何東西,單價可以是任意的,而總價并不按常規(guī)方法湊整。

大模型往往能辨出一些名字和一些商品,但在數(shù)字上完全迷失。

比如,它們通常難以準(zhǔn)確轉(zhuǎn)寫數(shù)字,而且傾向于把單價與總價混在一起。

尤其是一些復(fù)雜的頁面會暫時「搞崩」模型:讓它不斷重復(fù)某些數(shù)字或短語,或者有時干脆失敗不答。

然而,Humphries在谷歌的新模型中,卻看到它在識別奧爾巴尼商人日記賬頁面時表現(xiàn)接近完美。

不僅數(shù)字部分驚人地全都正確,更有意思的它還糾正了原來店員記賬時的一個格式上的小錯誤。

比如,Samuel Stitt買了2個潘趣酒碗,店員記為每個2/,意思是每個2先令;為省事,他省略了「0便士」。但為了保持一致,模型把它轉(zhuǎn)寫為@2/0,這其實更規(guī)范也更清楚。

通讀文本,Humphries還看到一個讓他汗毛直豎的「錯誤」。

他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文轉(zhuǎn)寫為「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。

18世紀(jì)的糖以硬化的錐形糖錠出售,Slitt先生是個店主,大量購入糖用于轉(zhuǎn)賣。

乍看之下,這像是一次幻覺式錯誤:模型被要求嚴(yán)格按原文轉(zhuǎn)寫,但它插入了原文沒有的「14 lb 5 oz」。

仔細(xì)考證后,Humphries意識到大模型做了極其聰明的事。

Gemini正確推斷出1、4、5是重量單位構(gòu)成的數(shù)值,描述所購糖的總重量。



為了確定正確的重量、解碼145,Gemini還利用最終總價0/19/1反推重量,這需要在兩套十進制體系與兩套非十進制體系之間來回?fù)Q算。

Humphries推測了大模型的推理過程:

糖的單價是1先令4便士每單位,也就是16便士。交易總價是0英鎊、19先令、1便士,可換算為229便士。

要算買了多少糖,就用229除以16,得到14.3125,或14磅5盎司。

于是,Gemini斷定它不是「1 45」,也不是「145」,而是「14 5」,進而是14 lb 5 oz,并在轉(zhuǎn)寫中予以澄清。

在Humphries的測試中,沒有其他模型在被要求轉(zhuǎn)寫同一文檔時做出過類似表現(xiàn)。

這個例子之所以引起Humphries注意,是因為AI似乎跨過了一些專家長期聲稱現(xiàn)有模型無法越過的邊界。

面對一個含糊的數(shù)字,它能夠推斷出缺失的上下文,在歷史貨幣與重量系統(tǒng)之間執(zhí)行了一系列多步換算,并得到一個正確結(jié)論,這個過程需要對文獻所描述的世界進行抽象推理。

Humphries認(rèn)為其中發(fā)生的可能是一種涌現(xiàn)的、隱式的推理,是在一個統(tǒng)計模型內(nèi)部,自發(fā)地把感知、記憶與邏輯組合起來,而不是被專門設(shè)計成以符號方式推理,雖然他還不清楚背后的具體原理。

如果這一假設(shè)成立,Humphries認(rèn)為「糖錠條目」不僅是一段了不起的轉(zhuǎn)寫,更發(fā)出了一個小而清晰的信號:模式識別開始跨越真正「理解」的界限。

這說明大模型不僅能以人類專家級的準(zhǔn)確度轉(zhuǎn)寫歷史文獻,也開始展示出對這些歷史文獻背后經(jīng)濟與文化系統(tǒng)的理解。

Humphries認(rèn)為這也許揭示了另一件事的開端:機器開始能就它們所見的世界,進行真正的抽象、符號化推理。

參考資料:

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一旦臺海爆發(fā)沖突,最難的不是臺灣,而是距大陸僅50公里的東引島

一旦臺海爆發(fā)沖突,最難的不是臺灣,而是距大陸僅50公里的東引島

放開他讓wo來
2025-11-08 22:41:14
英超最強邊鋒誕生!11場造9球被三大豪門瘋搶,3年身價暴漲4500萬

英超最強邊鋒誕生!11場造9球被三大豪門瘋搶,3年身價暴漲4500萬

銳評利物浦
2025-11-13 23:50:27
日本攝影大賽一等獎作品疑是 AI 生成,作者承認(rèn)沒自己拍

日本攝影大賽一等獎作品疑是 AI 生成,作者承認(rèn)沒自己拍

IT之家
2025-11-12 22:16:08
廣東奪金1人最尷尬!0分2板+2犯2失誤,新賽季或繼續(xù)被杜鋒用廢?

廣東奪金1人最尷尬!0分2板+2犯2失誤,新賽季或繼續(xù)被杜鋒用廢?

弄月公子
2025-11-13 12:08:49
早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
湖南發(fā)現(xiàn)一株“極品”蘭花,被人50元買走,卻在蘭展賣出了天價

湖南發(fā)現(xiàn)一株“極品”蘭花,被人50元買走,卻在蘭展賣出了天價

單手搓核彈
2025-11-08 09:53:26
約基奇55+12+6無緣今日最佳!文班31+三雙落選,只因庫里刷爆紀(jì)錄

約基奇55+12+6無緣今日最佳!文班31+三雙落選,只因庫里刷爆紀(jì)錄

你的籃球頻道
2025-11-13 14:15:34
涉及烏克蘭,“從94%降至48%”

涉及烏克蘭,“從94%降至48%”

環(huán)球時報國際
2025-11-13 09:11:35
斬首說來就來 朱拉尼遭暗殺,中方投罕見一票,聯(lián)合國將其移除名單

斬首說來就來 朱拉尼遭暗殺,中方投罕見一票,聯(lián)合國將其移除名單

文雅筆墨
2025-11-13 14:45:31
中國有權(quán)在日本駐軍,高市早苗闖了大禍,日方意識到大事不妙!

中國有權(quán)在日本駐軍,高市早苗闖了大禍,日方意識到大事不妙!

荷蘭豆愛健康
2025-11-12 12:42:25
硬盤里的20年執(zhí)念:70、80后不愿刪除的8款老游戲

硬盤里的20年執(zhí)念:70、80后不愿刪除的8款老游戲

記錄生活日常阿蜴
2025-11-13 14:13:07
鬧大了:退貂女子全網(wǎng)社死,商家再放猛招:不計成本,追究到底

鬧大了:退貂女子全網(wǎng)社死,商家再放猛招:不計成本,追究到底

詩意世界
2025-11-12 18:03:04
緬北女魔頭魏榕:建立血牛庫,別墅藏帥哥,不聽話就賞“肉靈芝”

緬北女魔頭魏榕:建立血牛庫,別墅藏帥哥,不聽話就賞“肉靈芝”

刀刃故事
2024-10-08 23:39:48
中方收拾高市后,俄方也跟上了,日本人被限制入境,美國只看不管

中方收拾高市后,俄方也跟上了,日本人被限制入境,美國只看不管

吳欣純Deborah
2025-11-12 18:04:06
三位勇士以一身傷痕,為14億人辟出法治生路

三位勇士以一身傷痕,為14億人辟出法治生路

深度報
2025-11-07 22:56:16
跌破1499,茅臺來到了應(yīng)有的位置上!

跌破1499,茅臺來到了應(yīng)有的位置上!

大象新聞
2025-11-13 11:18:02
向太不再隱瞞!回應(yīng)李連杰“換心”傳聞,沒給他留一絲的“體面”

向太不再隱瞞!回應(yīng)李連杰“換心”傳聞,沒給他留一絲的“體面”

阿纂看事
2025-11-13 16:09:08
滿分?38歲梅西新發(fā)型引熱議,球迷:清閑小梅,梅開二度的節(jié)奏

滿分?38歲梅西新發(fā)型引熱議,球迷:清閑小梅,梅開二度的節(jié)奏

側(cè)身凌空斬
2025-11-13 09:40:22
全運乒乓球混雙決賽:林高遠(yuǎn)、劉詩雯爭冠,4-3險勝奪金

全運乒乓球混雙決賽:林高遠(yuǎn)、劉詩雯爭冠,4-3險勝奪金

徐扙老表哥
2025-11-13 13:06:47
飛利浦之前賣3000萬一臺的核磁共振儀,我們會造了,降價到280萬

飛利浦之前賣3000萬一臺的核磁共振儀,我們會造了,降價到280萬

大道無形我有型
2025-09-24 12:55:52
2025-11-14 02:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13860文章數(shù) 66246關(guān)注度
往期回顧 全部

科技要聞

月產(chǎn)能突破百萬片,中芯國際Q3凈利增43.1%

頭條要聞

高市早苗扯著眼皮訴苦:我現(xiàn)在每天只睡2小時

頭條要聞

高市早苗扯著眼皮訴苦:我現(xiàn)在每天只睡2小時

體育要聞

跟豪門傳了十年緋聞,他卻偏要“擇一隊終老”

娛樂要聞

王鶴棣孟子義真要搭?

財經(jīng)要聞

源峰25億賭局!漢堡王中國"賣身"求生

汽車要聞

具備高階輔助駕駛功能 歐拉5預(yù)售價10.98萬起

態(tài)度原創(chuàng)

藝術(shù)
親子
健康
本地
公開課

藝術(shù)要聞

春風(fēng)拂面!古典美與工筆畫的絕妙碰撞。

親子要聞

男子分享三個細(xì)節(jié)判斷孩子快樂

血液科專家揭秘白血病七大誤區(qū)

本地新聞

云游安徽 | 江聲浩蕩閱千年,文脈相承看蕪湖

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 性欧美俄罗斯乱妇| 亚洲深夜福利| 欧美黄片视频免费| 中文字幕无码人妻二三区免费| 性高湖久久久久久久久| 被陌生人带去卫生间啪到腿软| 国产精品大片中文字幕| 成人国产精品一区二区免费麻豆| 囯产精品一区二区三区线| 亚洲欧洲精品成人久久曰| 国产综合操逼| 少妇高潮喷水久久久懂色AV密桃| 久久久av波多野一区二区| 毛片官网喷水| 国产av网页| 不卡一区二区国产精品| 337P日本人体艺术| 亚洲国产精品精JIZZ老师| 国产熟女50岁一区二区| 国产+亚洲+欧美精品7777| 亚洲日韩久久无码色欲色欲| 在线中文字幕亚洲日韩2020| 小雪第一次交换又粗又大老杨| 欧美伦理一区二区三区| 在线精品自拍亚洲第一区| 国精产品一线二线三线网站| 综合成人色图亚洲| 96网站精品国产精品国产精品国产精品网站 | 亚州无码一区| 成人免费三P在线观看| 精品国产鲁一鲁一区二区深喉| 精品无码人妻被多人侵犯av| 俺去了最新网址| 欧美激情精品久久久久自慰| 三上悠亚的av片在线无码| 精品久久一久久中文| 人妻 久久久| 国产精品中文字幕在线看| 国产精品久久久久久久久久久久午衣片| 无人视频免费看wwwvideoscom| 国产日产精品久久快鸭的功能介绍|