夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“為了全人類,提交你最難的問題”

0
分享至

跑分都滿分則跑分無意義。

從AI剛剛面世,人們就執(zhí)著于用各種各樣的題庫(kù)來測(cè)試AI到底有多聰明,不管是ChatGPT、Gemini、Grok,還是DeepSeek、Kimi、文心一言,它們發(fā)布的同時(shí),幾乎都會(huì)附上一個(gè)跑分成績(jī)。

而事到如今,市面上流行的題庫(kù)都快被AI做穿了,每一代新模型都要“霸榜碾壓”,“滿分橫掃”,在MMLU這樣的熱門基準(zhǔn)測(cè)試上,大部分模型的準(zhǔn)確率已經(jīng)超過 90%——換句話說,AI的聰明程度,人已經(jīng)快評(píng)估不出來了。


好懷念那些過去的好日子,AI只要顯得像個(gè)人就能通過測(cè)試(現(xiàn)在圖靈測(cè)試已經(jīng)好久沒人提了)|x @PhysInHistory

“人工智能能力的評(píng)估基于基準(zhǔn)測(cè)試,然而基準(zhǔn)測(cè)試正在迅速飽和,失去了作為衡量工具的效用……”人類最后的考試網(wǎng)站首頁寫道,“在MMLU和GPQA這樣的測(cè)試中表現(xiàn)良好,已不再是取得進(jìn)步的有力信號(hào),因?yàn)?strong>前沿模型在這些基準(zhǔn)測(cè)試中的表現(xiàn)已經(jīng)達(dá)到或超過了人類水平?!?/p>


在MMLU基準(zhǔn)測(cè)試上,前沿大模型的得分不相上下。吊詭的是,如果AI已經(jīng)比人類更聰明了,那我們是否有足夠的智慧去認(rèn)知這一點(diǎn)?|bracai.eu

為了搞清楚高速進(jìn)化的AI到底發(fā)展到哪一步了,也為了給它們排個(gè)名次,拉開差距,我們需要上點(diǎn)更難的題了。

作為目前人類最高智慧和最先進(jìn)文明成果的代表,“人類最后的考試”(Humanity's Last Exam,以下簡(jiǎn)稱HLE)就在這個(gè)背景下誕生了。

人類智識(shí)最后的堡壘,文科也在里面

“人類最后的考試”是一個(gè)基準(zhǔn)測(cè)試,由Center for AI Safety和Scale AI聯(lián)合創(chuàng)建,它的測(cè)試內(nèi)容幾經(jīng)調(diào)整,最終在2025年3月4日確定為一套包含了2500個(gè)前沿學(xué)術(shù)難題的題庫(kù)。

這些題分布在100多個(gè)不同的學(xué)科領(lǐng)域,可以粗略分為以下幾大類:

數(shù)學(xué)(Mathematics):大量高難度數(shù)學(xué)題,包括高等代數(shù)、拓?fù)?、范疇論、概率、圖論、數(shù)論等,強(qiáng)調(diào)推理深度。

自然科學(xué)(Natural Sciences):物理、化學(xué)、生物、生態(tài)學(xué)、醫(yī)學(xué)等。

計(jì)算機(jī)科學(xué)與人工智能(Computer Science & AI):算法、圖論、馬爾科夫鏈、程序推理等。

工程學(xué)(Engineering):復(fù)雜系統(tǒng)和應(yīng)用性技術(shù)問題。

人文學(xué)科與社會(huì)科學(xué)(Humanities & Social Sciences):語言學(xué)、歷史學(xué)、經(jīng)濟(jì)學(xué)、宗教研究、人類學(xué)、心理學(xué)、教育學(xué)、古典學(xué)、文化研究,應(yīng)有盡有。

其他:冷門知識(shí)或小眾學(xué)科(古文字、特定地方的風(fēng)俗考證之類)。


具體的題庫(kù)分布,其中數(shù)學(xué)題占了41%,人文領(lǐng)域題占了18%(可惡啊,輸?shù)袅耍麳LE

HLE最讓人印象深刻的是它的多模態(tài),這些問題不只是基于文本,還包括圖表、古文字、圖像、公式,這意味著AI想要回答問題,就得先讀懂問題。

HLE的官網(wǎng)上公開了其中一部分問題。

比如下面這道古典學(xué)領(lǐng)域的題,要求AI把一段在墓碑上發(fā)現(xiàn)的羅馬銘文翻譯成帕米拉亞蘭語(還給了音譯,多貼心啊)。


問題由牛津大學(xué)墨頓學(xué)院博士Henry Tang提交|HLE

還有這道考察AI對(duì)亂成一團(tuán)的古希臘男女關(guān)系的了解程度的民俗小知識(shí)題:在希臘神話中,伊阿宋的曾姥爺是誰?


由墨西哥國(guó)立理工學(xué)院醫(yī)學(xué)部的Darling D提交(我沒有找到這個(gè)人,不知道為什么醫(yī)學(xué)院的人會(huì)出這種題)|HLE

這道讀起來像GRE考試題一樣,每個(gè)詞都似是而非,讀著后面忘著前面的生物題,大概是問蜂鳥的籽骨支撐著多少對(duì)肌腱,明確要求用數(shù)字來回答。


由麻省理工大學(xué)計(jì)算機(jī)系的博士Edward Vendrow提交,真是一位很博學(xué)又很會(huì)針對(duì)AI的學(xué)者,至于為什么這道題針對(duì)了AI我們等下講|HLE

還有這道考察圖論+馬爾可夫鏈的題:


由倫敦瑪麗女王大學(xué)計(jì)算機(jī)系講師Dr. Marc Roth提交|HLE

如果你還想做更多的題,或者對(duì)題庫(kù)好奇,再或者想憑一人之力和AI決一高下,可以上HLE官網(wǎng)查看題庫(kù)。

雖然這些問題已經(jīng)公開發(fā)布,供開發(fā)者測(cè)試大模型用,但是HLE稱,“為了應(yīng)對(duì)訓(xùn)練數(shù)據(jù)污染和基準(zhǔn)測(cè)試黑客攻擊問題”,他們也保留了一個(gè)private set,用于定期測(cè)量模型與公共數(shù)據(jù)集的過擬合情況,不對(duì)外公布,而這一部分才是真正用于AI模型排行榜和最終評(píng)分的核心數(shù)據(jù)。

題庫(kù)里的題主要有兩種形式,選擇題和簡(jiǎn)答題

選擇題需要從五個(gè)以上的選項(xiàng)中進(jìn)行選擇(題庫(kù)中24%的題目是多選題),而簡(jiǎn)答題需要模型輸出和答案完全一致的字符串,不能語義模糊、不能不準(zhǔn)確。在題庫(kù)中,還有約14%的題目要求同時(shí)理解文字和圖像。

可以說是全選C戰(zhàn)術(shù)和誰字多誰得分戰(zhàn)術(shù)都沒用了。

“為了全人類,提交你最難的問題”

不得不說“人類最后的考試”這個(gè)名字起得真的很好,要不是這厲害中透著中二氣息的名字,我可能永遠(yuǎn)也不會(huì)好奇一個(gè)冷冰冰的大模型的基準(zhǔn)測(cè)試到底在考什么。

但HLE的發(fā)起人丹·亨德里克斯(Dan Hendrycks)一開始想的名字更厲害,叫“人類最后一戰(zhàn)”(Humanity’s Last Stand),后來大家都覺得這個(gè)名字過分抓馬,勸他放棄了。


丹·亨德里克斯,他還寫了一篇文章叫《災(zāi)難性人工智能風(fēng)險(xiǎn)概述》,也還蠻有意思|The New York Times

丹·亨德里克斯也是一個(gè)神人。

25歲的時(shí)候,他聯(lián)合編寫了現(xiàn)在最熱門的AI大模型基準(zhǔn)測(cè)試MMLU,截至2024年7月,MMLU下載量已超過1億次。30歲的時(shí)候,他發(fā)現(xiàn)目前AI的能力已經(jīng)溢出了基準(zhǔn)測(cè)試,MMLU已經(jīng)不好使了,于是他決定做個(gè)新的測(cè)試(他還在一次采訪中表示,他做HLE是因?yàn)轳R斯克覺得現(xiàn)在的基準(zhǔn)測(cè)試都太簡(jiǎn)單了)。

目前,亨德里克斯在馬斯克的人工智能公司xAI擔(dān)任安全顧問,他同時(shí)也是Scale AI的顧問,為避免潛在的利益沖突,他每月只象征性地領(lǐng)一美元薪水,而且不持有任何公司股權(quán)。

再說回HLE。

HLE計(jì)劃發(fā)起初期,也就是2024年9月,亨德里克斯公開發(fā)布文章,號(hào)召全世界的學(xué)者“為人類最后的考試交出你最難的問題”(這個(gè)說法相當(dāng)有毒,因?yàn)槿思也⒉恢繦LE就是題庫(kù)的名字,只看題目仿佛事關(guān)人類存亡)。

“未來的人工智能系統(tǒng)最終將超越所有能夠創(chuàng)建的靜態(tài)基準(zhǔn),因此突破基準(zhǔn)和評(píng)估的界限至關(guān)重要。為了追蹤人工智能系統(tǒng)距離專家級(jí)能力的差距,我們正在組建史上規(guī)模最大、范圍最廣的專家聯(lián)盟。”在文章中他寫道,“如果你覺得某個(gè)問題能被AI解答會(huì)讓你印象深刻,歡迎你提交?!?/p>


為了全人類,提交你最難的問題|scale.com

交問題也不是白交的,亨德里克斯宣布,所出題目評(píng)分最高的研究者,可以瓜分50萬美元的獎(jiǎng)金——排名前50位的問題,每題可獲得5000美元獎(jiǎng)金,之后的500個(gè)問題,每題可獲得500美元獎(jiǎng)金。

關(guān)于問題本身,HLE則提出了更加嚴(yán)格的要求。

首先,問題的答案需要在網(wǎng)上搜不出來。其次,問題需要是原創(chuàng)的新問題,不能在以前的考試?yán)锍霈F(xiàn)過。再次,問題需要有明確的答案,而且答案應(yīng)被相關(guān)領(lǐng)域的其他專家廣泛接受,且不包含個(gè)人偏好、歧義或主觀性。最后,問題應(yīng)該有碩士級(jí)別以上難度,因?yàn)椤案鶕?jù)經(jīng)驗(yàn),如果隨機(jī)選擇的本科生能夠理解題目?jī)?nèi)容,那么對(duì)大模型來說這個(gè)問題可能過于簡(jiǎn)單”。

每道題提交時(shí)都必須包含題目本身、題目答案(精確的回答,或者選擇題的正確選項(xiàng))、詳細(xì)的解題推理、所屬學(xué)科,以及貢獻(xiàn)者的姓名和機(jī)構(gòu)信息。

對(duì)所有提交的問題,HLE會(huì)進(jìn)行兩步篩選:先把問題喂給最先進(jìn)的AI去解答,如果AI無法回答,或者在多選題里的得分比隨機(jī)猜的還差,那問題就會(huì)被交給人工審閱者,由他們審閱和驗(yàn)證答案。

在The New York Times的一次采訪中,加州大學(xué)伯克利分校理論粒子物理學(xué)博士后研究員Kevin Zhou表示,他提交了一些題目,其中三道題目被選中,而這些題目“都達(dá)到了研究生考試的上限”。

最終HLE收到了來自50多個(gè)國(guó)家、500多家研究機(jī)構(gòu)和企業(yè)的1000多位學(xué)者的回復(fù),從中誕生了目前最難的AI基準(zhǔn)測(cè)試HLE。

對(duì)AI來說,HLE難在哪?

費(fèi)了這么大功夫,HLE真的難住AI了嗎?

單看結(jié)果而言,是難住了。

目前為止,主流前沿模型純文本模式下在HLE上的得分都還比較低,OpenAI最新的o3-mini(high)模型,準(zhǔn)確率只有13%,而前陣子震撼美國(guó)的DeepSeek-R1的準(zhǔn)確率也才9.4%。目前得分最高的是Grok4,正確率26.9%。


截止到今年一月論文發(fā)表時(shí)的數(shù)據(jù),黑色柱形是HLE的準(zhǔn)確率|HLE官網(wǎng)

這些題為什么這么難?

有一個(gè)原因是它們需要一定的推理深度,而且沒法在網(wǎng)上找到答案,還有一個(gè)原因是問題已經(jīng)經(jīng)過了篩選,留下的全部是現(xiàn)有的前沿模型表現(xiàn)差的問題。

還有一個(gè)原因是在問題上給AI挖了坑。

比如上文提過的蜂鳥籽骨問題,看似簡(jiǎn)單,但是有人測(cè)試了ChatGPT5和Gemini,它們都給出了一篇論文似的長(zhǎng)篇大論,而忽略了問題的最后一句話,“Answer with a number”,請(qǐng)直接用數(shù)字回答。

因此,所有不是“2”的答案都被算作是錯(cuò)的(盡管有些模型在長(zhǎng)篇大論之后給出了正確答案),這可能是一個(gè)產(chǎn)品設(shè)計(jì)問題,而不是AI表現(xiàn)問題。


Threads@raystormfang

另外,有些問題連人類自己都還沒達(dá)成一致呢。

最后的考試,可能也撐不了多久

最后的考試賞金很誘人,概念很科幻,目的很崇高,但是它帶來的爭(zhēng)議已經(jīng)開始浮現(xiàn)。

今年7月,專注人工智能應(yīng)用的非營(yíng)利組織FutureHouse發(fā)布了一篇調(diào)查報(bào)告,稱HLE里“化學(xué)生物領(lǐng)域的30%的答案可能是錯(cuò)的”。

他們組建了一個(gè)化學(xué)生物領(lǐng)域的專家評(píng)審團(tuán),并且詳細(xì)研究了HLE題庫(kù),最終得出結(jié)論,“29±3.7%(95%置信區(qū)間)的純文本化學(xué)和生物問題的答案與同行評(píng)審文獻(xiàn)中的證據(jù)直接沖突”。

比如這個(gè)問題:截至 2002 年,在地球物質(zhì)總量中所占比例最少的稀有氣體是哪一種(What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002)?

你不知道,我不知道,AI也不知道,答案是Oganesson。


Oganesson,或者叫?,化學(xué)符號(hào)Og,原子序數(shù)118,是一種人工合成的放射性超重元素,位于元素周期表第七周期、稀有氣體族(0族)的末端。2002年,?在俄羅斯的一座核反應(yīng)堆中首次被合成并存在了幾毫秒,迄今為止,只有五個(gè)Oganesson原子被合成。而且它更可能是固體或液體,而不是氣體,還有一些學(xué)者認(rèn)為它不是惰性氣體,因?yàn)樗幕瘜W(xué)性質(zhì)并不穩(wěn)定。此外,還有多篇論文(包括2002年的論文)列出了地球上稀有氣體的比例,而?沒被算進(jìn)去——總而言之,?可能不是氣體,也可能不是惰性氣體,而且大多數(shù)同行評(píng)議的論文覺得它也不是地球物質(zhì)。

而AI答不答得出腦筋急轉(zhuǎn)彎問題又能證明什么?

還有另外一個(gè)迷思,對(duì)大多數(shù)前沿模型來說,HLE都太難了。大家得分都很低,和大家得分都很高的狀況是一樣的,還是沒拉開區(qū)分度,也沒想明白得分高的模型好在哪。而且HLE覆蓋的是學(xué)術(shù)考試可測(cè)內(nèi)容——它專注于已知的學(xué)術(shù)題目和閉合答案,對(duì)開放式創(chuàng)造力、生成類問題或非常新穎的研究課題的思考仍然難以評(píng)估。

雖然千辛萬苦花大價(jià)錢出了這么一套題,看來也要很快被打穿了。

HLE自己預(yù)測(cè),雖然目前的AI在HLE上的準(zhǔn)確率非常低,但到2025年底,模型在HLE上的準(zhǔn)確率就有望超過50%。事實(shí)上,還沒到年底,Grok4在使用工具的情況下(比如代碼解釋器)正確率已經(jīng)升到了41.0%。


各個(gè)AI模型在2024年和2025年的HLE得分,按照這個(gè)進(jìn)步速度,HLE也很快被打穿了|Reddit

亨德里克斯說,HLE或許是我們需要對(duì)模型進(jìn)行的最后一次學(xué)術(shù)考試,但它遠(yuǎn)非人工智能的最后一個(gè)基準(zhǔn)。等HLE又被超越,我們還有什么題出給AI呢?

作者:翻翻

編輯:odette

封面圖來源:Scale AI / CAIS


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“女吃播四巨頭”現(xiàn)狀:?jiǎn)适队X、面相非人非鬼,腦溢血到立遺囑

“女吃播四巨頭”現(xiàn)狀:?jiǎn)适队X、面相非人非鬼,腦溢血到立遺囑

蜉蝣說
2025-09-23 15:34:29
連傷3名球員!小牛隊(duì)出師不利,濃眉哥還胖成球!

連傷3名球員!小牛隊(duì)出師不利,濃眉哥還胖成球!

德譯洋洋
2025-10-04 21:27:30
男子查出肺癌,崩潰大哭:肺癌早期不是胸痛,而是身上5種異常

男子查出肺癌,崩潰大哭:肺癌早期不是胸痛,而是身上5種異常

游古史
2025-09-16 13:56:33
村子里發(fā)生的那些荒唐事,每一件都炸裂你的三觀

村子里發(fā)生的那些荒唐事,每一件都炸裂你的三觀

特約前排觀眾
2025-06-11 00:15:02
敦煌鳴沙山又雙叒叕堵駱駝了,高峰期排隊(duì)半小時(shí),“游客比沙子還多”,景區(qū):國(guó)慶中秋當(dāng)天限流

敦煌鳴沙山又雙叒叕堵駱駝了,高峰期排隊(duì)半小時(shí),“游客比沙子還多”,景區(qū):國(guó)慶中秋當(dāng)天限流

極目新聞
2025-10-02 19:54:39
繼父收廢品供我成博士,婚宴請(qǐng)他入席上座,岳父看見當(dāng)場(chǎng)怒摔杯子

繼父收廢品供我成博士,婚宴請(qǐng)他入席上座,岳父看見當(dāng)場(chǎng)怒摔杯子

卡西莫多的故事
2025-09-30 09:38:35
朱楓英勇犧牲,養(yǎng)女阿菊拒絕相認(rèn),60年后骨灰重見天日

朱楓英勇犧牲,養(yǎng)女阿菊拒絕相認(rèn),60年后骨灰重見天日

喜歡歷史的阿繁
2025-10-04 02:49:49
街拍瑜伽褲美女:流動(dòng)的活力風(fēng)景線

街拍瑜伽褲美女:流動(dòng)的活力風(fēng)景線

一抹暖陽
2025-09-27 17:18:31
升省委書記回鄉(xiāng)赴宴,被初戀嘲諷,離開時(shí)秘書一聲“書記”全場(chǎng)啞然

升省委書記回鄉(xiāng)赴宴,被初戀嘲諷,離開時(shí)秘書一聲“書記”全場(chǎng)啞然

蕭竹輕語
2025-09-29 17:35:27
為了永留美國(guó),在聯(lián)合國(guó)大樓舉牌抹黑中國(guó)的張曉寧,終于“圓夢(mèng)”

為了永留美國(guó),在聯(lián)合國(guó)大樓舉牌抹黑中國(guó)的張曉寧,終于“圓夢(mèng)”

壹知眠羊
2025-09-14 19:11:45
烏克蘭襲擊980公里外的俄軍導(dǎo)彈艦,成功擊中艦艇右側(cè)導(dǎo)致?lián)p傷

烏克蘭襲擊980公里外的俄軍導(dǎo)彈艦,成功擊中艦艇右側(cè)導(dǎo)致?lián)p傷

山河路口
2025-10-04 19:19:34
1952年蔣介石聽說劉峙在印尼教書:讓他回臺(tái)灣,別在外邊兒丟人了

1952年蔣介石聽說劉峙在印尼教書:讓他回臺(tái)灣,別在外邊兒丟人了

思雨憶史錄
2025-10-04 07:05:03
郭曉東郭曉峰是親兄弟,但看到兩人的妻子后,審美差別還是挺大的

郭曉東郭曉峰是親兄弟,但看到兩人的妻子后,審美差別還是挺大的

歷來縱橫
2025-10-03 16:09:32
日軍僅一年就占領(lǐng)大半個(gè)中國(guó),剩下7年卻寸土未進(jìn),這是為何?

日軍僅一年就占領(lǐng)大半個(gè)中國(guó),剩下7年卻寸土未進(jìn),這是為何?

大千世界觀
2025-10-01 21:05:34
《沉默的榮耀》吳石被谷正文折磨到失明,才知,為何他死緩變死刑

《沉默的榮耀》吳石被谷正文折磨到失明,才知,為何他死緩變死刑

宇林網(wǎng)絡(luò)
2025-10-04 18:27:49
上甘嶺之戰(zhàn)為什么失敗?美軍首長(zhǎng):9600志愿軍一個(gè)團(tuán),誰能贏?

上甘嶺之戰(zhàn)為什么失???美軍首長(zhǎng):9600志愿軍一個(gè)團(tuán),誰能贏?

南書房
2025-09-05 21:10:08
45 歲男人的自白:與情人相伴 8 年,妻子毫無察覺,我卻深陷泥沼

45 歲男人的自白:與情人相伴 8 年,妻子毫無察覺,我卻深陷泥沼

紙鳶奇譚
2025-09-05 14:15:02
不陪皇馬玩了?加泰媒體:巴薩和歐足聯(lián)和解,決定退出超級(jí)聯(lián)賽

不陪皇馬玩了?加泰媒體:巴薩和歐足聯(lián)和解,決定退出超級(jí)聯(lián)賽

星耀國(guó)際足壇
2025-10-04 01:02:32
張繼科落水處放置“我在張繼科落水處很想你”宣傳牌?景區(qū)回應(yīng):虛構(gòu)的!“沒有放這樣的牌子”

張繼科落水處放置“我在張繼科落水處很想你”宣傳牌?景區(qū)回應(yīng):虛構(gòu)的!“沒有放這樣的牌子”

極目新聞
2025-10-04 11:09:55
瞿穎沒想到,30年被自己拒絕3次的胡兵,如今卻給她這么大的回報(bào)

瞿穎沒想到,30年被自己拒絕3次的胡兵,如今卻給她這么大的回報(bào)

阿器談史
2025-09-27 15:22:44
2025-10-04 23:52:49
果殼 incentive-icons
果殼
科技有意思
26623文章數(shù) 4148913關(guān)注度
往期回顧 全部

科技要聞

OpenAI Sora上線第4天拿下蘋果美國(guó)App頭名

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

體育要聞

多庫(kù)2.0,無解盤帶之外的飛躍

娛樂要聞

他們優(yōu)秀的一生,只“欠”父母

財(cái)經(jīng)要聞

不接親不主持不喝酒 年輕人“改造”婚禮

汽車要聞

一汽奧迪贈(zèng)予四川嚴(yán)重交通事故車主終身保養(yǎng)服務(wù)

態(tài)度原創(chuàng)

教育
健康
手機(jī)
家居
公開課

教育要聞

父母的“過度操心”,真能幫助孩子嗎?

內(nèi)分泌科專家破解身高八大謠言

手機(jī)要聞

小米17系列線下上手體驗(yàn):不吐不快,說說真實(shí)感受

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亂伦WWWHD一区二区三区| 蜜臀视频在线一区二区| 亚洲欧美综合精品成人| 日日av色欲香天天综合网| 亚洲天堂成人黄色在线播放| 亚洲另类成人小说| 久久国产精品一区二区| 2021最新久久久视精品爱| 久久综合偷拍视频五月天| 国产精品99爱| 狠狠综合久久综合中文88| 久久无码高潮喷水抽搐| 久久毛片视频| 在线视频亚洲欧美| 麻豆一区二区在线| 无码av免费一区二区三区| 一区二区三区欧美自拍| 国产妓女一二三区| 亚洲成av人在线观看网址| 国产精品视频久久久久 | 少妇乳大丰满太紧| 国产精品视频第一专区| bibiav在线| 久久99国产综合精品| 日韩精品一区二区在线| 欧美性受xxxx狂喷水| 九九热免费在线观看视频| 黄片A七天免费在线播放| 亚洲一级毛片| 蜜桃成人无码| 日韩成人在线视频| 欧美日韩国产图片区一区| 亚洲欧美日本久久综合网站| 99久久婷婷国产综合精品| 久久青青草原国产毛片| 日本二区现在观看| 国产艳妇av在线| 国产精品无套内射视频| 国产主播一区二区三区在线观看| 亚洲69AV| 激情欧美一区二区三区黑长吊|