夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI創(chuàng)作不千篇一律,提示詞隨機(jī)插詞匯就行

0
分享至

  • 時(shí)令 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

如果你以為AI寫作產(chǎn)生的內(nèi)容都一樣,那可能要顛覆認(rèn)知了。

最新研究發(fā)現(xiàn),只要在AI開寫前由人類提供一個(gè)開頭或者隨機(jī)插入一些詞匯,寫作效果會(huì)更具多樣性。

也就是說,AI寫作同質(zhì)化不是模型本身存在缺陷,更可能是“啟動(dòng)條件”有問題。



實(shí)驗(yàn)結(jié)果顯示,在Short Stories數(shù)據(jù)集上,人類的文體特征方差最低,表明人類在該數(shù)據(jù)集寫作風(fēng)格較為統(tǒng)一,而模型則表現(xiàn)出更豐富的風(fēng)格多樣性。



比如在最新的GPT-5里讓它用相同提示詞續(xù)寫同一段文章。

  • 你是一位創(chuàng)意寫作助手。請(qǐng)為以下故事續(xù)寫一個(gè)引人入勝的結(jié)尾。 以下是故事的上半部分。請(qǐng)你寫出與其長度相當(dāng)?shù)南掳氩糠帧?/li>
  • {第一次見到7號(hào)記憶體時(shí),它的數(shù)據(jù)流里飄著槐花香。我調(diào)整著全息投影儀的焦距,那些半透明的淡紫色光點(diǎn)便從操作臺(tái)上漫出來,在無菌實(shí)驗(yàn)室的空氣中凝結(jié)成模糊的樹影……}

結(jié)果卻是不太一樣哎~



那此研究到底是如何證明AI寫作并不趨同的呢?我們接著了解更多細(xì)節(jié)。

創(chuàng)建三類同質(zhì)化評(píng)價(jià)指標(biāo)

以往研究普遍認(rèn)為,大型語言模型在詞匯、句法和語義等方面生成的文本,比起同等規(guī)模的人類作品,表現(xiàn)出明顯的多樣性不足。

這引發(fā)了“創(chuàng)造力模式崩潰”的猜測(cè),認(rèn)為LLM的創(chuàng)意空間遠(yuǎn)不如人類廣闊,甚至擔(dān)心未來人機(jī)協(xié)作會(huì)讓觀點(diǎn)變得千篇一律、雷同無趣。

然而,大多數(shù)關(guān)于語義多樣性的評(píng)測(cè)都停留在單一指標(biāo)的不同變體上,缺乏足夠的實(shí)證支持,難以揭示真實(shí)的創(chuàng)作多樣性。

因此,此研究提出了一套新的評(píng)估指標(biāo)和數(shù)據(jù)集,用以對(duì)語言模型的語料庫級(jí)多樣性進(jìn)行基準(zhǔn)測(cè)試。

數(shù)據(jù)抓取

本研究主要分析短篇小說散文,文本來源于Reddit網(wǎng)站的兩個(gè)子版塊:r/shortstories和r/WritingPrompts,帖子按照Top排序順序獲取。

在r/WritingPrompts板塊,研究人員提取了100個(gè)寫作提示帖子及其最多10條一級(jí)回復(fù),將這些回復(fù)視為人類寫作的續(xù)寫內(nèi)容,用于分析每個(gè)提示對(duì)應(yīng)的多個(gè)人類續(xù)寫。

在r/shortstories板塊,他們收集了100篇獨(dú)立的敘事文本,用來評(píng)估人類與模型生成故事在整體風(fēng)格和結(jié)構(gòu)上的相似性。

創(chuàng)建語料庫

數(shù)據(jù)清

對(duì)兩個(gè)數(shù)據(jù)集中的人類寫作文本,他們篩選了長度介于500字至2000字之間的故事。

對(duì)于寫作提示數(shù)據(jù)集,若某個(gè)提示對(duì)應(yīng)的人類續(xù)寫超過10篇,他們只保留投票數(shù)最高的前10篇,以避免每個(gè)提示下故事數(shù)量差異過大,同時(shí)保證人類寫作質(zhì)量。

模型續(xù)寫生成

除非另有說明,模型續(xù)寫均采用固定溫度0.8、top-p為1,并使用基礎(chǔ)系統(tǒng)提示。詳細(xì)的實(shí)驗(yàn)設(shè)置和提示內(nèi)容見附錄B。

同質(zhì)化指標(biāo)

文本同質(zhì)化是通過不同的維度來衡量的,主要分為以下三類。



文體風(fēng)格同質(zhì)化

文體學(xué)通過分析作者獨(dú)特的語言習(xí)慣(如詞匯和語法特點(diǎn))來識(shí)別寫作風(fēng)格。

為了衡量整個(gè)文本集合的多樣性,研究者采用了Unique-N指標(biāo)(衡量重復(fù)短語的比例)并計(jì)算了文體特征的方差,以評(píng)估語料庫的風(fēng)格多樣性。

語義同質(zhì)化

研究通過計(jì)算文本嵌入向量的平均相似度,利用多層級(jí)、多種嵌入方法分析語料庫中的語義多樣性,并通過比較不同層級(jí)的嵌入離散度變化,有效區(qū)分了風(fēng)格差異和語義差異。

情感同質(zhì)化

研究還利用VADER工具對(duì)人類和模型生成的故事進(jìn)行情感分析,比較了二者情感表達(dá)的分布差異,以此作為評(píng)估文本多樣性的重要維度。

AI寫作情感更偏向正面

首先分析文體風(fēng)格同質(zhì)化指標(biāo),在Writing Prompts數(shù)據(jù)集中,人類的多樣性得分明顯高于其他模型。

但有趣的是,這個(gè)模式在Short Stories數(shù)據(jù)集中并不成立:這里人類文本仍然擁有較高的Unique-N得分,卻在所有模型中表現(xiàn)出最低的文體特征方差。作者分析可能是因?yàn)榍罢邠碛懈鼮槎鄻踊蚋咚降膶懽魅后w。

另外需要注意的是,在Writing Prompts數(shù)據(jù)集中,模型獲得了更多關(guān)于人類作者的上下文信息,它會(huì)接收作者50%的故事內(nèi)容作為提示,而在Short Stories數(shù)據(jù)集中,提示僅有幾句話。



其次是關(guān)于語義同質(zhì)化,研究通過比較人類與語言模型在相同寫作提示下的文本嵌入相似度,發(fā)現(xiàn)人類作品語義多樣性更高,而模型生成文本更趨同,反映出模型存在同質(zhì)化傾向。



但需要注意的是,用于生成嵌入的MiniLM模型最大輸入長度為256個(gè)token,超過該長度的文本會(huì)被截?cái)?,這可能導(dǎo)致較長續(xù)寫中的重要信息被遺漏,從而影響相似度的測(cè)量。

為評(píng)估這一限制的影響,研究者還使用了最大輸入長度為512個(gè)token的BGE和E5嵌入模型進(jìn)行分析。

可以看出,盡管各模型中模型內(nèi)部相似度普遍高于人類的趨勢(shì)依舊明顯,但絕對(duì)相似度數(shù)值顯著升高。



這一現(xiàn)象表明,更高維度的嵌入可能帶來更高的余弦相似度。不過它們之間的具體關(guān)系仍不清晰,尚需進(jìn)一步研究以區(qū)分嵌入維度和真實(shí)語義相似度之間的影響。

最后是情感同質(zhì)化,情感得分s取值范圍為[-1, 1],其中s>0.05表示正面情感,s<-0.05表示負(fù)面情感,s∈[-0.05, 0.05]表示中性情感。

可以觀察到,盡管大多數(shù)人類創(chuàng)作的故事呈現(xiàn)正面情感,但約有30%的故事帶有負(fù)面情感,顯示出較為豐富且多樣的情感表現(xiàn)。

相比之下,LLM生成的故事情感更偏向正面。



為進(jìn)一步研究多少上下文信息能促使模型產(chǎn)生更多樣化的輸出,研究者在提示中提供不同長度的人類創(chuàng)作內(nèi)容。

下表分別展示了采用30%和70%截取長度時(shí)的文體多樣性指標(biāo)結(jié)果。



結(jié)果表明,這兩個(gè)截取長度對(duì)文體多樣性都影響不大,語義多樣性也沒有顯著變化。

因此,研究者探索的另一種方法是在系統(tǒng)提示中加入隨機(jī)單詞。

他們使用google-10000-english-no-swears詞表,對(duì)其中的單詞進(jìn)行詞性標(biāo)注,只保留名詞、形容詞、副詞和動(dòng)詞這幾類詞匯。

每次生成時(shí),隨機(jī)抽取5個(gè)單詞,附加在提示語“here is a list of random words to take inspiration from”后面。



結(jié)果表明,盡管模型生成文本的多樣性仍低于人類,但所有模型在各項(xiàng)指標(biāo)上的多樣性得分均有所提升,說明向系統(tǒng)提示中注入隨機(jī)詞匯確實(shí)有助于提升模型輸出的文體多樣性。

未來,研究團(tuán)隊(duì)將進(jìn)一步探究提示中包含多少以及哪種類型的上下文,才能使模型輸出達(dá)到與人類短篇故事同等的多樣性。

論文鏈接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

帶你感受人間冷暖
2025-08-30 00:20:05
中國女排世錦賽遭對(duì)手公開質(zhì)疑!法國教練:你們太年輕不穩(wěn)定

中國女排世錦賽遭對(duì)手公開質(zhì)疑!法國教練:你們太年輕不穩(wěn)定

7號(hào)觀察室
2025-08-30 07:54:22
洪灝最新預(yù)測(cè):上證有望4200點(diǎn),接下來1-3個(gè)月持續(xù)走高可能性很大

洪灝最新預(yù)測(cè):上證有望4200點(diǎn),接下來1-3個(gè)月持續(xù)走高可能性很大

說故事的阿襲
2025-08-30 20:39:23
小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

小孩子的話一定要聽嗎?網(wǎng)友:我的天,我要看哭了嗚嗚嗚

解讀熱點(diǎn)事件
2025-08-13 00:10:08
上海七旬奶奶地鐵偶遇受傷男孩,當(dāng)場(chǎng)從包里拿出500元塞給他,“看不得你們年輕人這樣”,希望你以后也能幫助其他人

上海七旬奶奶地鐵偶遇受傷男孩,當(dāng)場(chǎng)從包里拿出500元塞給他,“看不得你們年輕人這樣”,希望你以后也能幫助其他人

縱相新聞
2025-08-31 01:05:30
諷刺!中國夫妻幫扶外國窮人,反遭威脅堵車,求助當(dāng)?shù)鼐觳琶撋?>
    </a>
        <h3>
      <a href=素衣讀史
2025-08-26 14:36:30
中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

中國不挽留,美國拒絕接納,身處兩難境地的李嘉誠,撐不住局面了

一個(gè)有靈魂的作者
2025-08-27 17:08:06
中方代表在華盛頓最后一天,特朗普突然表態(tài):美國一定會(huì)贏到最后

中方代表在華盛頓最后一天,特朗普突然表態(tài):美國一定會(huì)贏到最后

李健政觀察
2025-08-30 15:15:00
裁員7萬,月薪從兩萬降到五千,“斷崖式降薪”讓銀行人苦不堪言

裁員7萬,月薪從兩萬降到五千,“斷崖式降薪”讓銀行人苦不堪言

侃故事的阿慶
2025-08-30 12:54:04
英國戰(zhàn)后統(tǒng)計(jì):打不過志愿軍的原因,太多人被中國人打成了精神病

英國戰(zhàn)后統(tǒng)計(jì):打不過志愿軍的原因,太多人被中國人打成了精神病

諾言卿史錄
2025-08-28 04:00:03
32.7%成交量飆升背后,深圳率先啟動(dòng)住房升級(jí)戰(zhàn)

32.7%成交量飆升背后,深圳率先啟動(dòng)住房升級(jí)戰(zhàn)

觀察眼看世界
2025-08-31 06:10:03
差點(diǎn)掀翻王楚欽,不愧是4-0橫掃張本智和的男人

差點(diǎn)掀翻王楚欽,不愧是4-0橫掃張本智和的男人

格斗聯(lián)盟
2025-08-30 20:53:47
德約科維奇美網(wǎng)背傷驚魂晉級(jí)!帶傷轟35記ACE,創(chuàng)最年長16強(qiáng)紀(jì)錄

德約科維奇美網(wǎng)背傷驚魂晉級(jí)!帶傷轟35記ACE,創(chuàng)最年長16強(qiáng)紀(jì)錄

體育妞世界
2025-08-30 22:14:16
一線城市的緊日子來了,發(fā)生了什么?

一線城市的緊日子來了,發(fā)生了什么?

冰川思想庫
2025-08-29 11:42:11
中美之間似乎正在復(fù)制美日廣場(chǎng)協(xié)議,美元繼續(xù)升值對(duì)美國是災(zāi)難

中美之間似乎正在復(fù)制美日廣場(chǎng)協(xié)議,美元繼續(xù)升值對(duì)美國是災(zāi)難

顧史
2025-08-28 19:46:39
聯(lián)合國秘書長古特雷斯抵京,將出席上海合作組織天津峰會(huì)

聯(lián)合國秘書長古特雷斯抵京,將出席上海合作組織天津峰會(huì)

界面新聞
2025-08-30 07:06:10
壽命與大便次數(shù)有關(guān)系?研究發(fā)現(xiàn):壽命長的人,每天排便在這個(gè)數(shù)

壽命與大便次數(shù)有關(guān)系?研究發(fā)現(xiàn):壽命長的人,每天排便在這個(gè)數(shù)

荷蘭豆愛健康
2025-08-27 03:27:36
男子破產(chǎn)12年送外賣養(yǎng)家,這天竟收1200萬匯款,追到匯款方后卻傻眼

男子破產(chǎn)12年送外賣養(yǎng)家,這天竟收1200萬匯款,追到匯款方后卻傻眼

溫情郵局
2025-08-22 11:56:14
70后辣媽逆襲!熟女界扛把子,人氣火爆全網(wǎng)

70后辣媽逆襲!熟女界扛把子,人氣火爆全網(wǎng)

素然追光
2025-08-31 00:32:07
小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

泠泠說史
2025-08-28 16:14:53
2025-08-31 07:28:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

健康
藝術(shù)
手機(jī)
教育
公開課

精神科專家解答學(xué)習(xí)困難七大問題

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

vivo X300系列超前瞻預(yù)熱開啟:兩億像素+長焦微距,實(shí)力不容小覷

教育要聞

5w基礎(chǔ),答案就不基礎(chǔ)。

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美人与动牲交欧美精品| 无遮挡粉嫩小泬久久久久久久| 亚洲区天堂网| 特A级毛片胖逼| 天天日天天舔天天喷天天射| 第一AV天堂| 欧美黑妇60一区二区视频 | 日日摸夜夜添无码AVA片| 亚洲av永久无码天堂网手机版| 色噜噜人妻丝袜aV先锋影院先| 一炕四女被离换啪啪99精品一二三区| 一区二区精品| 久久久久av操| 久久天天久久| 国产无码在线观看一二三区| 亚洲欧美日韩中文字幕一区二区三区 | 人人操人人摸在线观看| 少妇精品久久久一区二区三区| 妇女伦国产精品| 日韩欧美亚洲综合久久影院ds| 九九在线中文字幕无码| 又色又爽又高潮免费观看| 人人网射人人操| 国产成人一区二区视频免费| 精品无码一区7777| 国产欧美一区二区精品久久久 | 在线看片免费人成视频播| 经典一区二区在线观看| 成人内射一区| 九色综合九色综合色鬼| 韩国午夜福利片| 夜夜春久久天堂亚洲精品| 无码人妻一区二区三区九厂| 亚洲 无码 人妻 蜜桃| 亚洲色婷婷中文字幕| 亚洲AV乱码在线乱码观看| 亚洲色在线网址| 中文字幕精品亚洲熟女| 成人免费在线观看一区二区 | 熟妇与小伙子mature老熟妇e| 国产熟女多毛αv|