★加星zzllrr小樂(lè)公眾號(hào)數(shù)學(xué)科普不迷路!
本月主題:
1. 杰利蠑螈的數(shù)學(xué)
2. “蛋白質(zhì)宇宙的拓?fù)涮匦浴?/strong>
作者:Tony Phillips(石溪大學(xué)數(shù)學(xué)教授)2025-10-8
譯者:zzllrr小樂(lè)(數(shù)學(xué)科普公眾號(hào))2025-10-9
1. 杰利蠑螈的數(shù)學(xué)原理
杰利蠑螈(Gerrymandering)是指繪制不成比例地有利于某一政黨的立法地圖的做法。最近,德克薩斯州新制定的親共和黨立法地圖 https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/ 引發(fā)了訴訟,民主黨州甚至威脅要采取類似行動(dòng) https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html 。哈佛大學(xué)經(jīng)濟(jì)學(xué)家羅蘭·弗萊爾(Roland Fryer)在2025年8月12日刊登于《紐約時(shí)報(bào)》的一篇客座文章中 https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html ,分享了一個(gè)他認(rèn)為有助于識(shí)別杰利蠑螈地圖的指標(biāo)。
這一指標(biāo)被稱為“相對(duì)接近指數(shù)”(RPI,Relative Proximity Index),由弗萊爾和理查德·霍爾登(Richard Holden)于2007年提出 https://www.nber.org/system/files/working_papers/w13456/w13456.pdf 。它對(duì)緊湊性進(jìn)行了精確的數(shù)學(xué)解釋,而緊湊性正是美國(guó)國(guó)家州議會(huì)委員會(huì) https://www.ncsl.org/elections-and-campaigns/redistricting-criteria 制定公平立法地圖的兩大“傳統(tǒng)標(biāo)準(zhǔn)”之一。(雖然不公正劃分選區(qū)的做法并不被認(rèn)為是好的做法,但法律并未明確禁止。各州只需盡可能劃分人口比例相等的選區(qū)即可。)不同州對(duì)緊湊性的衡量標(biāo)準(zhǔn)有所不同,婦女選民聯(lián)盟的這些例子 https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf 就證明了這一點(diǎn)。
目前的緊湊度衡量標(biāo)準(zhǔn)是基于選區(qū)的幾何形狀:狹長(zhǎng)的選區(qū)或周長(zhǎng)較長(zhǎng)的選區(qū)會(huì)受到懲罰。然而,F(xiàn)ryer 和 Holden 的指數(shù)則基于選民的位置來(lái)衡量緊湊度——具體來(lái)說(shuō),是選區(qū)內(nèi)選民之間的平均物理距離。該指數(shù)隨后將這一平均物理距離與任何可能的選區(qū)劃分方案所能達(dá)到的最小物理距離進(jìn)行比較。RPI 實(shí)際上與目前的衡量標(biāo)準(zhǔn)呈負(fù)相關(guān),因此可能會(huì)推薦與目前使用的地圖截然不同的地圖。
這個(gè)平均距離是如何計(jì)算的?我們首先將州 S 想象成一個(gè)二維平面,居住著編號(hào)為 1,2,...,N 的個(gè)人。如果該州選出 M 名立法者,則人口均等要求規(guī)定 S 應(yīng)劃分為 M 個(gè)選區(qū) D?, D?, ..., D?,每個(gè)選區(qū)約有 N/M 名居民。要計(jì)算 Fryer 和 Holden 的平均距離測(cè)量值,請(qǐng)計(jì)算居住在同一選區(qū)的任意一對(duì) i 和 j 之間的物理距離 d_{ij}。對(duì)于每個(gè)選區(qū) D_k,將所有這些距離的平方相加:
∑_{i,j ∈ D_k} d_{ij}2
然后,將所有 M 個(gè)選區(qū)的結(jié)果相加,得到
π(D?, ..., D?) = ∑_{k=1}^{M} ∑_{i,j ∈ D_k}d_{ij}2
Fryer 和 Holden 舉了一個(gè)例子來(lái)說(shuō)明這一點(diǎn)。下圖改編自他們的文章,展示了一個(gè)假設(shè)的州,該州有兩張可能的立法地圖:一張是藍(lán)色的(B ),另一張是橙色的( O )。藍(lán)色地圖中,同一選區(qū)選民之間的平均距離為π(B) = 24 ;橙色地圖中,平均距離為 π(O) = 16。其他分區(qū)的π-得分均不低于 16 。
六個(gè)頂點(diǎn)排列成兩行。第一行包含頂點(diǎn) 1、2、3;第二行包含頂點(diǎn) 4、5、6。
在這個(gè)簡(jiǎn)單的例子中,一個(gè)州有六名居民,位于一個(gè) 1 公里網(wǎng)格的頂點(diǎn)。他們將被分配到兩個(gè)選區(qū)。圖中展示了兩種劃分方案。在藍(lán)色方案中,選區(qū)的人口分別為 {1,2,3}和{4,5,6} 。在橙色方案中,選區(qū)的人口分別為 {1,4,5}和 {2,3,6}。
圖源:Tony Phillips
由于最小平均距離是橙色地圖所達(dá)到的,因此為了計(jì)算特定地圖的 RPI,我們?nèi)∑淦骄嚯x與 π(O) 的比值。因此,藍(lán)色分區(qū)的 RPI 等于 π(B) 與 π(O) 的比值,即 24/16 = 1.5。橙色分區(qū)的 RPI 當(dāng)然是 π(O)/π(O) = 1。
這種自然的緊湊性度量方法的缺點(diǎn)在于,目前已知的唯一找到最小平均距離的方法需要測(cè)試所有可能分區(qū)集合中的每個(gè)元素,而該集合的大小會(huì)隨著該州人口的增加而呈指數(shù)增長(zhǎng)。作者以加利福尼亞州的簡(jiǎn)化模型為例,將該集合的大小設(shè)為 78.4×10??3?1。
事實(shí)上,正如他們所說(shuō),最緊湊分區(qū)問(wèn)題是計(jì)算復(fù)雜性理論歸類為“NP難”的一類計(jì)數(shù)問(wèn)題之一。是否存在一種通用的方法來(lái)控制這些問(wèn)題是數(shù)學(xué)中一個(gè)懸而未決的問(wèn)題,其重要性足以成為價(jià)值百萬(wàn)美元的千禧年大獎(jiǎng)難題之一 https://www.claymath.org/millennium-problems/ 。
因此,就目前情況而言,從實(shí)際角度來(lái)看,無(wú)法獲得精確的解決方案。但作者找到了一種解決方法:利用人口普查數(shù)據(jù)(即該州每個(gè)立法選區(qū)的人口中心)中包含的額外信息,他們可以構(gòu)建出一個(gè)接近最緊湊分區(qū)的近似值。
為了了解轉(zhuǎn)向最緊湊選區(qū)的實(shí)際后果,作者回顧了2000年加利福尼亞州、紐約州、賓夕法尼亞州和德克薩斯州選舉的數(shù)據(jù),并研究了從現(xiàn)行制度轉(zhuǎn)變?yōu)樽罴阎贫葘⑷绾斡绊戇x舉結(jié)果。針對(duì)這兩種情況,他們分析了數(shù)百次選舉模擬,記錄了各政黨贏得的席位比例如何隨其得票率的變化。他們得出結(jié)論,最緊湊的選區(qū)將使選舉結(jié)果在統(tǒng)計(jì)上更顯著地反映實(shí)際投票情況。
2. “蛋白質(zhì)宇宙的拓?fù)涮匦浴?/strong>
這是2025年8月13日發(fā)表在《自然通訊》Nature Communications上的一篇文章 https://www.nature.com/articles/s41467-025-61108-2 的標(biāo)題。正如標(biāo)題所示,這項(xiàng)工作的范圍非常廣泛:AlphaFold2 數(shù)據(jù)庫(kù) https://alphafold.ebi.ac.uk 中建模的2.14億個(gè)獨(dú)特蛋白質(zhì)。作者指出,蛋白質(zhì)科學(xué)的一個(gè)主要原則是“蛋白質(zhì)的形狀決定了它的功能”。這促使他們系統(tǒng)地清點(diǎn)數(shù)據(jù)庫(kù)中的所有蛋白質(zhì)形狀。為此,他們運(yùn)用了21世紀(jì)拓?fù)鋵W(xué)的一項(xiàng)創(chuàng)新,即對(duì)形狀進(jìn)行數(shù)學(xué)研究,稱為持久同調(diào)(persistent homology, PH,也稱持續(xù)同調(diào)) https://www.ams.org/publicoutreach/feature-column/fc-2016-12 。(另見(jiàn)此綜述文章 https://arxiv.org/pdf/2004.00738 )
持久同調(diào)是一種為點(diǎn)云 X 賦予有意義形狀的方法。使用正實(shí)參數(shù) ε,我們?cè)诰嚯x小于ε的任意兩點(diǎn)之間畫一條邊;當(dāng)三個(gè)點(diǎn)可以放入直徑為 ε 的球體中時(shí),我們填充一個(gè)三角形;當(dāng)四個(gè)點(diǎn)可以放入直徑為 ε 的球體中時(shí),我們填充一個(gè)四面體。這就得到了所謂的單純復(fù)形(simplicial complex),我們記為 X^ε。單純復(fù)形具體的意思是,每當(dāng)一個(gè)四面體屬于 X^ε 時(shí),它的三角形面也必須屬于 X^ε,等等。(這根據(jù)我們定義 X^ε 的方式自動(dòng)實(shí)現(xiàn))
通常將點(diǎn)、邊、三角形和四面體稱為單純形(單數(shù)simplex,復(fù)數(shù)simplices),并按如下方式標(biāo)記它們。 X 中的點(diǎn) p 是 0-單純形 ?p?, p 和 q 之間的邊是 1-單純形 ?pq?,等等。 k維單純形(我們將使用 ? 中的系數(shù),即 0 和 1 ,以及 1+1=0)的線性組合稱為一個(gè)k-鏈(k-chain)。 X^ε的k-鏈形成一個(gè) ?-向量空間。我們將這個(gè)向量空間標(biāo)記為 C_k^ε(X)。它的基是 k-單純形的集合。
同調(diào)是圍繞邊界(boundary)運(yùn)算建立的。四面體 3-單純形 ?pqrs?的邊界是其四個(gè)面之和, ?pqr?+ ?pqs?+ ?prs?+ ?qrs?,等等:三角形的邊界是其三條邊之和,邊的邊界是其兩個(gè)端點(diǎn)之和,點(diǎn)的邊界是 0 。這在基礎(chǔ)元素上定義了邊界,并且該定義擴(kuò)展到線性變換 ?_k:C_k^ε(X) → C_{k-1}^ε(X),在我們的例子中對(duì)應(yīng)于 k=1,2,3 。
同調(diào)的基本原理是邊界的邊界為零。這在單純形上很容易驗(yàn)證,因此它對(duì)任何鏈都成立。例如,四面體邊界的每條邊恰好出現(xiàn)兩次,分別出現(xiàn)在兩個(gè)相鄰的三角形面上,得出系數(shù) 0 mod 2。
這尤其意味著,由某個(gè) (k+1)-鏈的所有邊界組成的空間是所有邊界為零的 k-鏈的子空間。這讓我們將第k個(gè)同調(diào)向量空間 H_k^ε(X) 定義為商空間:在 C_k^ε(X) 中,取由所有邊界為 0 的 k-鏈組成的向量子空間,除以由某個(gè) (k+1)-鏈的所有邊界組成的子空間。因此,在商中,如果兩個(gè) k-環(huán)的和是 (k+1)-鏈的邊界,我們就稱它們等價(jià);特別是,如果一個(gè)環(huán)本身就是邊界,則它就等價(jià)于0。粗略地說(shuō),H_k^ε(X) 跟蹤 X^ε 中的 k-環(huán),它們不是任何邊界。
從這個(gè)粗略的意義上講,H?^ε(X) 記錄的是沒(méi)有內(nèi)部的多邊形——作者稱之為“洞”(hole)。 H?^ε(X) 記錄的是空的多面體表面,或稱“空隙”(void)。同時(shí), H?^ε(X) 記錄的是位于 X^ε中不同連通分量中的點(diǎn)對(duì)。
當(dāng)我們改變 ε 時(shí),持久性就會(huì)出現(xiàn)。假設(shè)兩點(diǎn) 1 和 2 的距離 δ 大于我們選擇的參數(shù) ε。那么 C?^ε(X) 中的鏈 ?1?+ ?2? 是一個(gè) 0-環(huán),它不是邊界,因此表示 H?^ε(X) 中的 0 維同調(diào)類。但如果我們?cè)黾?ε 直到它大于距離 δ,鏈 ?1?+ ?2? 就成為 1-單純形 ?12?的邊界。也就是說(shuō),它的同調(diào)類現(xiàn)在為0。原始類沒(méi)有持久化。下面是一個(gè)更詳細(xì)的例子。
左圖:四個(gè)點(diǎn),標(biāo)記為 1、2、3、4,參數(shù)為 ε。點(diǎn) 2 到 3、點(diǎn) 3 到 4 以及點(diǎn) 4 到 1 之間均存在線段。點(diǎn) 1 和 2 之間沒(méi)有線段。
中圖:參數(shù)已增加到 δ,點(diǎn) 1 和 2 之間現(xiàn)在存在一條線段。
右圖:參數(shù)已增加到 δ',由點(diǎn)構(gòu)成的四邊形現(xiàn)在已填充。
一維同調(diào)類的生與滅
圖a. 在 X^ε中,邊 ?14?、?34?和?23?不構(gòu)成環(huán)的一部分,因?yàn)檫??12?不在 X^ε 中。
圖b. 當(dāng) ε 增加到 δ 時(shí),邊 ?12?連接了單純復(fù)形。這四條邊現(xiàn)在構(gòu)成一個(gè)無(wú)邊界環(huán),因此是 H?^ε(X) 中的非零類。
圖c. 此類不持久:當(dāng) δ 增加到 δ' 時(shí),2-單純形 ?123?和 ?134?連接復(fù)形 X^{δ'}。鏈 ?12?+?23?+?34?+?14?是?123?+?134?和的邊界,因此這個(gè)環(huán)現(xiàn)在在 H?^{δ'}(X) 中為0。
圖源:Tony Phillips
Madsen及其合作者用點(diǎn)云對(duì) 2.14 億個(gè) AlphaFold2 蛋白質(zhì)結(jié)構(gòu)進(jìn)行了近似,其中每個(gè)點(diǎn)都給出了該蛋白質(zhì)骨架原子之一在三維空間中的位置。對(duì)于人類血紅蛋白這種重要的蛋白質(zhì),點(diǎn)云中有 574 個(gè)點(diǎn) https://pubmed.ncbi.nlm.nih.gov/8890557/ ;對(duì)于某些蛋白質(zhì),點(diǎn)云的數(shù)量則高達(dá)數(shù)千個(gè)。對(duì)于每個(gè)點(diǎn)云,他們記錄了持久同調(diào)性。
左圖:蛋白質(zhì)模型,其中一個(gè)環(huán)以紫色突出顯示。
右圖:同一種蛋白質(zhì),其一組鏈構(gòu)成一個(gè)多面體的邊,以紫色突出顯示。
在血紅蛋白亞基之一的持久同調(diào)分析階段中,一個(gè)“環(huán)”(loop,表示非零一維同調(diào)類的環(huán))和一個(gè)“空隙”(表示非零二維類的環(huán))。
圖片1H摘自《自然通訊》16, 7503,根據(jù) CC by-NC-ND 4.0 許可證使用。
作者詳細(xì)闡述了拓?fù)湄S富度(topological richness)的概念,并將其定義為“衡量每種蛋白質(zhì)有多少獨(dú)特、持久的拓?fù)涮卣,……以殘基?shù) [即該蛋白質(zhì)點(diǎn)云中的點(diǎn)數(shù),如上所述] 進(jìn)行歸一化”。它是在點(diǎn)云的持久同調(diào)分析中出現(xiàn)的孔洞和空隙的數(shù)量,參數(shù) ε從 0 變化到點(diǎn)云的大小。
在分析中,他們發(fā)現(xiàn)了一些非常驚人的現(xiàn)象:蛋白質(zhì)的拓?fù)湄S富度在生物學(xué)的三個(gè)基本領(lǐng)域——真核生物(eukaryota,細(xì)胞有細(xì)胞核的生物;包括所有動(dòng)物、植物和真菌)、細(xì)菌(bacteria)和古菌(archaea)——之間存在很大差異。對(duì)于真核生物,32%的蛋白質(zhì)表現(xiàn)出拓?fù)湄S富度,而細(xì)菌和古菌僅為 10%,古菌僅為 8%。
參考資料
https://mathvoices.ams.org/mathmedia/tonys-take-august-2025/
https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/
https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html
https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html
https://www.nber.org/system/files/working_papers/w13456/w13456.pdf
https://www.ncsl.org/elections-and-campaigns/redistricting-criteria
https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf
https://www.claymath.org/millennium-problems/
https://www.nature.com/articles/s41467-025-61108-2
https://alphafold.ebi.ac.uk
https://www.ams.org/publicoutreach/feature-column/fc-2016-12
https://arxiv.org/pdf/2004.00738
https://pubmed.ncbi.nlm.nih.gov/8890557/
小樂(lè)數(shù)學(xué)科普近期文章
出版社和作家自薦通道
小樂(lè)數(shù)學(xué)科普薦書
·開(kāi)放 · 友好 · 多元 · 普適 · 守拙·
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見(jiàn)易得
易傳易及
歡迎評(píng)論、點(diǎn)贊、在看、在聽(tīng)
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點(diǎn)擊zzllrr小樂(lè)
公眾號(hào)主頁(yè)
加星★
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.