巴拉巴西 Nature 刊文:人類基因組計畫20年, 明星基因大放異彩,生物網路亟待探索

巴拉巴西 Nature 刊文:人類基因組計畫20年, 明星基因大放異彩,生物網路亟待探索
2021/02/23

導語

人類基因組計畫(Human Genome Project, HGP)是一項規模宏大、跨國跨學科的科學探索工程。其宗旨在於測定組成人類染色體(指單倍體)中所包含的由30億個堿基對所組成的核苷酸序列,從而繪製人類基因組圖譜、辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的。2021年2月11日,在人類基因組圖譜發佈20周年之際,Nature刊登的一篇網路科學學者Albert-László Barabási等人的評論文章,分析了自2001年以來基因組研究領域的發表刊物、研發藥物與人類疾病的影響關係,旨在為未來基因組研究提供新的視角。

Alexander J. Gates, Deisy Morselli Gysi, Manolis Kellis, Albert-László Barabási | 作者

基因組計畫研究趨勢


人類基因組圖譜第一版[1,2]發表20周年是一個契機,讓我們能回溯該項目如何促進了人類疾病的基因根源研究、如何改變了藥物研發以及如何協助修正我們對基因本身的理解。

在這裡,我們根據現有資料預測關於人類基因組未來研究的影響和趨勢。研究者們結合多個資料集來量化已經發現並被發表的不同類型的遺傳因素(genetic element);以及這些年來,發現和發表的模式是如何變化的。分析利用的資料具體包括38546個RNA轉錄物(transcripts)、約100萬個單核苷酸多態性(Single Nucleotide Polymorphisms, SNPs)、1660種有記載的受遺傳影響的人類疾病、7712種已批准和試驗的藥物和704515篇1900至2017年間的科研著作。

Nature和Science為紀念HGP20周年的特別封面

研究結果強調了人類基因組計畫(Human Genome Project , HGP)及其全面的蛋白質編碼基因清單如何開闢展示基因組非編碼部分功能的新時代,並為未來的醫藥開發鋪平道路。關鍵的是,研究人員繪製亞細胞結構(cellular building blocks)之間的相互作用圖時,研究結果可追溯到生物學系統層視圖與傳統單基因視圖的出現。

本項分析也存在局限性。例如,學界對部分基因的起始位元點、終止位點,甚至是某些基因的確切編碼序列都沒有達成共識[3]。一些基因元件使用多種命名規則,因此有時研究人員無法將它們統一起來。此外,有些作者沒有將學術著作和基因序列之間的聯繫添加到資料庫中。最後,考慮到文章的發表和進入我們使用的資料庫之間可能會存在時間差,我們用來構造相互作用圖表的資料截止於2017年。

然而,我們並不認為這些問題會影響我們在基因組計畫研究中所發現的整體趨勢。當我們歸一化同期生物學出版物的增長數目時,趨勢仍然存在(如圖2所示)。本項研究沒有控制基因發現後的進程,但作者判斷這樣假設處理之下,結論依然成立。

基因研究中的“偏好依附”現象

這些聯繫提供了人類基因組計畫前後研究格局演變的快照。它表示了學術界對少數“超級明星”蛋白質編碼基因的強烈關注,這可能會減少潛在的、對其它基因的研究。基因組的非蛋白質編碼部分以及遺傳物質和蛋白質之間的互作一直是研究的重點。事實是,藥物研發更多基於少數某些蛋白質靶點。

其中一些趨勢被生物學家們所熟悉,但要量化和形象化這些趨勢,就必須以全新的方式研究它們。

1950年至2020年基因研究合作專案成員規模變化

世界上沒有可與人類基因組計畫比肩的對照組。因此,不能表明上述趨勢是否必然會隨著人類基因組計畫而出現。從計算能力的提高到複雜的排序方法的發明,種種外部因素也在這些發展中發揮了作用。唯一可以確定的是,人類基因組計畫目錄推動了基因革命的進行。

“超級明星基因”大放異彩


學術界普遍認為,人類基因組計畫是對蛋白質編碼基因深入研究的開始。2001年發表的人類基因組計畫草圖標誌著長達數十年的探索工作的結束[1,2]。事實上,最早的蛋白質編碼基因的證據出現在1902年——即激素分泌素(SCT基因)的發現[4]。此時早於DNA結構發現50年、基因組測序普遍化75年。本項分析表明,從1990年人類基因組計畫的開始到2003年完成(2001年草圖發表後),人類基因的發現(或“注釋”)數量急劇增長。而在2000年代中期,這個數量突然穩定下來——約有2萬個蛋白質編碼基因被發現,遠低於此前許多科學家提出的10萬這一海量的估計數。

雖然蛋白質編碼基因的發現數量進入了平臺期,但在人類基因組計畫開始之後,人們對單個基因功能的興趣迅速增長。自2001年以來,每年都有1萬至2萬篇關於蛋白質編碼基因的論文發表。

然而,科學界的興趣主要集中在少數幾個基因上。1990年以前,HBA1是研究最多的——它是編碼成人血紅蛋白中的一種蛋白質。從1990年起,由於CD4蛋白參與T細胞免疫且作為HIV的細胞受體,人們的注意力轉移到了CD4(結論基於累計發表的文獻數量得出)。然而,在2001年人類基因組計畫序列草圖之後,人們對這兩個基因的興趣與對其它基因的關注度相比就相形見絀了。一些“明星”基因——如TP53、TNF和EGFR——成為了每年數百篇論文的主題,而其它的大多數基因卻很少受到關注。統計發現,2017年,1%的基因覆蓋了22%的基因相關出版物主題。

HGP問世前後對基因的研究情況。圖中的平面標誌著2001年人類基因組計畫草圖的公佈,在其之下的長度表示為草圖發表後有關基因的文章數量有關;在其之上表示先前的出版物。每個峰值底部的寬度反映了與每個基因相關的疾病數量。

當然,對具有深遠生物學意義的基因進行深入研究是必需的。TP53就是一個很好的例子——它對細胞的生長和死亡至關重要,一旦它失活或變異就會導致癌症:從1976年至2017年間,9232篇學術論文提出超過50%的腫瘤序列中都發現了該基因突變。

我們的直觀感受可能會認為,對同一基因瞭解得越多,就越有動力去探索基因組的其餘部分。然而,在過去20年事實卻相反:大部分的關注聚焦于少數基因。儘管在人類基因組計畫草圖發表十周年之際(即2011年)[5],該問題就已經被廣泛報導,但目前仍沒有對該問題其進行實質性的修正。

之前關於人類社會網路到萬維網等不同系統的研究表明,這種巨大的失衡可以用根植於社會因素的“富者越富”來解釋[6,7]。的確,隨著關於TP53的論文數量的增加,後續有關TP53的研究工作更容易獲得資金、指導、工具和引用——因為這是一個安全保險的投資。在網路科學中,這種現象被稱為“偏好依附(preferential attachment)”[7]。事實上,我們發現關注特定基因的年度新出版物數量與先前有關該基因的文獻數量成線性比例。

現在生物學面臨的一個重大挑戰是理清下一步研究的方向。研究人員是該是把經費、時間及精力投入到最重要或最緊迫的工作上,還是因為能可靠地獲得資助和喝彩而投入到更多重複的工作上?

“垃圾”DNA同樣重要


在人類基因組計畫開始之前有一場大型辯論:是否值得繪製基因組中被稱為垃圾DNA(junk DNA)或基因組暗物質的大量非編碼區?在很大程度上歸功於人類基因組計畫,現在人們認識到,人類基因組中的大多數功能序列並不編碼蛋白質。相反,是諸如長鏈非編碼RNA(long noncoding RNA,lncRNA)、啟動子、增強子和無數基因調控序列等元件共同作用使基因組複雜但有序地指導生命活動。這些區域的變異不會改變蛋白質,但通過擾亂控制蛋白質表達的網路來影響生命活動的進行。

人類基因組計畫草圖發佈後,非蛋白編碼元件的發現如雨後春筍般爆發。到目前為止,這種增長數量已經超過了蛋白質編碼基因發現量的五倍,且仍沒有放緩的跡象。同時,在本項研究所用資料集涵蓋的時期(1900至2017年)內,關於這些調控元件的發表物數量也在增長——例如,關於調節基因表達的非編碼RNA的論文數以千計。

關於非編碼RNA的研究呈現明顯遞增趨勢

人類基因組計畫還提供了一種編目人類遺傳變異(包括單核苷酸多態性, Single Nucleotide Polymorphism, SNP)的方法。其它一些重大舉措能大幅削減了對數千人的共同差異進行分析的成本;其中包括國際HapMap項目[8]和國際千人基因組計畫[9]。這些資料集和之前的統計分析等帶來了無數關於性狀的全基因組關聯研究(genome-wide association studies, GWAS),具體如身高[10]、肥胖程度[11]和對複雜疾病(精神分裂症等)的易感度[12]。

現在每年有超過3萬篇文章將單核苷酸多態性與生物性狀聯繫起來。很大一部分關聯存在於曾經被忽略的非編碼區域。

細胞功能依賴於遺傳物質和蛋白質之間的強弱聯繫。目前,已有超過30萬個基因調節網路(regulatory network)的相互作用關係被表示出來,即蛋白質與非編碼序列互作或蛋白之間互作。

精准助力藥物開發


大約在20世紀80年代之前,大多數藥物的發現源自偶然。藥物分子與其分子靶點通常是未知的。2001年之前,瞭解藥物所有蛋白質靶點的概率均小於50%。在人類基因組計畫出現後,一切發生了轉機。近年來,美國幾乎所有獲得許可的藥物都能清楚知曉其蛋白質靶點。

自基因組計畫問世20年來“明星”基因、“垃圾”DNA和藥物的研究趨勢

研究同時發現,在人類基因組計畫提供的約20000個可作為潛在藥物靶點的蛋白質序列中,到目前為止只有約10%,即2149個是被批准的藥物靶點,這表明其餘90%的蛋白質組不受藥理學的影響[13]。在我們的資料集中,實驗藥物將這個數字增加到3,119。同樣,人們對這些問題的關注度也是不盡相同。目前批准的所有藥物(99種不同的分子)中,有5%是以參與細胞生長和增殖的蛋白質ADRA1A為靶點。

同樣地,這種“不平衡”也有其存在的理由。有一些蛋白質可能對人類健康更重要,或更傾向于成為新的藥物靶點,而有些蛋白質可能無法有助於藥物研發。但換言之,如果研究人員、贊助方和出版商不那麼規避風險,則可能有更多的蛋白質被人們探索,從而成為新興藥物靶點。

也就是說,大多數被成功研發的藥物並不直接針對個別疾病基因[14]。相反,它們的目標是一兩個相互作用的蛋白質調控錯誤組成的結果。例如,我們對現有可治療COVID-19的藥物進行大規模篩查後發現,只有1%的藥物有希望針對病毒蛋白,而大多數臨床藥物旨在用於調節人類蛋白,且這些蛋白並不直接影響SARS-CoV-2病毒的活性[15]。

生物網路逐漸明朗


綜上所述,我們認為人類基因組計畫比蛋白質目錄本身更值得關注,因為它開創了基因組學的新時代。正如複雜系統理論所表明的那樣:理解任何一個系統、對其中每個元素進行精確調查是必要的,但又遠遠不能止步於此。網路的複雜性恰恰來自於元素之間相互作用的多樣性。經過20年以人類基因組計畫為基礎的研究,生物學們家現在對定義生命的網路結構和動力學有了初步瞭解。未來,我們也希望有更長足的進步。

參考文獻:

[1]Venter, J. C. et al. Science 291, 1304–1351 (2001).

[2]International Human Genome Sequencing Consortium. Nature 409, 860–921 (2001).

[3]Portin, P. & Wilkins, A. Genetics 205, 1353–1364 (2017).

[4]Bayliss, W. M. & Starling, E. H. J. Physiol. 28, 325–353 (1902).

[5]Edwards, A. M. et al. Nature 470, 163–165 (2011).

[6]Bianconi, G. & Barabási, A.-L. Europhys. Lett. 54, 436 (2001).

[7]Barabási, A.-L. & Albert, R. Science 286, 509–512 (1999).

[8]The International HapMap Consortium. Nature 426, 789–796 (2003).

[9]The 1000 Genomes Project Consortium. Nature 526, 68–74 (2015).

[10]Lango Allen, H. et al. Nature 467, 832–838 (2010).

[11]Speliotes, E. K. et al. Nature Genet. 42, 937–948 (2010).

[12]Lencz, T. et al. Mol. Psychiatry 12, 572–580 (2007).

[13]Wishart, D. S. et al. Nucleic Acids Res. 46, D1074–D1082 (2018).

[14]Yildirim, M. A., Goh, K.-Il, Cusick, M. E., Barabási, A. L. & Vidal, M. Nature Biotechnol. 25, 1119–1126 (2007).

[15]Gysi, D. M. et al. Preprint at https://arxiv.org/abs/2004.07229 (2020).

原文鏈接:
https://www.nature.com/articles/d41586-021-00314-6

編輯 / 王子明

【巴西華人資訊網】

image_print列印文章

發表迴響