補完約7.7%基因組空白:科學家解析迄今最完整小鼠基因組圖譜,讓人類首次看清小鼠基因組DNA全貌

近日,西湖大學俞曉春教授和團隊獲得了迄今為止最完整的小鼠參考基因組。

他們通過整合多種測序技術,針對小鼠單倍體胚胎幹細胞(mhaESC)進行全面測序,組裝了 C57BL/6 小鼠的從端粒到端粒的完整基因組(T2T-mhaESC,Telomere-to-Telomere mhaESC),填補了先前參考基因組大約 7.7% 的空白。

圖 | 俞曉春(來源:俞曉春)圖 | 俞曉春(來源:俞曉春)

首先,本次研究實現了新基因的鑒定。課題組在 T2T-mhaESC 中註釋了 22113 個蛋白編碼基因,其中 639 個是額外註釋的蛋白編碼基因,同時還包含 140 個首次得到鑒定的基因,這些新基因有望為基因多樣性研究提供重要依據。

其次,本次研究實現了結構變異的解析。研究中該團隊發現了多個結構變異,包括一個 1.3Mb 的缺失和 X 染色體上的 30 個倒位,這些變異對於基因表達和基因功能具有潛在影響,為進一步研究基因組結構與基因組功能的關係提供了新視角。

再次,本次研究實現了 rDNA 陣列的解析。期間,他們解析了 rDNA 陣列的結構和分佈,借此發現相比人類 rDNA 單元,小鼠 rDNA 單元的長度和組織方式有著較大不同,即後者存在三種不同長度的 rDNA 單元,這一發現有望為理解 rDNA 的轉錄調控機制提供參考。

最後,本次研究實現了著絲粒結構的解析,即詳細解析了小鼠基因組中著絲粒的結構,進而發現染色體間 miSats 和 maSats 的長度存在一定差異。

同時在 maSats 中,他們發現散在分佈著一些基因和轉座子,這表明這些區域可能進行著活躍的轉座事件和轉錄事件,而這或能幫助著絲粒區域進行適應性變化,從而維持細胞分裂過程中的染色體穩態。

(來源:Science)(來源:Science

總的來說,本次研究展示了對於源自 C57BL/6 品系的單倍體胚胎幹細胞的完整端粒到端粒基因組的測序和組裝。

這些新揭示的序列包括多個未表徵的區域:比如 rDNA 陣列、著絲粒和亞端粒區域以及 140 個新鑒定的蛋白質編碼基因。

同時,該團隊還詳細描述了大量的片段重覆和著絲粒序列的特徵,能為小鼠遺傳學和基因組學的研究提供寶貴資源。

(來源:Science)(來源:Science

在應用前景上:

首先,對於遺傳學研究領域來說,完整的基因組圖譜以及新發現的基因,有助於深入解析基因功能及其與遺傳疾病之間的關係。

其次,對於功能基因組學來說,本次新發現的基因和功能元件將為功能基因組學研究提供新靶點,促進人們對於基因表達調控機制的進一步理解。

再次,對於比較基因組學研究來說,完整的小鼠基因組圖譜將為多物種的比較基因組學研究提供重要參考,有助於揭示物種間的進化關係以及基因功能的保守性。

最後,對於生物醫學研究來說,小鼠是一種重要的模式生物,針對其繪製的完整基因組圖譜,有助於開發新的疾病模型和治療策略。

(來源:Science)(來源:Science

迄今為止最完整的小鼠參考基因組

據俞曉春介紹,此前針對多種遺傳性疾病,人們始終沒能找到相應的致病突變,這引發了該團隊的猜想:這些致病突變是否可能位於基因組中尚未解析的區域?

之所以這麼猜測,是因為使用現有參考基因組進行基因突變分析時,並未找到相應的致病基因。

小鼠,是最被廣泛使用的疾病模型之一。針對其基因組進行解析,對於解答上述問題具有重要意義。

因此,本次研究旨在進一步提升小鼠參考基因組的完整性和準確性,以便為相關研究提供更多理論基礎。

具體而言,課題組基於以下兩方面開展本次研究。

第一,現有參考基因組仍舊存在一些局限。

儘管當前的小鼠參考基因組(GRCm39)已經相當完整和精確,但是仍然存在一些缺陷和大量未被解析的區域,並主要集中在以下幾個區域:

其一是異染色質區域,異染色質區域是基因組中高度壓縮的 DNA 序列,通常富含重覆序列和異染色質標誌,由於複雜性較高導致其在基因組組裝中難以得到解析。

其二是核糖體 DNA(rDNA)區域,核糖體 RNA(rRNA)是 rDNA 區域編碼核糖體的重要組分,其能以串聯重覆的方式存在於基因組中,具有極高的 GC 含量和豐富的重覆序列,這些特性導致其在測序和組裝過程中極具挑戰性(GC 含量,指的是在 DNA 4 種堿基中鳥嘌呤和胞嘧啶所佔的比率)。

其三,其他複雜重覆區域比如衛星 DNA 區域和片段重覆區域,這些區域的複雜性和重覆性較高,這進一步增加了基因組解析的難度。

其四,基因註釋錯誤或未註釋的基因區域,由於所參考基因組 DNA 序列存在缺陷,導致一些基因結構被註釋錯誤或未能被成功註釋到基因組上,這些錯誤和遺漏可能會影響對於基因功能和疾病機制的理解。

第二,技術進步為開展本次研究帶來了更多可行性。

即長讀長測序技術的發展,為克服傳統的測序技術的局限性帶來了可能。

該類技術能夠生成較長的讀長,從而可以更好地解析複雜重覆區域,進而能夠實現從端粒到端粒的完整基因組組裝。

要想研究上述問題,揭示小鼠現有參考基因組的未解析區域是必須邁出的第一步。

同時,如前所述他們注意到以三代測序技術為代表的多項基因組測序技術,可以為本次研究提供技術保障。

而由於二倍體樣本存在母源遺傳物質和父源遺傳物質的雜合性,這可能會給基因組組裝帶來困難,因此課題組選擇小鼠單倍體胚胎幹細胞進行測序。

通過使用 BioNano 光學圖譜技術、三域奇因組技術(Hi-C,Chromosome conformation capture)、PacBio 公司的 DNA 測序技術 HiFi(High-Fidelity Sequencing)以及 Oxford Nanopore 公司的超長測序技術、下一代測序技術(NGS,Next Generation Sequencing)等技術,該團隊獲得了一些數據,最終實現了端粒到端粒的基因組組裝,進而獲得了迄今為止最完整的小鼠參考基因組。

日前,相關論文以《完整的小鼠基因組端粒到端粒序列》(The complete telomere-to-telomere sequence of a mouse genome)為題發在 Science[1]。

西湖實驗室助理研究員劉俊麗博士是第一作者,西湖實驗室助理研究員李麒麟博士是共同一作,俞曉春擔任通訊作者。

圖 | 相關論文(來源:Science)圖 | 相關論文(來源:Science

為探索複雜基因組提供新工具

審稿人表示,該團隊展示了小鼠基因組的端粒到端粒組裝,這一進展在小鼠基因組學中具有重要意義,對於此前的參考基因組來說,它們的著絲粒周圍和亞端粒區域存在明顯的不完整性。

之前針對人類基因組端粒到端粒組裝的研究表明,通過這種高精度的組裝方法可以揭示大量先前未被發現的遺傳信息。

而該課題組將端粒到端粒組裝技術用於小鼠基因組,這進一步拓展了基因組學研究的深度和廣度,為探索複雜基因組的結構和功能提供了新工具。

值得注意的是,這也是首個基於 C57BL/6 衍生的單倍體胚胎幹細胞的完整組裝的小鼠基因組。該基因組與當前的小鼠參考基因組 GRCm39 均代表著最常用的實驗室品系。

審稿人表示:「通過借鑒人類端粒到端粒基因組的組裝方法,課題組成功創建了本次基因組,該基因組不僅質量非常高,而且也比較完整。」

俞曉春補充稱:「在本項目中我們組裝了核糖體 DNA 區域,並觀察到其編碼區域存在序列差異,這些序列差異可能導致細胞內產生具有異質性的核糖體,進而可能在 mRNA 的特異性選擇和蛋白質翻譯過程中發揮重要作用。」

為進一步探究上述現象,他和團隊計劃深入探究核糖體異質性在相關生物學過程中的關鍵作用,特別是解析其在特定疾病分子機制中的潛在影響。

值得注意的是,俞曉春也是聖域生物醫藥科技有限公司的科學創始人,該公司主要研發抗腫瘤創新藥,目前該公司的 poltheta 抑製劑已經獲得美國食品和藥品監督局以及中國藥監局的臨床試驗批件,未來將用於患有晚期實體瘤的患者。

參考資料:參考資料:

1.Liu,J. Li,Q. et al. The complete telomere-to-telomere sequence of a mouse genome. Science 6,386,6726,1141-1146(2024). https://doi.org/10.1126/science.adq8191

運營/排版:何晨龍