服務(wù)熱線
15201163601
北京華新康信現(xiàn)貨 大力回饋新老客戶,現(xiàn)貨打折出售,現(xiàn)有品牌和種類,新老客戶可以自由選購(gòu):
ForteBio實(shí)驗(yàn)試劑,moltox實(shí)驗(yàn)試劑,toxin實(shí)驗(yàn)試劑,ForteBio moltox toxin 各種試劑的實(shí)驗(yàn)參數(shù),說(shuō)明書(shū),歡迎咨詢 Nanoporetech 產(chǎn)品介紹 Nanoporetech 產(chǎn)品介紹
北京華新康信也有Nanoporetech實(shí)驗(yàn)試劑銷(xiāo)售,下面給大家講講Nanoporetech服務(wù)以及實(shí)驗(yàn)樣本;
Nanoporetech 實(shí)驗(yàn)說(shuō)明 Nanoporetech北京說(shuō)明書(shū) Nanoporetech技術(shù)參數(shù) Nanoporetech方案對(duì)比 Nanoporetech 優(yōu)勢(shì)介紹 Nanoporetech廣州實(shí)驗(yàn)試劑 Nanoporetech深圳實(shí)驗(yàn)試劑 Nanoporetech天津說(shuō)明書(shū) Nanoporetech技術(shù)參數(shù)Nanoporetech實(shí)驗(yàn)方案 Nanoporetech技術(shù)對(duì)比 Nanoporetech購(gòu)買(mǎi)說(shuō)明 Nanoporetech天津?qū)嶒?yàn)試劑 Nanoporetech北京實(shí)驗(yàn)試劑 Nanoporetech廈門(mén)實(shí)驗(yàn)試劑 Nanoporetech大理實(shí)驗(yàn)試劑 Nanoporetech武漢實(shí)驗(yàn)試劑 Nanoporetech福建實(shí)驗(yàn)試劑Nanoporetech安徽實(shí)驗(yàn)試劑Nanoporetech廣西實(shí)驗(yàn)試劑Nanoporetech廈門(mén)實(shí)驗(yàn)試劑Nanoporetech常州實(shí)驗(yàn)試劑Nanoporetech常州實(shí)驗(yàn)試劑Nanoporetech長(zhǎng)沙實(shí)驗(yàn)試劑Nanoporetech哈爾濱實(shí)驗(yàn)試劑Nanoporetech沈陽(yáng)實(shí)驗(yàn)試劑Nanoporetech深圳實(shí)驗(yàn)試劑Nanoporetech武昌實(shí)驗(yàn)試劑
Nanoporetech
完整的人類 X 染色體的端粒到端粒組裝
凱倫·H·米加,謝爾蓋·科倫阿朗瑞_米切爾·R ·沃爾格阿里爾·格什曼安德烈·布齊卡澤雪莉絲·布魯克斯埃德蒙·豪大衛(wèi)·波魯布斯基格倫尼斯 A.洛格斯登,瓦萊麗·A·施耐德塔瑪拉·波塔波娃喬納森·伍德周威廉喬爾·阿姆斯特朗珍妮·弗雷德里克森葉甫根尼婭·帕克克里斯托夫·蒂吉米林·克雷米茨基克里斯托弗·馬爾科維奇瓦萊麗·馬杜羅阿瑪莉亞·杜特拉杰拉德·G·布法德,亞歷山大·M·張,…亞當(dāng)·M·菲利普 顯示作者
自然 體積 585 , 頁(yè)面79–84 ( 2020 )引用這篇文章
58k訪問(wèn)
264 次引用
第1365章
指標(biāo)細(xì)節(jié)
抽象的
經(jīng)過(guò)二十年的改進(jìn),目前的人類參考基因組(GRCh38)是有史以來(lái)最準(zhǔn)確、最完整的脊椎動(dòng)物基因組。然而,沒(méi)有一條染色體是端到端完成的,數(shù)百個(gè)未解決的缺口仍然存在1 , 2。在這里,我們提出了超越 GRCh38 2連續(xù)性的人類基因組組裝,以及人類染色體的無(wú)間隙、端粒到端粒組裝。這是通過(guò)對(duì)完整的葡萄胎 CHM13 基因組進(jìn)行高覆蓋率、超長(zhǎng)讀長(zhǎng)的納米孔測(cè)序以及結(jié)合用于質(zhì)量改進(jìn)和驗(yàn)證的補(bǔ)充技術(shù)來(lái)實(shí)現(xiàn)的。專注于人類 X 3號(hào)染色體,我們重建了著絲粒衛(wèi)星 DNA 陣列(約 3.1 Mb)當(dāng)前參考中剩余的 29 個(gè)空白,包括來(lái)自人類假常染色體區(qū)域和癌癥-睪丸擴(kuò)增基因家族(CT-X 和 GAGE)的新序列。這些序列將被整合到未來(lái)的人類參考基因組版本中。此外,完整的 X 染色體與超長(zhǎng)納米孔數(shù)據(jù)相結(jié)合,使我們能夠在復(fù)雜的串聯(lián)重復(fù)序列和衛(wèi)星陣列中繪制甲基化模式圖。我們的研究結(jié)果表明,現(xiàn)在完成整個(gè)人類基因組已經(jīng)觸手可及,這里提供的數(shù)據(jù)將有助于完成其他人類染色體的持續(xù)努力。
主要的
完整的端粒到端粒參考基因組組裝對(duì)于確保發(fā)現(xiàn)和研究所有基因組變異是必要的。目前,人類基因組的未解決區(qū)域由著絲粒周?chē)鷧^(qū)域的多兆堿基衛(wèi)星陣列和近端短臂上的核糖體 DNA 陣列定義,以及富含片段重復(fù)的區(qū)域,這些區(qū)域的長(zhǎng)度大于數(shù)百千堿基,并且旁系同源物之間的序列同一性超過(guò) 98%。由于缺乏參考,這些富含重復(fù)的序列通常被排除在遺傳學(xué)和基因組學(xué)研究之外,這限制了關(guān)聯(lián)和功能分析的范圍4、5. 未解決的重復(fù)序列也會(huì)導(dǎo)致意想不到的后果;例如,旁系同源序列變體被錯(cuò)誤地稱為等位基因變體6,以及細(xì)菌基因數(shù)據(jù)庫(kù)的污染7。完成整個(gè)人類基因組預(yù)計(jì)將有助于我們了解染色體功能8、人類疾病9和基因組變異,這將改進(jìn)使用短讀映射到參考基因組的生物醫(yī)學(xué)技術(shù)(例如,RNA 測(cè)序(RNA- seq) 10,染色質(zhì)免疫沉淀后測(cè)序 (ChIP-seq) 11和使用測(cè)序 (ATAC-seq) 12測(cè)定轉(zhuǎn)座酶可及染色質(zhì)。
從許多相對(duì)較短的測(cè)序讀數(shù)(稱為基因組組裝的過(guò)程)中重建基因組的基本挑戰(zhàn)是將重復(fù)序列彼此區(qū)分開(kāi)13。解決此類重復(fù)依賴于足夠長(zhǎng)的測(cè)序讀數(shù)以跨越整個(gè)重復(fù)或足夠準(zhǔn)確以根據(jù)的變體區(qū)分每個(gè)重復(fù)副本14。人類基因組在 2001 年發(fā)布 20 年后仍未完成,這一事實(shí)突顯了組裝問(wèn)題的難度和過(guò)去技術(shù)的局限性15. 美國(guó)國(guó)家生物技術(shù)信息中心 (NCBI Build 28) 發(fā)布的第一個(gè)人類參考基因組高度碎片化,其中一半的基因組包含在 500 kb 或更大的連續(xù)序列 (contigs) 中 (NG50)。完成基因組16的努力,以及基因組參考聯(lián)盟 (GRC) 2的管理,極大地提高了在新版本 GRCh38 中對(duì) 56 Mb 的 NG50 重疊群長(zhǎng)度的參考的連續(xù)性,但在基因組中重復(fù)最多的區(qū)域基因組仍未解決,沒(méi)有染色體*代表端粒到端粒。超長(zhǎng)(大于 100 kb)納米孔讀數(shù)的從頭組裝在最困難的區(qū)域顯示出有希望的組裝連續(xù)性1,但這個(gè)概念驗(yàn)證項(xiàng)目將基因組測(cè)序到只有 5 倍的覆蓋深度,并且未能組裝最大的人類基因組重復(fù)序列。先前基于人類基因組中大重復(fù)序列的大小和分布的模型預(yù)測(cè),30 倍超長(zhǎng)讀數(shù)的組裝將接近人類參考1的連續(xù)性。因此,我們假設(shè)高覆蓋率的超長(zhǎng)讀長(zhǎng)納米孔測(cè)序?qū)⑹谷祟惾旧w的完整組裝成為可能。
為了規(guī)避組裝二倍體基因組的兩個(gè)單倍型的復(fù)雜性,我們選擇了有效的單倍體 CHM13hTERT 細(xì)胞系進(jìn)行測(cè)序(以下簡(jiǎn)稱 CHM13)17。該細(xì)胞系來(lái)源于具有 46,XX 核型的完整葡萄胎 (CHM)。這種子宮痣的基因組來(lái)源于經(jīng)歷減數(shù)分裂后染色體復(fù)制的單個(gè)精子。因此,這些基因組對(duì)于一組等位基因是一致的純合子。CHM13 以前曾用于修補(bǔ)人類參考2、基準(zhǔn)基因組組裝器和二倍體變異調(diào)用18中的空白,并研究人類節(jié)段重復(fù)19. CHM13 系的核型分析證實(shí)了穩(wěn)定的 46,XX 核型,沒(méi)有可觀察到的染色體異常(擴(kuò)展數(shù)據(jù)圖1,補(bǔ)充說(shuō)明 1)。最大似然混合分析20自信地將大多數(shù)單倍型歸類為歐洲起源,并具有一些亞洲或美洲印第安人混合的潛力(擴(kuò)展數(shù)據(jù)圖2,補(bǔ)充說(shuō)明 2)。
高度連續(xù)的全基因組組裝
使用先前描述的超長(zhǎng)讀取協(xié)議1從 CHM13 細(xì)胞中提取和制備高分子量 DNA 用于納米孔測(cè)序。我們總共對(duì) 98 個(gè) MinION 流動(dòng)槽進(jìn)行了測(cè)序,總共 155 Gb(50 倍覆蓋率,每個(gè)流動(dòng)槽 1.6 Gb,補(bǔ)充說(shuō)明 3)。所有測(cè)序堿基的一半包含在 70 kb 或更長(zhǎng)的讀數(shù)中(78 Gb,25 倍基因組覆蓋率),最長(zhǎng)驗(yàn)證讀數(shù)為 1.04 Mb。一旦我們?yōu)閺念^組裝收集了足夠的測(cè)序覆蓋率,我們將超長(zhǎng)讀數(shù)的 39 倍覆蓋率與先前生成的 PacBio 數(shù)據(jù)的 70 倍覆蓋率相結(jié)合,并使用 Canu 21組裝 CHM13 基因組. Canu 選擇了最長(zhǎng)的 30 倍覆蓋超長(zhǎng)和 7 倍覆蓋 PacBio 讀數(shù)進(jìn)行校正和組裝。該初始組裝總計(jì) 2.90 Gb,其中一半基因組包含在長(zhǎng)度為 75 Mb 或更大 (NG50) 的連續(xù)序列 (contigs) 中,這超過(guò)了 GRCh38 參考基因組的連續(xù)性(NG50 為 75 對(duì) 56 Mb)。然后通過(guò)一系列測(cè)序技術(shù)按照讀取長(zhǎng)度從最長(zhǎng)到最短的順序?qū)M件進(jìn)行迭代拋光:Nanopore、PacBio 和鏈接讀取 Illumina。一致性精度從初始組裝的 99.46% 提高到 Nanopore 拋光后的 99.67% 和 PacBio 拋光后的 99.99%。Illumina 數(shù)據(jù)僅用于糾正基因組可映射區(qū)域中的小插入和刪除錯(cuò)誤,這對(duì)平均準(zhǔn)確度有邊際影響,但減少了移碼基因的數(shù)量。通過(guò)分析未在初始組裝中使用的 Illumina 鏈接讀取條形碼(10X 基因組學(xué))和光學(xué)映射(Bionano 基因組學(xué))數(shù)據(jù),確定了假定的錯(cuò)誤組裝。最初的重疊群在映射覆蓋率低的區(qū)域被破壞,然后使用光學(xué)圖對(duì)校正的重疊群進(jìn)行排序和相對(duì)于彼此的定向。超過(guò) 90% 的 6 個(gè)染色體由兩個(gè)重疊群表示,10 個(gè)由兩個(gè)支架表示(圖 1)。最初的重疊群在映射覆蓋率低的區(qū)域被破壞,然后使用光學(xué)圖對(duì)校正的重疊群進(jìn)行排序和相對(duì)于彼此的定向。超過(guò) 90% 的 6 個(gè)染色體由兩個(gè)重疊群表示,10 個(gè)由兩個(gè)支架表示(圖 1)。最初的重疊群在映射覆蓋率低的區(qū)域被破壞,然后使用光學(xué)圖對(duì)校正的重疊群進(jìn)行排序和相對(duì)于彼此的定向。超過(guò) 90% 的 6 個(gè)染色體由兩個(gè)重疊群表示,10 個(gè)由兩個(gè)支架表示(圖 1)。1a )。
圖 1:CHM13 全基因組組裝和驗(yàn)證。
圖1
a,無(wú)間隙重疊群在染色體表意文字旁邊顯示為藍(lán)色和橙色條(突出顯示重疊群中斷)。幾條染色體僅在著絲粒區(qū)域斷裂。重疊群之間的大間隙(例如,chr1 的中間)表示大異色塊(人類衛(wèi)星 2 和 3 的黃色陣列)或沒(méi)有 GRCh38 序列的核糖體 DNA 陣列的位點(diǎn)。顯示了預(yù)期在非同源染色體之間序列相似的著絲粒衛(wèi)星陣列:chr1、chr5 和 chr19(綠色);chr4 和 chr9(淺藍(lán)色);chr5 和 chr19(粉紅色);chr13 和 chr21(紅色);和 chr14 和 chr22(紫色)。b, X 染色體被選中進(jìn)行手動(dòng)組裝,最初在三個(gè)位置斷裂:著絲粒(在組裝中人為塌陷)、一個(gè)大的節(jié)段重復(fù)(DMRTC1B,120 kb)和第二個(gè)節(jié)段重復(fù),在 2 號(hào)染色體上有一個(gè)旁系同源物(134 KB)。注釋了 GRCh38 參考(黑色)和已知的節(jié)段重復(fù)(紅色;與 Y 同源,粉紅色)中的間隙。大于 100 kb 的重復(fù)以預(yù)期大小 (kb) 命名(藍(lán)色,串聯(lián)重復(fù);紅色,節(jié)段重復(fù))。c,由光學(xué)圖(頂部)識(shí)別的 GAGE 基因座的錯(cuò)誤組裝,以及顯示 19 個(gè)(9.5 kb)全長(zhǎng)重復(fù)單元和兩個(gè)部分重復(fù)的最終組裝的校正版本(底部)。d, GAGE 基因座在使用(單拷貝)標(biāo)記放置長(zhǎng)讀取之前和之后的質(zhì)量。點(diǎn)表示從映射的 PacBio HiFi 讀數(shù)中恢復(fù)的主要(黑色)和次要(紅色)等位基因的覆蓋深度(與每個(gè)堿基重疊的映射測(cè)序讀數(shù)的數(shù)量)(補(bǔ)充說(shuō)明 4)。因?yàn)?/span> CHM13 基因組是有效的單倍體,低覆蓋率或二級(jí)等位基因頻率增加的區(qū)域表明低質(zhì)量區(qū)域或潛在的重復(fù)崩潰。標(biāo)記輔助拋光顯著提高了整個(gè) GAGE 基因座的等位基因均勻性。
全尺寸圖片
最終組裝由 448 個(gè) contig 中的 2.94 Gb 組成,contig NG50 為 70 Mb。共有 98 個(gè)支架(173 個(gè)重疊群)被明確分配給參考染色體,占組裝堿基的 98%?;谙惹巴瓿傻?/span> BAC 序列22和映射的 Illumina 關(guān)聯(lián)讀數(shù)(補(bǔ)充說(shuō)明 4),我們估計(jì)該全基因組組裝的中位一致性準(zhǔn)確度至少為 99.99% 。雖然類似于 GRCh38 無(wú)間隙長(zhǎng)度 (2.95 Gb),但我們的組裝大小比估計(jì)的人類基因組大小 3.2 Gb 短。我們使用分段復(fù)制匯編器 (SDA) 方法19估計(jì)大約 170 Mb 的折疊堿基. 與其他最近的組裝相比,我們解決了 341 個(gè) CHM13 細(xì)菌人工染色體 (BAC) 序列中的大部分,這些序列先前已從基因組19的片段重復(fù)和其他難以組裝的區(qū)域中分離和完成(表1,補(bǔ)充說(shuō)明 4)。我們的全基因組組裝的比較注釋也顯示出比以前的組裝更高的映射轉(zhuǎn)錄本一致性,并且與 GRCh38 23相比,潛在的移碼率僅略有增加. 在 CHM13 de novo 組裝中注釋的 19,618 個(gè)蛋白質(zhì)編碼基因中,只有 170 個(gè)(0.86%)包含預(yù)測(cè)的移碼,或者,如果通過(guò)轉(zhuǎn)錄本測(cè)量,83,332 個(gè)轉(zhuǎn)錄本中只有 334 個(gè)(0.40%)包含預(yù)測(cè)的移碼(補(bǔ)充表1)。當(dāng)用作調(diào)用其他基因組中結(jié)構(gòu)變體的參考序列時(shí),CHM13 報(bào)告了插入和刪除調(diào)用的均勻平衡(擴(kuò)展數(shù)據(jù)圖3,補(bǔ)充說(shuō)明 5),正如預(yù)期的那樣,而 GRCh38 表現(xiàn)出刪除偏倚,如先前報(bào)道的24. 與其他長(zhǎng)讀長(zhǎng)組件相比,GRCh38 調(diào)用的倒位次數(shù)是 CHM13 的兩倍(平均每個(gè)基因組 26 對(duì) 13 次倒位),這表明一些錯(cuò)誤定向的序列仍然存在于當(dāng)前的人類參考中(補(bǔ)充說(shuō)明 5)。在這些倒位中,19 個(gè)是 GRCh38 *的,在最近組裝的 5 個(gè)長(zhǎng)讀長(zhǎng)人類基因組中沒(méi)有發(fā)現(xiàn)(補(bǔ)充表5)。我們確定了組裝和讀取中的端粒序列(擴(kuò)展數(shù)據(jù)圖4,補(bǔ)充說(shuō)明 4),它們的端粒大小高度一致,我們的組裝包括重疊群末端的 46 個(gè)預(yù)期端粒中的 41 個(gè)。因此,在連續(xù)性、完整性和正確性方面,我們的 CHM13 組裝在某些質(zhì)量指標(biāo)上超過(guò)了所有以前的人類從頭組裝——包括當(dāng)前的人類參考基因組(補(bǔ)充表2)。
表 1 CHM13 的裝配統(tǒng)計(jì)和按連續(xù)性排序的人類參考
全尺寸表
完成的人類 X 染色體
以這種全基因組組裝為基礎(chǔ),我們選擇X染色體進(jìn)行人工整理和驗(yàn)證,因?yàn)樗诔跏冀M裝中具有很高的連續(xù)性;且特征明確的著絲粒 α 衛(wèi)星陣列3、8、25;發(fā)育過(guò)程中的行為26 ; 和不成比例地參與孟德?tīng)柌?/span>3。X 染色體的從頭組裝在三個(gè)地方被破壞:著絲粒和兩個(gè)幾乎相同的大于 100 kb 的節(jié)段重復(fù)(圖1b ))。通過(guò)識(shí)別*跨越重復(fù)并在任一側(cè)錨定的超長(zhǎng)讀取,手動(dòng)解決了破壞組裝的兩個(gè)片段重復(fù),從而允許在組裝中進(jìn)行自信的放置。通過(guò)映射從 CHM13 22生成的一組正交 PacBio 高保真 (HiFi) 長(zhǎng)讀取來(lái)評(píng)估這些困難區(qū)域的組裝質(zhì)量的改進(jìn)并評(píng)估信息單核苷酸變體差異的讀取深度(方法)。此外,使用液滴數(shù)字 PCR (ddPCR) 進(jìn)行的實(shí)驗(yàn)驗(yàn)證證實(shí),現(xiàn)在完成的組裝正確地代表了 CHM13 基因組的串聯(lián)重復(fù),包括 7 個(gè) CT47 基因 (7.02 ± 0.34 (mean ± sd))、6 個(gè) CT45 基因 (6.11 ± 0.38)、19 個(gè)完整和兩個(gè)部分 GAGE 基因 (19.9 ± 0.745)、55 個(gè) DXZ4 重復(fù) (55.4 ± 2.09) 和 3.1-Mb 著絲粒 DXZ1 陣列 (1,408 ± 40.69 2,057-bp 重復(fù)) (補(bǔ)充說(shuō)明 6 )。
以前對(duì) X 染色體 (DXZ1) 上的單倍體著絲粒衛(wèi)星陣列的高分辨率研究為我們目前的人類著絲粒組織8基因組模型提供了信息。與所有正常人類著絲粒一樣,X 著絲粒在序列水平上由 α 衛(wèi)星 DNA 定義——一種富含 AT(約 171 bp)的串聯(lián)重復(fù)序列,或“單體” 27。DXZ1 陣列的規(guī)范重復(fù)由 12 個(gè)不同的單體定義,這些單體按順序排列形成大約 2 kb 的更大重復(fù)單元,稱為“高階重復(fù)”( HOR ) 28、29。HOR 串聯(lián)排列成一個(gè)大型、數(shù)兆堿基大小的衛(wèi)星陣列(即 2.2-3.7 Mb;平均值為 3,010 kb(sd = 429,n = 49))25重復(fù)拷貝8、30、31之間的核苷酸差異有限。這些先前的評(píng)估用于指導(dǎo)我們對(duì) DXZ1 組件的評(píng)估,并提供了已建立的實(shí)驗(yàn)方法來(lái)評(píng)估 DXZ1 陣列 25、32 的結(jié)構(gòu)(擴(kuò)展數(shù)據(jù)圖5a)。為了組裝 X 著絲粒,我們?cè)跇?biāo)準(zhǔn)DXZ1重復(fù)單元(約 2 kb) 28、33內(nèi)構(gòu)建了一個(gè)結(jié)構(gòu)和單核苷酸變體目錄,并將這些變體用作路標(biāo)8以地平鋪整個(gè)著絲粒衛(wèi)星的超長(zhǎng)讀數(shù)陣列(DXZ1)(擴(kuò)展數(shù)據(jù)圖5b-e),就像之前對(duì) Y 著絲粒所做的那樣34。通過(guò)脈沖場(chǎng)凝膠電泳 (PFGE) Southern 印跡估計(jì) DXZ1 陣列在大約 2.8-3.1 Mb 的范圍內(nèi)(圖2b,擴(kuò)展數(shù)據(jù)圖6),其中得到的限制曲線與預(yù)測(cè)陣列組件的結(jié)構(gòu)(圖2a ,b)。ddPCR 對(duì) DXZ1 重復(fù)的拷貝數(shù)估計(jì)值通過(guò) PFGE Southern 印跡與一組先前大小的陣列進(jìn)行了基準(zhǔn)測(cè)試,并為大約 2.8 Mb (1,408 ± 81.38) 個(gè)典型 2,057-kb 重復(fù)拷貝的陣列提供了進(jìn)一步的支持)(圖2c、附表3、附注 7)。此外,DXZ1 結(jié)構(gòu)變異頻率與 PacBio HiFi 數(shù)據(jù)的直接比較高度一致22(圖2d,擴(kuò)展數(shù)據(jù)圖5c)。
圖 2:3.1-MB CHM13 X 著絲粒陣列的驗(yàn)證結(jié)構(gòu)。
圖 2
a,頂部,陣列,大約 2 kb 的重復(fù)單元由垂直帶標(biāo)記(灰色是規(guī)范單元;彩色是結(jié)構(gòu)變體)。數(shù)組中的單個(gè) LINE/L1Hs 插入由箭頭標(biāo)記。底部,酶 BglI 的預(yù)測(cè)限制圖,虛線表示 DXZ1 陣列之外的區(qū)域。出于說(shuō)明目的,重建了最小平鋪路徑,并且不是初始組裝的機(jī)制(擴(kuò)展數(shù)據(jù)圖5b)。b,實(shí)驗(yàn)性 PFGE Southern 印跡用于 BglI 消化一式兩份(帶大小由三角形表示;BglI,2.87 Mb ± 0.16),與 CHM13 陣列的計(jì)算機(jī)預(yù)測(cè)帶模式(a)相匹配(實(shí)驗(yàn)重復(fù)六次,結(jié)果相似)。C,使用針對(duì) PFGE Southern 印跡(HAP1, n = 6;T6012,n = 4;LT690,n = 7;CHM13,n = 13)優(yōu)化的 ddPCR(一式三份進(jìn)行;平均值±標(biāo)準(zhǔn)差)提供陣列大小估計(jì)值。d,33 個(gè) DXZ1 結(jié)構(gòu)變體的目錄,相對(duì)于 2,057-bp 規(guī)范重復(fù)單元(灰色),以及觀察到的實(shí)例數(shù)、陣列中的頻率、α 衛(wèi)星單體的數(shù)量和大小。INS,插入(即 8.1-kb 插入的 LINE/L1Hs)。e,映射(灰色)和錨定(黑色)納米孔讀取到 DXZ1 陣列的覆蓋深度。與未拋光(頂部)組件相比,標(biāo)記輔助拋光(底部)提高了覆蓋均勻性。單拷貝的標(biāo)記顯示為垂直的綠色條帶,整個(gè)陣列的密度降低但非零。f,分布顯示染色體 X 和 DXZ1 上相鄰標(biāo)記之間的間距。平均而言,在 X 染色體上每 66 個(gè)堿基就有一個(gè)的標(biāo)記,但在 DXZ1 中只有每 2.3 kb,任何兩個(gè)相鄰標(biāo)記之間的最長(zhǎng)間隙為 42 kb。
全尺寸圖片
當(dāng)前的長(zhǎng)讀長(zhǎng)程序集需要嚴(yán)格的一致性拋光以實(shí)現(xiàn)最大的堿基檢出準(zhǔn)確度35、36。鑒于組裝中每個(gè)讀取的位置,這些拋光工具對(duì)基礎(chǔ)信號(hào)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模,以對(duì)每個(gè)測(cè)序的堿基做出準(zhǔn)確的預(yù)測(cè)。這個(gè)過(guò)程的關(guān)鍵是每個(gè)讀數(shù)的正確放置,這將有助于拋光。由于不明確的讀取映射,我們最初的拋光嘗試降低了最大 X 染色體重復(fù)內(nèi)的組裝質(zhì)量(擴(kuò)展數(shù)據(jù)圖7a,b)。為了克服這個(gè)問(wèn)題,我們將 Illumina 測(cè)序數(shù)據(jù)分析為 CHM13 X 染色體上存在的短(21 bp)、(單拷貝)序列(擴(kuò)展數(shù)據(jù)圖8a ))。即使在最大的重復(fù)陣列中,例如 DXZ1,重復(fù)拷貝之間也有足夠的變異以半規(guī)則間隔誘導(dǎo)的 21 聚體標(biāo)記(圖2e、f、擴(kuò)展數(shù)據(jù)圖8c)。這些標(biāo)記用于告知在裝配中正確放置長(zhǎng) X 染色體讀數(shù)(方法)。每種技術(shù)進(jìn)行兩輪迭代拋光;首先是 Oxford Nanopore,然后是 PacBio,最后是 Illumina 鏈接讀數(shù)37,并且在每一輪之后共識(shí)準(zhǔn)確度都會(huì)增加。Illumina 的數(shù)據(jù)太短,無(wú)法使用的標(biāo)記自信地錨定,并且僅用于修飾映射明確的區(qū)域。事實(shí)證明,這種仔細(xì)的拋光過(guò)程對(duì)于準(zhǔn)確完成超過(guò) Nanopore 和 PacBio 讀取長(zhǎng)度的 X 染色體重復(fù)序列至關(guān)重要。
我們手動(dòng)完成的 X 染色體組裝是完整的、無(wú)間隙的,根據(jù) X 特異性 BAC 估計(jì)準(zhǔn)確率為 99.991%,或根據(jù)映射的 Illumina 數(shù)據(jù)估計(jì)準(zhǔn)確率為 99.995%。對(duì) 99.9% 的組裝堿基(補(bǔ)充說(shuō)明4 )有明確的支持 ,這符合完成基因組序列38的原始百慕大標(biāo)準(zhǔn)。預(yù)計(jì)最大重復(fù)序列(如 DXZ1 衛(wèi)星陣列)的準(zhǔn)確度會(huì)略低(中位數(shù)同一性 99.3%),但由于缺乏來(lái)自這些區(qū)域的 BAC 克隆,這很難測(cè)量。映射的長(zhǎng)讀長(zhǎng)和光學(xué)映射數(shù)據(jù)顯示整個(gè) X 染色體的均勻覆蓋,并且沒(méi)有證據(jù)表明可以映射的區(qū)域存在結(jié)構(gòu)錯(cuò)誤(圖2e,擴(kuò)展數(shù)據(jù)圖 2)。圖8b、c、補(bǔ)充說(shuō)明 4)和 Strand-seq 數(shù)據(jù)證實(shí)不存在任何反轉(zhuǎn)錯(cuò)誤39、40(擴(kuò)展數(shù)據(jù)圖8d、e)。通過(guò)長(zhǎng)讀長(zhǎng)作圖進(jìn)行單核苷酸變異調(diào)用顯示,在大的、串聯(lián)重復(fù)的 GAGE 和 CT47 基因家族中,初始組裝質(zhì)量較低,但這些問(wèn)題通過(guò)超長(zhǎng)讀長(zhǎng)作圖和光學(xué)作圖的拋光和驗(yàn)證得到解決(圖1c,d,擴(kuò)展數(shù)據(jù)圖7c-j,補(bǔ)充表4)。整個(gè) DXZ1 陣列的映射長(zhǎng)讀長(zhǎng)覆蓋顯示均勻的覆蓋深度和高精度,由 TandemQUAST 41測(cè)量(圖2 e,f,擴(kuò)展數(shù)據(jù)圖。7j、8c )。我們確定了與 DXZ1 重復(fù)匹配的所有 HiFi 讀取。我們的重建解釋了所有讀數(shù)——除了一個(gè)大的、可能是錯(cuò)誤的均聚物的讀數(shù),證實(shí)了 DXZ1 陣列的完整性。整個(gè) X 染色體的映射覆蓋率是均勻的,只有一小部分堿基的覆蓋率與平均值相差超過(guò)三個(gè)標(biāo)準(zhǔn)差(0.44% Nanopore、0.77% PacBio 連續(xù)長(zhǎng)讀取 (CLR)、2.4% HiFi)。低覆蓋高保真區(qū)域因標(biāo)記密度低而豐富,由于它們的長(zhǎng)度相對(duì)較短,因此難以分配(補(bǔ)充說(shuō)明 4)。此外,變體調(diào)用沒(méi)有從 HiFi 或 CLR 數(shù)據(jù)中識(shí)別出高頻變體,而僅從超長(zhǎng)讀數(shù)據(jù)中識(shí)別出低復(fù)雜度的變體,這可能代表超長(zhǎng)讀數(shù)據(jù)中的錯(cuò)誤,而不是真正的組裝錯(cuò)誤. 我們完整的 X 染色體端粒到端粒版本解決了 29 個(gè)參考間隙3,總共 1,147,861 bp 的先前模糊堿基(N-堿基)。
染色體范圍的 DNA 甲基化圖譜
納米孔測(cè)序?qū)谆瘔A基敏感,如原始電信號(hào)中的調(diào)制所揭示的42。精確錨定的超長(zhǎng)讀長(zhǎng)提供了一種新方法來(lái)分析重復(fù)區(qū)域的甲基化模式,而這些重復(fù)區(qū)域通常難以通過(guò)短讀長(zhǎng)測(cè)序檢測(cè)到。X 染色體具有許多在人類基因組中的表觀基因組特征。X 染色體失活,其中一條雌性 X 染色體在發(fā)育早期被沉默并在體細(xì)胞組織中保持無(wú)活性,預(yù)計(jì)將提供一個(gè)的全染色體甲基化譜。與之前的研究一致43,我們觀察到位于 X 染色體臂兩端的大多數(shù)假常染色體區(qū)域(PAR1 和 PAR2)的甲基化降低(圖3a)。不活躍的 X 染色體也采用不尋常的空間構(gòu)象,并且與先前的研究一致44、45,CHM13染色體構(gòu)象捕獲 (Hi-C) 數(shù)據(jù)支持在大衛(wèi)星重復(fù) DXZ4 處劃分的兩個(gè)大型超域(擴(kuò)展數(shù)據(jù)圖9)。在對(duì) DXZ4 陣列進(jìn)行更仔細(xì)的分析后,我們發(fā)現(xiàn)了不同的甲基化條帶(圖3c),在遠(yuǎn)端邊緣觀察到低甲基化,這通常與之前描述的染色質(zhì)結(jié)構(gòu)一致46。值得注意的是,我們還在 DXZ1 著絲粒陣列中發(fā)現(xiàn)了一個(gè)甲基化降低的區(qū)域(約 60 kb,chrX:59,217,708–59,279,205)(圖3b)。為了測(cè)試這一發(fā)現(xiàn)是 X 陣列*的還是在其他著絲粒衛(wèi)星上也發(fā)現(xiàn)的,我們?cè)?/span> 8 號(hào)染色體 (D8Z2) 47、48 上手動(dòng)組裝了一個(gè)約 2.02 Mb 的著絲粒陣列,并使用相同的標(biāo)記映射策略來(lái)自信地錨定整個(gè)數(shù)組的長(zhǎng)讀?。?/span>GAL 等人,手稿正在準(zhǔn)備中)。在此過(guò)程中,我們?cè)?/span> D8Z2 陣列中發(fā)現(xiàn)了另一個(gè)低甲基化區(qū)域,類似于我們?cè)?/span> DXZ1 陣列上的觀察結(jié)果(擴(kuò)展數(shù)據(jù)圖10)——這進(jìn)一步證明了我們的超長(zhǎng)讀長(zhǎng)作圖策略能夠提供堿基水平的全染色體 DNA 甲基化圖譜。需要研究來(lái)驗(yàn)證這一發(fā)現(xiàn)是否適用于額外的染色體和樣本,并評(píng)估這些甲基化模式的潛在重要性(如果有的話)。
圖 3:CpG 甲基化的全染色體分析。
圖 3
甲基化估計(jì)值是通過(guò)平滑甲基化頻率數(shù)據(jù)來(lái)計(jì)算的,窗口大小為 500 個(gè)核苷酸。PAR1、DXZ1 和 DXZ4 的覆蓋深度和高質(zhì)量甲基化調(diào)用 (|log-likelihood| > 2.5) 顯示為插圖。僅考慮具有可靠的錨定映射和至少存在一個(gè)高質(zhì)量甲基化調(diào)用的讀數(shù)。a,納米孔覆蓋和甲基化需要染色體 X (1,563–2,600,000) 的假常染色體區(qū)域 1 (PAR1)。底部集成基因組查看器 (IGV) 插圖顯示了 PAR1 (770,545–801,293) 內(nèi)的一個(gè)低甲基化區(qū)域,藍(lán)色為未甲基化堿基,紅色為甲基化堿基。b, DXZ1 陣列中的甲基化,底部 IGV 插圖顯示染色體 X 著絲粒附近大約 93-kb 的低甲基化區(qū)域 (59,213,083–59,306,271)。c、垂直黑色虛線表示DXZ4數(shù)組的起點(diǎn)和終點(diǎn)坐標(biāo)。左側(cè) IGV 插圖顯示了 X 染色體中 DXZ4 的甲基化區(qū)域(113,870,751–113,901,499);右側(cè) IGV 插圖顯示了 DXZ4 (114,015,971–114,077,699) 的甲基化區(qū)域到未甲基化區(qū)域的轉(zhuǎn)變。
全尺寸圖片
完成人類基因組的路徑
人類染色體的這種完整的端粒到端粒組裝表明,現(xiàn)在有可能使用現(xiàn)有技術(shù)完成整個(gè)人類基因組。雖然我們?cè)谶@里專注于完成 X 染色體,但我們的全基因組組裝已經(jīng)重建了其他幾條染色體,只剩下一些空白,并且可以作為完成額外染色體的基礎(chǔ)。然而,仍有許多挑戰(zhàn)需要克服。例如,將這些方法應(yīng)用于二倍體樣本將需要對(duì)潛在的單倍型進(jìn)行定相,以避免混合復(fù)雜結(jié)構(gòu)變異的區(qū)域。我們對(duì)其他染色體的初步分析表明,大于 X 染色體的重復(fù)區(qū)域和著絲粒衛(wèi)星將需要開(kāi)發(fā)額外的方法49. 對(duì)于近端著絲粒的人類染色體尤其如此,其龐大的衛(wèi)星陣列和節(jié)段重復(fù)尚未在序列水平上得到解決。此外,圖1突出顯示了預(yù)期在非同源染色體之間序列相似的著絲粒衛(wèi)星陣列。像這樣的陣列需要在染色體之間和染色體內(nèi)進(jìn)行定相。
隨著剩余的挑戰(zhàn)得到解決,人類基因組的完成將繼續(xù)進(jìn)行,從相對(duì)更容易組裝的染色體(例如,3、6、8、10、11、12、17、18 和 20)開(kāi)始,最終以包含大塊經(jīng)典人類衛(wèi)星(1、9和16)和近端著絲粒染色體(13、14、15、21和22)的染色體。在短期內(nèi),CHM13 基因組中關(guān)閉的參考缺口將使用 GRC 現(xiàn)有的“補(bǔ)丁”基礎(chǔ)設(shè)施整合到 GRCh38 中。一旦完成所有 CHM13 染色體,我們計(jì)劃將這些提供給 GRC,作為新的、*無(wú)間隙的參考基因組發(fā)布的基礎(chǔ),這可能是最困難區(qū)域中帶有 CHM13 序列的當(dāng)前參考的馬賽克。
方法
數(shù)據(jù)報(bào)告
沒(méi)有使用統(tǒng)計(jì)方法來(lái)預(yù)先確定樣本量。這些實(shí)驗(yàn)不是隨機(jī)的,研究人員在實(shí)驗(yàn)和結(jié)果評(píng)估過(guò)程中也沒(méi)有對(duì)分配視而不見(jiàn)。
細(xì)胞培養(yǎng)
作為 2000 年代初發(fā)生的一項(xiàng)研究的一部分(IRB MWH-20-054),來(lái)自完整葡萄胎 CHM13 的細(xì)胞最初是從馬吉婦女醫(yī)院(匹茲堡)的一個(gè)葡萄胎病例中培養(yǎng)出來(lái)的。那時(shí),CHM13 細(xì)胞被培養(yǎng),使用 Q 顯帶進(jìn)行核型分析,隨后使用人端粒酶逆轉(zhuǎn)錄酶 (hTERT) 使其永生化。在本研究中,將冷凍保存的 CHM13 細(xì)胞解凍并在補(bǔ)充有 1% 青霉素-鏈霉素 (Thermo Fisher Scientific) 的完整 AmnioMax C-100 基礎(chǔ)培養(yǎng)基 (Thermo Fisher Scientific) 中培養(yǎng),并在 37 °C 的濕度控制環(huán)境中生長(zhǎng),用95% O 2和 5% CO 2. 每三天更換一次新鮮培養(yǎng)基,用于本研究的所有細(xì)胞均不超過(guò)第 10 代。細(xì)胞已經(jīng)過(guò)鑒定,支原體污染檢測(cè)呈陰性。
核型分析
中期載玻片制劑由人葡萄胎細(xì)胞系 CHM13 制成,并通過(guò)如前所述51的標(biāo)準(zhǔn)風(fēng)干技術(shù)制備。根據(jù) ISCN 52 ,進(jìn)行 DAPI 條帶技術(shù)以識(shí)別核型中的結(jié)構(gòu)和數(shù)字染色體畸變。使用 Zeiss M2 熒光顯微鏡和 Applied Spectral Imaging 軟件(補(bǔ)充說(shuō)明 1)分析核型。
DNA提取、文庫(kù)制備和測(cè)序
使用改進(jìn)的 Sambrook 和 Russell 方案 1、53 從 5 × 10 7 CHM13 細(xì)胞中提取高分子量DNA. 使用來(lái)自 Oxford Nanopore Technologies 的快速測(cè)序試劑盒 (SQK-RAD004) 使用 15 μg DNA 構(gòu)建文庫(kù)。初始反應(yīng)通常分為三等份進(jìn)行上樣,并添加 FRA 緩沖液(104 mM Tris pH 8.0、233 mM NaCl)以使體積達(dá)到 21 ul。這些反應(yīng)在 4 °C 下孵育 48 小時(shí),以使緩沖液在加載前達(dá)到平衡。大多數(shù)測(cè)序是在 Nanopore GridION 上使用 FLO-MIN106 或 FLO-MIN106D R9 流通池進(jìn)行的,除了一個(gè)用于測(cè)試的 Flongle 流通池。初始組裝中使用的測(cè)序讀數(shù)首先在測(cè)序儀器上進(jìn)行堿基調(diào)用。收集完所有數(shù)據(jù)后,使用更新的 Guppy 算法(啟用了“觸發(fā)器”模型的 v.2.3.1)再次對(duì)讀取進(jìn)行堿基調(diào)用。
根據(jù)制造商的方案,使用 10X Genomics Chromium 設(shè)備和 Chromium Reagent Kit v.2 從 1 ng 的高分子量基因組 DNA 制備 10X Genomics 連鎖閱讀基因組文庫(kù)。該文庫(kù)在 S4 流動(dòng)槽上的 Illumina NovaSeq 6000 DNA 測(cè)序儀上進(jìn)行測(cè)序,產(chǎn)生 5.86 億個(gè)配對(duì)末端 151 堿基讀數(shù)。使用 RTA 3.3.3 和 bwa 0.7.12 54處理原始數(shù)據(jù)。根據(jù) Supernova 55組裝計(jì)算得到的分子大小為 130.6 kb 。
使用“Bionano Prep Cell Culture DNA Isolation Protocol”制備 DNA。收集細(xì)胞后,將它們進(jìn)行多次洗滌,然后嵌入瓊脂糖中。進(jìn)行蛋白酶 K 消化,然后進(jìn)行額外的洗滌和瓊脂糖消化。使用 Qubit dsDNA BR 檢測(cè)試劑盒和 CHEF 凝膠評(píng)估 DNA 的數(shù)量和質(zhì)量。按照 Bionano Prep 直接標(biāo)記和染色 (DLS) 方案對(duì) 750 ng 等分的 DNA 進(jìn)行標(biāo)記和染色。染色后,使用 Qubit dsDNA HS 檢測(cè)試劑盒對(duì) DNA 進(jìn)行定量,并在 Saphyr 芯片上運(yùn)行。
Hi-C 文庫(kù)由 Arima Genomics 使用四種限制酶重復(fù)生成。在修飾的染色質(zhì)消化后,標(biāo)記消化的末端,近端連接,然后純化近端連接的 DNA。在 Arima-HiC 協(xié)議之后,通過(guò)首先剪切然后使用 SPRI 珠子選擇大小的 DNA 片段來(lái)制備與 Illumina 兼容的測(cè)序文庫(kù)。使用 Arima-HiC 試劑盒中提供的富集珠對(duì)大小選擇的包含連接點(diǎn)的片段進(jìn)行富集,并使用 Swift Accel-NGS 2S Plus 試劑盒(P/N:21024)試劑將其轉(zhuǎn)化為與 Illumina 兼容的測(cè)序文庫(kù)。接頭連接后,使用 SPRI 珠子對(duì) DNA 進(jìn)行 PCR 擴(kuò)增和純化。純化的 DNA 進(jìn)行標(biāo)準(zhǔn)質(zhì)量控制(qPCR 和生物分析儀),并按照制造商的方案在 HiSeq X 上進(jìn)行測(cè)序。
Nanopore 和 PacBio 全基因組組裝
Canu v.1.7.1 21在 2018 年 11 月 7 日或之前生成的所有 rel1 Oxford Nanopore 數(shù)據(jù)(儀器上堿基調(diào)用器,rel1)和 PacBio 序列(序列讀取存檔(SRA):PRJNA269593)生成2014 年和 2015 年(總計(jì) 70 倍覆蓋率)2 , 56。組裝中的幾個(gè)染色體僅在著絲粒區(qū)域(例如,chr10、chr12、chr18 等)斷裂(圖1)。盡管幾個(gè)著絲粒(例如,chr8、chr11 和 chrX)具有明顯的連續(xù)性,但組裝器報(bào)告的重復(fù)拷貝數(shù)比預(yù)期的要少得多。
手動(dòng)間隙閉合
X 染色體上的間隙通過(guò)將所有讀數(shù)映射到組裝并手動(dòng)識(shí)別連接未包含在自動(dòng) Canu 組裝中的重疊群的讀數(shù)來(lái)關(guān)閉。這產(chǎn)生了一個(gè)初始的候選染色體組裝,著絲粒除外。發(fā)現(xiàn)候選組裝的四個(gè)區(qū)域在結(jié)構(gòu)上與 Bionano 光學(xué)圖不一致,并通過(guò)從這些區(qū)域手動(dòng)選擇讀數(shù)并使用 Canu 21和 Flye v.2.4 57進(jìn)行局部重新組裝來(lái)糾正。自信地跨越整個(gè)重復(fù)區(qū)域的低覆蓋長(zhǎng)讀取用于指導(dǎo)和評(píng)估可用的最終組裝。使用 HMMER (v.3) 評(píng)估重組版本和跨越讀取之間的拷貝數(shù)和重復(fù)組織58 , 59在特定的串聯(lián)重復(fù)單元上進(jìn)行了訓(xùn)練,并手動(dòng)比較了報(bào)告的結(jié)構(gòu)。Minimap2 60的默認(rèn)參數(shù)導(dǎo)致串聯(lián)重復(fù)序列的覆蓋不均勻和拋光精度。通過(guò)將 Minimap2 -r 參數(shù)從 500 增加到 10,000 并將報(bào)告的二級(jí)比對(duì) (-N) 的最大數(shù)量從 5 增加到 50,成功解決了這個(gè)問(wèn)題。重復(fù)堿基水平質(zhì)量的最終評(píng)估通過(guò) PacBio 數(shù)據(jù)集 (CLR) 的映射確定和 HiFi)(擴(kuò)展數(shù)據(jù)圖7,補(bǔ)充說(shuō)明 4)。
X 著絲粒中的 α 衛(wèi)星陣列,由于其在男性基因組中作為單倍體陣列的可用性,是基因組水平上研究好的著絲粒區(qū)域之一,具有明確定義的 2-kb 重復(fù)單元28,物理和遺傳映射8、30和預(yù)期的數(shù)組長(zhǎng)度范圍25。我們最初生成了一個(gè)包含超長(zhǎng)讀數(shù)的 alpha 衛(wèi)星數(shù)據(jù)庫(kù),通過(guò)在兩個(gè)方向上用至少一個(gè) 171 bp 規(guī)范重復(fù)的完整共有序列33標(biāo)記這些讀數(shù),如前所述61. 反向補(bǔ)充包含 alpha 的讀數(shù),并使用 HMMER (v.3) 使用 2,057-bp DXZ1 重復(fù)單元進(jìn)行篩選。然后我們使用游程長(zhǎng)度編碼,其中 2,057 bp 規(guī)范重復(fù)(定義為最小值范圍內(nèi)的任何重復(fù):1,957 bp,最大值:2,157 bp)存儲(chǔ)為單個(gè)數(shù)據(jù)值和計(jì)數(shù),而不是原始數(shù)據(jù)跑。這使我們能夠?qū)⑺凶x數(shù)重新定義為一系列變體或重復(fù),這些變體或重復(fù)在大小或結(jié)構(gòu)上與預(yù)期的規(guī)范重復(fù)單元不同,其間具有定義的間距。使用 Alpha- CENTAURI 將超長(zhǎng)讀長(zhǎng)數(shù)據(jù)中鑒定的 CHM13 DXZ1 結(jié)構(gòu)變體與已發(fā)表的 PacBio(CLR 50和 HiFi 22)中先前表征的重排庫(kù)進(jìn)行比較,如61所述. 每個(gè)讀數(shù)的結(jié)構(gòu)變體的輸出注釋和規(guī)范 DXZ1 間距被手動(dòng)聚類以生成六個(gè)初始重疊群,其中兩個(gè)已知錨定到相鄰的 Xp 或 Xq 中。為了定義重疊群之間的順序和重疊,我們確定了在從 CRISPR-Cas9 雙鏈序列 (CRISPR-DS) 靶向重測(cè)序62獲得的高質(zhì)量 DXZ1 陣列數(shù)據(jù)中具有*匹配的所有 21 聚體(補(bǔ)充說(shuō)明 8)。兩個(gè)或更多 21-mers 之間以相等的間距重疊指導(dǎo)了組裝的組織。重疊群(和重疊群結(jié)構(gòu))之間的間距的正交驗(yàn)證得到了額外的超長(zhǎng)讀取覆蓋率的支持,為除三個(gè)區(qū)域之外的所有區(qū)域的重復(fù)單元計(jì)數(shù)提供了高置信度。
染色體 X 長(zhǎng)讀長(zhǎng)拋光
我們使用了一種新穎的映射管道,使用的標(biāo)記將讀取放置在重復(fù)中。長(zhǎng)度k個(gè)子串 ( k-mers) 是從 Illumina 連鎖讀數(shù)中收集的,在修剪掉條形碼(一對(duì)中第一個(gè)讀數(shù)的前 23 個(gè)堿基)之后。讀取被放置在與讀取具有標(biāo)記的組件的位置。對(duì)齊被進(jìn)一步過(guò)濾以排除短和低同一性對(duì)齊。在每一輪拋光之后重復(fù)這個(gè)過(guò)程,在每一輪之后重新計(jì)算新的標(biāo)記和對(duì)齊。使用一輪 Racon 進(jìn)行拋光,然后使用兩輪 Nanopolish 和兩輪 Arrow。拋光后,所有先前標(biāo)記的低質(zhì)量基因座都顯示出顯著改善,除了 139-140.3 仍然有覆蓋率下降并被 Canu 使用 PacBio HiFi 數(shù)據(jù)生成的替代補(bǔ)丁程序集取代。
全基因組長(zhǎng)讀長(zhǎng)拋光
全基因組組裝的其余部分與 X 染色體相似,但沒(méi)有使用的k -mer 錨定。相反,使用上述參數(shù)運(yùn)行兩輪 Nanopolish,然后是兩輪 Arrow,這些參數(shù)依賴于映射質(zhì)量、長(zhǎng)度和身份閾值來(lái)確定長(zhǎng)讀取的最佳位置。由于沒(méi)有齊心協(xié)力在 X 染色體以外的染色體上正確組裝大型衛(wèi)星陣列,因此這種默認(rèn)的拋光方法被認(rèn)為足以滿足基因組的其余部分。然而,未來(lái)完成這些剩余染色體的努力預(yù)計(jì)將受益于的k -mer 錨定映射方法。
全基因組短讀拋光
Illumina 連鎖讀數(shù)用于整個(gè)組裝的最終拋光,包括 X 染色體,但僅使用明確的映射并僅糾正小的插入和刪除錯(cuò)誤(補(bǔ)充說(shuō)明 4)。
甲基化分析
為了測(cè)量納米孔數(shù)據(jù)中的 CpG 甲基化,我們使用了 Nanopolish 63。Nanopolish 對(duì)納米孔電流信號(hào)使用隱馬爾可夫模型來(lái)區(qū)分 5-甲基胞嘧啶和未甲基化胞嘧啶。甲基化調(diào)用程序?yàn)樘囟?/span>k -mer處甲基化與未甲基化 CG 的概率比率生成對(duì)數(shù)似然值。接下來(lái),我們使用 nanopore_methylation_utilities 工具) 過(guò)濾甲基化調(diào)用,該工具使用 2.5 的對(duì)數(shù)似然比作為調(diào)用甲基化的閾值64. 對(duì)數(shù)似然比大于 2.5(甲基化)或小于 -2.5(未甲基化)的 CpG 位點(diǎn)被認(rèn)為是高質(zhì)量的并包含在分析中。沒(méi)有任何高質(zhì)量 CpG 位點(diǎn)的讀取被排除在隨后的甲基化分析之外。圖3顯示了具有至少一個(gè)高質(zhì)量 CpG 位點(diǎn)的讀取的覆蓋率。Nanopore_methylation_utilities 將甲基化信息集成到對(duì)齊 BAM 文件中,以便在 IGV 65中以亞硫酸氫鹽模式查看,并創(chuàng)建 Bismark 樣式文件,然后我們使用 R Bioconductor 包 BSseq (v.1.20.0) 66對(duì)其進(jìn)行分析。我們使用 BSseq 包中的 BSmooth 算法66來(lái)平滑數(shù)據(jù)以估計(jì)特定感興趣區(qū)域的甲基化水平。
報(bào)告摘要
有關(guān)研究設(shè)計(jì)的更多信息,請(qǐng)參閱 與本文鏈接的自然研究報(bào)告摘要。
at101 SEA 100ug toxin特約實(shí)驗(yàn)試劑 toxin北京實(shí)驗(yàn)試劑toxin上海實(shí)驗(yàn)試劑 toxin南京實(shí)驗(yàn)試劑 toxin武漢實(shí)驗(yàn)試劑
bt202 SEB 1mg toxin特約實(shí)驗(yàn)試劑 toxin江蘇實(shí)驗(yàn)試劑toxin湖北實(shí)驗(yàn)試劑 toxin安徽實(shí)驗(yàn)試劑 toxin合肥實(shí)驗(yàn)試劑
dt303 SED 100ug toxin特約實(shí)驗(yàn)試劑 toxin南寧實(shí)驗(yàn)試劑toxin浙江實(shí)驗(yàn)試劑 toxin吉林實(shí)驗(yàn)試劑 toxin哈爾濱實(shí)驗(yàn)試劑
et404 SEE 100ug toxin特約實(shí)驗(yàn)試劑 toxin北京實(shí)驗(yàn)試劑toxin天津?qū)嶒?yàn)試劑 toxin華北實(shí)驗(yàn)試劑 toxin廣州實(shí)驗(yàn)試劑
其他的這些是菌株
71-097L moltox天津?qū)嶒?yàn)試劑,moltox浙江實(shí)驗(yàn)試劑,moltox江西實(shí)驗(yàn)試劑,moltox福建實(shí)驗(yàn)試劑,moltox廣東實(shí)驗(yàn)試劑
71-098L moltox青海實(shí)驗(yàn)試劑,moltox河南實(shí)驗(yàn)試劑,moltox河北實(shí)驗(yàn)試劑,moltox山西實(shí)驗(yàn)試劑moltox陜西實(shí)驗(yàn)試劑
71-100L moltox黑龍江實(shí)驗(yàn)試劑,moltox吉林實(shí)驗(yàn)試劑moltox遼寧實(shí)驗(yàn)試劑,moltox廣東實(shí)驗(yàn)試劑,moltox廣西實(shí)驗(yàn)試劑
71-102L moltox云南實(shí)驗(yàn)試劑,moltox海南實(shí)驗(yàn)試劑,moltox貴州實(shí)驗(yàn)試劑,moltox湖北實(shí)驗(yàn)試劑,moltox湖南實(shí)驗(yàn)試劑
71-1535L moltox中國(guó)臺(tái)灣實(shí)驗(yàn)試劑,moltox海南實(shí)驗(yàn)試劑,moltox廣西實(shí)驗(yàn)試劑,moltox河北實(shí)驗(yàn)試劑,moltox河南實(shí)驗(yàn)試劑
71-1537L moltox南寧實(shí)驗(yàn)試劑,moltox蘭州實(shí)驗(yàn)試劑,moltox武漢實(shí)驗(yàn)試劑,moltox合肥實(shí)驗(yàn)試劑,moltox青島實(shí)驗(yàn)試劑
moltox s9 11-101.5 moltox說(shuō)明書(shū),moltox技術(shù)文件,moltox技術(shù)參數(shù),moltox規(guī)格,moltox s9實(shí)驗(yàn)試劑 moltox s9現(xiàn)貨實(shí)驗(yàn)試劑 moltox s9現(xiàn)貨實(shí)驗(yàn)試劑 moltox s9現(xiàn)貨實(shí)驗(yàn)試劑 moltox s9現(xiàn)貨實(shí)驗(yàn)試劑 moltox s9現(xiàn)貨實(shí)驗(yàn)試劑
北京華新康信為ForteBio廣州實(shí)驗(yàn)試劑 ForteBio深圳實(shí)驗(yàn)試劑 ForteBio常州實(shí)驗(yàn)試劑 ForteBio杭州實(shí)驗(yàn)試劑 ForteBio南京實(shí)驗(yàn)試劑 ForteBio云南實(shí)驗(yàn)試劑 ForteBio桂林實(shí)驗(yàn)試劑 ForteBio天津?qū)嶒?yàn)試劑 ForteBio北京實(shí)驗(yàn)試劑 ForteBio廈門(mén)實(shí)驗(yàn)試劑 ForteBio大理實(shí)驗(yàn)試劑 ForteBio武漢實(shí)驗(yàn)試劑 ForteBio福建實(shí)驗(yàn)試劑ForteBio安徽實(shí)驗(yàn)試劑ForteBio廣西實(shí)驗(yàn)試劑ForteBio廈門(mén)實(shí)驗(yàn)試劑ForteBio常州實(shí)驗(yàn)試劑ForteBio常州實(shí)驗(yàn)試劑fortebio長(zhǎng)沙實(shí)驗(yàn)試劑fortebio哈爾濱實(shí)驗(yàn)試劑fortebio沈陽(yáng)實(shí)驗(yàn)試劑ForteBio深圳實(shí)驗(yàn)試劑ForteBio武昌實(shí)驗(yàn)試劑ForteBio河南實(shí)驗(yàn)試劑ForteBio河北實(shí)驗(yàn)試劑ForteBio山東實(shí)驗(yàn)試劑ForteBio山西實(shí)驗(yàn)試劑ForteBio內(nèi)蒙古實(shí)驗(yàn)試劑ForteBio北京實(shí)驗(yàn)試劑ForteBio天津?qū)嶒?yàn)試劑ForteBio上海實(shí)驗(yàn)試劑ForteBio廣州實(shí)驗(yàn)試劑 ForteBio華北實(shí)驗(yàn)試劑ForteBio華中實(shí)驗(yàn)試劑ForteBio華南實(shí)驗(yàn)試劑ForteBio武漢實(shí)驗(yàn)試劑ForteBio產(chǎn)品ForteBio現(xiàn)貨 ForteBio知識(shí)介紹 ForteBio系列 ForteBio廣東實(shí)驗(yàn)試劑ForteBio常州實(shí)驗(yàn)試劑ForteBio廣西實(shí)驗(yàn)試劑ForteBio山西實(shí)驗(yàn)試劑ForteBio山東實(shí)驗(yàn)試劑ForteBio實(shí)驗(yàn)試劑*ForteBio實(shí)驗(yàn)試劑活動(dòng)ForteBio實(shí)驗(yàn)試劑系列產(chǎn)品,歡迎選購(gòu)*活動(dòng),期待您的溝通,愿意為您提供滿意的服務(wù)北京華新康信為ForteBio特約實(shí)驗(yàn)試劑ForteBio北京實(shí)驗(yàn)試劑ForteBio天津?qū)嶒?yàn)試劑ForteBio上海實(shí)驗(yàn)試劑ForteBio廣州實(shí)驗(yàn)試劑 ForteBio華北實(shí)驗(yàn)試劑ForteBio華中實(shí)驗(yàn)試劑ForteBio華南實(shí)驗(yàn)試劑ForteBio武漢實(shí)驗(yàn)試劑ForteBio產(chǎn)品ForteBio現(xiàn)貨 ForteBio知識(shí)介紹 ForteBio系列ForteBio廣東實(shí)驗(yàn)試劑ForteBio云南實(shí)驗(yàn)試劑ForteBio廣西實(shí)驗(yàn)試劑ForteBio山西實(shí)驗(yàn)試劑ForteBio山東實(shí)驗(yàn)試劑ForteBio實(shí)驗(yàn)試劑*ForteBio實(shí)驗(yàn)試劑活動(dòng)ForteBio實(shí)驗(yàn)試劑系列產(chǎn)品,歡迎選購(gòu)*活動(dòng),期待您的溝通,愿意為您提供滿意的服務(wù)。
北京華新康信為Nanoporetech實(shí)驗(yàn)試劑 Nanoporetech 實(shí)驗(yàn)說(shuō)明 Nanoporetech說(shuō)明書(shū) Nanoporetech技術(shù)參數(shù) Nanoporetech方案對(duì)比 Nanoporetech 優(yōu)勢(shì)介紹 Nanoporetech廣州實(shí)驗(yàn)試劑 Nanoporetech深圳實(shí)驗(yàn)試劑 Nanoporetech說(shuō)明書(shū) Nanoporetech技術(shù)參數(shù)Nanoporetech實(shí)驗(yàn)方案 Nanoporetech技術(shù)對(duì)比 Nanoporetech購(gòu)買(mǎi)說(shuō)明 Nanoporetech天津?qū)嶒?yàn)試劑 Nanoporetech北京實(shí)驗(yàn)試劑 Nanoporetech廈門(mén)實(shí)驗(yàn)試劑 Nanoporetech大理實(shí)驗(yàn)試劑 Nanoporetech武漢實(shí)驗(yàn)試劑 Nanoporetech福建實(shí)驗(yàn)試劑Nanoporetech安徽實(shí)驗(yàn)試劑Nanoporetech廣西實(shí)驗(yàn)試劑Nanoporetech廈門(mén)實(shí)驗(yàn)試劑Nanoporetech常州實(shí)驗(yàn)試劑Nanoporetech常州實(shí)驗(yàn)試劑Nanoporetech長(zhǎng)沙實(shí)驗(yàn)試劑Nanoporetech哈爾濱實(shí)驗(yàn)試劑Nanoporetech沈陽(yáng)實(shí)驗(yàn)試劑Nanoporetech深圳實(shí)驗(yàn)試劑Nanoporetech武昌實(shí)驗(yàn)試劑