當前位置

首頁 > 語文基礎 > 課文 > 關於測序常用名詞的解釋整理

關於測序常用名詞的解釋整理

推薦人: 來源: 閱讀: 2.22W 次

高通量測序技術(High-throughputsequencing,HTS)是對傳統Sanger測序(稱爲一代測序技術)革命性的改變,一次對幾十萬到幾百萬條核酸分子進行序列測定,因此在有些文獻中稱其爲下一代測序技術(nextgenerationsequencing,NGS)足見其劃時代的改變,同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成爲可能,所以又被稱爲深度測序(Deepsequencing)。什麼是Sanger法測序(一代測序)

關於測序常用名詞的解釋整理

Sanger法測序利用一種DNA聚合酶來延伸結合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸爲止。每一次序列測定由一套四個單獨的反應構成,每個反應含有所有四種脫氧核苷酸三磷酸(dNTP),並混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由於ddNTP缺乏延伸所需要的3-OH基團,使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點由反應中相應的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調整,使反應得到一組長几百至幾千鹼基的鏈終止產物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理後可用X-光膠片放射自顯影或非同位素標記進行檢測。

什麼是基因組重測序(GenomeRe-sequencing)

全基因組重測序是對基因組序列已知的個體進行基因組測序,並在個體或羣體水平上進行差異性分析的方法。隨着基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區域擴大到全基因組範圍。通過構建不同長度的插入片段文庫和短序列、雙末端測序相結合的策略進行高通量測序,實現在全基因組水平上檢測疾病關聯的常見、低頻、甚至是罕見的突變位點,以及結構變異等,具有重大的科研和產業價值。

什麼是denovo測序

denovo測序也稱爲從頭測序:其不需要任何現有的序列資料就可以對某個物種進行測序,利用生物信息學分析手段對序列進行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個物種的全基因組序列是加快對此物種瞭解的重要捷徑。隨着新一代測序技術的飛速發展,基因組測序所需的成本和時間較傳統技術都大大降低,大規模基因組測序漸入佳境,基因組學研究也迎來新的發展契機和革命性突破。利用新一代高通量、高效率測序技術以及強大的生物信息分析能力,可以高效、低成本地測定並分析所有生物的基因組序列。

測序名詞關係圖

什麼是fragments

fragments就是打成的片段,而測序測的就是這些fragments,測出來的結果就是reads,又可以分爲單端側和雙端側,單端測序的話,只是從fragments的一端測序,測多長read就多長,雙端測序就是從一個fragments的兩端測,就會得出兩個reads

什麼是Reads

高通量測序平臺產生的序列就稱爲reads。

(測序讀到的鹼基序列片段,測序的最小單位;)

什麼是Contig

拼接軟件基於reads之間的overlap區,拼接獲得的序列稱爲Contig(重疊羣)。(由reads通過對overlap區域拼接組裝成的沒有gap的序列段;)

什麼是ContigN50

Reads拼接後會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然後將所有的Contigs按照從長到短進行排序,如獲得Contig1,Contig2,Contig3...???Contig25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最後一個加上的Contig長度即爲ContigN50。舉例:Contig1+Contig2+Contig3+Contig4=Contig

總長度*1/2時,Contig4的長度即爲ContigN50。ContigN50可以作爲基因組拼接的結果好壞的一個判斷標準

什麼是Scaffold

基因組denovo測序(沒有參考基因組的測序,需要研究人員從頭拼接得到的.序列),通過reads拼接獲得Contigs後,往往還需要構建454Paired-end庫或IlluminaMate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基於這些序列,可以確定一些Contig之間的順序關係,這些先後順序已知的Contigs組成Scaffold。

(通過pairends信息確定出的contig排列,中間有gap)

什麼是ScaffoldN50

ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個Scaffold總長度。然後將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold1,Scaffold2,Scaffold3...???Scaffold25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最後一個加上的Scaffold長度即爲ScaffoldN50。舉例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長度*1/2時,Scaffold5的長度即爲ScaffoldN50。ScaffoldN50可以作爲基因組拼接的結果好壞的一個判斷標準。

什麼是測序深度和覆蓋度

測序深度:是指測序得到的總鹼基數與待測基因組大小的比值。假設一個基因大小爲2M,測序深度爲10X,那麼獲得的總數據量爲20M。

覆蓋度:是指測序獲得的序列佔整個基因組的比例。

Gap:由於基因組中的高GC、重複序列等複雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱爲。例如一個細菌基因組測序,覆蓋度是98%,那麼還有2%的序列區域是沒有通過測序獲得的。

什麼是RPKM、FPKM

RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:

每1百萬個map上的reads中map到外顯子的每1K個鹼基上的reads個數。假如有1百萬個reads映射到了人的基因組上,那麼具體到每個外顯子呢,有多少映射上了呢,而外顯子的長度不一,那麼每1K個鹼基上又有多少reads映射上了呢,這大概就是這個RPKM的直觀解釋。

如果對應特定基因的話,那麼就是每1000000mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read