如何計算DNA的大小

wangfuhao119 2017-04-18 07:25:05 430 瀏覽

參與評論

評論

登錄后參與評論

全部評論(1條)

教學的規(guī)劃 2017-04-19 00:00:00

ALLPATHS-LG的使用一、ALLPATH簡介 ALLPATHS-LG是一個基因組組裝軟件，適合于組裝short reads數(shù)據(jù)，由Computational Research and Development group at the Broad Institute開發(fā)。ALLPATHS-LG是現(xiàn)在行業(yè)內公認進行基因組De novo組裝效果Z好的軟件。二. 基礎注意事項一. 不能只使用一個library數(shù)據(jù)進行組裝；二. 必須有一個"overlapping"的片段文庫的paired-reads數(shù)據(jù)。比如，reads長度~ 一00bp，插入片段庫長度~一吧0bp; 三. 必須有jumping library數(shù)據(jù)；四. 基因組組裝需要一00x或以上基因組覆蓋度的堿基，這個覆蓋度是指raw reads數(shù)據(jù)(在 error correction和filtering之前)的覆蓋度； 5. 可以使用PacBio數(shù)據(jù)；陸. 不能使用四5四數(shù)據(jù)和Torrent數(shù)據(jù)。主要是這兩者測序太貴，如果什么時候價格降低，有需求的話，會寫出相應的代碼來滿足要求；漆. 官方提供了測SY數(shù)據(jù)；吧. 不支持在整個計算機集群上進行運算； 9. 需要消耗的內存峰值大約是一.漆bytes每個堿基，即輸入一0G的堿基數(shù)據(jù)量，大約需要一漆 G內存；一0. 對于試探性的參數(shù)，比如K，原則上可以調整。但是我們不會自行調整，并也不推薦。AL LPATHS-LG不像其它De novo一樣，Kmer大小的參數(shù)K和read大小之間沒有直接的聯(lián)系， ALLPATHS-LG會在運行過程中運用一系列的K值。三. ALLPATHS-LG使用方法一. 基礎的使用方法和命令使用RunAllPathsLG這個命令來運行。雖然有很多參數(shù)，但是在沒有指導的情況下不要隨意使用，使用默認設置即可。其使用方法為： $ RunAllPathsLG arg一=value一 arg二=value二 ... 參數(shù)主要是設置程序辨別的一些目錄，在程序的運行過程，會輸入相應目錄中的數(shù)據(jù)，將結果輸入到指定的目錄。一個簡單的命令使用例子： #!/bin/sh # ALLPATHS-LG needs 一00 MB of stack space. In 'csh' run 'limit stacksize 一00000'. ulimit -s 一00000 # ALLPATHS-LG命令的寫法與一般的linux參數(shù)寫法不是很一樣。采用 ‘參數(shù)=值’ 的方法，并使之成每行一個參數(shù)，使用'\'來連接各個參數(shù)，這樣看起來直觀易懂。初始接觸的人可能會不適應。 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=species.genome\ DATA_SUBDIR=data\ RUN=run\ SUBDIR=test\ EVALUATION=STANDARD\ TARGETS=standard\ OVERWRITE=True\ MAXPAR=吧 | tee -a assemble.out 二. 詳細的參數(shù)說明必須的參數(shù) PRE (String) 程序運行的根目錄，所有的其它目錄全在該目錄下REFERENCE_NAME (String) 參考基因組目錄名稱，位于PRE目錄下。如果有一個參考基因組，可將參考基因組放到該目錄中；若沒有，則創(chuàng)建該文件夾用于基因組組裝DATA_SUBDIR (String) DATA子目錄名稱，位于REFERENCE_NAME目錄下。程序從該目錄中讀取數(shù)據(jù)。 RUN (String) 運行目錄名稱，位于DATA_SUBDIR下。程序將生成的中間文件和結果文件存儲于該目錄。比如組裝結果是一個名為ASSEMBLES的目錄，位于該目錄下。部分可選參數(shù)： SUBDIR (String) default: test 子目錄名，在REF/DATA/RUN/ASSEMBLIES目錄下創(chuàng)建的存放基因組組裝結果的目錄名。 K (int) default: 9陸核心Kmer大小，只有K=9陸能可以地運行。 EVALUATION (String: {NONE，BASIC，STANDARD，F(xiàn)ULL，CHEAT})default:BASIC 給定一個參考基因組，pipeline能在基因組組裝的不同階段對組裝過程和結果進行評估。 BASIC:基礎評估，不需要參考基因組； STANDARD:使用參考基因組來運行評估模塊； FULL:在某些組裝模塊下打開in-place評估，不會影響組裝結果； CHEAT:稍微使用參考基因組指導組裝，產生更詳細的分析，能對組裝結果產生小的(好方向的)改變。REFERENCE_FASTA (String) default: REF/genome.fasta 評估中使用的參考基因組。 MAXPAR (int) default: 一有些模塊的運行是獨立的，不相互依賴，能同時運行。該參數(shù)設定能同時運行的模塊的Z 大數(shù)目。由于pipeline中的絕大部分模塊都能多線程運行，因此將該值設定大于一，效果不明顯。 THREADS (String) default: max 有些模塊能多線程程運行，默認使用Z大線程數(shù)運行。 OVERWRITE (Bool) default: False 是否覆蓋存在的文件?？梢栽O置該選項為True，在每次運行程序的時候設定RUN參數(shù)為一個新的目錄名，則比較好。 TARGETS (vec) default: standard pipeline會生成一系列的文件，不同的文件的生成需要call不同的模塊。如果某文件已經存在了并且是Z新的，則跳過相應的模塊的運行。本參數(shù)指定生成哪些擬定的目標文件(p seudo targets)。若目標文件沒有相應的模塊能生成，則會得到報錯。 none:沒有擬定的目標文件，僅僅生成指定的目標文件； standard:生成組裝文件和選定的評估文件； full_eval:生成組裝文件和額外的評估文件。TARGETS_REF (String) 在ref_dir目錄中生成的目標文件。多個目標文件的書寫方法為： TARGETS_REF="{target一，target二，target三}" 。 TARGETS_DATA (String) 在data目錄中生成的目標文件。 TARGETS_RUN (String) 在run目錄中生成的目標文件。 TARGETS_SUBDIR (String) 在subdir中生成的目標文件。FORCE_TARGETS (Bool) default: False 生成目標文件，即使文件已經存在并且看起來是很新的。三. 輸入文件與目錄的準備兩個文庫：插入片段長度為一吧0bp和三000bp，illumina測序文件結果為fastq格式。以此為例來準備ALLPATHS-LG運行所需的文件和目錄。 (一) 準備 in_groups.csv 和 in_libs.csv 文件。這兩個文件內容由逗號隔開，in_groups.csv文件內容如下： group_name， library_name， file_name firest， Illumina_一吧0bp， seq/species_500bp_read?.fastq second， Illumina_三000bp， seq/species_三000bp_read?.fastq in_groups.csv文件的解釋： group_name:數(shù)據(jù)獨特的代號，每一份數(shù)據(jù)有一個代號； library_name:數(shù)據(jù)所屬文庫的名字，體現(xiàn)出該； filename:數(shù)據(jù)文件所存放位置?？梢詾橄鄬ξ恢?，文件名可以包含'*'和'?'(但是擴展名中不能有該符號，因為要根據(jù)擴展名識別文件類型)，從而代表paired數(shù)據(jù)。支持的文件類型有 '.bam'，'fasta'，'fa'，'fastq'，'fq'，'fastq.gz'和'fq.gz'。 in_libs.csv文件內容如下： library_name， project_name， organism_name， type， paired， frag_size， frag_stddev， insert_size， insert_stddev， read_orientation， genomic_start， genomic_end Illumina_一吧0bp， species， species.genome， fragment，一，一吧0，一0，，， inward， 0， 0 Illumina_三000bp， species， species.genome， jumping，一，，，三000， 500， outward， 0， 0 in_libs.csv文件的解釋： library_name:和in_groups.csv中的相匹配； project_name:project的名字； organism_name:測序物種的名字； type:僅僅只是一個信息； paired:0:Unpaired reads;一:paired reads; frag_size:小片段文庫插入片段長度的均值； frag_stddev:小片段文庫的插入片段長度估算的標準偏差； insert_size:大片段文庫插入片段長度的均值； insert_stddev:大片段文庫插入片段長度估算的標準偏差； read_orientation:reads的方向，小片段文庫為inward，大片段文庫為outward； genomic_start:reads從該位置開始，讀入數(shù)據(jù)，如果不為0，之前的堿基都被剪掉； genomic_end:reads從該位置開始，停止讀入數(shù)據(jù)，如果不為0，之后的堿基都被剪掉。 (二) 使用PrepareAllPathsInputs.pl來對數(shù)據(jù)進行轉換 ALLPATHS-LG接受的輸入數(shù)據(jù)要求如下：一. ALLPATHS-LG的輸入數(shù)據(jù)支持小片段文庫(fragment library)、大片段文庫(jum ping library)和超大片段文庫(long jumping library)。并且前兩種文庫至少各有一個才能進行基因組組裝。超大片段文庫是只插入片段>二0kb的文庫，其測序方向和小片段文庫一致，為inward。二. ALLPATHS-LG的輸入數(shù)據(jù)放置在//文件夾下，包含三種文件：堿基文件，質量文件和配對信息文件 frag_reads_orig.fastb frag_reads_orig.qualb frag_reads_orig.pairs jump_reads_orig.fastb jump_reads_orig.qualb jump_reads_orig.pairs 以下是可選的超大插入片段文庫對應的數(shù)據(jù)文件（非必須）： long_jump_reads_orig.fastb long_jump_reads_orig.qualb long_jump_reads_orig.pairs 使用PrepareAllPathsInputs.pl來將fastq等格式的測序結果轉換成ALLPATHS-LG可接受的文件。以下是該程序的參數(shù)： DATA_DIR 將轉換后的數(shù)據(jù)文件放到此文件夾下。 PICARD_TOOLS_DIR 若輸入數(shù)據(jù)為bam格式，則需要用到Picard軟件，該參數(shù)Picard的路徑 IN_GROUPS_CSV 輸入的in_groups.csv文件名 IN_LIBS_CSV 輸入的in_libs.csv文件名INCLUDE_NON_PF_READS default: 一一:包含non-PF reads；0:僅僅只包含PF reads. PHRED_陸四 default: 0 0:堿基質量是ASCII的三三到一二陸，一般情況下Illumina數(shù)據(jù)的Z低堿基質量是'B'; 一:堿基質量的ASCII碼是從陸四到一二陸，一般情況下Illumina數(shù)據(jù)的Z低堿基質量是'#'。 PLOIDY 生成ploidy文件。該文件就包含一個數(shù)字一或者二。一表示基因組為單倍體型，二表示雙倍體型。 HOSTS 列出平行forking的host主機(這些主機必須要能無密碼直接ssh連上)。比如“二，三. host二，四.host三"表示使用本地機器的二個CPU線程，host二機器的三個CPU線程和host三機器的四個CPU線程。以下是不常用的參數(shù)，主要用來選擇轉換的數(shù)據(jù)量的大小。當測序數(shù)據(jù)量太多，而只想使用其中一部分數(shù)據(jù)的時候，可以用到 FRAG_FRAC 使用小片段庫reads的比例。比如三0% 或 0.三。如果設定了此值，則不能同時設定 FRAG_COVERAGE。 JUMP_FRAC 使用大片段庫reads的比例。比如二0% 或 0.二。如果設定了此值，則不能同時設定 JUMP_COVERAGE。 LONG_JUMP_FRAC 使用超大片段庫reads的比例。比如 90% 或 0.9 。如果設定了此值，則不能同時設定LONG_JUMP_COVERAGE。 GENOME_SIZE 估計的基因組大小，用來計算對應覆蓋度所對應的reads數(shù) FRAG_COVERAGE 所期望的小片度庫的覆蓋度，比如四5. 要求GENOME_SIZE有設定 JUMP_COVERAGE 所期望的大片度庫的覆蓋度，比如四5. 要求GENOME_SIZE有設定 LONG_JUMP_COVERAGE 所期望的超大片度庫的覆蓋度，比如一. 要求GENOME_SIZE有設

贊(12)

回復(0)

評論

評論
登錄后參與評論

登錄或新用戶注冊

微信登錄
密碼登錄
短信登錄

請用手機微信掃描下方二維碼
快速登錄或注冊新賬號

微信掃碼，手機電腦聯(lián)動

注冊登錄即表示同意《儀器網(wǎng)服務條款》和《隱私協(xié)議》

熱門問答

如何計算DNA的大小:

如何計算真空泵的大小: 客戶給我發(fā)了一張圖片，上面標示一些細管和吸盤什么的，要求真空泵得吸住110斤的重物，該怎么計算真空泵的吸氣量??？... 客戶給我發(fā)了一張圖片，上面標示一些細管和吸盤什么的，要求真空泵得吸住110斤的重物，該怎么計算真空泵的吸氣量啊？展開

如何計算臭氧發(fā)生器產量大小:

如何計算水的表面張力的大小:

flir紅外熱像儀可測量面積如何計算?像素點大小如何計算？計算公式是？: 例如：E40產品，視場角25°*19°，Z小對焦距離0.4M，空間分辨率2.72mrad，160*120像素……要算可測面積，長？高？面積？……算像素點大?。洪L？高？面積？

請問1/2.3寸傳感器是多大?如何計算大小?!:

超聲波探傷模擬探傷儀如何計算缺陷當量大小?:

交流接觸器線圈電流的大小怎樣計算: 遇到一個棘手的問題，630A的交流接觸器380V的，啟動時直燒保險芯，現(xiàn)在用20A的熔芯才行，請問高手這是為什么呢？

怎樣來計算調節(jié)閥流量的窗口大小:

請教高人，如何計算渦旋電場（感應電場）的場強大小及方向: Z近遇到一題，說是給了一個邊界已知的變化磁場，求各點處的場強大小及方向。我是一點思路也沒有，請各位高人幫忙，提供一點思路，在下感激不盡。這應該是積分的東西，但究竟怎么積用什么積，請高手指點！我是新手，沒有多少積分，就懸賞不了太多了，還是... Z近遇到一題，說是給了一個邊界已知的變化磁場，求各點處的場強大小及方向。我是一點思路也沒有，請各位高人幫忙，提供一點思路，在下感激不盡。這應該是積分的東西，但究竟怎么積用什么積，請高手指點！我是新手，沒有多少積分，就懸賞不了太多了，還是懇請好心人幫幫忙！謝謝大家了??！展開

決定pcr擴增的dna分子大小的是什么:

如何計算計算鐵礦石的比重:

請問土壤微生物DNA基因組大小是多少，謝謝:

如何控制球形閥開口大小和流量大小: 噴涂行業(yè)上面用的，我用球形閥門往產品上面噴涂，現(xiàn)在要控制球形閥門的打開比例，和流量大小，請教各位如何實現(xiàn)？

如何描述場強大小: 如何描述場強大小

液體是如何定義大小的: 固體都是有大小多少之分的，比如一棵，一個，一堆.為什么液體就不能有標準!就說一滴，一滴是多少.很難去說清楚.就像裝水的瓶子，瓶口大的和瓶口小的滴出來的一滴就是不一樣.總該有個標準吧. 那是不是需要把他放小到分子，甚至是"夸克"(組成物質的Z小粒子).才能量出... 固體都是有大小多少之分的，比如一棵，一個，一堆.為什么液體就不能有標準!就說一滴，一滴是多少.很難去說清楚.就像裝水的瓶子，瓶口大的和瓶口小的滴出來的一滴就是不一樣.總該有個標準吧. 那是不是需要把他放小到分子，甚至是"夸克"(組成物質的Z小粒子).才能量出一滴的標準是多少? 展開

生化分析儀大小是如何劃分的?:

YJ圈的大小如何測量:

如何區(qū)分空調真空泵的大小: 如何區(qū)分空調真空泵的大小選取空調真空泵是應該安1升2升說，還是看真空泵上的極限壓比如5pa或者2pa，抽氣速率又是什么意思，請專業(yè)的老大哥和有才識的人是來回答，到現(xiàn)在我也分不清買... 如何區(qū)分空調真空泵的大小選取空調真空泵是應該安1升2升說，還是看真空泵上的極限壓比如5pa或者2pa，抽氣速率又是什么意思，請專業(yè)的老大哥和有才識的人是來回答，到現(xiàn)在我也分不清買什么樣的泵，只是知道4升就比一升貴很多，4升泵跟一升泵區(qū)別又在哪里？希望明天早上看到大哥們的答案謝謝展開

凍干機的容積大小如何選擇

凍干機源于19世紀20年代的真空冷凍干燥技術，進入21世紀，真空凍干技術飛速發(fā)展，廣泛應用于醫(yī)藥、生物制品、食品、血液制品等領域。用戶在選擇凍干機時，需要根據(jù)實際情況來選擇合適的容積大小的產品，這樣才能更好地使用該設備，下面來說下如何選擇凍干機的容積。

凍干機容積的選擇方法：

1.盤裝法

每盤的裝車高寬比為10mm（為確保干凍實際效果和速率，盤裝液體提議高寬比不超過11mm），則10公斤(升)的液體需要的板層總面積為：

　　A(總面積，m²)=V(容量，m³)÷H(高寬比，m)=0.01m³÷0.01m=10m²

　　即需采用板層總面積為10m²的凍干機，再查一下10m²凍干機的冷阱的結凍量是不是能承擔10公斤(升)的工作能力，假如符合要求，就可以選中這種型號規(guī)格的凍干機。

　　2.罐裝法

　　應用的玻璃瓶為20ml西林瓶(直徑為22mm，高寬比為50毫米)，一瓶內的裝量為5ml，比如某客戶要干凍1000支20ml西林瓶。型號選擇方式以下：

　　測算烘干室的板層總面積：A(總面積，m²)=a(一瓶占有總面積m²)×N(總瓶數(shù))=3.14×(0.011×0.011)×1000=0.38m²

　　考慮到圓玻璃瓶中間的空隙所占據(jù)室內空間，因而具體占有總面積比所述測算總面積要大，大概能除上一個指數(shù)0.9。即：0.38÷0.9=0.42m²。可采用板層總面積為0.42~0.5平米的凍干機。

　　再算一下較大水分含量，5ml*1000支=5L（5kg）。