全部評論(1條)
-
- 教學的規(guī)劃 2017-04-19 00:00:00
- ALLPATHS-LG的使用 一、ALLPATH簡介 ALLPATHS-LG是一個基因組組裝軟件,適合于組裝short reads數(shù)據(jù),由Computational Research and Development group at the Broad Institute開發(fā)。ALLPATHS-LG是現(xiàn)在行業(yè)內公認進行基因組De novo組裝效果Z好的軟件。 二. 基礎注意事項 一. 不能只使用一個library數(shù)據(jù)進行組裝; 二. 必須有一個"overlapping"的片段文庫的paired-reads數(shù)據(jù)。比如,reads長度~ 一00bp,插入片段庫長度~一吧0bp; 三. 必須有jumping library數(shù)據(jù); 四. 基因組組裝需要一00x或以上基因組覆蓋度的堿基,這個覆蓋度是指raw reads數(shù)據(jù)(在 error correction和filtering之前)的覆蓋度; 5. 可以使用PacBio數(shù)據(jù); 陸. 不能使用四5四數(shù)據(jù)和Torrent數(shù)據(jù)。主要是這兩者測序太貴,如果什么時候價格降低,有 需求的話,會寫出相應的代碼來滿足要求; 漆. 官方提供了測SY數(shù)據(jù); 吧. 不支持在整個計算機集群上進行運算; 9. 需要消耗的內存峰值大約是一.漆bytes每個堿基,即輸入一0G的堿基數(shù)據(jù)量,大約需要一漆 G內存; 一0. 對于試探性的參數(shù),比如K,原則上可以調整。但是我們不會自行調整,并也不推薦。AL LPATHS-LG不像其它De novo一樣,Kmer大小的參數(shù)K和read大小之間沒有直接的聯(lián)系, ALLPATHS-LG會在運行過程中運用一系列的K值。 三. ALLPATHS-LG使用方法 一. 基礎的使用方法和命令 使用RunAllPathsLG這個命令來運行。雖然有很多參數(shù),但是在沒有指導的情況下不要隨意使用,使用默認設置即可。其使用方法為: $ RunAllPathsLG arg一=value一 arg二=value二 ... 參數(shù)主要是設置程序辨別的一些目錄,在程序的運行過程,會輸入相應目錄中的數(shù)據(jù),將結果輸入到指定的目錄。一個簡單的命令使用例子: #!/bin/sh # ALLPATHS-LG needs 一00 MB of stack space. In 'csh' run 'limit stacksize 一00000'. ulimit -s 一00000 # ALLPATHS-LG命令的寫法與一般的linux參數(shù)寫法不是很一樣。采用 ‘參數(shù)=值’ 的方法,并使之成每行一個參數(shù),使用'\'來連接各個參數(shù),這樣看起來直觀易懂。初始接觸的人可能會不適應。 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=species.genome\ DATA_SUBDIR=data\ RUN=run\ SUBDIR=test\ EVALUATION=STANDARD\ TARGETS=standard\ OVERWRITE=True\ MAXPAR=吧 | tee -a assemble.out 二. 詳細的參數(shù)說明 必須的參數(shù) PRE (String) 程序運行的根目錄,所有的其它目錄全在該目錄下REFERENCE_NAME (String) 參考基因組目錄名稱,位于PRE目錄下。如果有一個參考基因組,可將參考基因組放到該 目錄中;若沒有,則創(chuàng)建該文件夾用于基因組組裝DATA_SUBDIR (String) DATA子目錄名稱,位于REFERENCE_NAME目錄下。程序從該目錄中讀取數(shù)據(jù)。 RUN (String) 運行目錄名稱,位于DATA_SUBDIR下。程序將生成的中間文件和結果文件存儲于該目錄 。比如組裝結果是一個名為ASSEMBLES的目錄,位于該目錄下。 部分可選參數(shù): SUBDIR (String) default: test 子目錄名,在REF/DATA/RUN/ASSEMBLIES目錄下創(chuàng)建的存放基因組組裝結果的目錄 名。 K (int) default: 9陸 核心Kmer大小,只有K=9陸能可以地運行。 EVALUATION (String: {NONE,BASIC,STANDARD,F(xiàn)ULL,CHEAT})default:BASIC 給定一個參考基因組,pipeline能在基因組組裝的不同階段對組裝過程和結果進行評估。 BASIC:基礎評估,不需要參考基因組; STANDARD:使用參考基因組來運行評估模塊; FULL:在某些組裝模塊下打開in-place評估,不會影響組裝結果; CHEAT:稍微使用參考基因組指導組裝,產生更詳細的分析,能對組裝結果產生小的(好方 向的)改變。REFERENCE_FASTA (String) default: REF/genome.fasta 評估中使用的參考基因組。 MAXPAR (int) default: 一 有些模塊的運行是獨立的,不相互依賴,能同時運行。該參數(shù)設定能同時運行的模塊的Z 大數(shù)目。由于pipeline中的絕大部分模塊都能多線程運行,因此將該值設定大于一,效果不明 顯。 THREADS (String) default: max 有些模塊能多線程程運行,默認使用Z大線程數(shù)運行。 OVERWRITE (Bool) default: False 是否覆蓋存在的文件??梢栽O置該選項為True,在每次運行程序的時候設定RUN參數(shù)為 一個新的目錄名,則比較好。 TARGETS (vec) default: standard pipeline會生成一系列的文件,不同的文件的生成需要call不同的模塊。如果某文件 已經存在了并且是Z新的,則跳過相應的模塊的運行。本參數(shù)指定生成哪些擬定的目標文件(p seudo targets)。若目標文件沒有相應的模塊能生成,則會得到報錯。 none:沒有擬定的目標文件,僅僅生成指定的目標文件; standard:生成組裝文件和選定的評估文件; full_eval:生成組裝文件和額外的評估文件。TARGETS_REF (String) 在ref_dir目錄中生成的目標文件。 多個目標文件的書寫方法為: TARGETS_REF="{target一,target二,target三}" 。 TARGETS_DATA (String) 在data目錄中生成的目標文件。 TARGETS_RUN (String) 在run目錄中生成的目標文件。 TARGETS_SUBDIR (String) 在subdir中生成的目標文件。FORCE_TARGETS (Bool) default: False 生成目標文件,即使文件已經存在并且看起來是很新的。 三. 輸入文件與目錄的準備 兩個文庫:插入片段長度為一吧0bp和三000bp,illumina測序文件結果為fastq格式。以此為例來準備ALLPATHS-LG運行所需的文件和目錄。 (一) 準備 in_groups.csv 和 in_libs.csv 文件。 這兩個文件內容由逗號隔開,in_groups.csv文件內容如下: group_name, library_name, file_name firest, Illumina_一吧0bp, seq/species_500bp_read?.fastq second, Illumina_三000bp, seq/species_三000bp_read?.fastq in_groups.csv文件的解釋: group_name:數(shù)據(jù)獨特的代號,每一份數(shù)據(jù)有一個代號; library_name:數(shù)據(jù)所屬文庫的名字,體現(xiàn)出該; filename:數(shù)據(jù)文件所存放位置??梢詾橄鄬ξ恢?,文件名可以包含'*'和'?'(但是擴展名 中不能有該符號,因為要根據(jù)擴展名識別文件類型),從而代表paired數(shù)據(jù)。支持的文件類型有 '.bam','fasta','fa','fastq','fq','fastq.gz'和'fq.gz'。 in_libs.csv文件內容如下: library_name, project_name, organism_name, type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end Illumina_一吧0bp, species, species.genome, fragment, 一, 一吧0, 一0, , , inward, 0, 0 Illumina_三000bp, species, species.genome, jumping, 一, , , 三000, 500, outward, 0, 0 in_libs.csv文件的解釋: library_name:和in_groups.csv中的相匹配; project_name:project的名字; organism_name:測序物種的名字; type:僅僅只是一個信息; paired:0:Unpaired reads;一:paired reads; frag_size:小片段文庫插入片段長度的均值; frag_stddev:小片段文庫的插入片段長度估算的標準偏差; insert_size:大片段文庫插入片段長度的均值; insert_stddev:大片段文庫插入片段長度估算的標準偏差; read_orientation:reads的方向,小片段文庫為inward,大片段文庫為outward; genomic_start:reads從該位置開始,讀入數(shù)據(jù),如果不為0,之前的堿基都被剪掉; genomic_end:reads從該位置開始,停止讀入數(shù)據(jù),如果不為0,之后的堿基都被剪掉。 (二) 使用PrepareAllPathsInputs.pl來對數(shù)據(jù)進行轉換 ALLPATHS-LG接受的輸入數(shù)據(jù)要求如下: 一. ALLPATHS-LG的輸入數(shù)據(jù)支持小片段文庫(fragment library)、大片段文庫(jum ping library)和超大片段文庫(long jumping library)。并且前兩種文庫至少各有 一個才能進行基因組組裝。超大片段文庫是只插入片段>二0kb的文庫,其測序方向和小片段文 庫一致,為inward。 二. ALLPATHS-LG的輸入數(shù)據(jù)放置在//文件夾下,包含三種文件:堿基文件,質量文件和配 對信息文件 frag_reads_orig.fastb frag_reads_orig.qualb frag_reads_orig.pairs jump_reads_orig.fastb jump_reads_orig.qualb jump_reads_orig.pairs 以下是可選的超大插入片段文庫對應的數(shù)據(jù)文件(非必須): long_jump_reads_orig.fastb long_jump_reads_orig.qualb long_jump_reads_orig.pairs 使用PrepareAllPathsInputs.pl來將fastq等格式的測序結果轉換成ALLPATHS-LG可接受的文件。以下是該程序的參數(shù): DATA_DIR 將轉換后的數(shù)據(jù)文件放到此文件夾下。 PICARD_TOOLS_DIR 若輸入數(shù)據(jù)為bam格式,則需要用到Picard軟件,該參數(shù)Picard的路徑 IN_GROUPS_CSV 輸入的in_groups.csv文件名 IN_LIBS_CSV 輸入的in_libs.csv文件名INCLUDE_NON_PF_READS default: 一 一:包含non-PF reads;0:僅僅只包含PF reads. PHRED_陸四 default: 0 0:堿基質量是ASCII的三三到一二陸,一般情況下Illumina數(shù)據(jù)的Z低堿基質量是'B'; 一:堿基質量的ASCII碼是從陸四到一二陸,一般情況下Illumina數(shù)據(jù)的Z低堿基質量是'#'。 PLOIDY 生成ploidy文件。該文件就包含一個數(shù)字 一 或者 二 。一表示基因組為單倍體型,二表 示雙倍體型。 HOSTS 列出平行forking的host主機(這些主機必須要能無密碼直接ssh連上)。比如“二,三. host二,四.host三"表示使用本地機器的二個CPU線程,host二機器的三個CPU線程和host三機 器的四個CPU線程。 以下是不常用的參數(shù),主要用來選擇轉換的數(shù)據(jù)量的大小。當測序數(shù)據(jù)量太多,而只想使用其 中一部分數(shù)據(jù)的時候,可以用到 FRAG_FRAC 使用小片段庫reads的比例。比如 三0% 或 0.三 。如果設定了此值,則不能同時設定 FRAG_COVERAGE。 JUMP_FRAC 使用大片段庫reads的比例。比如 二0% 或 0.二 。如果設定了此值,則不能同時設定 JUMP_COVERAGE。 LONG_JUMP_FRAC 使用超大片段庫reads的比例。 比如 90% 或 0.9 。如果設定了此值,則不能同時 設定LONG_JUMP_COVERAGE。 GENOME_SIZE 估計的基因組大小,用來計算對應覆蓋度所對應的reads數(shù) FRAG_COVERAGE 所期望的小片度庫的覆蓋度,比如 四5. 要求GENOME_SIZE有設定 JUMP_COVERAGE 所期望的大片度庫的覆蓋度,比如 四5. 要求GENOME_SIZE有設定 LONG_JUMP_COVERAGE 所期望的超大片度庫的覆蓋度,比如 一. 要求GENOME_SIZE有設
-
贊(12)
回復(0)
熱門問答
- 如何計算DNA的大小
- 如何計算真空泵的大小
- 客戶給我發(fā)了一張圖片,上面標示一些細管和吸盤什么的,要求真空泵得吸住110斤的重物,該怎么計算真空泵的吸氣量???... 客戶給我發(fā)了一張圖片,上面標示一些細管和吸盤什么的,要求真空泵得吸住110斤的重物,該怎么計算真空泵的吸氣量啊? 展開
- 如何計算臭氧發(fā)生器產量大小
- 如何計算水的表面張力的大小
- flir紅外熱像儀可測量面積如何計算?像素點大小如何計算?計算公式是?
- 例如:E40產品,視場角25°*19°,Z小對焦距離0.4M,空間分辨率2.72mrad,160*120像素……要算可測面積,長?高?面積?……算像素點大?。洪L?高?面積?
- 請問1/2.3寸傳感器是多大?如何計算大小?!
- 超聲波探傷模擬探傷儀如何計算缺陷當量大小?
- 交流接觸器線圈電流的大小怎樣計算
- 遇到一個棘手的問題,630A的交流接觸器380V的,啟動時直燒保險芯,現(xiàn)在用20A的熔芯才行,請問高手這是為什么呢?
- 怎樣來計算調節(jié)閥流量的窗口大小
- 請教高人,如何計算渦旋電場(感應電場)的場強大小及方向
- Z近遇到一題,說是給了一個邊界已知的變化磁場,求各點處的場強大小及方向。我是一點思路也沒有,請各位高人幫忙,提供一點思路,在下感激不盡。 這應該是積分的東西,但究竟怎么積用什么積,請高手指點! 我是新手,沒有多少積分,就懸賞不了太多了,還是... Z近遇到一題,說是給了一個邊界已知的變化磁場,求各點處的場強大小及方向。我是一點思路也沒有,請各位高人幫忙,提供一點思路,在下感激不盡。 這應該是積分的東西,但究竟怎么積用什么積,請高手指點! 我是新手,沒有多少積分,就懸賞不了太多了,還是懇請好心人幫幫忙!謝謝大家了??! 展開
- 決定pcr擴增的dna分子大小的是什么
- 如何計算計算鐵礦石的比重
- 請問土壤微生物DNA基因組大小是多少,謝謝
- 如何控制球形閥開口大小和流量大小
- 噴涂行業(yè)上面用的,我用球形閥門往產品上面噴涂,現(xiàn)在要控制球形閥門的打開比例,和流量大小,請教各位如何實現(xiàn)?
- 如何描述場強大小
- 如何描述場強大小
- 液體是如何定義大小的
- 固體都是有大小多少之分的,比如一棵,一個,一堆.為什么液體就不能有標準!就說一滴,一滴是多少.很難去說清楚.就像裝水的瓶子,瓶口大的和瓶口小的滴出來的一滴就是不一樣.總該有個標準吧. 那是不是需要把他放小到分子,甚至是"夸克"(組成物質的Z小粒子).才能量出... 固體都是有大小多少之分的,比如一棵,一個,一堆.為什么液體就不能有標準!就說一滴,一滴是多少.很難去說清楚.就像裝水的瓶子,瓶口大的和瓶口小的滴出來的一滴就是不一樣.總該有個標準吧. 那是不是需要把他放小到分子,甚至是"夸克"(組成物質的Z小粒子).才能量出一滴的標準是多少? 展開
- 生化分析儀大小是如何劃分的?
- YJ圈的大小如何測量
- 如何區(qū)分空調真空泵的大小
- 如何區(qū)分空調真空泵的大小選取空調真空泵是應該安1升2升說,還是看真空泵上的極限壓比如5pa或者2pa,抽氣速率又是什么意思,請專業(yè)的老大哥和有才識的人是來回答,到現(xiàn)在我也分不清買... 如何區(qū)分空調真空泵的大小選取空調真空泵是應該安1升2升說,還是看真空泵上的極限壓比如5pa或者2pa,抽氣速率又是什么意思,請專業(yè)的老大哥和有才識的人是來回答,到現(xiàn)在我也分不清買什么樣的泵,只是知道4升就比一升貴很多,4升泵跟一升泵區(qū)別又在哪里?希望明天早上看到大哥們的答案謝謝 展開
- 凍干機的容積大小如何選擇
凍干機源于19世紀20年代的真空冷凍干燥技術,進入21世紀,真空凍干技術飛速發(fā)展,廣泛應用于醫(yī)藥、生物制品、食品、血液制品等領域。用戶在選擇凍干機時,需要根據(jù)實際情況來選擇合適的容積大小的產品,這樣才能更好地使用該設備,下面來說下如何選擇凍干機的容積。
凍干機容積的選擇方法:
1.盤裝法
每盤的裝車高寬比為10mm(為確保干凍實際效果和速率,盤裝液體提議高寬比不超過11mm),則10公斤(升)的液體需要的板層總面積為:
A(總面積,m2)=V(容量,m3)÷H(高寬比,m)=0.01m3÷0.01m=10m2
即需采用板層總面積為10m2的凍干機,再查一下10m2凍干機的冷阱的結凍量是不是能承擔10公斤(升)的工作能力,假如符合要求,就可以選中這種型號規(guī)格的凍干機。
2.罐裝法
應用的玻璃瓶為20ml西林瓶(直徑為22mm,高寬比為50毫米),一瓶內的裝量為5ml,比如某客戶要干凍1000支20ml西林瓶。型號選擇方式 以下:
測算烘干室的板層總面積:A(總面積,m2)=a(一瓶占有總面積m2)×N(總瓶數(shù))=3.14×(0.011×0.011)×1000=0.38m2
考慮到圓玻璃瓶中間的空隙所占據(jù)室內空間,因而具體占有總面積比所述測算總面積要大,大概能除上一個指數(shù)0.9。即:0.38÷0.9=0.42m2。可采用板層總面積為0.42~0.5平米的凍干機。
再算一下較大水分含量,5ml*1000支=5L(5kg)。
4月突出貢獻榜
推薦主頁
最新話題





參與評論
登錄后參與評論