kegg分析是全部差異表達(dá)基因還是上調(diào)基因

lhylzy 2016-10-16 06:39:45 400 瀏覽

參與評論

評論

登錄后參與評論

全部評論(1條)

towerrt 2016-10-17 00:00:00

基因注釋和差異表達(dá)基因方法一、實驗流程提取樣品總RNA后，用帶有Oligo（dT）的磁珠富集真核生物mRNA（若為原核生物，則用試劑盒去除rRNA后進(jìn)入下一步）。加入fragmentation buffer將mRNA打斷成短片段，以mRNA為模板，用六堿基隨機(jī)引物（random hexamers）合成diyi條cDNA鏈，然后加入緩沖液、dNTPs、RNase H和DNA polymerase I合成第二條cDNA鏈，在經(jīng)過QiaQuick PCR試劑盒純化并加EB緩沖液洗脫之后做末端修復(fù)、加A并連接測序接頭，然后用瓊脂糖凝膠電泳進(jìn)行片段大小選擇，Z后進(jìn)行PCR擴(kuò)增，建好的測序文庫用Illumina HiSeq? 2000進(jìn)行測序。二、信息分析流程 1、產(chǎn)量統(tǒng)計原始序列數(shù)據(jù) 測序得到的原始圖像數(shù)據(jù)經(jīng)base calling轉(zhuǎn)化為序列數(shù)據(jù)，我們稱之為raw data或raw reads，結(jié)果以fastq文件格式存儲，fastq文件為用戶得到的Z原始文件，里面存儲reads的序列以及reads的測序質(zhì)量。在fastq格式文件中每個read由四行描述： \@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbbbbbbbbbbbbbbbbaaaaaaaaa_\\ 每個序列共有4行，第1行和第3行是序列名稱（有的fq文件為了節(jié)省存儲空間會省略第三行“＋”后面的序列名稱），由測序儀產(chǎn)生；第2行是序列；第4行是序列的測序質(zhì)量，每個字符對應(yīng)第2行每個堿基，第四行每個字符對應(yīng)的ASCII值減去64，即為該堿基的測序質(zhì)量值，比如c對應(yīng)的ASCII值為99，那么其對應(yīng)的堿基質(zhì)量值是35。從Illumina GAPipeline v1.3開始（目前為v1.6），堿基質(zhì)量值范圍為2到41。表1為測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系。具體地，如果測序錯誤率用E表示，堿基質(zhì)量值用sQ表示，則有下列關(guān)系： file:///F:/G??/????????????/genetics_result_byhuada/bia120306/ihelp_right.html 1/17 12-10-11Help Document sQ = -10lgE 表1 測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系測序質(zhì)量值 13 20 30測序錯誤率5%1%0.1%對應(yīng)字符MT^ 數(shù)據(jù)過濾測序得到的reads，并不都是有效的。里面含有帶接頭的，重復(fù)的，測序質(zhì)量很低的reads，這些reads會影響組裝和后續(xù)分析，我們對下機(jī)的reads過濾，得到clean reads。數(shù)據(jù)處理的步驟： 1. 去除含adaptor的reads 2. 去除N的比例大于5%的reads 3. 去除低質(zhì)量reads（質(zhì)量值Q≤10的堿基數(shù)占整個read的20%以上） 4. 獲得Clean reads Clean Reads數(shù)據(jù) 原始序列數(shù)據(jù)經(jīng)過去除雜質(zhì)后得到的數(shù)據(jù)。后續(xù)分析都基于Clean reads。表2 測序產(chǎn)量統(tǒng)計表格示例 SamplesTotal Raw ReadsTotal Clean ReadsTotal Clean Nucleotides (nt)Average Read Length (nt)Q20 percentageN percentageGC percentageSample_A63，490，65454，821，1384，933，902，42090+9096.25%0.00%53.69% * Total Clean Nucleotides = Total Clean Reads1 x Read1 size + Total Clean Reads2 x Read2 size。 Total Raw Reads和Total Clean Reads分別表示原始reads和clean reads的總數(shù)量；Total Clean Nucleotides表示clean reads總的堿基數(shù)；Average Read Length表示clean reads的平均長度；Q20 percentage表示過濾后質(zhì)量不低于20的堿基的比例。

贊(11)

回復(fù)(0)

評論

評論
登錄后參與評論