精品国产不卡一区二区三区,久久懂色精品99综一区合,中文字幕一区二区三区三州,久久精品色

轉錄調控研究中公共數據整合分析思路

分析思路1

 

? ? ? ?共表達分析中,整合大量相關公共樣本測序數據,可構建出相較于常規樣本量下可靠度更高的基因共表達網絡,從而基于該網絡進行更加準確的后續分析:a)預測目標轉錄因子的下游調控基因、目標調控網絡中的關鍵轉錄因子;b)預測ncRNA與mRNA之間的靶向關系;c)基于網絡中已知功能基因推測同網絡中其他功能未知基因功能;e)?將每個共表達模塊分別作為一個整體,計算其與各組織或各發育時間點之間的相關性,建立各組織相關或各時期相關基因表達網絡……

思路解析:

一般認為,在功能上具有相關性的基因在生物體內具有相似的表達模式,比如轉錄因子與其下游調控基因、lncRNA與其反式調控的靶基因、處于同一代謝通路的基因等在功能上都具有相關性,因此,研究者可根據每個基因的表達模式,來判斷上述幾種相互關系。

生信分析中,研究者可使用共表達分析的方法,基于轉錄組測序數據,分析每個基因的表達模式,最終將不同的基因劃入各自所在的表達模式網絡中,常用的共表達分析方法主要有兩種WGCNA與k-means,大樣本量下(15組以上的樣本)建議使用WGCNA,該算法相較于K-means,采用對相關系數取冪加權處理、考慮兩個基因間的間接相關等優化算法,使得構建的共表達網絡更加符合基因調控網絡的無尺度網絡分布(scale-free networks)、基因間可間接調控等特征。

無論是使用哪種方法進行共表達分析,從統計學的角度來看,樣本量越大,預測的基因表達模式分辨率更高,構建的共表達網絡也就越可靠。受限于項目經費,很多研究者便借助公共數據庫擴充這類共表達分析中的樣本量。

支持文獻思路概述:

a) Jennnifer等人鑒定了Specialized Metabiolic(后面簡稱SM)代謝通路相關基因,此類基因種類較少,且序列保守性較低,難以通過常規的序列同源比對的方法預測,因此研究者采用了基于基因表達量的共表達分析方法,參考少數已知功能基因,鑒定存在于不同植物中的SM代謝相關基因以及SM代謝網絡。研究者搜集了8個植物物種的10個基因共表達數據集合的21,876個實驗的基因芯片和RNA-seq公共數據,構建了各個物種中高可靠度的基因共表達模塊。為了說明本研究鑒定SM途徑方法的可靠性,篩選了甲硫氨酸來源的脂肪族硫代葡萄糖苷生物合成途徑(metGSL)及基因,與鑒定的共表達基因模塊進行比較分析。在擬南芥中,共表達基因模塊鑒定了metGSL生物合成每一步的基因,以及一個特異的轉運子和3個轉錄因子。比如,在最小的N1(共17個基因)網絡中,metGSL途徑的34個酶基因中14個均在這個模塊中,該模塊中只有3個基因是功能上未鑒定屬于metGCL的。在網絡中,還發現參與metGSL相關生化過程的一些基因,如激酶APK1APK2、細胞色素P450基因CYP79B2CYP79B3。因此,利用該研究中建立的共表達網絡可較為準確預測SM代謝通路相關基因,該成果發表于The Plant Cell雜志文獻詳細解讀見附件1】。

共表達基因模塊重現擬南芥metGSL生物合成途

b)Yu C等人,為了揭示與玉米子葉發育各個時期相關的轉錄因子-調控基因(之后簡稱TF-TFBS)調控網絡,利用公共數據,將樣本量從9組個擴充至22組,進行WGCNA分析,建立了與玉米子葉發育各個時期相關共表達模塊。基于共表達信息,并參考基因GO注釋、TF-TFBS數據庫(TRANSFAC、JASPAR、AthaMap等),總共得到176個TF-TFBS,成果發表于PNAS雜志。【原文題目見附件2

TF-TFBS預測過程

c)Wen Z等人,為了鑒定與大鼠各個發育時期各個組織相關的ncRNA及其與mRNA共同參與的調控網絡,從GEO數據庫中下載得到Ying等人上傳的原始轉錄組測序數據(GSE53960),數據集中包含來自四個發育時間點的32只大鼠的320個bodymap樣本的轉錄組測序數據。首先基于測序數據進行轉錄本組裝、定量、ncRNA鑒定、差異表達等前期分析,然后基于基因定量結果,使用方差分析(analysis variance,ANVOA)鑒定不同的發育時期、不同的組織部位中或性別間顯著差異的基因(Benjamin-Hochberg corrected p-value < 0.05),鑒定獲得的差異基因即為時期相關、組織相關或性別發育相關基因,之后利用WGCNA分別對上述各個基因集構建共表達網路模塊,最終鑒定得到32個器官發育相關模塊、4個性別發育相關模塊、14個發育時期相關模塊。該成果發表于Scientific Reports雜志文獻詳細解讀見附件1】。

發育時期相關共表達模塊

d)LiJ等人為了全面鑒定豬的長鏈非編碼RNA(lincRNAs)和探索lincRNAs在豬植入前胚胎發育(PED)過程中可能發揮的作用,從NCBI-SRA數據庫中下載得到五個豬RNA-Seq數據集。基于測序數據進行轉錄本組裝和篩選后獲得了7,618個lincRNAs。在分析了豬lincRNAs的結構特點、表達模式、組織特異性和順式作用后,對胚胎發育階段相關lincRNAs和mRNAs進行了WGCNA分析,鑒定出了23個共表達模塊,其中5個顯示發育階段特異性。qRT-PCR分析4細胞階段特異性模塊中的樞紐基因集后發現了兩個與PED密切相關的lincRNA:TCONS_00166370 和TCONS_00020255。該成果發表于Scientific Reports雜志文獻詳細解讀見附件1】。

共表達網絡分析PED相關lincRNAs

分析思路2

 

????研究某一類基因的轉錄水平在不同處理下(或不同組織部位間、或不同發育時間點等)的變化規律,可整合多個類似研究中的公共測序數據來共同揭示該變化規律,使結果更加可靠。

思路解析:

該思路相對比較簡單,但是若論點新穎,多個項目或多個物種的數據均對此論點支持,該分析也可單獨成文;該分析也可作為對常規轉錄調控分析的補充,從常規分析得到的一些相關基因中挑選一些關鍵基因,在其他物種、其他類似項目中尋找對該類關鍵基因在該項目中某種變化規律的支持證據,可以提升常規分析的廣度。

支持文獻思路概述:

?a)sweet基因家族編碼一類外排轉運蛋白(efflux transporter),與糖運輸、韌皮部裝載、宿主-病原菌互作、生殖組織發育相關,這類基因的研究主要集中在水稻與擬南芥中,而在大豆中的研究幾乎是空白。

Gunvant P等人搜集了公共數據庫中兩個大豆RNA-seq數據集,分別包含14、10個樣本,均涵蓋生殖組織(花、花芽、種子等)與營養組織(根、莖、幼苗等)。研究者首先基于水稻、擬南芥的sweet家族基因序列,通過blast比對,在大豆的基因組中鑒定得到52個大豆sweet家族基因,并對該類基因在染色體上的分布和編碼蛋白的domain結構與其他13個物種(涵蓋單子葉、雙子葉、藻類、苔蘚類)中sweet基因家族的進化關系進行了簡單分析。

兩個數據集中大豆的RNA-seq數據分析結果表明,大部分大豆sweet家族基因在種子和花中轉錄上調,所有sweet基因在到達種子灌漿期前轉錄水平一直上調,之后到達種子成熟前一直下調,這與之前的在其他物種中研究得到的該基因家族與生殖組織發育相關的結論是一致的。該成果發表與BMC Genomics雜志。

b)Matthijs M等人通過分析自測RNA-seq數據在三角褐指藻發現了一類可響應氮脅迫的新型轉錄因子RGQ1,為了進一步驗證該轉錄因子是否在其他硅藻中存在并且也同樣具有響應氮脅迫的功能,研究者從公共數據庫中下載到了其他兩種硅藻類似研究中的數據,發現,RGQ1在這兩種硅藻中也存在,且參與了對氮脅迫的響應。成果表于Plant Physiology雜志。【詳細解讀結果見附件1

 

其他分析思路

 

整合同一物種公共測序數據,構建物種完備轉錄本序列參考集,用于后續功能分析。

支撐文獻:

  • Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015 ?

文獻概要:整合來源25個項目,18個組織,7256個樣品RNA測序數據,使用cufflinks分別重構各組織轉錄本,之后使用用戶自己開發的meta-assembly算法找出各組織中高豐度轉錄本,最后使用cuffmerge對各樣本組裝得到的轉錄本進行合并,最終建立高質量的人類轉錄本序列參考集,用于后續功能分析。

  • Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015

文獻概要:整合170多個棉屬RNA-seq數據集,以海島考基因組為參考,使用tophat+cufflinks流程進行轉錄本重構(各樣本分開組裝)并預測其中的lncRNA,之后進行棉纖維發育相關lncRNA鑒定。

mRNA-ncRNA聯合分析中,利用公共數據補充其中一種類型的RNA測序數據

支撐文獻:

  • Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016

文獻概要:聯合之前項目的高肉品與低肉品豬mRNA測序數據與本次項目中的miRNA測序數據,并通過pearson相關系數建立miRNA與豬肉品質各項指標之間的聯系,最終建立與豬肉品質各項指標相關的mRNA-miRNA調控網絡。

  • Yin H et al. Phylogenetic tree-informed microRNAome analysis uncovers conserved and lineage-specific miRNAs in Camellia during floral organ development.J Exp Bot.2016

文獻概要:研究者取紅杜鵑山茶花的葉、雄蕊、雌蕊心皮、花瓣、花芽5個部位進行了miRNA測序,之前項目中組裝得到的紅杜鵑山茶花的轉錄本序列為參考,進行了novel miRNA的預測。之后通過miRNA表達模式的分析,鑒定到了兩類分別傾向在雄蕊或雌蕊中特異高表達的miRNA,進一步利用miRNA靶基因的功能信息,揭示了這些miRNA在花器官發育過程中發揮的生物學功能。

 

 

 

附件2公共數據整合分析文獻列表

 

整合公共數據建立物種基因共表達網絡

[1] Wisecaver JH?et al. A Global Coexpression Network Approach for Connecting Genes to Specialized Metabolic Pathways in Plants. Plant Cell.?2017

[2]Wen Z et al.Expression profiling and functional annotation of noncoding genes across 11 distinct organs in rat development.Sci Rep.?2016

[3] Li?J?et al. Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep. 2016

[4] Yu?C et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci?. 2015

[5] Khan FA et al. Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget.?2017

?

利用公共數據,研究基因家族轉錄水平變化規律

[6] Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.?2015

[7]Matthijs M?et al.Profiling of the Early Nitrogen Stress Response in the Diatom Phaeodactylum tricornutum Reveals a Novel Family of RING-Domain Transcription Factors. Plant Physiol.?2016

 

基于公共數據建立物種完備轉錄組本參考序列

[8]Wang M et al. Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). New Phytol. 2015

[9]Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet.??2015

[10]Hong Y, et al.?Genome-wide identification and characterization of long intergenic noncoding RNAs and their potential association with larval development in the Pacific oyster. Sci Rep,?2016.

[11] Li J, et al.?Identification and functional analysis of long intergenic noncoding RNA genes in porcine pre-implantation embryonic development.?Sci Rep,2016.

?

基于公共數據進行ncRNA-mRNA聯合分析

[12] Xu W et al. Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol.?2016

[13] Liu X et al. MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. BMC Genomics.?2016

?

其他分析思路

[14] Sudmant PH, et al.?Meta-analysis of RNA-seq expression data?across species, tissues and studies. Genome Biol, 2015.

[15] Lu L, et al. The goose genome sequence leads to insights?into the evolution of waterfowl and susceptibility?to fatty liver. Genome Biol,?2015.

[16] Shin SC, et al.?Dynamic shifts in occupancy by TAL1?are guided by GATA factors and drive large-scale reprogramming of gene expression during hematopoiesis.?Genome?Res,?2014

[17] Xie D, et al. Rewirable gene regulatory networks in the?preimplantation embryonic development?of three species.?Genome Res,?2010



主站蜘蛛池模板: 河曲县| 海口市| 温宿县| 寿光市| 资源县| 偏关县| 九龙坡区| 清镇市| 平阳县| 土默特左旗| 昌吉市| 万源市| 五大连池市| 枣强县| 洪江市| 山阳县| 宜黄县| 广西| 郁南县| 锡林浩特市| 昆山市| 百色市| 元江| 荣昌县| 麟游县| 库车县| 隆子县| 前郭尔| 万州区| 丰城市| 勃利县| 噶尔县| 清苑县| 关岭| 金华市| 和平县| 宜兰县| 冕宁县| 紫金县| 汤原县| 务川|