據(jù).jpg)
06月28 利用百邁客云挖掘海量公共測(cè)序數(shù)據(jù)的價(jià)值
近年來,隨著測(cè)序技術(shù)的不斷升級(jí),測(cè)序通量越來越高,同時(shí)測(cè)序成本直線下降,高通量測(cè)序技術(shù)逐漸應(yīng)用在科研、醫(yī)療、健康等各個(gè)研究領(lǐng)域。伴隨著大數(shù)據(jù)處理關(guān)鍵技術(shù)的突破和數(shù)據(jù)共享等契機(jī)的發(fā)展,大數(shù)據(jù)將在促進(jìn)生物學(xué)發(fā)展中發(fā)揮重要的作用。
測(cè)序技術(shù)在生物學(xué)研究中的發(fā)展分成三個(gè)階段:
第一個(gè)階段:Genome Center唱獨(dú)角戲。在這個(gè)方向剛興起的初期,人才儲(chǔ)備較少,產(chǎn)出數(shù)據(jù)的成本也很大,只有少量的國(guó)家支持的Genome Center可以從事這方面的系統(tǒng)研究,做生物信息開發(fā)的目的也比較明確,就是為了完成基因組中心所承擔(dān)的一些重大國(guó)家科研課題。
第二個(gè)階段:高通量測(cè)序技術(shù)的進(jìn)步和基因科技服務(wù)公司的崛起。當(dāng)很多科學(xué)家看到了有那么多空白的山頭待開發(fā),同時(shí)數(shù)據(jù)產(chǎn)出的成本也大幅降低情況下,科學(xué)家們對(duì)組學(xué)研究都躍躍欲試,科技服務(wù)的市場(chǎng)需求就出現(xiàn)了,同時(shí)經(jīng)過多年的人才儲(chǔ)備,也有了一定數(shù)量的技術(shù)人員,為科技服務(wù)公司的出現(xiàn)打下了人力基礎(chǔ)。這個(gè)階段生物信息開發(fā)注重的是“pipeline”,這樣能提高服務(wù)的效率,讓公司能更好的發(fā)展。
第三個(gè)階段:大數(shù)據(jù)的積累和豐富多樣的個(gè)性化分析需求。隨著NGS技術(shù)的不斷發(fā)展,測(cè)序成本不斷降低,數(shù)據(jù)積累也越來越快,同時(shí)隨著科學(xué)家對(duì)數(shù)據(jù)理解的深入,科學(xué)家的思路大大開拓,各種個(gè)性化的數(shù)據(jù)分析想法大量涌入腦海,“personalized”成為了這個(gè)階段的生物信息開發(fā)要滿足的關(guān)鍵需求。目前,測(cè)序技術(shù)在生物學(xué)研究中的應(yīng)用已經(jīng)逐漸進(jìn)入了第三個(gè)階段,基因大數(shù)據(jù)的價(jià)值已經(jīng)在很多方面超越了自己新測(cè)序項(xiàng)目的產(chǎn)出,同時(shí)傳統(tǒng)基因科技服務(wù)公司提供的“pipeline”的分析結(jié)果已越來越難滿足科研工作者的需求,一方面是分析工具和個(gè)性化的分析需求得不到滿足;另一方面,孤立的單個(gè)項(xiàng)目的數(shù)據(jù)分析形式越來越不能滿足科研的需要。能不能利用可視化的分析工具進(jìn)行基因大數(shù)據(jù)的深入挖掘成為了能否在基因研究2.0時(shí)代成為佼佼者的關(guān)鍵因素。
測(cè)序數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)
Nature Reviews Genetics報(bào)道稱,目前已發(fā)表的高通量測(cè)序數(shù)據(jù)利用率不足20%,很多有價(jià)值的信息被研究者所忽略,基于公共數(shù)據(jù)挖掘和分析將成為科學(xué)研究發(fā)展的趨勢(shì)。例如,2015年?Nature Genetics發(fā)表的文章通過分析正常組織和各種常見類型癌癥組織7256個(gè)轉(zhuǎn)錄組測(cè)序樣本,43T轉(zhuǎn)錄組數(shù)據(jù)中鑒定得到58000個(gè)lncRNA;發(fā)現(xiàn)上千種lncRNAs 在癌癥組織中特異表達(dá),可以作為新的腫瘤標(biāo)記物。2014年?Genome Biology 發(fā)表的文章通過研究13種組織和30個(gè)玉米轉(zhuǎn)錄組數(shù)據(jù)中LncRNAs的表達(dá),鑒定出了20163個(gè)推測(cè)的LncRNAs,?并對(duì)LncRNAs的組織特異性的表達(dá)調(diào)控網(wǎng)絡(luò)進(jìn)行了解析。最有代表性的是最大的癌癥基因信息的數(shù)據(jù)庫(kù),Cancer Genome Atlas/TCGA蘊(yùn)藏著難以想象的寶貴信息,圍繞TCGA已經(jīng)有很多重量級(jí)文章出現(xiàn),PubMed收錄的利用其進(jìn)行數(shù)據(jù)挖掘發(fā)表的文章已經(jīng)超過1500篇,而且對(duì)它的使用必然愈發(fā)重要。可以說,已經(jīng)公開的高通量測(cè)序數(shù)據(jù)如同“金礦”一般,具有極高的學(xué)術(shù)價(jià)值。然而,科研工作者一方面不方便獲取符合自己需求的數(shù)據(jù),數(shù)據(jù)的整合、分類、下載也會(huì)耗費(fèi)較多的精力;另一個(gè)方面,缺少一個(gè)高效、易用的數(shù)據(jù)分析平臺(tái),自主搭建一個(gè)大數(shù)據(jù)分析平臺(tái),無論是硬件、軟件,還是人力、財(cái)力都是巨大的挑戰(zhàn)。這兩個(gè)因素導(dǎo)致大量的基因數(shù)據(jù)沉睡在哪里,不能很好的挖掘出其中的價(jià)值。
圖1. 整合6503個(gè)來源18個(gè)器官的人類RNA-seq公共數(shù)據(jù)集,分開組裝->混合組裝(Meta-assembly)->merge后得到384,066個(gè)高可信度人類轉(zhuǎn)錄本,用于后續(xù)功能分析。
Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015
圖2. 整合171個(gè)棉屬RNA-seq公共數(shù)據(jù)集,基于海島棉基因組進(jìn)行棉屬轉(zhuǎn)錄本重構(gòu),基于重構(gòu)的轉(zhuǎn)錄本序列信息,從中鑒定得到35,268個(gè)lncRNA,用于后續(xù)棉纖維發(fā)育相關(guān)lncRNA鑒定。
Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
2016年3月,作為BMKCloud公共數(shù)據(jù)庫(kù)項(xiàng)目的一部分,涵蓋動(dòng)物、植物、微生物的高通量測(cè)序數(shù)據(jù)庫(kù)正式上線。百邁客云的合作伙伴現(xiàn)在可以在BMKCloud上免費(fèi)訪問該數(shù)據(jù)庫(kù)了。在BMKCloud上將數(shù)10PB規(guī)模的高通量測(cè)序數(shù)據(jù)作為共享資源,用戶無需下載數(shù)據(jù),直接在BMKCloud上利用分析平臺(tái)進(jìn)行分析,加速了利用公共數(shù)據(jù)進(jìn)行研究和探索的步伐。BMKCloud公共數(shù)據(jù)庫(kù)項(xiàng)目的目標(biāo)是建立植物、動(dòng)物、細(xì)胞系、微生物、宏基因組、疾病高通量測(cè)序數(shù)據(jù)庫(kù)以及腫瘤高通量測(cè)序數(shù)據(jù)庫(kù)。目前,動(dòng)物、植物、微生物高通量測(cè)序數(shù)據(jù)庫(kù)正式上線。每個(gè)數(shù)據(jù)庫(kù)中都收集和整理了全世界公開發(fā)表的各個(gè)物種高通量測(cè)序的原始數(shù)據(jù)及相關(guān)論文,為開展各個(gè)領(lǐng)域的研究提供準(zhǔn)確、全面、最新的測(cè)序原始數(shù)據(jù)和相應(yīng)文獻(xiàn)的整合檢索平臺(tái),并與各項(xiàng)可視化分析流程無縫對(duì)接。BMKCloud公共數(shù)據(jù)庫(kù)項(xiàng)目的數(shù)據(jù)來源是NCBI的SRA、GEO等高通量測(cè)序的公共數(shù)據(jù),數(shù)據(jù)來源可靠,涵蓋重測(cè)序、轉(zhuǎn)錄組等各個(gè)研究領(lǐng)域(以水稻為例,目前已收錄的基因組數(shù)據(jù)集29910個(gè),轉(zhuǎn)錄組數(shù)據(jù)集2100個(gè))。
圖3. BMKCloud公共數(shù)據(jù)庫(kù)中常見研究物種數(shù)據(jù)收錄
BMKCloud公共數(shù)據(jù)庫(kù)項(xiàng)目建立的目的也是讓科研工作者更高效、更快速的利用公共數(shù)據(jù),提高公共數(shù)據(jù)的利用效率。使大數(shù)據(jù)的挖掘不僅僅局限于癌癥的研究,而能夠在動(dòng)物、植物、微生物等研究中都得到很好的利用。科研工作者可以根據(jù)物種、類型、研究性狀、研究結(jié)果、測(cè)序方法等設(shè)置快速檢索感興趣的數(shù)據(jù),所有數(shù)據(jù)均可一鍵導(dǎo)入平臺(tái)中“我的數(shù)據(jù)”中保存。然后利用百邁客云提供的20大數(shù)據(jù)分析平臺(tái)和100多款工具進(jìn)行數(shù)據(jù)的可視化深度挖掘,高效、快速的挖掘基因大數(shù)據(jù)。
圖4. 公共數(shù)據(jù)分析傳統(tǒng)方案 vs BMKCloud解決方案
百邁客云(BMKCloud)是一個(gè)基于基因大數(shù)據(jù)的挖掘,管理和科研協(xié)作的整合平臺(tái)。可以使不具備生物信息分析基礎(chǔ)的用戶,快速掌握獨(dú)立的生物信息分析能力,實(shí)現(xiàn)高通量數(shù)據(jù)的深度解讀。百邁客云提供:20大生物信息分析平臺(tái)(重測(cè)序、外顯子、轉(zhuǎn)錄組、非編碼RNA等),基本分析+個(gè)性化分析,輕松實(shí)現(xiàn)原始數(shù)據(jù)到生物學(xué)問題準(zhǔn)確解讀的轉(zhuǎn)化;100多款數(shù)據(jù)分析工具,涵蓋數(shù)據(jù)處理、文件操作、序列比對(duì)、基因注釋、進(jìn)化分析和圖表制作等,滿足個(gè)性化數(shù)據(jù)分析需求。百邁客生物云平臺(tái),用戶定位是非生物信息背景的生物學(xué)家,從2014年5月開始開放試用到2015年10月份正式商用。對(duì)于廣大的科研用戶而言,百邁客生物云是一個(gè)完整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺(tái)賬號(hào),就擁有了屬于自己的生物信息分析平臺(tái),百邁客云已經(jīng)成為“基因科技服務(wù)2.0時(shí)代”(基因大數(shù)據(jù)可視化即時(shí)自主分析的時(shí)代)科研工作者受歡迎的生物云平臺(tái)。
附1公共數(shù)據(jù)整合分析經(jīng)典思路總結(jié)部分文獻(xiàn)
?
發(fā)育調(diào)控研究中,利用公共數(shù)據(jù)完善取樣時(shí)間點(diǎn)或取樣部位
- YU C ?et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci. 2015
- Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.2015
?
比較轉(zhuǎn)錄組分析中,補(bǔ)充其他物種、組織部位、發(fā)育時(shí)間點(diǎn)等相關(guān)數(shù)據(jù)
- Fu Y et al. ?Dissection of early transcriptional responses to water stress in Arundo donax L. by unigene-based RNA-seq. ?Biotechnol Biofuels. 2016
- Lynch VJ ?et al. Ancient transposable elements transformed the uterine regulatory landscape and transcriptome during the evolution of mammalian pregnancy. Cell Rep. 2015
- Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget. 2017
?
ncRNR-mRNA聯(lián)合分析中,補(bǔ)充mRNA或者ncRNA數(shù)據(jù)
- Xu W ?et al. ?Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol. 2016
- Liu X et al. ??MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016
?
轉(zhuǎn)錄本構(gòu)建項(xiàng)目中,整合大量公共數(shù)據(jù),構(gòu)建較為全面的物種轉(zhuǎn)錄本序列文庫(kù)
- Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
- Iyer MK et al. ???The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015