一、MSigDB是什么
MSigDB(The Molecular Signatures Database)是一個基因集數據庫,包含了多種功能注釋的基因集,它是一個支持生物信息學數據分析的開放資源平臺。MSigDB是基于公開可得的基因表達數據而建立的,主要用于啟發式的生物標記物,新藥靶點發現和機制解釋等研究。MSigDB還提供了用于分析基因表達數據集的工具和算法。
二、MSigDBR
MSigDBR是一個針對MSigDB的R語言包,可用于下載、管理和提取MSigDB的數據。該R包可以對52種Human MSigDB集合和18種 Mouse MSigDB集合進行下載和管理,以及快速的基因集分析,使得用戶可以很方便的使用MSigDB數據庫中的基因集來進行分析研究。
三、MSigDB查找基因集
用戶可以通過MSigDB官網的搜索功能輕松的查找到自己所需要的基因集,也可以通過R語言編寫代碼進行查詢。以下是通過代碼獲取TP53(一種與癌癥相關的基因)基因集的示例:
library(MSigDBR)
tp53_list <- query(msigdbi = msigdb$path, gene_sets = 'TP53', gene_set_type = 'C2')
head(tp53_list$gs)
結果返回ID號和所有與TP53基因相關的基因集的名稱。此時可以通過ID號查找基因集內的具體基因名稱,或者利用函數mapping來得到其他基因ID(如示例代碼中使用mapping(name=tp53_list$gs[1], msigdbi=msigdb$path)獲取該基因集中每個基因的Symbol等)。
四、MSigDB數據庫官網
MSigDB官網提供了便捷的數據查詢、下載和資源文檔,網址為https://www.gsea-msigdb.org/gsea/msigdb/index.jsp。可以直接通過該網站檢索自己感興趣的基因集,除此之外,官網還提供了一些其他工具和資源進行生物信息學分析。
五、MSigDB數據庫小鼠
除了對人類基因的注釋,MSigDB還注釋了小鼠的基因,包含大量的小鼠基因集,支持小鼠數據的生物信息學研究,數據來源于鼠基因注釋數據庫(MGI)。搭配使用Mouse MSigDB和Human MSigDB可以得到更全面的研究結果。
六、MSigDB查找代謝基因集
MSigDB還注釋了代謝相關的基因集,其中包括如KEGG、REACTOME等公共數據庫,這對于代謝學研究是非常有價值的。以下是利用R語言查詢KEGG中代謝與葡萄糖代謝相關的基因集的示例:
kg <- msigdbKEGG(msigdbi = msigdb$path)
kegg_genes <- query(msigdbi = msigdb$path, gene_sets = 'KEGG_GLUCOSE_METABOLISM', gene_set_type = 'C2')
kegg_genes <- kegg_genes$gs[[1]]
kegg_genes <- mapping(name=kegg_genes, msigdbi=msigdb$path, toSymbol=T, destdir=NULL, geneColumn=2, proteinColumn=NULL)
以上是基于MSigDBR對MSigDB的一些簡單介紹,它們的使用可以顯著的提高生物信息學研究的效率及準確性。