Coder Social home page Coder Social logo

idmap3's Introduction

下载全部表达芯片平台的探针的碱基序列自主注释到基因ID

前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法,大家无需下载几十个bioconductor包,然后自己一个个提取基因信息,我全部为大家做好啦,也就是 idmap1 这个目前host在GitHub, R包:

但是第一个包只能是解决有bioconductor包的那些芯片平台,毕竟是少数,所以我又开发了第二个万能芯片探针ID注释平台包,参见:第二个万能芯片探针ID注释平台R包 , 把全部表达芯片的soft文件下载好后,提前它们的芯片和基因symbol对应关系并存储好,最后是 idmap2 这个目前也host在GitHub, R包:

大量的GPL平台的soft文件并不提供基因注释新

比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827

能拿到的信息就探针序列,所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!

image-20191203175638181

我下载了全部提供探针碱基序列的GPL平台,然后批量比对到其对应的参考基因组,比如human,mouse,rat ,然后注释到其最新版gtf文件,获取探针比对到参考基因组坐标后注释到的基因信息。

安装我的idmap3包

idmap1解决了bioconductor包下载困难的问题,idmap2解决了GPL平台的soft文件下载困难,而这个idmap3解决了那些并不提供探针的注释信息的平台。

library(devtools)
install_github("jmzeng1314/idmap3")
library(idmap3)

因为有40M,所以下载安装会比较慢哦,喝杯咖啡吧!也欢迎赞助我一杯咖啡,我们一起喝!

关于GitHub下载困难

在**大陆,大部分人访问GitHub还是很困难的,如果你确实无法下载, 就需要下载我的微云版本:

然后参考我以前的教程:安装GitHub的R包困难解决方案

使用idmap3

比如如果想获取Agilent-079487 Arraystar Human LncRNA microarray V4 (Probe Name version)的注释信息,一行代码就搞定!它的平台是:GPL21827

library(idmap3)
ids=idmap3::get_pipe_IDs('GPL21827')
head(ids) 

这个平台,GPL21827,Agilent-079487 Arraystar Human LncRNA microarray V4 因为在GEO里面仅仅是提供了探针序列,所以我们前面的两个R包都无能为力,只能这个idmap3哦!

你想知道我们支持哪些平台吗,当然是可以看的:

data(gpl_list)
gpl_list[,1:4]

希望你的平台,在我们的列表,能帮助你进行芯片注释。

比较soft文件自带的注释信息和我们的流程注释

rm(list = ls())
options(stringsAsFactors = F)
library(idmap2)
library(idmap3)
# Agilent-011521 Human 1A Microarray G4110A  (Feature Number version)   GPL885
ids2=get_soft_IDs('GPL885')
ids3=get_pipe_IDs('GPL885')
tmp=merge(ids2,ids3,by.x='ID',by.y='probe_id')
table(tmp$symbol.x==tmp$symbol.y)

length(unique(tmp[,1]))
length(unique(tmp[tmp$symbol.x==tmp$symbol.y,1]))
length(unique(tmp[tmp$symbol.x!=tmp$symbol.y,1]))

data("gpl_list")
gpl_list[,1:2]

可以看到很多有趣的问题:

image-20191203180442503

其实很多探针,会同步注释在一个lncRNA和一个mRNA上面,因为lncRNA和mRNA坐标是有交叉的。

而且soft文件自带的注释信息的基因名字都太陈旧了。

image-20191203180613910

An 800 kb deletion at 17q23.2 including the MED13 (THRAP1) gene, revealed by aCGH in a patient with a SMC 17p.

Name:ATRAID. Synonyms:APR3, C2orf28.

Complete information for ASIC5 gene (Protein Coding), Acid Sensing Ion Channel Subunit Family Member ... Previous HGNC Symbols for ASIC5 Gene. 

是不是需要更新你的注释啦

那么,赶快使用我们的包吧!

idmap3's People

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.