SRR1039508 | SRR1039509 | SRR1039512 | SRR1039513 | SRR1039516 | SRR1039517 | SRR1039520 | SRR1039521 | |
---|---|---|---|---|---|---|---|---|
ENSG00000000003 | 679 | 448 | 873 | 408 | 1138 | 1047 | 770 | 572 |
ENSG00000000005 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
ENSG00000000419 | 467 | 515 | 621 | 365 | 587 | 799 | 417 | 508 |
ENSG00000000457 | 260 | 211 | 263 | 164 | 245 | 331 | 233 | 229 |
ENSG00000000460 | 60 | 55 | 40 | 35 | 78 | 63 | 76 | 60 |
ENSG00000000938 | 0 | 0 | 2 | 0 | 1 | 0 | 0 | 0 |
ENSG00000000971 | 3251 | 3679 | 6177 | 4252 | 6721 | 11027 | 5176 | 7995 |
ENSG00000001036 | 1433 | 1062 | 1733 | 881 | 1424 | 1439 | 1359 | 1109 |
ENSG00000001084 | 519 | 380 | 595 | 493 | 820 | 714 | 696 | 704 |
ENSG00000001167 | 394 | 236 | 464 | 175 | 658 | 584 | 360 | 269 |
ENSG00000001460 | 172 | 168 | 264 | 118 | 241 | 210 | 155 | 177 |
ENSG00000001461 | 2112 | 1867 | 5137 | 2657 | 2735 | 2751 | 2467 | 2905 |
ENSG00000001497 | 524 | 488 | 638 | 357 | 676 | 806 | 493 | 475 |
ENSG00000001561 | 71 | 51 | 211 | 156 | 23 | 38 | 134 | 172 |
第一列是基因ID,后面的列是各个样本。其中第一行尤为注意,最开头是一个空格(了解R里面read.table函数原理)。
可以看到上面的测试数据是7个样本的表达矩阵,而且来自于转录组测序数据的counts结果,所以表达量都是整数。
sampleID | group |
---|---|
SRR1039508 | untrt |
SRR1039509 | trt |
SRR1039512 | untrt |
SRR1039513 | trt |
SRR1039516 | untrt |
SRR1039517 | trt |
SRR1039520 | untrt |
SRR1039521 | trt |
只需要两列即可,其中第一列需要与上面的表达矩阵的样本名一一对应清楚。
ensembl | type | symbol |
---|---|---|
ENSG00000000003 | protein_coding | TSPAN6 |
ENSG00000000005 | protein_coding | TNMD |
ENSG00000000419 | protein_coding | DPM1 |
ENSG00000000457 | protein_coding | SCYL3 |
ENSG00000000460 | protein_coding | C1orf112 |
ENSG00000000938 | protein_coding | FGR |
ENSG00000000971 | protein_coding | CFH |
ENSG00000001036 | protein_coding | FUCA2 |
ENSG00000001084 | protein_coding | GCLC |
多少列无所谓,只需要第一列跟表达矩阵的列名一一对应即可。