kornel / krabmen Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 335.59 MB

Shell 1.01% R 98.99%

krabmen's People

Contributors

Watchers

krabmen's Issues

Ekspresja KRAB-ZNF a fenotyp mutatora / metylacji

Analiza ekspresji mRNA czynników KRAB-ZNF:

czy poziom ekspresji czynników KRAB koreluje z fenotypem mutatora / metylacji?

Ekspresja czynników KRAB-ZNF a podtypy nowotworów

Analiza ekspresji mRNA czynników KRAB i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA):

czy są różnice w ekspresji czynników KRAB między różnymi podtypami nowotworów (rak płuc: adenocarcinoma LUAD vs squamous cell lung cancer LUSC; rak piersi: basal vs luminal)?

Analiza ekspresji izoform KRAB-ZNF w TCGA

download-tcga-mrna.R nie działa u Uli

patrz błąd opisany w #3

Różnicowa metylacja genów pomiędzy grupami metylacji w BRCA

W BRCA wyszczególniamy 5 grup metylacji (cluster 1-5). Przynależność do grupy jest określona w tabeli BRCA.csv (krabmen/KRAB_and_TCGA_Subtypes/Data v3 2016.06.06/BRCA.csv - kolumna G 'methylation.Clusters'). Interesuje nas określenie, które geny (sondy np. cg00000108) są różnicowo metylowane pomiędzy poszczególnymi grupami.

Tabela z wartościami dla poziomu metylacji dla każdej sondy w każdej próbie (BRCA.methylation.27k.450k) - udostępniam na dysku googla, bo jest za duża, żeby przesłać ją do repozytorium (chyba, że da się to jakoś zrobić?)
a. podzielić próby na clustry metylacji
b. analiza różnicowej metylacji – wybór sond, których poziom metylacji istotnie statystycznie różni poszczególne clustry
annotacja sond - pewnie są jakieś skrypty R, które pozwalają na annotację sond wykorzystywanych w mikromacierzach metylacyjnych do konkretnych miejsc w genomie, ale osobiście nie jestem w stanie ich wskazać. Mam za to plik, w którym sondy są już przyporządkowane (krabmen/KRAB_and_TCGA_Subtypes/Data%20v3%202016.06.06), może coś takiego wystarczy?

Jako wynik interesuje nas określenie, jakie miejsca w genomie są hiper/hipometylowane w danej grupie metylacji w BRCA i jest to istotne statystycznie w porównaniu z innymi grupami. Myślę, że odpowiednia byłaby tabela, podobnie jak w przypadku ekspresji w różnych podtypach:

sonda (+ annotacja) w zależności od wyboru testu statystycznego:
średnia / mediana poziomu metylacji w danej grupie
SEM / Q1 i Q3 poziomu metylacji w danej grupie dla porównań każdy z każdym
fold change
log fold change
p-value
adjusted p-value

Zestawienie ile tkanek nowotworowych vs zdrowe

Przygotowanie listy genów do analizy

Na tych genach będziemy wykonywać anailzy

Graficzne porównanie tkanki zdrowej i chorej

Dla wybranych genów (każdego osobno) dla każdego nowotworu z issue #2 porównaj graficznie (boxploty) ekspresję w tkankach zdrowych i chorych.
Jako wynik dla każdego genu potrzebny jest rysunek:

boxploty w tkance zdrowej / chorej dla różnych nowotworów (zdrowa/chora można np rozróżnić kolorami)

Przeniesienie skryptu remove-comment.sh do R

Tak aby pipeline przetwarzania danych był wygodniejszy i przenośny pomiędzy platformami (w szczególności Windows vs OSX czy też Linut), logika skryptu remove-comment.sh musi zostać zaimplementowana w R

Zbiorcza tabela - liczba próbek zdrowych / chorych per nowortów

W wierszach nowotwory, w kolumnach typ tkanki 01/11

Ekspresja KRAB-ZNF a dane kliniczne

Analiza ekspresji mRNA czynników KRAB-ZNF i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA)

czy są różnice w ekspresji czynników KRAB między nowotworami o różnym statusie TNM, różną płcią/wiekiem/historią palenia w raku płuc (palił / nie palił) /statusem receptorów w raku piersi u pacjentów (ER+/-, HER+/-, PR +/-)?

Ekspresja KRAB-ZNF w tkankach normalnych

Przygotować listę nowotworów do analizy

Kryterium przyjęcia: liczba pacjentów z normalnymi tkankami >=9.

Listę wybranych nowotworów zapisać w pliku

Statystyczne porównanie tkanek zdrowych i chorych

Dla wybranych genów (każdego osobno) dla każdego nowotworu z issue #2 porównaj testem ekspresję w tkankach zdrowych i chorych.
Jako wynik dla każdego genu i nowotworu potrzebna jest tabela:

mediana ekspresji w tkance zdrowej
mediana ekspresji w tkance chorej
fold change i log fold change
p-wartość i adjusted p-wartosć

Ekspresja KRAB-ZNF a przeżywalność pacjentów

Analiza ekspresji mRNA czynników KRAB i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA)

czy poziom ekspresji koreluje z przeżywalnością pacjentów czy czasem wolnym od choroby (Cox model, Kaplan-Meier)?

Jaki test nieparametryczny do porównania istotności różnic w ekspresji między tkanką nowotworową a normalną

@pbiecek jakiego testu nieparametryczną użyć aby porównać istotność różnic w ekspresji między tkanką nowotworową a normalną?

Obecnie użyłem pakietu DESeq, który normalizuje dane w swój sposób (nie wiem dokładnie jak) oraz wykonałem na tych danych test dwumianowy (binomial test).

Ula sugeruje, że warto dodać też wyniki testu nieparametrycznego. Może można spróbować testu Mann Whitney Wilcoxona, co sądzisz? Prośba o ekspertyzę :)

Czy raw_count jest tym czym się spodziewamy?

W danych z gdac np BRCA.rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes__data mam kolumną raw_counts. Co ciekawe, pare wartości nie jest liczbą całkowitą. Pakiet DESeq i normalizacja a następnie test istotności różnicy między czynnikami jaki wykonuje wymaga aby pracować na raw counts'ach. Pytanie czy te raw_countsy z TCGA są naprawdę raw_countsami. Gdy nie są test nie jest wiarygodny.

@ursole trafiłem na coś takiego:
http://seqanswers.com/forums/showthread.php?t=42911

The (first) RSEM paper explains that the program calculates two values. One represent the (estimated) number of reads that aligned to a transcript. This value is not an integer because RSEM only reports a guess of how many ambiguously mapping reads belong to a transcript/gene. This number is what the TCGA slightly misleadingly calls raw counts.

Czy to może wyjaśnić te parę niecałkowitych wartości w raw_counts'ach jakie trafiłem? Mowa tutaj o normalizacji RSEM - jeszcze nie wiem jak ona działa.

Pytanie do Ciebie, czy działamy na dobrych danych. Pewnie wszystko jest OK, ale chciałby mieć pewność co do wyników z DESeq.

Przygotować dane do analizy

Pracujemy na RSEM_genes_normalized
Są w katalogu data

kornel / krabmen Goto Github PK

krabmen's People

Contributors

Watchers

krabmen's Issues

Recommend Projects

Recommend Topics

Recommend Org