Coder Social home page Coder Social logo

krabmen's People

Contributors

martagladych avatar pbiecek avatar ursole avatar

Watchers

 avatar  avatar  avatar  avatar

krabmen's Issues

Ekspresja czynników KRAB-ZNF a podtypy nowotworów

Analiza ekspresji mRNA czynników KRAB i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA):

  • czy są różnice w ekspresji czynników KRAB między różnymi podtypami nowotworów (rak płuc: adenocarcinoma LUAD vs squamous cell lung cancer LUSC; rak piersi: basal vs luminal)?

Różnicowa metylacja genów pomiędzy grupami metylacji w BRCA

W BRCA wyszczególniamy 5 grup metylacji (cluster 1-5). Przynależność do grupy jest określona w tabeli BRCA.csv (krabmen/KRAB_and_TCGA_Subtypes/Data v3 2016.06.06/BRCA.csv - kolumna G 'methylation.Clusters'). Interesuje nas określenie, które geny (sondy np. cg00000108) są różnicowo metylowane pomiędzy poszczególnymi grupami.

  1. Tabela z wartościami dla poziomu metylacji dla każdej sondy w każdej próbie (BRCA.methylation.27k.450k) - udostępniam na dysku googla, bo jest za duża, żeby przesłać ją do repozytorium (chyba, że da się to jakoś zrobić?)
    a. podzielić próby na clustry metylacji
    b. analiza różnicowej metylacji – wybór sond, których poziom metylacji istotnie statystycznie różni poszczególne clustry
  2. annotacja sond - pewnie są jakieś skrypty R, które pozwalają na annotację sond wykorzystywanych w mikromacierzach metylacyjnych do konkretnych miejsc w genomie, ale osobiście nie jestem w stanie ich wskazać. Mam za to plik, w którym sondy są już przyporządkowane (krabmen/KRAB_and_TCGA_Subtypes/Data%20v3%202016.06.06), może coś takiego wystarczy?

Jako wynik interesuje nas określenie, jakie miejsca w genomie są hiper/hipometylowane w danej grupie metylacji w BRCA i jest to istotne statystycznie w porównaniu z innymi grupami. Myślę, że odpowiednia byłaby tabela, podobnie jak w przypadku ekspresji w różnych podtypach:

sonda (+ annotacja) w zależności od wyboru testu statystycznego:
średnia / mediana poziomu metylacji w danej grupie
SEM / Q1 i Q3 poziomu metylacji w danej grupie dla porównań każdy z każdym
fold change
log fold change
p-value
adjusted p-value

Graficzne porównanie tkanki zdrowej i chorej

Dla wybranych genów (każdego osobno) dla każdego nowotworu z issue #2 porównaj graficznie (boxploty) ekspresję w tkankach zdrowych i chorych.
Jako wynik dla każdego genu potrzebny jest rysunek:

  • boxploty w tkance zdrowej / chorej dla różnych nowotworów (zdrowa/chora można np rozróżnić kolorami)

Przeniesienie skryptu remove-comment.sh do R

Tak aby pipeline przetwarzania danych był wygodniejszy i przenośny pomiędzy platformami (w szczególności Windows vs OSX czy też Linut), logika skryptu remove-comment.sh musi zostać zaimplementowana w R

Ekspresja KRAB-ZNF a dane kliniczne

Analiza ekspresji mRNA czynników KRAB-ZNF i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA)

  • czy są różnice w ekspresji czynników KRAB między nowotworami o różnym statusie TNM, różną płcią/wiekiem/historią palenia w raku płuc (palił / nie palił) /statusem receptorów w raku piersi u pacjentów (ER+/-, HER+/-, PR +/-)?

Statystyczne porównanie tkanek zdrowych i chorych

Dla wybranych genów (każdego osobno) dla każdego nowotworu z issue #2 porównaj testem ekspresję w tkankach zdrowych i chorych.
Jako wynik dla każdego genu i nowotworu potrzebna jest tabela:

  • mediana ekspresji w tkance zdrowej
  • mediana ekspresji w tkance chorej
  • fold change i log fold change
  • p-wartość i adjusted p-wartosć

Ekspresja KRAB-ZNF a przeżywalność pacjentów

Analiza ekspresji mRNA czynników KRAB i dane kliniczne pacjentów raka płuc i raka piersi (w TCGA)

  • czy poziom ekspresji koreluje z przeżywalnością pacjentów czy czasem wolnym od choroby (Cox model, Kaplan-Meier)?

Jaki test nieparametryczny do porównania istotności różnic w ekspresji między tkanką nowotworową a normalną

@pbiecek jakiego testu nieparametryczną użyć aby porównać istotność różnic w ekspresji między tkanką nowotworową a normalną?

Obecnie użyłem pakietu DESeq, który normalizuje dane w swój sposób (nie wiem dokładnie jak) oraz wykonałem na tych danych test dwumianowy (binomial test).

Ula sugeruje, że warto dodać też wyniki testu nieparametrycznego. Może można spróbować testu Mann Whitney Wilcoxona, co sądzisz? Prośba o ekspertyzę :)

Czy raw_count jest tym czym się spodziewamy?

W danych z gdac np BRCA.rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes__data mam kolumną raw_counts. Co ciekawe, pare wartości nie jest liczbą całkowitą. Pakiet DESeq i normalizacja a następnie test istotności różnicy między czynnikami jaki wykonuje wymaga aby pracować na raw counts'ach. Pytanie czy te raw_countsy z TCGA są naprawdę raw_countsami. Gdy nie są test nie jest wiarygodny.

@ursole trafiłem na coś takiego:
http://seqanswers.com/forums/showthread.php?t=42911

The (first) RSEM paper explains that the program calculates two values. One represent the (estimated) number of reads that aligned to a transcript. This value is not an integer because RSEM only reports a guess of how many ambiguously mapping reads belong to a transcript/gene. This number is what the TCGA slightly misleadingly calls raw counts.

Czy to może wyjaśnić te parę niecałkowitych wartości w raw_counts'ach jakie trafiłem? Mowa tutaj o normalizacji RSEM - jeszcze nie wiem jak ona działa.

Pytanie do Ciebie, czy działamy na dobrych danych. Pewnie wszystko jest OK, ale chciałby mieć pewność co do wyników z DESeq.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.