Coder Social home page Coder Social logo

Comments (27)

pbiecek avatar pbiecek commented on August 18, 2024

Czeka na #7 i 2

from krabmen.

ursole avatar ursole commented on August 18, 2024

Tak, potwierdzam format tabeli. #7 już jest zrobiona.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

pierwsza wersja jeszcze bez testu: https://github.com/Kornel/krabmen/blob/heatmap/results/full-table-mean.csv oraz tu https://github.com/Kornel/krabmen/blob/heatmap/results/full-table-median.csv

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

@ursole czy będzie ok gdy test przeprowadzę na danych RSEM nieznormalizowanych, np takich jak tu:
http://gdac.broadinstitute.org/runs/stddata__2015_11_01/data/BRCA/20151101/gdac.broadinstitute.org_BRCA.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes__data.Level_3.2015110100.0.0.tar.gz

?

Uruchomiłem taki test dla BRCA , przykładowy wyniki:

> head(res)
  id  baseMean baseMeanA baseMeanB foldChange log2FoldChange         pval         padj
1  1  997.5183  958.4771 1001.5188  1.0449064     0.06337376 8.456973e-01 8.942419e-01
2  2 2515.9790 1840.1005 2585.2365  1.4049431     0.49051173 4.776743e-10 3.215116e-09
3  3  681.1111  474.1480  702.3187  1.4812225     0.56678838 1.913564e-11 1.633530e-10
4  4  138.4861  172.5656  134.9940  0.7822764    -0.35424966 5.446433e-03 1.155304e-02
5  5  233.0394  213.9342  234.9972  1.0984551     0.13547596 3.837199e-01 4.848447e-01
6  6 1586.0898 1644.7157 1580.0824  0.9607024    -0.05783847 8.076414e-01 8.698193e-01

Tylko zastanawia mnie w tym pliku kolumna raw_counts - dlaczego to jest liczba zmienno przecinkowa - to jest uśredniona wartość powtórzeń technicznych? Narzędzie które chciałem użyć wymaga aby to była liczba całkowita.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

p.s. Te wyniki co wstawiłem otrzymałem zaokrąglając raw_counts do nabliższej wartości całkowitej

from krabmen.

ursole avatar ursole commented on August 18, 2024

A na danych znormalizowanych nie da się tego policzyć? Skoro i tak zaokrąglasz raw-counts.... Jaki jest problem z danymi znormalizowanymi?

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Zarówno DESeq jak i edgeR (z tego co wiem z ich pomocą Basia wcześniej to liczyła chociażby) pracują na "surowych" counstach.

Widać to np o tu: http://bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf

The count values must be raw counts of sequencing reads. This is important for DESeq’s statistical model to hold, as only the actual counts allow assessing the measurement precision correctly. Hence, please do do not supply other quantities, such as (rounded) normalized counts, or counts of covered base pairs – this will only lead to nonsensical results

from krabmen.

ursole avatar ursole commented on August 18, 2024

Ok, jeśli tak, to mogą to być dane nieznormalizowane. Jesteś w stanie mniej więcej ocenić ile czasu zajmą Ci te analizy? Na początek chodzi przede wszystkim o zestawienie tabelaryczne i o heatmapę dla tych czynników, które ulegają zmianom z jakąś określoną wartością, np. fold change +/- 0.4. A potem ustalimy dalsze analizy. Na tej podstawie będzie można wybrać czynniki, które już właściwie mogłabym zacząć analizować w labie. Dobrze by było mieć też jakieś dodatkowe wyniki do plakatu na konferencję za dwa tygodnie.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

hej,

zerknij proszę na
https://github.com/Kornel/krabmen/blob/deseq/results/bionmialTest/full-table-pvalues.csv
.
Tutaj tylko średnia.

Jeżeli dane w plikach RSEM_genes__data.Level_3, np
http://gdac.broadinstitute.org/runs/stddata__2015_11_01/data/BRCA/20151101/gdac.broadinstitute.org_BRCA.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes__data.Level_3.2015110100.0.0.tar.gz
to
są faktycznie raw counts'y, to test binomialTest z DESeq i wartości p-value
będą OK.

Co do heatmapy - co to znaczy fold change +/- 0.4 - chodzi o to aby pokazać
geny których log2 fold change dla każdego nowotworu był > 0.4?

pon., 29.02.2016 o 15:52 użytkownik ursole [email protected]
napisał:

Ok, jeśli tak, to mogą to być dane nieznormalizowane. Jesteś w stanie
mniej więcej ocenić ile czasu zajmą Ci te analizy? Na początek chodzi
przede wszystkim o zestawienie tabelaryczne i o heatmapę dla tych
czynników, które ulegają zmianom z jakąś określoną wartością, np. fold
change +/- 0.4. A potem ustalimy dalsze analizy. Na tej podstawie będzie
można wybrać czynniki, które już właściwie mogłabym zacząć analizować w
labie. Dobrze by było mieć też jakieś dodatkowe wyniki do plakatu na
konferencję za dwa tygodnie.


Reply to this email directly or view it on GitHub
#5 (comment).

from krabmen.

ursole avatar ursole commented on August 18, 2024

Dzięki za te analizy. Prześlesz też nam coś analogicznego, ale z medianą (ale wtedy liczone nie t-testem, tylko jakimś testem nieparametrycznym, np. Wilcoxonem, zgadza się?).

Czy dobrze rozumiem, że BaseMean - to jest średnia wszystkich wartości (nowotworowych + normalnych), BaseMeanA - to średnia dla wartości tkanek normalnych, a BaseMeanB dla wartości tkanek nowotworowych, tak?

Jeśli chodzi o wartości wejściowe, to rzeczywiście powinny to być raw-countsy.

Heatmapa i punkt odcięcia - chodzi o to, żeby na heatmapie były te czynniki, dla których średnia log fold change jest > 0.4 lub < -0,4 dla wszystkich nowotworów. Możesz też dla porównania zrobić taką heatmape również dla mediany.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

dla każdego genu biorę średnią z każdego nowotworu i gdy abs(średnia) >= 0.4 wtedy uwzględniam taki gen.

https://github.com/Kornel/krabmen/blob/deseq/results/heatmap/heatmap-median.png
https://github.com/Kornel/krabmen/blob/deseq/results/heatmap/heatmap-mean.png

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

@ursole tak jak piszesz, A to zdrowi, B to nowotwór.

Rozumiem, że chciałabyś jeszcze aby dokleił do tego pliku mediany dla grupy A i B oraz obydwu?

from krabmen.

ursole avatar ursole commented on August 18, 2024

Tak, poproszę o mediany :)

from krabmen.

ursole avatar ursole commented on August 18, 2024

I jeszcze poproszę o standard error of the mean i o interquartile range (0.25 i 0.75) do tej tabeli. Będzie to nasze źródło danych do opisywania w publikacji.

Zastanawiam się też nad tym zaogrągleniem wartości raw_counts z plików RSEM-genes, bo w opisie DESeq'u wyraźnie piszą, żeby tego nie robić: https://www.bioconductor.org/packages/3.3/bioc/vignettes/DESeq/inst/doc/DESeq.pdf
Nie mam pomysłu, jak rozwiązać ten problem. Możemy albo to zbagatelizować, albo użyć innego narzędzia, które będzie dopuszczało wartości niecałkowite czy też znormalizowane dane. @Przemek Co o tym myślisz?

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

@ursole a SEM i IQR rozumiem osobno dla zdrowej, chorej. Dla wszystkich też? Jeśli chodzi o IQR - tylko Q3 - Q1 czy też surowe wartości Q3 i Q1?

from krabmen.

ursole avatar ursole commented on August 18, 2024

Dla wszystkich nie.

IQR - nie rozumiem pytania. Co to są surowe wartości? Jaka jest różnica między tymi dwoma opcjami?

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Zrozumiałem, że chcesz IQR czyli rozstęp między Q3 (3ci kwartyl, czyli 0.75 percentyl) a Q1 (pierwszy kwartyl, czyli 0.25 percentyl). IQR = Q3 - Q1.

Czyli byśmy mieli kolumnę HealthyIQR oraz TumorIQR. Mogę dodać HealthyQ1, HealthyQ3, TumorQ1, TumorQ3.

Zależy co będziemy z tym dalej robić :)

from krabmen.

pbiecek avatar pbiecek commented on August 18, 2024

Jeżeli chodzi o test DESeq to,
w pliku BRCA.rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes__data są i kolumny po normalizacji i dane surowe rawcounts

Do testu najlepiej wykorzystać rawcounts (i za test wybrać DESeq lub edgeR, wtedy używamy właściwego narzędzia do właściwych rzeczy).

Do heatmapy / mediany / IQR można używać
albo kolumny po normalizacji RSEM
albo wyników normalizacji wykonanych przez pakiet DESeq
counts(cds, normalized=TRUE)

Ta normalizacja powoduje, że poszczególne kolumny z pomiarami można porównywać
RSEM też normalizuje dane ale w inny sposób, do porównań w obrębu genu bez znaczenia którego się użyje
[miałoby znaczenie gdybyśmy chcieli porównywać geny A vs B]

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

@ursole Mediana, SE (to jest Standard Error of the Mean), IQR dodane w https://github.com/Kornel/krabmen/blob/master/results/bionmialTest/full-table-pvalues.csv

from krabmen.

ursole avatar ursole commented on August 18, 2024

Oki, super. To jeszcze jedno uzupełnienie i będzie zrobione. Chodzi mi o analogiczne dodatki do plików robionych na danych z RSEM_genes_normalized:
ze średnimi: https://github.com/Kornel/krabmen/blob/master/results/full-table-mean.csv dodać SEM
z medianą: https://github.com/Kornel/krabmen/blob/master/results/full-table-median.csv dodać wartości Q1, Q3
Heatmapy na tych danych wyglądają trochę lepiej, więc chciałabym mieć jeszcze do kompletu tabelę z danymi.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Ok, czyli chcemy mieć tablę z kolumnami:

  • Gene.ID
  • Dla każdego nowotworu:
    • tumor.mean
    • healthy.mean
    • tumor.median
    • healthy.median
    • fold change mean
    • fold change median
    • log 2 fold change mean
    • log 2 fold change median
    • SEM healthy
    • SEM mean
    • IQR healthy
    • IQR mean

Czy wolisz dwie tabele z kolumnami

Mean:

  • Gene.ID
  • Dla każdego nowotworu:
    • tumor.mean
    • healthy.mean
    • fold change mean
    • log 2 fold change mean
    • SEM healthy
    • SEM tumor

Median:

  • Gene.ID
  • Dla każdego nowotworu:
    • tumor.median
    • healthy.median
    • fold change median
    • log 2 fold change median
    • IQR healthy
    • IQR tumor

oraz czy Q3 i Q1 osobno czy IQR?

Podsumowując:

  • jedna tabela czy dwie?
    • czy format jaki proponuję jest ok?
  • Q3 i Q1 czy IQR?

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Po rozmowie ustaliliśmy jedną tabelę:

  • Gene.ID
  • Dla każdego nowotworu:
    • tumor.mean
    • healthy.mean
    • tumor.median
    • healthy.median
    • fold change mean
    • fold change median
    • log 2 fold change mean
    • log 2 fold change median
    • SEM healthy
    • SEM tumor
    • Q1, Q3 healthy
    • Q1, Q3 tumor

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Dla danych RSEM normalized mamy:
https://github.com/Kornel/krabmen/blob/master/results/rsem-normalized/full-table.csv

Dla danych raw counts znormalizowany DESeq mamy:
https://github.com/Kornel/krabmen/blob/master/results/bionmialTest/full-table-pvalues.csv

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

@ursole moim zdaniem można zamknąć ten issue, daj znać czy jest ok.

from krabmen.

ursole avatar ursole commented on August 18, 2024

Jedna poprawka - do tabeli dla danych raw counts znormalizowany DESeq:
https://github.com/Kornel/krabmen/blob/master/results/bionmialTest/full-table-pvalues.csv dodaj Q1 i Q3 i będziemy mogli zamknąć issue.

from krabmen.

Kornel avatar Kornel commented on August 18, 2024

Good catch, zmieniłem skrypty ale nie wrzuciłem nowych plików.
Przegenerowałem pliki, wrzuciłem.

śr., 9.03.2016 o 10:36 użytkownik ursole [email protected] napisał:

Jedna poprawka - do tabeli dla danych raw counts znormalizowany DESeq:

https://github.com/Kornel/krabmen/blob/master/results/bionmialTest/full-table-pvalues.csv
dodaj Q1 i Q3 i będziemy mogli zamknąć issue.


Reply to this email directly or view it on GitHub
#5 (comment).

from krabmen.

ursole avatar ursole commented on August 18, 2024

ok, dzięki, finito - zamykam

from krabmen.

Related Issues (18)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.