Coder Social home page Coder Social logo

minicurso_bdbio_bsb_2022's Introduction

Brazilian Symposium on Bioinformatics

🏫 Brazilian Symposium on Bioinformatics

👉 Minicurso de Bancos de Dados Biológicos

Waldeyr Mendes Cordeiro da Silva

📔 Introdução à Biologia Molecular

Dogma

https://en.wikipedia.org/wiki/Central_dogma_of_molecular_biology



https://www.my46.org/intro/what-is-dna


https://www.my46.org/intro/what-is-dna


Sequenciamento de DNA

  • Obter string(s) representando as moléculas que compõem o DNA
  • Ainda não é possível sequenciar toda a molécula diretamente
  • Sequenciar pedaço da molécula começando em alguma posição na direção 5' → 3'
  • Fragmento (read): substring de uma das fitas da molécula alvo de DNA

Não sabemos:

  • A que fita pertence
  • A posição relativa ao início da fita

📔 Dados de Sequenciamento

FASTQ

Exemplo de identificador Illumina:
  • @HWUSI-EAS100R:6:73:941:1973#0/1

  • HSWUSI-EAS100R → Unique instrument name

  • 6 → Flowcell lane

  • 73 → Tile number within the flow cell lane

  • 941 → x-coordinate of the cluster within the tile

  • 1973 → y-coordinate of cluster within the tile

  • #0 → Index number for multiplexed sample

  • /1 → Member of a pair



A qualidade de cada nucleotídeo sequenciado é representada pelo caractere correspondente da tabela ASCII (33 a 126). Os valores sofreram um shift down para 0 a 93 por compatibilidade com a escala PHRED de qualidade que varia de 0 a 60.

É possível gerar relatórios de qualidade das sequências e filtrá-las com softwares como o fastqc, quast, sickle e trimmomatic.


FASTA


Pode ser usado para nucleotídeos ou aminoácidos e consiste basicamente de 2 partes:

  • Um cabeçalho iniciado por > seguido de um identificador da sequência e outras informações. Alguns bancos de dados tem padrões para este cabeçalho.
  • Na linha seguinte ao cabeçalho aparece a sequência em si.

Pode haver várias sequências em um meesmo arquivo (multifasta).

SAM/BAM

Alinhamentos pós-processados de reads.

SAM (Sequence Alignment/MAP) guarda o alinhamento das reads e pode ser lido por diversos softwares como o IGV (Integrated Genome Viewer).

BAM (Binary Alignment/MAP) é uma versão comprimida de um alinhamento das reads. Pode ser obtido diretamente do alinhamento ou convertido a partir de um arquivo SAM.


BED


BED é um arquivo organizado em colunas separadas por tabulação (tab) com anotações da sequência e também pode ser aberto em um genome browser como o IGV.

Arquivos BED têm 12 colunas, 1-3 obrigatórias, 4-12 opcionais

  1. chrom → nome do cromossomo no qual a feature existe
  2. start → posição inicial na sequência
  3. end → posição final na sequência
  4. name → nome da feature
  5. score → 0 and 1000 determina o nível de cinza mostrado, sendo 1000 mais escuro. Pode ser usado para outras medidas, como p-values, up/down, enriquecimento
  6. strand → direção da fita “+” ou “-”
  7. thickStart → posição inicial onde a feature é desenhada
  8. thickEnd → posição final onde a feature é desenhada
  9. itemRgb → determina a cor dos dados
  10. blockCount → número de bloco (exons)
  11. blockSizes → lista de blocos separados por vírgula
  12. blockStarts → lista de posições iniciais dos blocos

GFF

Arquivos GFF são similares aos BED e têm 9 colunas, todas obrigatórias:

  1. seqname → nome da sequência
  2. source → origem da feature
  3. feature → tipo de feature, equivalente ao campo name do BED
  4. start → posição inicial
  5. end → posição final
  6. score → assim como o arquivo BED permite níveis de valores representando a expressividade da anotação
  7. strand → direção da fita “+” ou “-”
  8. frame → frame da sequência codificadora: “0”,“1”,“2” ou “.”,
  9. attribute → muda conforme a versão do GFF (GFF1, GFF2, GFF3) e denota texto descritivo do significado biológico

📔 Bancos de Dados Biológicos

Vamos explorar os bancos de dados biológicos a partir de um problema dado:

Vitaminas são compostos orgânicos que precisam ser obtidos através da dieta. A vitamina C é produzida no fígado por mamíferos e alguns pássaros e nos rins por peixes, anfíbios, repteis e alguns pássaros. Ela é solúvel em água, tem propriedades antioxidantes e é essencial na síntese de colágeno. Vitaminas que humanos não sintetiza ou não sintetiza em quantidade suficiente: A, B1 (thiamine), B2 (riboflavin), B5 (pantothenic acid), B6 (pyridoxine), B7 (biotin), B9 (folate), B12 (cobalamin), E, K.

  • O organismo não produz as enzimas necessárias para sintetizá-la
  • Não são produzidas em quantidade suficiente

10.3389/fphys.2015.00397


Qual a matéria prima para a vitamina C ?

Como essa materia prima é transformada no organismo ?

Qual a enzima que inicia o processo ?

Como é identificada uma e de onde vem a enzima UTP---glucose-1-phosphate uridylyltransferase?

Aqui uma série de links para diversos bancos de dados de onde é possível obter essas respostas.

  1. BRENDA Database: 2.7.7.9
  2. KEGG pathway Amino sugar and nucleotide sugar metabolism
  3. KEGG Reaction
  4. KEGG Compounds (Uridine triphosphate)
  5. PubChem (Uridine triphosphate)
  6. KEGG Compounds (D-Glucose 1-phosphate)
  7. PubChem (D-Glucose 1-phosphate)
  8. KEGG Enzyme UTP---glucose-1-phosphate uridylyltransferase: 2.7.7.9
  9. KEGG Gene UGP2
  10. Uniprot
  11. PDB
  12. Uniprot API

Aqui um Python notebook com exemplos de acesso aos dados de alguns desses bancos via scripts

Python notebook

minicurso_bdbio_bsb_2022's People

Contributors

waldeyr avatar

Watchers

 avatar

Forkers

sammypaco

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.