Coder Social home page Coder Social logo

anno's Introduction

anno

R package to download and clean references and prepare annotations

anno's People

Contributors

emetexe avatar liatia avatar jacquessimard avatar charlesjb avatar

Watchers

James Cloos avatar  avatar

Forkers

liatia

anno's Issues

Mettre à jour la man page

  • Mettre à jour le manuel de la fonction prepare_anno pour tenir compte des derniers changement
  • devtools::document()
  • version bump

Appeler une seule fois extract_anno

La fonction extract_anno est appelée trois fois:

Déjà, à la ligne 119 et 123, la fonction extract_anno est appelée sur exactement les mêmes données. On ne devrait pas appeler cette fonction sur les données nettoyées car la seule différence avec les données brutes est au niveau des nom (le identifiants ensembl devraient être identiques).

De plus, étant donnée que l'opération de mapIds est relativement longue, on devrait éviter de la répéter plusieurs fois. On devrait plutôt faire comme aux lignes 174 à 176 où on fait un sous-ensemble des données originales.

TODO:

  • Remplacer les fonction extract_anno qui ne sont pas sur les données brutes soit par un filtre (i.e.: la fonction dplyr::filter) ou bien en utilisant un indice comme pour les lignes 174 à 176.
  • Ajouter une validation dans la fonction save_anno_resuts pour s'assurer que les identifiants sont identiques pour le fasta et pour l'annotation (on doit retrouver exactement les mêmes identifiants, exactement dans le même ordre).
  • Incrémenter la version du paquet dans le fichier DESCRIPTION.

Mettre anno sur gitlab

Tester si anno peut être installé depuis gitlab -- et si oui le faire aussi pour le package rnaseq

Review stopifnot

Regarder s'il y a des erreurs stopifnot qui ne sont pas clairs et remplacer par stop au besoin.

Modifier les fichiers générés

  • Base de données brute
    • ensembl104_raw_ref.fa
    • ensembl104_raw_ref.csv
  • Filtrage sans chromosomes alternatifs
    • ensembl104_no_alt_chr.fa
    • ensembl104_no_alt_chr.csv
  • Filtrage avec uniquement les protein coding
    • ensembl104_protein_coding.fa
    • ensembl104_protein_coding.csv

Nouvelle version Rattus norvegicus

Le code ne fonctionne plus avec Rattus norvegicus car il y a une nouvelle version.

Dans le code présentement, il utilise Rnor_6.0: https://github.com/CharlesJB/anno/blob/master/R/prepare_anno.R#L251

Sur Ensembl, c'est maintenant mRatBN7.2: http://ftp.ensembl.org/pub/release-108/fasta/rattus_norvegicus/cdna/

Il faut:

Paramètre par défaut pour org: Ensembl

Il faudrait donner au paramètre org la valeur par défaut "Ensembl".

  • Ajouter une valeur par défaut
  • Mettre à jour la man page
  • devtools::document()
  • Incrémenter la version du paquet

Séquences de taille 0?

Selon la ligne 162, il y a des séquences de taille 0 qu'il faut ignorer. À priori, il me semble qu'il ne devrait pas y avoir de séquences de taille 0 dans la base de données de référence. Il faudrait donc remplacer par un stopifnot ou bien par une commande équivalente.

Si jamais il y a vraiment des séquences de taille 0 dans les bases de données, il faudrait documenter le phénomène avant avant de conserver le code tel qu'il est présentement.

Ajouter un paramètre path

Pour le moment les sorties sont sauvegardées dans le répertoire courant, a terme il peut être intéressant de créer un argument path permettant de sauvegarder les sorties dans un dossier au choix. le défaut de ce path restera ".", le dossier courant.

A faire :

  • Ajouter un argument path, defaut "."
  • Ajouter ce path au prefix lors de la sauvegarde des fichiers
  • Tester l'ajout du path
  • Mettre à jour le manuel de la fonction

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.