Coder Social home page Coder Social logo

Le projet NeuroViz a pour objectif de mieux comprendre le fonctionnement des réseaux de neurones au cœur des systèmes de traduction automatique de l’état de l’art. Associant deux laboratoire d’informatique et deux laboratoire de linguistique, ce projet propose une approche originale reposant sur l’utilisation de connaissances en traductologie pour analyser de manière qualitative les effets de structures linguistiques et des représentations neuronales sur la qualité des traductions prédites et expliquer, dans une certaine mesure, le « raisonnement » permettant d’obtenir celles-ci.

Réalisations

Description du projet

Actualité et enjeux

Les systèmes de traduction neuronaux ont permis d’améliorer significativement la qualité de la traduction automatique (TA) et celle-ci est de plus en plus utilisée. La TA continue toutefois d’être entachée d’erreurs et de contresens pouvant être lourds de conséquences comme lorsque le nom du président chinois a été transformé en « Mr Shithole » dans la traduction automatique d’une déclaration officielle du porte-parole du gouvernement birman. Nous pensons qu’une compréhension fine du fonctionnement d’un système de traduction neuronal (ici, l’absence de détection d’une entité nommée) est nécessaire pour expliquer les prédictions de celui-ci et permettre d’améliorer encore la qualité de la TA en évitant ce type d’erreur. Nous proposons pour cela une approche originale consistant à étudier le comportement des systèmes de TA sur des exemples choisis spécifiquement selon certaines propriétés linguistiques. Nous nous appuierons pour cela sur trois types de techniques :

  • des sondes linguistiques, comme celles conçues par [Linzen et al., 2016], qui définissent des tâches de classification permettant de savoir si les représentations construites automatiquement par les réseaux de neurones sont capables de prédire certaines propriétés linguistiques. À notre connaissance, ce type de méthodes n’a pas encore été utilisé dans un contexte multilingue ou pour des couples de langues impliquant le français ;

  • des annotations automatiques de textes : nous utiliserons des métriques de complexité lexicale, de lisibilité, de complexité syntaxique [Sousa et al. 2020]] et des annotations sémantiques pour mieux contrôler les types de pertes dans la traduction neuronale ;

  • des techniques de visualisation des différents niveaux d’activation comme celle mises en œuvre par [Montavon et al., 2018] pour la classification d’images. En s’appuyant sur des outils comme seq2seq-Vis ou NeuroX, nous essayerons en comparant les activations des neurones en fonction des propriétés linguistiques des énoncés à traduire, de comprendre comment s’effectue la division du travail dans la traduction neuronale et de dresser une cartographie de l’activation des réseaux de neurones en fonction des propriétés linguistique et des types de tâches.

Partenaires

Financement

Logo IDF

Le projet Neuroviz est soutenu par la Région Ile-de-France dans le cadre d'un financement DIM RFSI 2020

neuroviz's Projects

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.