Développer un modèle capable d'identifier le locuteur (Chirac vs. Mitterrand) d'un segment de discours politique.
Un dataset labellisé est fourni pour l'apprentissage
Les données sont au format Pickle
Les sequences
sont la version preprocessed des sentences
. Le dictionnaire produit lors de la tokenization est fourni.
Les données de Test/
ne sont pas labellisées
Prédire les labels de Test
(en respectant le format utilisé dans Learn
)
- Qualité / clarté du code produit
- Simplicité de la solution
- Utilisation du deep learning
Ce qui va être évalué : intelligence de la démarche et compétences en développement
Le résultat des prédictions compte dans une moindre mesure