Este trabajo se basó en el paper el cual se desarrolló en la universidad de Waterloo, Canadá bajo la tutela del Prof. Richard Mann de la materia "Computational Audio". La idea principal consiste en asemejar el desempeño de modelos de machine learning considerados "resource intensive" mediante modelos más "tradicionales" del área. Particularmente se utilizaron los siguientes modelos "clásicos":
- Logistic Regression
- Multinomial Bayes
- Random Forests
- XGBoosted Decision Trees
- Multi Perceptron
Los cuales fueron comparados con el modelo más reciente:
- Long Short Term Memory (una dirección)
- Long Short Term Memory (bidireccional)
Utiliza como base de datos el set de IEMOCAP el cual consiste en una serie de grabaciones de expresiones faciales, del habla y transcripciones en texto. El paper explica a detalle del set.
El repositorio cuenta con un archivo .yaml
que contiene todo lo necesario para crear un entorno en Anaconda.
Para correr los modelos y hacer pruebas se utilizó la siguiente GPU:
NVIDIA GEFORCE GTX 1060 Max-Q
6 GB.
Si se desea procesar la base de datos desde 0 es necesario tener más de ~60GB de espacio libre en disco duro:- ~40GB BDD
- ~10GB word embeddings
- ~10GB audio vectorizado
If you find this work useful, please cite:
@article{sahu2019multimodal,
title={Multimodal Speech Emotion Recognition and Ambiguity Resolution},
author={Sahu, Gaurav},
journal={arXiv preprint arXiv:1904.06022},
year={2019}
}