speech_emotion_recognition's Introduction

Multimodal Speech Emotion Recognition and Ambiguity Resolution

Abstract

Este trabajo se basó en el paper el cual se desarrolló en la universidad de Waterloo, Canadá bajo la tutela del Prof. Richard Mann de la materia "Computational Audio". La idea principal consiste en asemejar el desempeño de modelos de machine learning considerados "resource intensive" mediante modelos más "tradicionales" del área. Particularmente se utilizaron los siguientes modelos "clásicos":

Logistic Regression
Multinomial Bayes
Random Forests
XGBoosted Decision Trees
Multi Perceptron

Los cuales fueron comparados con el modelo más reciente:

Long Short Term Memory (una dirección)
Long Short Term Memory (bidireccional)

Base de Datos

Utiliza como base de datos el set de IEMOCAP el cual consiste en una serie de grabaciones de expresiones faciales, del habla y transcripciones en texto. El paper explica a detalle del set.

Requisitos

El repositorio cuenta con un archivo .yaml que contiene todo lo necesario para crear un entorno en Anaconda.

Observaciones

Para correr los modelos y hacer pruebas se utilizó la siguiente GPU:

NVIDIA GEFORCE GTX 1060 Max-Q
6 GB. Si se desea procesar la base de datos desde 0 es necesario tener más de ~60GB de espacio libre en disco duro:
~40GB BDD
~10GB word embeddings
~10GB audio vectorizado

Citation

If you find this work useful, please cite:

@article{sahu2019multimodal,
  title={Multimodal Speech Emotion Recognition and Ambiguity Resolution},
  author={Sahu, Gaurav},
  journal={arXiv preprint arXiv:1904.06022},
  year={2019}
}

Recommend Projects

mrcrowbar / speech_emotion_recognition Goto Github PK

speech_emotion_recognition's Introduction

Multimodal Speech Emotion Recognition and Ambiguity Resolution

Abstract

Base de Datos

Requisitos

Observaciones

Citation

speech_emotion_recognition's People

Contributors

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent