Coder Social home page Coder Social logo

alejandroamat / p4 Goto Github PK

View Code? Open in Web Editor NEW

This project forked from ivaaanrm/p4

0.0 0.0 0.0 1.79 MB

P4 - Reconocimiento y Verificación del Locutor

Shell 3.87% C++ 67.83% Python 10.62% Perl 1.48% CSS 11.61% Makefile 0.61% CMake 2.65% Meson 1.33%

p4's Introduction

PAV - P4: reconocimiento y verificación del locutor

Obtenga su copia del repositorio de la práctica accediendo a Práctica 4 y pulsando sobre el botón Fork situado en la esquina superior derecha. A continuación, siga las instrucciones de la Práctica 2 para crear una rama con el apellido de los integrantes del grupo de prácticas, dar de alta al resto de integrantes como colaboradores del proyecto y crear la copias locales del repositorio.

También debe descomprimir, en el directorio PAV/P4, el fichero db_8mu.tgz con la base de datos oral que se utilizará en la parte experimental de la práctica.

Como entrega deberá realizar un pull request con el contenido de su copia del repositorio. Recuerde que los ficheros entregados deberán estar en condiciones de ser ejecutados con sólo ejecutar:

  make release
  run_spkid mfcc train test classerr verify verifyerr

Recuerde que, además de los trabajos indicados en esta parte básica, también deberá realizar un proyecto de ampliación, del cual deberá subir una memoria explicativa a Atenea y los ficheros correspondientes al repositorio de la práctica.

A modo de memoria de la parte básica, complete, en este mismo documento y usando el formato markdown, los ejercicios indicados.

Ejercicios.

SPTK, Sox y los scripts de extracción de características.

  • Analice el script wav2lp.sh y explique la misión de los distintos comandos involucrados en el pipeline principal (sox, $X2X, $FRAME, $WINDOW y $LPC). Explique el significado de cada una de las opciones empleadas y de sus valores.

  • Explique el procedimiento seguido para obtener un fichero de formato fmatrix a partir de los ficheros de salida de SPTK (líneas 45 a 51 del script wav2lp.sh).

    • ¿Por qué es más conveniente el formato fmatrix que el SPTK?
  • Escriba el pipeline principal usado para calcular los coeficientes cepstrales de predicción lineal (LPCC) en su fichero scripts/wav2lpcc.sh:

  • Escriba el pipeline principal usado para calcular los coeficientes cepstrales en escala Mel (MFCC) en su fichero scripts/wav2mfcc.sh:

Extracción de características.

  • Inserte una imagen mostrando la dependencia entre los coeficientes 2 y 3 de las tres parametrizaciones para todas las señales de un locutor.

    • Indique todas las órdenes necesarias para obtener las gráficas a partir de las señales parametrizadas.
    • ¿Cuál de ellas le parece que contiene más información?
  • Usando el programa pearson, obtenga los coeficientes de correlación normalizada entre los parámetros 2 y 3 para un locutor, y rellene la tabla siguiente con los valores obtenidos.

    LP LPCC MFCC
    ρx[2,3]
    • Compare los resultados de pearson con los obtenidos gráficamente.
  • Según la teoría, ¿qué parámetros considera adecuados para el cálculo de los coeficientes LPCC y MFCC?

Entrenamiento y visualización de los GMM.

Complete el código necesario para entrenar modelos GMM.

  • Inserte una gráfica que muestre la función de densidad de probabilidad modelada por el GMM de un locutor para sus dos primeros coeficientes de MFCC.

  • Inserte una gráfica que permita comparar los modelos y poblaciones de dos locutores distintos (la gŕafica de la página 20 del enunciado puede servirle de referencia del resultado deseado). Analice la capacidad del modelado GMM para diferenciar las señales de uno y otro.

Reconocimiento del locutor.

Complete el código necesario para realizar reconociminto del locutor y optimice sus parámetros.

  • Inserte una tabla con la tasa de error obtenida en el reconocimiento de los locutores de la base de datos SPEECON usando su mejor sistema de reconocimiento para los parámetros LP, LPCC y MFCC.

Verificación del locutor.

Complete el código necesario para realizar verificación del locutor y optimice sus parámetros.

  • Inserte una tabla con el score obtenido con su mejor sistema de verificación del locutor en la tarea de verificación de SPEECON. La tabla debe incluir el umbral óptimo, el número de falsas alarmas y de pérdidas, y el score obtenido usando la parametrización que mejor resultado le hubiera dado en la tarea de reconocimiento.

Test final

  • Adjunte, en el repositorio de la práctica, los ficheros class_test.log y verif_test.log correspondientes a la evaluación ciega final.

Trabajo de ampliación.

  • Recuerde enviar a Atenea un fichero en formato zip o tgz con la memoria (en formato PDF) con el trabajo realizado como ampliación, así como los ficheros class_ampl.log y/o verif_ampl.log, obtenidos como resultado del mismo.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.