这是一个使用tensorflow平台构建的,运用2维及3维卷积模型来进行语音特征提取的项目。提取的语音特征可用于说话人识别、情绪识别。同时提供了简易的语音速率计算工具。
@article{torfi2017text, title={Text-Independent Speaker Verification Using 3D Convolutional Neural Networks}, author={Torfi, Amirsina and Nasrabadi, Nasser M and Dawson, Jeremy}, journal={arXiv preprint arXiv:1705.09422}, year={2017} }
@Kaiming He, et al. "Deep Residual Learning for Image Recognition." arXiv arXiv:1512.03385 (2015)