Multiclass voice commands classification with multiple binary convolution neural networks

Jarosław Szkoła

University of Rzeszow


Abstrakt

W uczeniu maszynowym, aby uzyskać dobre modele, konieczne jest trenowanie sieci na dużym zbiorze danych. Bardzo często jest to długi proces, a wszelkie zmiany w wejściowym zbiorze danych wymagają ponownego przeszkolenia całej sieci. W przypadku konieczności rozszerzenia modelu o nowe klasy wyjściowe, wykorzystanie istniejącego modelu staje się problematyczne, a w przypadku rozszerzenia o nowe klasy decyzyjne wymagane jest ponowne przeszkolenie całego modelu na podstawie wszystkich danych. Aby usprawnić ten proces, zaproponowano nową architekturę sieci neuronowej, która pozwala na łatwe rozszerzenie już istniejących modeli o nowe klasy, bez konieczności ponownego uczenia całej sieci, a także czasu potrzebnego na uczenie podmodelu jest znacznie krótszy niż czas potrzebny na przeszkolenie całej sieci neuronowej. Prezentowana architektura sieci jest zaprojektowana dla danych, które posiadają co najmniej dwie klasy decyzyjne.


Słowa kluczowe:

multiclass convolution neural networks, voting decision mechanism, voice commands classification, multiclass classifier, sound wave processing and classification


CORNELIO C., DONINI M., LOREGGIA A., PINI M.S., ROSSI F. 2021. Voting with random classifiers (VORACE): theoretical and experimental analysis. Autonomous Agents and Multi-Agent Systems, 35(22). https://doi.org/10.1007/s10458-021-09504-y.   Google Scholar

DONINI M., LOREGGIA A., PINI M.S., ROSSI F. 2018. Voting with Random Neural Networks: a Democratic Ensemble Classifier. RiCeRcA 2018. arXiv:1909.08996. https://doi.org/10.48550/arXiv.1909.08996.   Google Scholar

HOFFMANN J., BORGEAUD S., MENSCH A., BUCHATSKAYA E., CAI T., RUTHERFORD E., DE LAS CASAS D., HENDRICKS L.A., WELBL J., CLARK A., HENNIGAN T., NOLAND E., MILLICAN K., VAN DEN DRIESSCHE G., DAMOC B., GUY A., OSINDERO S., SIMONYAN K., ELSEN E., RAE J.W., VINYALS O., SIFRE L. 2022.Training Compute-Optimal Large Language Models. https://arxiv.org/abs/2203.15556. https://doi.org/10.48550/arXiv.2203.15556.   Google Scholar

O’SHEA K., NASH R. 2015. An Introduction to Convolutional Neural Networks. arXiv:1511.08458. https://doi.org/10.48550/arXiv.1511.08458.   Google Scholar

SHAFAHI A., SAADATPANAH P., ZHU CH., GHIASI A. , STUDER C., JACOBS D., GOLDSTEIN T. 2020. Adversarially Robust Transfer Learning. ICLR 2020 Conference Blind Submission. https://openreview.net/pdf?id=ryebG04YvB.   Google Scholar

WARDEN P. 2017. Speech Commands: A public dataset for single-word speech recognition. http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz.   Google Scholar

WARDEN P. 2018. Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition. arXiv:1804.03209. https://doi.org/10.48550/arXiv.1804.03209.   Google Scholar

ZEGHIDOUR N., XU Q., LIPTCHINSKY V., USUNIER N., SYNNAEVE G., COLLOBERT R. 2019. Fully Convolutional Speech Recognition. arXiv:1812.06864. https://doi.org/10.48550/arXiv.1812.06864.   Google Scholar


Opublikowane
03-11-2022

Cited By /
Share

Szkoła, J. (2022). Multiclass voice commands classification with multiple binary convolution neural networks. Technical Sciences, 25, 149–170. https://doi.org/10.31648/ts.8098

Jarosław Szkoła 
University of Rzeszow



Licencja

Creative Commons License

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa 4.0 Międzynarodowe.





-->