Multiclass voice commands classification with multiple binary convolution neural networks
Jarosław Szkoła
University of RzeszowAbstrakt
W uczeniu maszynowym, aby uzyskać dobre modele, konieczne jest trenowanie sieci na dużym zbiorze danych. Bardzo często jest to długi proces, a wszelkie zmiany w wejściowym zbiorze danych wymagają ponownego przeszkolenia całej sieci. W przypadku konieczności rozszerzenia modelu o nowe klasy wyjściowe, wykorzystanie istniejącego modelu staje się problematyczne, a w przypadku rozszerzenia o nowe klasy decyzyjne wymagane jest ponowne przeszkolenie całego modelu na podstawie wszystkich danych. Aby usprawnić ten proces, zaproponowano nową architekturę sieci neuronowej, która pozwala na łatwe rozszerzenie już istniejących modeli o nowe klasy, bez konieczności ponownego uczenia całej sieci, a także czasu potrzebnego na uczenie podmodelu jest znacznie krótszy niż czas potrzebny na przeszkolenie całej sieci neuronowej. Prezentowana architektura sieci jest zaprojektowana dla danych, które posiadają co najmniej dwie klasy decyzyjne.
Słowa kluczowe:
multiclass convolution neural networks, voting decision mechanism, voice commands classification, multiclass classifier, sound wave processing and classificationBibliografia
CORNELIO C., DONINI M., LOREGGIA A., PINI M.S., ROSSI F. 2021. Voting with random classifiers (VORACE): theoretical and experimental analysis. Autonomous Agents and Multi-Agent Systems, 35(22). https://doi.org/10.1007/s10458-021-09504-y. Google Scholar
DONINI M., LOREGGIA A., PINI M.S., ROSSI F. 2018. Voting with Random Neural Networks: a Democratic Ensemble Classifier. RiCeRcA 2018. arXiv:1909.08996. https://doi.org/10.48550/arXiv.1909.08996. Google Scholar
HOFFMANN J., BORGEAUD S., MENSCH A., BUCHATSKAYA E., CAI T., RUTHERFORD E., DE LAS CASAS D., HENDRICKS L.A., WELBL J., CLARK A., HENNIGAN T., NOLAND E., MILLICAN K., VAN DEN DRIESSCHE G., DAMOC B., GUY A., OSINDERO S., SIMONYAN K., ELSEN E., RAE J.W., VINYALS O., SIFRE L. 2022.Training Compute-Optimal Large Language Models. https://arxiv.org/abs/2203.15556. https://doi.org/10.48550/arXiv.2203.15556. Google Scholar
O’SHEA K., NASH R. 2015. An Introduction to Convolutional Neural Networks. arXiv:1511.08458. https://doi.org/10.48550/arXiv.1511.08458. Google Scholar
SHAFAHI A., SAADATPANAH P., ZHU CH., GHIASI A. , STUDER C., JACOBS D., GOLDSTEIN T. 2020. Adversarially Robust Transfer Learning. ICLR 2020 Conference Blind Submission. https://openreview.net/pdf?id=ryebG04YvB. Google Scholar
WARDEN P. 2017. Speech Commands: A public dataset for single-word speech recognition. http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz. Google Scholar
WARDEN P. 2018. Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition. arXiv:1804.03209. https://doi.org/10.48550/arXiv.1804.03209. Google Scholar
ZEGHIDOUR N., XU Q., LIPTCHINSKY V., USUNIER N., SYNNAEVE G., COLLOBERT R. 2019. Fully Convolutional Speech Recognition. arXiv:1812.06864. https://doi.org/10.48550/arXiv.1812.06864. Google Scholar
University of Rzeszow