Професионална класификација аудио-а односи се на технологију класификације аудио података у одређене категорије, које се широко користи у препознавању говора, проналажењем музичких информација, праћења безбедности и другим пољима. Њени основни принципи и кораци укључују препроцес, екстракцију функција, оспособљавање класификатора и одлуку о класификацији итд.
Основни принципи и кораци класификације звука
Предрађујући: укључујући узорковање, квантизацију, филтрирање и друго пословање аудио сигнала за побољшање односа квалитета и сигнала на шум сигнала. Уобичајене методе препровода укључују филтрирање фреквенцијских домена и адаптивно филтрирање.
Вађење функција: Анализом аудио сигнала, кључне информације које одражавају његове карактеристике и категорије су екстраховани. Заједничке карактеристике укључују карактеристике временских домена (као што су краткотрајна енергија и нулта прелазна стопа), карактеристике домена фреквенције (као што су спектар) и функције ЦЕПСТРУМ (као што је фреквенцијски коефицијенти мел фреквенције ЦЕПСТРУМ).
Обука класификатора: Користите машинско учење или модели дубоког учења за обуку. Уобичајени модели укључују машине за векторске подршке, случајне шуме, конвуриране неуронске мреже и рекурзивне неуронске мреже итд.
Одлука о класификацији: Класификујте нове аудио податке у складу са обученим моделом.
Обични сценарији апликације
Класификација гласовне емоције: идентификовати емоције у говору, као што је срећа, туга, љутња итд..
Класификација гласовне команде: Идентификујте специфичне гласовне команде, попут "Укључи ТВ", "Репродукујте музику" итд.
Класификација звучника: Идентификујте различите звучнике.
Дискриминација музичког стила: Идентификујте музичке стилове, као што су класични, џез, роцк итд.
Језичка дискриминација: Идентификујте различите језике или дијалете.
Индикатори евалуације
Индикатори евалуације алгоритама за аудио класификацију укључују тачност, опозив и Ф1 резултат. Тачност одражава пропорцију узорака правилно класификованог од стране класификатора на укупне узорке, рефлексира се удео позитивних узорака правилно класификованог од класификатора на све позитивне узорене узоре и Ф1 је Харнизонска средња вредност тачност и опозив, што може свеобухватно одражавати перформансе класификатора.
Dec 18, 2024
Професионална класификација звука
Pošalji upit
