Ocena subiektywnej jakości mowy (SSQA) to zagadnienie, które stwarza duże wyzwania, zwłaszcza w kontekście umożliwienia modelom skutecznego działania w różnych i nieznanych domenach mowy. Modele SSQA, stosowane w ocenie jakości mowy, napotykają na trudności z generalizacją, głównie dlatego, że wiele modeli, które osiągają dobre wyniki w konkretnych domenach, ma problemy z aplikacją w innych, nowych obszarach. Wynika to z różnorodności danych i systemów oceniania, które różnią się między zadaniami, takimi jak synteza mowy (TTS), konwersja głosu (VC) czy poprawa jakości mowy. Aby zapewnić, że oceny jakości mowy będą zgodne z ludzką percepcją w tych dziedzinach, konieczne jest lepsze dostosowanie modeli SSQA do różnorodnych danych, co do tej pory pozostaje wyzwaniem.
Aktualne podejścia do SSQA
Obecne metody oceny jakości mowy można podzielić na dwie główne kategorie: modele oparte na odniesieniach oraz modele oparte na uczeniu maszynowym. Modele oparte na odniesieniach porównują próbki mowy z próbkami referencyjnymi, natomiast metody oparte na modelach, zwłaszcza głębokich sieciach neuronowych (DNN), uczą się oceny jakości na podstawie zestawów danych oznaczonych przez ludzi. Modele oparte na DNN mają duży potencjał, aby precyzyjnie oddać ludzką percepcję mowy, jednak napotykają na kilka istotnych ograniczeń:
1. Ograniczenia generalizacji: Modele SSQA często zawodzą, gdy są testowane na nowych, nieznanych zestawach danych, co skutkuje niestabilną wydajnością.
2. Stronniczość danych i efekt korpusu: Modele mogą stać się zbyt dopasowane do specyficznych cech zestawów danych, co ogranicza ich skuteczność w innych kontekstach.
3. Złożoność obliczeniowa: Chociaż modelowanie zespołowe może zwiększyć odporność modelu, powoduje jednocześnie wzrost kosztów obliczeniowych, co sprawia, że ocena w czasie rzeczywistym w środowiskach o ograniczonych zasobach staje się niepraktyczna.
MOS-Bench i SHEET – Nowe narzędzia dla SSQA
Aby rozwiązać te problemy, naukowcy wprowadzili benchmark MOS-Bench, który obejmuje siedem zestawów danych do trenowania i dwanaście zestawów testowych, różniących się rodzajami mowy, językami czy częstotliwościami próbkowania. Wraz z MOS-Bench zaprezentowano również narzędzie SHEET, które oferuje ustandaryzowany sposób trenowania, walidacji i testowania modeli SSQA. Połączenie MOS-Bench i SHEET umożliwia systematyczną ocenę modeli SSQA, z szczególnym naciskiem na ich zdolność do generalizacji.
MOS-Bench stawia na podejście bazujące na wielu zestawach danych, co pozwala modelom na nabycie wiedzy z różnych źródeł i dostosowanie się do zmiennych warunków. Dodatkowo wprowadzono nową metrykę oceny – różnicę/współczynnik najlepszego wyniku – która umożliwia bardziej holistyczną ocenę wydajności modeli SSQA na różnorodnych zbiorach danych. Takie podejście pozwala na lepszą generalizację modeli, co stanowi istotny krok naprzód w dziedzinie oceny jakości mowy.
Główne zbiory danych MOS-Bench:
MOS-Bench obejmuje zbiory danych o różnych częstotliwościach próbkowania i oznaczeniach słuchaczy, aby uchwycić zmienność między domenami. Najważniejsze zbiory danych to:
– BVCC – Zbiór danych w języku angielskim, zawierający próbki dla TTS i VC.
– SOMOS – Dane o jakości mowy dotyczące modeli TTS trenowanych na zestawie LJSpeech.
– SingMOS – Zbiór próbek śpiewu w językach chińskim i japońskim.
– NISQA – Próbki mowy przesyłanej przez sieci komunikacyjne, zawierające dane w wielu językach i domenach.
Modele trenowane na zestawie MOS-Bench, takie jak PSTN i NISQA, wykazują dużą odporność na zestawy testowe zawierające syntetyczne próbki mowy. W efekcie, potrzeba skupienia się na danych syntetycznych w celu poprawy generalizacji modeli staje się mniej istotna. W połączeniu z wizualizacjami, modele trenowane na MOS-Bench pokazują większą zdolność adaptacji i spójność w różnych warunkach.
Innowacje w ocenie jakości mowy
Wprowadzenie MOS-Bench i SHEET umożliwia znaczne usprawnienia w generalizacji modeli SSQA, zarówno na zestawach testowych syntetycznych, jak i tych, które nie zawierają sztucznie generowanych próbek. Modele uczą się uzyskiwać wysokie oceny jakości nawet dla danych spoza domeny, co oznacza istotne postępy w automatycznej ocenie jakości mowy. Proces ten umożliwia tworzenie bardziej zaufanych i wszechstronnych modeli, co jest kluczowe dla rzeczywistych aplikacji.
Wnioski z tych badań pokazują, że MOS-Bench ustala nowy, niezawodny benchmark, który pozwala modelom lepiej funkcjonować w różnych domenach. Dzięki temu, ocena jakości mowy staje się bardziej efektywna i możliwa do zastosowania w zróżnicowanych warunkach, co otwiera nowe możliwości w automatyzacji procesów takich jak TTS i VC.
Podsumowanie
Dzięki narzędziom takim jak MOS-Bench i SHEET, naukowcy mogą skutecznie rozwiązywać problem generalizacji modeli SSQA, co stanowi istotny krok naprzód w kierunku bardziej wszechstronnych i efektywnych algorytmów do oceny jakości mowy. Zestawy danych przekraczające granice domen mowy oraz ustandaryzowane narzędzia oceny sprawiają, że badania nad SSQA mają teraz większe możliwości rozwoju i zastosowania w prawdziwych warunkach.