ASR Rozpoznawanie mowy

ITpedia

Funkcja automatycznego rozpoznawania mowy ASR (Automatic Speech Recognition), coraz częściej instalowana w centralkach abonenckich PABX i systemach telefonii komputerowej CTI, pozwala na prowadzenie uproszczonej konwersacji głosowej między dowolną osobą, a systemem komputerowym. Wyróżnia się dwa rozwiązania. Najczęściej używanym jest system ASR niezależny od mówiącego (ASR niezależny), identyfikujący jedynie ograniczone grupy słów pochodzące od dowolnego nadawcy informacji. W drugim rozwiązaniu ASR, zależnym od mówiącego, identyfikacja obejmuje duży słownik poleceń, pochodzących wyłącznie od konkretnej osoby. Zależne systemy ASR stają się coraz bardziej popularne w środowiskach pracy i sterowania, gdzie nie można korzystać z rąk zajętych operacją manualną, lecz winna być ona wykonywana jedynie przez uprawnionego pracownika.

Obie procedury rozpoznawania mowy eliminują uciążliwe korzystanie z klawiatury przyciskowej DTMF lub komputerowej, zastępują ją wyłącznie sygnałami mowy naturalnej, przetwarzanej za pośrednictwem współczesnej generacji technologii automatycznego rozpoznawania mowy ASR. Prowadzenie dialogu z maszyną za pomocą procedury rozpoznawania mowy umożliwia pokonywanie wielu proponowanych przez systemy komputerowe rozgałęzień algorytmicznych czy zawiłych opcji telefonii komputerowej CTI – zwiększając komfort korzystania z usług teleinformatycznych – dostępnych dotąd za pomocą klawiatury przyciskowej DTMF (Dual Tone Multifrequency Signalling). Ponadto dotychczasowi użytkownicy, współpracujący z systemami usługowymi klasy Call Center czy telefonii CTI za pomocą tradycyjnych telefonów z dekadowym ­wybieraniem impulsowym mogą teraz korzystać z usług zapowiedzi IVR (Interactive Voice Response) bez dodatkowego wsparcia technicznego. Podstawowym wyróżnikiem systemu automatycznego rozpoznawania mowy jest przyjęcie jednego z dwóch kryteriów poszukiwań: albo interpretacja izolowanych słów pojedynczych, albo bardziej zaawansowany sposób rozpoznawanie mowy ciągłej.

Rozpoznawanie mowy ma charakter samouczącego się procesu ciągłego. Oprócz ekstrakcji wybranych parametrów mowy (najczęściej fonemów) system dysponuje wieloma algorytmami wyszukiwania, klasyfikowania i porównywania otrzymanych ekstraktów z wzorcami, a następnie pamiętania uzsyskanych wyników - traktując je jako wzrorce pochodne w dalszym procesie rozpoznawania mowy.
Rozpoznawanie mowy ma charakter samouczącego się procesu ciągłego. Oprócz ekstrakcji wybranych parametrów mowy (najczęściej fonemów) system dysponuje wieloma algorytmami wyszukiwania, klasyfikowania i porównywania otrzymanych ekstraktów z wzorcami, a następnie pamiętania uzsyskanych wyników - traktując je jako wzrorce pochodne w dalszym procesie rozpoznawania mowy.

W systemach z rozpoznawaniem izolowanych słów poszczególne interpretowane słowa muszą być rozdzielone pauzą, a ich niewielki zbiór zwykle nie przekracza kilkunastu lub najwyżej kilkudziesięciu słów. Najczęściej reprezentują one cyfry, pojedyncze rozkazy, hasła czy operacje (matematyczne, handlowe, produkcyjne, inne). Dotychczas stosowane proste metody rozpoznawania ASR interpretują jedynie pojedyncze słowa bądź niektóre zwroty (frazy) wypowiadane przez człowieka. Do często używanych należą komunikaty zawierające poszczególne cyfry, krótkie polecenia albo ciągi izolowanych cyfr lub słów związanych z numerem karty kredytowej, hasłem czy kodem klienta.

W rozpoznawaniu ciągłym dochodzi dodatkowo trudność w określaniu początku i końca zdania, kontekstu słów, fraz językowych, rozpoznawanie ciągu słów izolowanych, pojedynczych słów lub innych, jeszcze mniejszych jednostek elementarnych języka mówionego. W celu bardziej kompleksowego rozwiązania tego problemu przez komputery opracowano statystyczne metody rozpoznawania głosu – oparte na podstawach matematycznych – dające się w prosty sposób adaptować do aplikacji użytkowych. Statystyczna koncepcja takiego rozpoznawania polega na wyszukaniu określonych, wcześniej zarejestrowanych i wyizolowanych elementarnych wyrażeń mowy, których ciągi z największym prawdopodobieństwem odpowiadają odbieranym (odsłuchanym) przez odbiorcę słowom.

Rozwiązania ASR pozwalają na rozpoznawanie mowy ciągłej opierają się na uprzednio zdefiniowanych elementarnych jednostkach językowych, takich jak alofony, fonemy, diafony, sylaby lub nawet krótkie kompletne słowa. Takie podejście umożliwia kontekstowe rozpoznawanie mowy bądź syntetyczne tworzenie na tej podstawie nowych wyrazów, fraz i zwrotów, także pełnych poleceń sterujących. Kompleksowa realizacja takiej idei wymaga korzystania z dwóch metod rozpoznania mowy: modelu akustycznego i językowego. Model akustyczny ujmuje zarejestrowane wzorce wymawiania (przez określoną osobę lub grupę osób) potrzebnych w danym systemie słów, sylab, trójgłosek lub coraz częściej jeszcze mniejszych jednostek, czyli fonemów. W praktyce oznacza to, że do opisania prawie wszystkich słów konkretnego języka starcza zaledwie 40–50 ustalonych fonemów (głosek). Przy ich wyodrębnianiu z głosu uwzględnia się dodatkowo czynnik tempa wymowy, gdyż system musi dawać sobie radę zarówno z osobami, które mówią szybko, jak też i z mówiącymi powoli.

Oprócz modelu akustycznego w systemie rozpoznawania ASR musi funkcjonować model językowy – oparty na kompletnym zasobie słów, które mają być identyfikowane w procesie maszynowego rozpoznawania, wraz z ich transkrypcją fonetyczną. Zasadniczy proces interpretacji mowy dokonuje się przez statystyczne porównanie, z uwzględnieniem reguł gramatycznych języka, zapewniający stałą strukturę wypowiedzi (daty, czasu, poleceń czy fraz). W sytuacjach bardziej złożonych porównuje się statystycznie dwa lub trzy słowa jednocześnie (interpretacja kontekstowa), za każdym razem kontrolując ich zgodność z gramatyką przyjętego języka. Elementem wspomagającym w tym wyszukiwaniu są zestawy wyuczonych zwrotów sporządzone uprzednio na etapie szkolenia. Wybór odpowiednich kryteriów porównawczych, parametrów fonetycznych oraz procedur optymalizujących sposób postępowania (aby transkrypcja przebiegała szybko i w czasie rzeczywistym oraz z dużą wiarygodnością) stanowią istotę właściwego sposobu komputerowego rozpoznawania mowy ciągłej – dla każdego języka mówionego odrębnie.

Elementarne jednostki językowe rozpoznawania mowy ASR
Nazwa jednostki elemnetarnej Zalety Wady
Alofon
  • wyraźnie różnią się akustycznie
  • zawierają informację o granicach między słowami
  • małe wymagania dotyczące reguł na niskich poziomach rozpoznawania
  • zbyt duża liczba alofonów
  • trudność w budowie środków technicznych do wydzilania alofonów
  • większość ma parametry uzależnione od otoczenia alofonu
Fonem (głoska)
  • niewielka liczba klas fonemów
  • występuje bezpośrednio w słownikach jako transkrypcja fonetyczna
  • fonetycznie trudno rozpoznawalne
  • potrzebne dodatkowe reguł na niższych i wyższych poziomach rozpoznawania
Diafon (tranzem)
  • obejmuje informację o przejściach międzyfonemowych
  • możliwości uzyskania reguł koartykulacyjnych
  • duża liczba diafonów
  • trudności ze sterowaniem dużej liczby reguł fonologicznych
Sylaba
  • łatwość rozdziały sylab
  • duża liczba reguł koartykulacyjnych
  • duża liczba sylab
  • trudności w określaniu granic sylab
Słowo
  • mała liczba poziomów rozpoznawania
  • bardzo duże i złożone wzory klas w przypadku pełnych słowników
  • trudne do opisu w słownikach reguły fonologiczne
Źródło: KTS 2000, tom B.

Dla języka polskiego ustalono, że dobrym rozwiązaniem jest rozpoznanie mowy oparte jedynie na 37 podstawowych fonemach, czyli jednostkach zbliżonych do głosek fonetycznych, oznaczanych jako klasy rozpoznawania. Dopiero operowanie na tych elementach mowy (fonemach) – przez odpowiednie porównywanie rozpoznanych ciągów z zarejestrowanym słownikiem – umożliwia dalszą procedurę identyfikacji wyrazów na wyższym poziomie rozpoznania mowy, także analizę typowych zwrotów bądź pełnych zdań języka polskiego. Podany sposób rozpoznania, dostosowany do wymowy języka polskiego, w zasadzie zapewnia prowadzenie swobodnego dialogu z komputerowym systemem telefonicznym, a nawet wykrywanie i korygowanie błędów wymowy człowieka.

-
-