Przeglądarki głosowe mają umożliwić dostęp do Weba z dowolnego telefonu, wykorzystując w tym celu techniki syntezy oraz rozpoznawania mowy. Głosowa interakcja ma umożliwić ominięcie fizycznych ograniczeń stawianych przez klawiatury i wyświetlacze w coraz mniejszych urządzeniach naręcznych. Technika konwersji tekstu pisanego na mowę (text-to-speech) może być łączona z uprzednio zapisanym materiałem audio w podobny sposób jak zagnieżdżanie obrazów w mediach wizualnych (W3C powołało grupę roboczą do przygotowania odpowiednich specyfikacji – standaryzujących zarządzanie dialogami, rozszerzających pod tym kątem istniejące standardy webowe i określających formaty gramatyki mowy – oraz do koordynacji działań istniejących grup roboczych powiązanych z przemysłem informatycznym).
Rozpoznawanie mowy pozwala na efektywne sterowanie przeglądarką. Syntetyzatory mowy są jednak często sterowane w różny sposób, a to utrudnia projektowanie standardów. Istnieje pewna liczba specyfikacji dla gramatyk mowy, zarządzania dialogami i konwersji text-to-speech, co stanowi materiał wyjściowy do projektowania otwartych standardów – bądź przez rozszerzenie istniejących formatów webowych, bądź w postaci specjalizowanego formatu dostarczania. Głównym problemem jest zdefiniowanie standardów języków formatowania opisujących głosową interakcję z użytkownikami, mających umożliwić aplikacjom sieciowym „bezszwowe” przejście z jednej aplikacji do innej i pozwolić na opracowanie łatwych w użytkowaniu narzędzi opisujących konwersacje.
Powstałe już specyfikacje to:
JSGF (Java Speech Grammar Format) jest niezależną od platformy i dostawcy tekstową reprezentacją gramatyk używanych do rozpoznawania mowy. Analizatory mowy używają tych gramatyk do określenia, co stanowi treść mowy, i do opisu wypowiedzi. JSGF używa reprezentacji tekstowej, która jest odczytywalna i edytowalna oraz może być zawarta w kodzie źródłowym Javy. Przyjmuje ona konwencje i styl języka programowania Java, jak również używa tradycyjnej notacji gramatycznej. Do programowania używany jest Java Speech API (JSAPI).
SABLE jest propozycją syntetycznego języka adiustacji – Synthesis Mark-up Language – zaprojektowanego w celu ustanowienia standardowego systemu formatowania tekstu wprowadzanego do syntetyzatora mowy. Specyfikacja łączy trzy istniejące języki formatowania syntezy mowy: SSML (Speech Synthesis Mark-up Language), STML (Spoken Text Mark-up Language) i JSML (Java Synthesis Mark-up Language).
Język formatowania mowy IBM – SpeechML – jest używany do budowania rozproszonych konwersacyjnych aplikacji sieciowych, to znaczy aplikacji, które współdziałają z użytkownikiem za pomocą mowy zarówno na wejściu, jak i na wyjściu.
Innym przykładem języka formatowania mowy jest VoxML firmy Motorola.
Środowisko projektowe aplikacji głosowych składa się zazwyczaj z serwera webowego, prowadzącego aplikacje głosowe napisane w języku „głosowym”, i desktopowego klienta multimedialnego. Zawartość głosowa jest uzyskiwana z serwera aplikacji głosowych przez Internet lub intrasieć za pośrednictwem przeglądarek głosowych. Przeglądarka taka może pracować w desktopowym środowisku projektowym lub w innych urządzeniach.