Alalogowe transmisje głosu mają istotną wadę, gdyż rozmówcy oprócz rozmowy odbierają szumy generowane przez linię telefoniczną. Ze względu na fakt, że sygnały analogowe mają wraz z odległością coraz gorszą jakość, muszą być one okresowo wzmacniane wzdłóż toru transmisyjnego. Ta sytuacja pogarsza jakość usług długodystansowych świadczonych przez standardowe sieci telefoniczne.
Aby wyeliminować wady towarzyszące analogowemu transmitowaniu głosu, w sieciach telefonicznych zaczęto stosować technologie oparte na cyfrowym transporcie głosu, używając konwerterów cyfrowych, takich jak PCM (Pulse Code Modulation) lub ADPCM (Adaptive Differential PCM). W obu przypadkach dźwięk analogowy jest przetwarzany na postać cyfrową (jest próbkowany np… ok. 8000 razy na sekundę, czyli co 125 µs). Interfejs PCM jest istotnym elementem systemów VoIP. Głos analogowy po przekształceniu na głos cyfrowy jest kierowany do systemu VoIP, a konkretnie do modułu (oprogramowania), który realizuje wstępne zadania związane z tworzeniem pakietów przesyłanych przez sieć IP.
Jakość dźwięku przesyłanego przez sieci teleinformatyczne IP zależy przede wszystkim od trzech czynników:
Opóźnienia - można wymienić dwa podstawowe problemy, które pojawiają się wtedy, gdy opóźnienie przy przesyłaniu dźwięku jest za duże: echo i nakładanie się słów wypowiadanych przez rozmówców. Echo powstaje wtedy, gdy opóźnienie przekracza 50-100 ms (zwłoka mierzona w obie strony). Ze względu na to, że echo potrafi zniekształcić całą rozmowę, systemy IP muszą dysponować mechanizmami likwidującymi tę niedogodność. Nakładanie się na siebie słów wypowiadanych przez rozmówców pojawia się wtedy, gdy opóźnienie (mierzone w jedną stronę) jest większe niż 250 ms.
Różnic w opóźnieniach - poszczególne pakiety zawierające głos docierają do celu z różnym opóźnieniem - jedne pakiety przychodzą wcześniej, inne później. Problem ten można rozwiązać przez gromadzenie pakietów w buforze i przetrzymywanie ich do momentu, aż do bufora dotrze najwolniej transmitowany (czy też ostatni) pakiet. Daje to gwarancję, że pakiety będą docierały do miejsca przeznaczenia w odpowiedniej kolejności. Zastosowanie buforów ma jednak tę wadę, że powoduje powstawanie dodatkowego opóźnienia.
Utraty pakietów - sieci IP nie gwarantują, że pakiety zawsze zostaną dostarczone do miejsca przeznaczenia na czas i w odpowiedniej kolejności. Przeciążenia łączy powodują, że pakiety są gubione. Dlatego typowe schematy retransmitowania pakietów nie mają tu zastosowania. Zakłada się, że system VoIP działa w miarę poprawnie, jeśli stopa utraty pakietów nie przekracza 10%.
Do przesyłania pakietów audio stosuje się tandem protokołów IP i UDP, a nie IP i TCP. Dlaczego? Protokół TCP działa w ten sposób, że uszkodzone czy zgubione pakiety są ponownie transmitowane, co w przypadku aplikacji czasu rzeczywistego VoIP nie zdaje egzaminu. Protokół UDP nie retransmituje pakietów. Stosowane są tu natomiast dodatkowe protokoły, takie jak RTP (Real Time Protocol) i RSVP (Resource Reservation Protocol), które gwarantują, że pakiety audio docierają do celu na czas. Oczywiście, nad wszystkim czuwa protokół ITU H.323 (ostatnio wiele aplikacji VoIP opiera się na innym protokole; chodzi o protokół SIP - Session Internet Protocol). Systemy VoIP stały się możliwe do implementowania m.in. dzięki temu, że pojawiły się nowatorskie technologie, takie jak wysoko wydajne układy DSP (Digital Signal Processing - cyfrowe przetwarzanie sygnałów), mogące efektywnie kodować i kompresować dane audio i stosować wyrafinowane algorytmy likwidujące echo.
Jakość głosu IP można poprawiać przez stosowanie wyspecjalizowanego oprogramowania. Jedna z takich technik (eliminowanie ciszy) wykrywa, czy między wypowiadanymi słowami znajdują się dłuższe okresy ciszy. W ten sposób można zaoszczędzić 50-60% przepustowości. Stosuje się też mechanizmy likwidujące echo. Niestety opóźnienia są immanentną cechą aplikacji VoIP. Powstają one wtedy, gdy mowa jest próbkowana i zamieniana na postać cyfrową, także gdy dane cyfrowe są zagnieżdżane w pakietach czy też wtedy, gdy pakiety muszą być przez pewien czas przechowywane w buforze. Zalecenie ITU oznaczone symbolem G.168 określa, jakie warunki trzeba spełnić i jakie rozwiązania zastosować, aby pozbyć się echa.
W systemach głosowych VoIP najczęściej są stosowane kodeki (skrót od słów kodowanie/dekodowanie) falowe, wykorzystujące jedną z dwóch technologii: PCM lub ADPCM (Adaptive Differential PCM). Kodeki takie używają techniki, która wykorzystuje redundancyjne właściwości fali. Oprócz kodeków falowych są też stosowane nieraz tzw. kodeki źródłowe, które kodują dane audio, wysyłając tylko podstawowe informacje o transmitowanym głosie. Kodeki te wymagają mniejszej przepustowości i stosują następujące technologie: Linear Predictive Coding (LPC), Code-Excited Linear Prediction (CELP) i Multipulse-Multilevel Quantization (MP-MLQ).
Techniki kodowania wykorzystywane w sieciach telefonicznych i pakietowych są ustalane przez ITU-T w ramach rekomendacji G.xx. Większość współczesnych ruterów (Cisco) stosuje dwa podstawowe standardy: G.711 i G.729. Standard G.711 opisuje technikę kodowania głosu PCM 64 kb/s. Po przejściu przez kodek G.711 głos ma postać cyfrową i jest gotowy do zagnieżdżania w pakietach. Standard G.729 opisuje kompresję CELP, gdzie głos jest kodowany i ma postać strumieni przesyłanych z szybkością 8 kb/s. Istnieją dwie wersje tego standardu (G.729 i G.729a), każda oferująca jakość podobną do tej, którą zapewnia technologia ADPCM 32 kb/s.
Każdy typ kodeka oferuje inną jakość głosu. Istnieją testy porównawcze, które potrafią ocenić jakość głosu wyprodukowanego przez określony kodek. Testy takie generują parametr MOS (Mean Opinion Score) określający jakość głosu. Przyznają oceny w skali od 1 do 5 (1 - ocena bardzo słaba; 5 - ocena doskonała). W tabeli zaprezentowano wyniki MOS przyznane różnym kodekom.
Telefonia IP jest jednym ze sposobów komunikacji głosowej w lokalnych sieciach LAN wykorzystujących cyfrową transmisję głosu w postaci pakietowej, używając do tego celu protokołu IP. Stanowi ona połączenie technik przesyłania danych przez komutowane sieci PSTN z sieciami pakietowymi, takimi jak Internet (intranet, ekstranet), sieci zakładowe LAN, X.25, Frame Relay czy inne, przystosowane do przesyłania danych. Powszechna implementacja w telefonii IP otwartych standardów interfejsowych - opartych na protokołach IP, TAPI, JTAPI, XML, SOAP czy SQL - upraszcza pisanie aplikacji i umożliwia wdrażanie funkcji dodatkowych. Aplikacje telefonii IP, często stosowane w usługowo-informacyjnych systemach call center, zyskały miano technologii IP czwartej generacji lub IP contact center - całkowicie opartych na technologiach przekazów komputerowych.
Telefonia IP wykorzystuje technologię głosową VoIP i sieć komputerową (wewnętrzną lub zewnętrzną) do transmisji głosu głównie między oddziałami przedsiębiorstwa, dzięki czemu koszt rozmów telefonicznych i przekazów faksowych ulega znacznej redukcji, a w wielu sytuacjach jest praktycznie zerowy. Funkcjonalność telefonii IP wzrasta przez dołączanie zewnętrznych aplikacji, czyli oprogramowania rezydującego na oddzielnych serwerach działających w sieci. Są to nie tylko aplikacje firmowe, takie jak poczta głosowa, konsola recepcjonisty, rejestracja głosu, usługi telefoniczne call center lub obsługa portali głosowych, ale też inne - tworzone przez niezależne firmy dostarczające oprogramowanie bądź bezpośrednio wdrażane przez użytkownika.
Wdrażaniu cyfrowej telefonii IP towarzyszy wiele wspomagających aplikacji, które obejmują: zintegrowaną obsługę wiadomości UMS, obsługę poczty głosowej VMS, systemy zapowiedzi słownych IVR czy rozpoznawanie głosu AVR - udostępnianych przez infrastrukturę komputerową. Pojawienie się telefonii IP w systemach komputerowych wprowadza istotne oszczędności w firmach mających sieć placówek w sieci rozległej, gdzie usługa głosowa może być w całości realizowana w technologii pakietowej.
W tych rozwiązaniach rozmowy telefoniczne wewnątrz firmy i z kooperantami nie są taryfikowane (LAN, VPN), komunikacja ze światem zewnętrznym w ramach strefy telefonicznej osiąga zwykle koszt rozmowy lokalnej (VoIP), a koszt połączeń w relacjach międzymiastowych jest kilkakrotnie niższy od tradycyjnego. Z niewielkimi wyjątkami telefonia IP prawie zawsze współużytkuje pasmo dostępne w przedsiębiorstwie sieci lokalnej. Korzystając z aplikacji zainstalowanych w sieciach LAN, współpracujących z systemem centralowym IP PABX bądź z aplikacjami serwerów sieci lokalnej, cyfrowy telefon IP (sieć LAN) może całkowicie zastąpić funkcje tradycyjnego aparatu telefonicznego.
Do nawiązania połączenia głosowego w sieci LAN używa się serwera, jednak rozmowa przebiega już bezpośrednio najkrótszą drogą między terminalami bez jego pośrednictwa, a serwer jedynie kontroluje przebieg połączenia. Spośród wielu rodzajów oprogramowania stosowanego w pierwszych rozwiązaniach (Internet Phone, WebPhone, Net2Phone) powodzeniem cieszą się aplikacje hybrydowe łączące wcześniejsze rozwiązania z nowymi opracowaniami do transmisji głosu pakietowego. Użytkownik telefonii IP korzysta z odpowiedników tradycyjnych aparatów telefonicznych, zainstalowanych na komputerach osobistych z odpowiednim oprogramowaniem telefonicznym (SoftPhones), lub z cyfrowych telefonów IP (IP Phones) dołączanych bezpośrednio do lokalnej sieci komputerowej Ethernet.
Oprogramowanie softphone instalowane na komputerach PC po stronie klienta zmienia przenośny lub desktopowy komputer w terminal głosowy działający z protokołem IP. Programowe aplikacje softphone są zwykle zintegrowane z popularnymi aplikacjami pocztowymi, takimi jak Microsoft Outlook czy Lotus Notes. W zależności od potrzeb terminale softphone włącza się bezpośrednio do lokalnej sieci komputerowej LAN przez złącze komputerowe lub styk telefoniczny z centralką telefoniczną IP PABX, dostosowaną do obsługi oprogramowania softphone. Rozwiązania najnowsze (2003 r.) umożliwiają realizację takich tanich usług głosowych za pośrednictwem przenośnych komputerów z softphone (notebooków), poprzez różnorodne sieci bezprzewodowe WLAN (Wireless LAN).
Docelowym rozwiązaniem telefonii IP są cyfrowe telefony IP (IP Telephony) wyposażone w ekran LCD i klawiaturę przyciskową. Świadczą one usługi głosowe i współpracują z wieloma protokołami (IP, HTTP, SNMP, SNTP, FTP, DHCP, XML). Większość aparatów IP ma dodatkowy port sieci komputerowej w standardzie Ethernet, który umożliwia podłączenie do sieci LAN komputera lokalnego przez telefon IP. Rozwiązanie to pozwala uniknąć podwójnego okablowania przy stanowisku roboczym użytkownika. Poza prowadzeniem rozmów telefony IP realizują wszystkie standardowe funkcje dostępne w aparatach systemowych, takie jak zestawianie połączeń konferencyjnych, zawieszanie i przełączanie połączeń, programowanie klawiszy szybkiego wybierania, identyfikowanie i prezentowanie numeru wywołującego czy nazwiska osoby dzwoniącej (caller ID). Większość obecnie produkowanych telefonów IP wspiera najnowszy, bardziej efektywny protokół sygnalizacyjny SIP (Session Initiation Protocol). Telefon IP może spełniać funkcje zwykłej przeglądarki internetowej, od której różni się tylko tym, że pobierane i prezentowane strony oraz dane muszą być w formacie języka XML.
Zintegrowane systemy przekazywania wiadomości oparte na telefonii IP umożliwiają wybieranie głosowe i nawiązywanie połączeń, otrzymywanie zawartości poczty głosowej jako załącznika do e-maila, odsłuchanie wiadomości własnej skrzynki pocztowej przekazanych podczas nieobecności abonenta. Z innych aplikacji należy wymienić: przeglądanie serwisów internetowych za pomocą telefonu z wyświetlaczem, prezentowanie ustalonego terminarza spotkań, bieżącą prognozę pogody, wyniki giełdowe czy integrację telefonu IP z przeglądarką WWW zainstalowaną w komputerze. Najnowsze rozwiązania telefonów IP pozwalają zestawiać dwukierunkowe połączenie telefoniczne jedynie przez wybranie odsyłacza (ikony) przeglądarki i prowadzić głosową obsługę serwisu wybranych portali.