Dla aplikacji głosowych, jak i multimedialnych podstawą komunikacji przez sieci pakietowe jest standard H.323 (październik 1996), wypełniający brakujące ogniwo między siecią pakietową (sieci LAN, intranety firmowe, Internet) a innymi sieciami telekomunikacyjnymi, takimi jak PSTN. H.323 definiuje cztery podstawowe elementy systemu przesyłającego w czasie rzeczywistym dane multimedialne: terminale, bramy, nadzorcę (gatekeeper) i jednostki kontrolne MCU (Multipoint Control Point). W sytuacji typowej elementy systemu standardu H.323 porozumiewają się za pomocą sieci pakietowych korzystających z protokołów TCP/IP bądź UDP/IP, chociaż użycie innych protokołów (np… IPX/SPX firmy Novell) jest też możliwe. Standard ten nadaje się do realizacji różnego rodzaju aplikacji komunikacyjnych, które mogą obejmować: wyłącznie głos (dźwięk), głos razem z danymi w przekazach pakietowych, a także łączny przekaz głosu, danych i obrazu (czyli multimedia). Stanowi on również integralną część przekazów wideokonferencyjnych, zwłaszcza po rozszerzeniu i zaakceptowaniu drugiej wersji tego standardu (styczeń 1998).
Kolejna specyfikacja protokołu w wersji H.323 V.2 zawiera zarówno nowe rozwiązania, jak i wiele usprawnień, które poszerzają możliwości protokołów H.225, H.245, Q.931 oraz powodują, że protokoły T.120/H.323 dostarczają dodatkowych możliwości. Dzięki mechanizmom wprowadzonym w wersji 2 głos można przesyłać nie tylko przez sieci LAN i wydzielone sieci IP, ale także przez Internet. Ponadto użytkownik ma do dyspozycji wiele rozwiązań zwiększających bezpieczeństwo pracy i może elastycznie zarządzać plikami transportującymi dane audio przez sieci pakietowe. Trwają prace nad wersją 3, zmierzające do wyposażenia protokołu H.323 w bardziej sprawne mechanizmy.
Ograniczenia standardu H.323 spowodowały opracowanie kolejnego protokołu SIP (Session Initialization Protocol), lepiej przystosowanego dla transmisji głosowych, będącego propozycją organizacji IETF (Internet Engineering Task Force). W odróżnieniu od H.323 – który jest zbiorem protokołów – zestaw SIP jest jednym z wielu protokołów sterujących, współpracujących z innymi w ustalaniu połączenia telefonicznego.
Protokół SIP nie zapewnia usług sterujących telekonferencją ani nie opisuje sposobu jej zarządzania. Nie przydziela również adresów multicast i nie rezerwuje zasobów. Natomiast może przekazywać informacje potrzebne do realizacji tych czynności. Obiektami adresowanymi przez SIP są użytkownicy i hosty, identyfikowani przez adres URL (Universal Resource Locator) protokołu SIP. U użytkownika jest to jego nazwa lub numer telefonu, a po stronie hosta nazwa domeny lub adres IP. Na własne potrzeby protokół SIP korzysta z różnych serwerów: agenta użytkownika UAS (User Agent Server), zastępczych proxy, zmiany adresu i archiwizujących.
Transakcja protokołu SIP obejmuje zaproszenie do sesji i odpowiedź właściwą. Zaproszenie (prośba) wzywa, aby wywołany abonent przyłączył się do istniejącej sesji połączenia konferencyjnego, lub ustala dla niego warunki połączenia dwustronnego. W zaproszeniu podany jest opis sesji, wyznaczający typy i formaty medialnej komunikacji. W razie zgody adresata odbierającego wywołujący wysyła potwierdzenie i zwraca listę żądanych mediów, co praktycznie oznacza nawiązanie połączenia.
Do rozwoju aplikacji VoIP przyczynia się standaryzacja rozwiązań telekomunikacyjnych odnoszących się do usług głosowych VoIP. Niedawno zatwierdzone (2001 r.) przez Międzynarodowy Związek Telekomunikacyjny ITU-T (Sektor Telekomunikacyjny) rozszerzenie czwartej edycji (CS-4) usług sieci inteligentnej IN ([[Intelligent Network) precyzuje wymagania dotyczące usług głosowych, które winna spełniać sieć telekomunikacyjna dla aplikacji działających na platformach IP.
Zestaw usług CS-4 precyzuje podstawowe i dodatkowe usługi VoIP dostarczane użytkownikowi końcowemu, niezależnie od zainstalowanej przez dostawców sieciowych infrastruktury technicznej i programowej – a więc bez oddziaływania zainstalowanych na trasie różnego rodzaju przełączników sieciowych i platform oprogramowania. Taka elastyczność umożliwia nie tylko realizację bieżącej oferty VoIP, ale stanowi podstawę do serwowania w przyszłości innych, jeszcze nie zdefiniowanych aplikacji multimedialnych zarówno przez sieci IP, jak i przez sieci inteligentne. Według tego projektu elementy standaryzacji obejmują przekaz informacji przez bramy internetowe (gatekeeper) i serwery pośredniczące (proxy), także przez serwery głosowe z usługami rozszerzonej telefonii. Są one niezbędne przy oferowaniu głosowych usług telefonicznych: od klasycznych usług głosowych z przekierowaniem połączeń, mobilności indywidualnego numeru abonenta czy realizacji połączeń bezpłatnych lub z opłatą dzieloną, do tworzenia prywatnych sieci wirtualnych VPN – przydatnych w tworzeniu połączeń telekonferencyjnych i wideokonferencyjnych.