Aplikacje głosowe VoIP (Voice over IP) działają na bazie jednego z dwóch podstawowych protokołów implementowanych w terminalach lub bramach: H.323 lub SIP (Session Initiation Protocol). Protokół H.323 został opracowany w połowie lat 90. Pierwotnie był wykorzystywany do prowadzenia wideokonferencji przez połączenia ISDN, a dopiero później organizacja ITU zaadaptowała tę technologię tak, aby mogła być używana do przesyłania pakietów zawierających głos przez sieci IP. ITU zaakceptowała standard H.323 v.1 w 1996 r., a H.323 v.2 w 1998 r.
Standard H.323 jest częścią standardów serii H.32x. Pozostałe standardy tej serii definiują usługi komunikacyjne świadczone przez inne sieci: H.324 - dotyczy sieci opartych na przełączaniu obwodów, H.320 - sieci ISDN, H.321 i H.310 - szerokopasmowych sieci ISDN (B-ISDN), a H.323 - sieci LAN z zaimplementowanymi gwarantowanymi usługami QoS. Opracowany przez IETF (Internet Engineering Task Force), bardziej skutczny w nawiązywaniu komunikacji i elastyczny w sterowaniu połączeniami standard SIP jest nowszym protokołem. Zawiera on proste instrukcje sterujące, opierające się na języku HTML (a więc na skryptach tekstowych, które można w łatwy sposób modyfikować). Architekturę protokołu SIP tworzą jeszcze dwa inne protokoły sygnalizacyjne: SDP (Session Description Protocol) i SAP (Session Announcement Protocol). Model SIP zakłada, iż większość inteligencji systemu VoIP rezyduje po stronie klienta (pod postacią specjalnego oprogramowania typu agent) w urządzeniach, takich jak telefon internetowy czy komputer multimedialny.
Protokoły H.323 i SIP realizują podobne funkcje (ustanawianie i kontrola połączeń). Protokół H.323 bazuje na centralnym serwerze lub innym dedykowanym urządzeniu, które w pełni kontroluje proces VoIP (bramy i nadzorcy). Punkty końcowe (telefony) nie odgrywają tu tak dużej roli, jak w przypadku protokołu SIP. SIP bazuje na bardziej scentralizowanym schemacie sieciowym, w którym wiele inteligentnych funkcji jest realizowanych przez punkty końcowe.H.323 i SIP mają inną strukturę. Tekstowy protokół SIP pracuje powyżej warstwy zawierającej protokół IP. W przypadku protokołu H.323 dane zawierające głos są zagnieżdżane w pakietach IP. Protokół ten jest bardziej skomplikowany niż protokół SIP, który jest przyjazny dla administratora (skrypty). Inaczej niż protokół H.323 (który projektowano z myślą o obsłudze wideokonferencji) protokół SIP powstawał od początku po to, aby obsługiwać technologię VoIP. Dzisiaj jest on obowiązkowym i naturalnym narzędziem w realizacji wszelkich usług głosowych VoIP.