VoFR Przekaz głosowy

ITpedia

Naturalny rozwój infrastruktury informacyjnej przedsiębiorstw, wynikający ze wzrostu ich aktywności, wymaga utrzymywania tradycyjnych systemów klasy mainframe, sieci komputerowych LAN i spełniających coraz bardziej wyrafinowane wymagania systemów komunikacji głosowo-faksowych. Ważnym składnikiem tych systemów są różnorodne zakładowe sieci komunikacyjne. Należą do nich: dedykowana sieć LAN do obsługi tradycyjnego systemu komputerowego z wieloma terminalami, system przełączający do łączenia sieci lokalnych oraz sieci telefoniczne do przesyłania głosu i faksów – w których transmisja dokonuje się przez centrale PABX, publiczną sieć telefoniczną lub linie dzierżawione.

Konwergencja głosu i danych
Konwergencja głosu i danych

Podstawową wadą takiego rozwiązania jest konieczność utrzymywania (zarządzanie, obsługa i modernizacja) trzech zasadniczo różniących się sieci. Jeśli nawet pominie się problemy techniczne, czyli zarządzanie i obsługę, to pozostaje dotkliwy problem ekonomiczny, związany z koniecznością ponoszenia nakładów na oddzielną modernizację każdej z tych sieci. Wyjściem z tej sytuacji jest zastąpienie dotąd eksploatowanych w przedsiębiorstwie trzech oddzielnych sieci jedną, zdolną do przenoszenia danych z systemów komputerowych (o różnych konfiguracjach) oraz głosu i faksów. Inaczej mówiąc, potrzebna jest sieć integrująca przesyłanie głosu, faksów i danych w jednej sieci pakietowej.

Istotą transmisji głosu przez sieć pakietową Frame Relay jest umieszczanie go w pakietach przez specjalne głosowe urządzenia dostępowe FRAD (Frame Relay Access Device), przeznaczone do pakietowania. Urządzenia te segmentują ramki skomprymowanych danych głosowych (czyli poddanych kompresji) na wejściu sieci telekomunikacyjnej i uruchamiają transport w trybie FR. Po drugiej stronie sieci odebrane ramki składa maksymalnie szybko inne urządzenia komunikacyjne FRAD.

Spis treści

Jakość głosu pakietowego

Jakość głosu jest najistotniejszym problemem w aplikacjach Frame Relay, szczególnie tam, gdzie w ramach kontraktu operatorzy dostarczają użytkownikom także inny sprzęt telekomunikacyjny. O ile pewne ustępstwa w obniżeniu jakości głosu są dopuszczalne w sieciach prywatnych, o tyle operatorzy publicznych sieci pakietowych muszą działać według jednego standardu, wspólnego dla wielu użytkowników sieci. Jakość głosu w tych sieciach nie powinna być gorsza niż w tradycyjnych sieciach telefonicznych z usługami POTS. Ta konkurencja wymusza, że sieć pakietowa FR nie może oferować przekazów głosowych o obniżonych parametrach odnoszących się do: opóźnień pakietów, sposobów kompresji, szybkości kodowania (dekodowania) czy priorytetowania przekazów.

Przekaz głosowy przez FR
Przekaz głosowy przez FR

Do charakterystycznych parametrów świadczących o dobrym przekazie głosu należą: czystość brzmienia głosu, łatwość rozpoznawania mówiącego i minimalizacja opóźnień komunikacyjnych (powodujących wycinanie fragmentów mowy lub dźwięków) w sieci Frame Relay. Po latach doświadczeń i wprowadzania zaawansowanych technologii głos transmitowany przez sieci Frame Relay uzyskał ­wystarczająco dobrą jakość. Przyczyniły się do tego powszechnie stosowane w tych sieciach algorytmy dot. Wysokiego stopnia kompresji głosu typu MP-MLQ (6,3–6,4 kb/s) i ACCELP (5,3 kb/s).

Coraz częściej stosowany algorytm MP-MLQ daje zbliżoną jakość głosu przy szybkości 6,4 kb/s – jak algorytm adaptacyjny ADPCM przy 32 kb/s. Uzyskana w testach średnia ocena jakości głosu komprymowanego według algorytmu MPMLQ (6,4 kb/s) wynosi 3,409 punktu, natomiast według ADPCM32 – 3,491 punktów, w pięciostopniowej skali MOS (Mean Opinion Score). MOS jest testem subiektywnym, w którym grupa słuchaczy ocenia jakość próbek głosu w skali od 1 do 5.

Mimo że powstawanie błędów lub opóźnień w sieciach jest praktycznie nieuniknione, podczas transportu głosu nie można stosować procedur retransmisyjnych – używanych standardowo w transporcie danych. Z tego powodu w sieciach FR stosuje się maksymalnie efektywne algorytmy kompresji głosu (ACCELP lub MP-MLQ), które generują bardzo małe skomprymowane porcje danych głosowych do przesyłania przez sieć. Mała porcja danych jest statystycznie mniej narażona na powstawanie błędów transmisyjnych, a wtedy potrzeba retransmisji jest mniej prawdopodobna.

Komplementarne informacje poprawiające jakość transmitowanego głosu umieszcza się w nagłówkach ramek cechowanych bitem DE=1. Oznacza to, że te właśnie ramki – traktowane jako pomocnicze – będą w pierwszej kolejności eliminowane w sytuacji spiętrzeń, jakie zdarzają się w sieci. O utraconych ramkach rozmówcy dowiedzą się po zmienionym tembrze transmitowanego głosu, ale sam przekaz głosowy będzie nadal zrozumiały. Niektóre sposoby kodowania głosu pozwalają na częściową rekonstrukcję utraconych ramek, dzięki funkcji ekstrapolacji uprzednio odebranych pakietów głosowych. Odpowiednie wyważenie między jakością kodowania, czasem transmisji a odpornością na błędy jest najbardziej istotną cechą procedur głosowych przez sieci FR.

Opóźnienia komunikacyjne

Trzy struktury nagłówka ramki Frame Relay - Parametr DE (Discard Eligibility) w nagłówku pakietu Frame Relay oznacza możliwość usunięcia całego pakietu z sieci. Wartość bitu DE może być ustawiona przez CPE (Customer Premises Equipment) lub urządenia sieciowe w celu zapobieżenia sytuacji, w której użytkownicy intensywnie wykorzystują pasmo komunikacyjne blokuja pozostałych użytkowników sieci. Wartość DE równa 1 oznacza niższy pryiorytet i zgodę na usunięcie pakietu w razie potrzeby. Wartość DE równa 0 oznacza wyższy pryiorytet: jeżeli CPE ustawi bit DE na zero, to urządzenia sieciowe mogą go zmienić na jeden - w zależności od gwarantowanej przepustowości lub wartości parametru CIR.
Trzy struktury nagłówka ramki Frame Relay - Parametr DE (Discard Eligibility) w nagłówku pakietu Frame Relay oznacza możliwość usunięcia całego pakietu z sieci. Wartość bitu DE może być ustawiona przez CPE (Customer Premises Equipment) lub urządenia sieciowe w celu zapobieżenia sytuacji, w której użytkownicy intensywnie wykorzystują pasmo komunikacyjne blokuja pozostałych użytkowników sieci. Wartość DE równa 1 oznacza niższy pryiorytet i zgodę na usunięcie pakietu w razie potrzeby. Wartość DE równa 0 oznacza wyższy pryiorytet: jeżeli CPE ustawi bit DE na zero, to urządzenia sieciowe mogą go zmienić na jeden - w zależności od gwarantowanej przepustowości lub wartości parametru CIR.

Jakość głosu jest bardzo wrażliwa na opóźnienia w sieci. Na opóźnienia te wpływa szereg czynników, takich jak: liczba węzłów sieci pomiędzy przełącznikami (cztery węzły wydaje się optymalną liczbą, a w przypadku większej liczby węzłów jakość głosu znacznie się pogarsza), rodzaj sieci szkieletowej (Frame Relay, ATM, X.25), odległość pomiędzy rozmówcami (łączność regionalna, krajowa, międzynarodowa), ruch w sieci, zatłoczenie (kilku, wielu użytkowników, rodzaj ruchu) oraz kompresja głosu (algorytmy kodowania i dekodowania wprowadzające opóźnienia). Wśród nich wyróżnia się dwa typy opóźnień komunikacyjnych: stałe i zmienne.

Zakres zmian opóźnienia w transmisjach pakietowych - Istotny wpływ na jakość głosu VoIP ma gubienie pakietów w sieci, która to strata nie powinna przekraczać 1 proc. ogólnej liczby przesłanych pakietów głosowych. Akceptowalny poziom zrozumienia mowy może sięgać najwyżej do 5 proc. strat pakietów, natomiast rozmowa przy ok. 10 proc. lub większym barku pakietów staje sie niezrozumiała.
Zakres zmian opóźnienia w transmisjach pakietowych - Istotny wpływ na jakość głosu VoIP ma gubienie pakietów w sieci, która to strata nie powinna przekraczać 1 proc. ogólnej liczby przesłanych pakietów głosowych. Akceptowalny poziom zrozumienia mowy może sięgać najwyżej do 5 proc. strat pakietów, natomiast rozmowa przy ok. 10 proc. lub większym barku pakietów staje sie niezrozumiała.

Opóźnienia stałe pomiędzy stacjami końcowymi (end-to-end) uwidaczniają się w sytuacji, kiedy pakiety docierają do miejsca przeznaczenia po zbyt długich przerwach stałych, powodując efekt zatrzymania rozmowy – podobny do zniekształceń spotykanych w komunikacji satelitarnej. W skrajnych przypadkach prowadzi to do zjawiska znanego jako „podwójny głos”. Opóźnienia zmienne, w których czasy opóźnienia poszczególnych pakietów różnią się, powodują wycinanie fragmentów dźwiękowych z sygnału mowy i zdecydowane pogorszenie jakości sygnału głosowego.

Mniejszy problem z opóźnieniami powstaje w sieciach prywatnych FR. Jeżeli urządzenia pakietowe FRAD są połączone liniami dzierżawionymi w sieci łączącej bezpośrednio wszystkie węzły bez instalacji przełączników wewnątrz sieci, to opóźnienia są powodowane jedynie przez ­mechanizm kontroli dostępu do urządzeń FRAD i algorytmy kompresji/dekompresji. Takie rozwiązanie powoduje powstawanie opóźnień na akceptowalnym poziomie. Jeżeli w topologii sieci FR jest miejsce na centralny przełącznik, to administrator sieci nadaje w nim wyższe priorytety pakietom głosowym. Ponieważ inne zmienne, takie jak liczba węzłów pomiędzy przełącznikami, odległość i poziom zatłoczenia, podlegają kontroli – łączne opóźnienia pakietów głosowych są mniej więcej stałe i nie są krytycznym czynnikiem przekazu.

Inaczej dzieje się w sieciach publicznych Frame Relay. W razie oddziaływania wielu pojawiających się zmiennych w takich sieciach (opóźnienia mogą wynosić od 25 do 250 ms) wraz ze wzrostem ruchu powstają blokady opóźniające poprawny odbiór pakietów głosowych. Z tych powodów operatorzy sieci publicznych niechętnie godzą się na umieszczanie w kontraktach zapisów o gwarantowanych i stałych opóźnieniach czasowych.

Inteligentne urządzenia FRAD mają możliwość pomniejszania skutków stałego opóźnienia pomiędzy stacjami końcowymi za pomocą specjalistycznych modułów do kasowania echa. Natomiast opóźnienia zmienne są obsługiwane przez dedykowane bufory w urządzeniach FRAD i węzłach sieci. Moduły te można parametryzować ręcznie metodą prób i błędów lub automatycznie na podstawie pomiarów rzeczywistego opóźnienia różnicowego.

Priorytety i fragmentacja

Nadawanie priorytetów poszczególnym rodzajom pakietów pojawiających się w sieci FR pozwala minimalizować opóźnienia pomiędzy stacjami końcowymi zmniejszyć skutki opóźnień różnicowych. Mechanizmy nadawania priorytetów i umożliwiają użytkownikom definiowanie poziomów priorytetów (od 1 do 4 lub od 1 do 8) dla identyfikatorów DLCI (Data Link Connection Identifier) warstwy łącza w modelu OSI. Operacja taka nie jest wystarczająca, ponieważ długości ramek z danymi i głosem nie są równe (ramki LAN mają zazwyczaj długość 1500 bajtów, pakiety głosowe zaś 34–40 bajtów). Potrzebny jest więc inny mechanizm zapewniający ramkom z głosem taką samą szansę dostania się do sieci.

Prostym rozwiązaniem jest powiązanie jednego kanału DLCI z jednym portem urządzenia FRAD i ustawienie różnych poziomów priorytetów dla głosu lub danych. Jest to uzasadnione ekonomicznie jedynie w sieciach prywatnych, ale staje się kosztowne w publicznych, gdzie użytkownicy płacą za wykorzystane kanały stałych połączeń wirtualnych PVC (Permanent Virtual Circuit). Stąd zwykle użytkownicy są zainteresowani zmniejszeniem liczby PVC (identyfikatorów DLCI), przy jednoczesnym zachowaniu mechanizmu nadawania priorytetów.

Drugim rozwiązaniem jest połączenie wszystkich danych i głosu w jednym kanale PVC. Niedogodność takiego rozwiązania polega na tym, że urządzenia FRAD potrafią nadawać priorytety jedynie całym kanałom PVC. Zatem użytkownicy sami muszą sobie radzić z tym ograniczeniem, przez przesyłanie głosu i innych danych wrażliwych na opóźnienia przez jeden kanał PVC, a ruchu danych LAN – przez inny.

Najlepszym sposobem nadawania właściwych priorytetów w urządzeniach FRAD jest fragmentacja ramek danych – uzyskiwana przez dzielenie większych ramek z danymi na krótsze segmenty (pakiety). Takie niewielkie fragmenty ramek danych nie są transmitowane w momencie, gdy w sieci pojawiają się ramki głosowe. Dzięki temu prostemu zabiegowi można łatwo ustalić wyższy priorytet dla ramek głosowych niż dla ramek danych. Fragmentacja ramek może znaleźć zastosowanie wszędzie tam, gdzie urządzenia FRAD na obu końcach sieci używają standardowych mechanizmów fragmentacji. Coraz częściej proces fragmentacji ramek dokonuje się również w przełącznikach sieci szkieletowych FR. W takim przypadku wielkość segmentu w przełączniku i urządzeniu FRAD powinna być zawsze taka sama.

Optymalizacja i kompresja ramek

Ramki głosowe wypełnia się treścią maksymalnie szybko, w przeciwnym razie pogarsza się wydajność systemu. Procesory sygnałowe DSP urządzeń pakietowych FRAD tworzą zwykle próbki informacyjne o długości nie większej niż 64 bajty. Oprogramowanie Frame Relay dodaje do każdej takiej wartości VoFR jeszcze 6 bajtów, z których 2 przypadają na znaczniki początku i końca, 2 dla nagłówka pakietu, a 2 są przeznaczone na sekwencję kontrolną FCS (Frame Check Sequence). W sumie wszystkie bajty organizacyjne mogą zająć 10 proc. Tak niewielkiego pakietu głosowego.

W telefonii VoIP, którą wspiera wiele urządzeń FRAD, proporcje te są bardziej niekorzystne, gdyż nagłówek IPv4 zajmuje 20 bajtów, a w protokole IPv6 nawet 40 bajtów – przy czym trzeba doliczyć dodatkowo 8 bajtów dla nagłówka protokołu UDP. W zależności od zastosowanego algorytmu kompresji bajty organizacyjne pakietu VoIP mogą więc stanowić ponad 30 proc. Wszystkich bajtów pakietu.

Wielkość pakietów głosowych
Wielkość pakietów głosowych

Redukowanie liczby nagłówków i optymalizowanie transmisji uzyskuje się przez grupowanie czterech, pięciu lub większej liczby próbek w jedną dłuższą ramkę. W ten sposób otrzymuje się satysfakcjonujący kompromis między czasem opóźnienia a optymalizacją. Optymalizacją ramek zajmują się procesory sygnałowe DSP, które dodatkowo muszą sobie radzić ze strefami ciszy występującymi między słowami a zdaniami. Ponieważ normalna rozmowa składa się z wielu bardzo krótkich stref ciszy, rozmówcy często „wpadają sobie w słowo”. Strefy ciszy są więc odpowiednio kodowane (DSP) i reprezentują określone informacje.

Algorytmy kompresji głosu umożliwiają jego „ściskanie” ze standardowej przepływności 64 do 4,8 kb/s, chociaż większość rozwiązań stosuje jeszcze kompresję głosu jedynie do szybkości 5,3 lub 6,4 kb/s. Kompresowanie głosu w sieci pakietowej FR ma dwie istotne zalety:

  • Zmniejsza całkowity wolumen strumienia przepływającego przez łącze Frame Relay, dzięki czemu potrzebne pasmo przenoszenia może być wielokrotnie węższe (ponad 10 razy) niż przed kompresją głosu. Przykładowo: łączem E1 (2048 kb/s) można poprowadzić 386 rozmów przy kompresji głosu 12:1 lub 256 rozmów przy kompresji 8:1 (przełączanie pakietów), natomiast standardowo bez kompresji sygnałów jedynie 30 rozmów (64 kb/s, przełączanie obwodów). Jeśli przyjąć, że 30 równoczesnych rozmów jest naturalnym standardem przedsiębiorstwa, to nie skomprymowany głos zajmie całe pasmo E1, podczas gdy przy kompresji 12:1 (5,3 kb/s) zostanie dla głosu skonsumowane jedynie pasmo 159 kb/s, a pozostałą część (1889 kb/s) można wykorzystać do transmisji danych.
  • Obniża wymagania wobec wskaźnika minimalnego pasma komunikacyjnego CIR (Committed Information Rate), negocjowanego z operatorem sieci. Jak wiadomo, głos wymaga niewielkiego oraz przewidywalnego opóźnienia, więc jeśli jest on skomprymowany, to potrzebuje węższego pasma – a więc w efekcie tańszego wskaźnika CIR.

Optymalna do zastosowania VoFR jest topologia gwiazdy, która zakłada, że większość danych i informacji głosowych jest przesyłana pomiędzy oddziałami regionalnymi a centralną siedzibą firmy. Zamiast konstruowania sieci łączącej za pomocą PVC (DLCI) oddziały pomiędzy sobą, bardziej ekonomicznym rozwiązaniem jest utworzenie jednego kanału wirtualnego PVC (DLCI) pomiędzy każdym oddziałem, a centralną siedzibą firmy.

Porównanie szerokości pasma dla głosu i danych (z kompresją)
Rodzaj linii (szerokość pasma) Komutacja Kompresja Maks. liczba kanałów głosowych Dodatkowa szerokość pasma dla danych
DSO (64 kb/s) łączy 1:1 (brak) 1 brak pasma dla danych
pakietów 8:1 (8 kb/s) 8 pozostaje 56 kb/s dla danych (z jednym kanałem głosowym)
pakietów 12:1 12 pozostaje 58,7 kb/s dla danych (z jednym kanałem głosowym)
E1 (2,048 Mb/s) łączy 1:1 (brak) 30 brak pasma dla danych (2 kanały x 64 kb/s potrzebne dla ramkowania i sygnalizacji)
pakietów 8:1 (8 kb/s) 256 pozostaje 1808 kb/s dla danych (z 30 kanałami głosowymi)
pakietów 12:1 (5,3 kb/s) 386 pozostaje 1889 kb/s dla danych (z 30 kanałami głosowymi)
-
-