Diplom arbeit lotfi_faik_2005

Fachhochschule Köln
University of Applied Sciences Cologne

07 Fakultät für Informations-, Medien- und Elektrotechnik,
Studiengang Elektrotechnik/NT

Institut für Nachrichtentechnik
Labor für Datennetze

Diplomarbeit

Erweitertes Accounting in VoIP-Netzen auf der Basis von
SIP und RADIUS

Student: Lotfi Faik
Matrikelnummer: 11023333
Abgabedatum: 25.02.2005

Referent: Prof. Dr.-Ing. Andreas Grebe
Korreferent : Dr. Andreas Kumpf

Hiermit versichere ich, daß ich die Diplomarbeit selbständig angefertigt und keine anderen
als die angegebenen und bei Zitaten kenntlich gemachten Quellen und Hilfsmittel benutzt
habe.

Lotfi Faik

Inhaltsverzeichnis i

Inhaltsverzeichnis

1. Einleitung .......................................................................................................... 1
1.1 Begriffserklärung ............................................................................................................. 2
1.2 Motivation und Zielsetzung ............................................................................................. 3
1.3 Aufbau der Arbeit............................................................................................................. 3
2. VoIP (IP-Telefonie)........................................................................................... 5
2.1 Grundsätzliche Unterschiede zu PSTN ............................................................................ 5
2.2 VoIP-Varianten ................................................................................................................ 6
2.2.1 PC-zu-PC-Telefonie .................................................................................................. 6
2.2.2 PC-zu-Telefon-Verbindungen................................................................................... 7
2.2.3 Telefon-zu-Telefon-Verbindungen ........................................................................... 8
2.3 Funktionsweise der IP-Telefonie ..................................................................................... 9
2.3.1 Netzaufbau ................................................................................................................ 9
2.3.2 Komponenten .......................................................................................................... 10
2.3.3 Anrufsignalisierung................................................................................................. 12
2.3.4 Medienübertragung ................................................................................................. 13
2.3.5 Transportprotokolle ................................................................................................. 13
2.4 Quality of Service........................................................................................................... 15
2.4.1 Verzögerung (Latency) ........................................................................................... 15
2.4.3 Jitter......................................................................................................................... 18
2.4.4 Echo......................................................................................................................... 19
2.4.5 Paketverluste (Packet Loss) .................................................................................... 20
2.4.6 Sprach-Aktivitäts-Entdeckung (Voice Activity Detection) .................................... 21
2.5 Codecs ............................................................................................................................ 22
2.5.1 Kodierungsverfahren............................................................................................... 24
2.5.2 Sprachdaten-Komprimierung .................................................................................. 26
2.5.3 Standards der Sprachkodierung............................................................................... 27
2.5.4 Qualität der Codecs ................................................................................................. 28
2.6 H.323-Standard .............................................................................................................. 30
2.6.1 Architektur .............................................................................................................. 30
2.6.2 H.323-Protokollsuite ............................................................................................... 31
2.6.2.1 RAS-(Registration Admission Status) Signalisierung ..................................... 31
2.6.2.2 Anruf-Kontroll-Signalisierung (H.225) ........................................................... 35
2.6.2.3 Medien-Kontroll-Signalisierung (H.245)......................................................... 35
2.6.2.4 Anruf-Signalisierung (Q.931) .......................................................................... 35
2.6.2.5 Unterstützung von Datenanwendungen nach T.120 ........................................ 36
2.6.2.6 Struktur von Anruf-SIG-Nachrichten beim H.225.0........................................ 36
2.6.3 H.323-Verbindungsablauf ....................................................................................... 37
2.6.4 Zusammenfassung................................................................................................... 38
2.7 SIP (Session Initiation Protocol) .................................................................................... 39
2.7.1 SIP-Protokollhierarchie........................................................................................... 39
2.7.1 SIP-Architektur ....................................................................................................... 39
2.7.2 Grundlegende Funktionsweise ................................................................................ 42
2.7.2.1 Adressierung..................................................................................................... 42

Inhaltsverzeichnis ii

2.7.2.2 Das Auffinden eines Servers ............................................................................ 42
2.7.2.3 SIP-Transaktionen............................................................................................ 43
2.7.2.4 Das Auffinden eines Benutzers ........................................................................ 43
2.7.3 SIP-Message............................................................................................................ 43
2.7.3.1 SIP-Request...................................................................................................... 48
2.7.3.2 SIP-Response ................................................................................................... 49
2.7.4 SIP-Registrierung .................................................................................................... 50
2.7.4 SIP-Verbindungsablauf ........................................................................................... 52
2.8 SIP im Vergleich zu H.323 ............................................................................................ 53
2.8.1 Auf- und Abbau einer Verbindung.......................................................................... 53
2.8.2 Komplexität............................................................................................................. 53
2.8.3 Erweiterbarkeit ........................................................................................................ 54
2.8.4 Skalierbarkeit .......................................................................................................... 54
3. AAA (Authentication, Authorization, Accounting) und Billing .................... 55
3.1 AAA-Komponenten ....................................................................................................... 57
3.1.1 AAA-Clients............................................................................................................ 57
3.1.2 AAA-Server ............................................................................................................ 57
3.1.3 AAA-Proxies........................................................................................................... 57
3.2 AAA-Architektur ........................................................................................................... 58
3.3 AAA-Protokolle ............................................................................................................. 60
3.3.1 RADIUS .................................................................................................................. 60
3.3.2 TACACS ................................................................................................................. 60
3.3.3 DIAMETER ............................................................................................................ 60
4. RADIUS .......................................................................................................... 62
4.1 Einführung...................................................................................................................... 62
4.2 Radius-Eigenschaften..................................................................................................... 62
4.3 RADIUS-Spezifikationen............................................................................................... 64
4.3.1 Paketformat ............................................................................................................. 64
4.3.2 Pakettypen ............................................................................................................... 65
4.3.3 Attributformat.......................................................................................................... 66
4.3.4 Proxying .................................................................................................................. 67
4.4 Arbeitsablauf der RADIUS-Authentifizierung .............................................................. 67
4.5 RADIUS-Accounting ..................................................................................................... 69
4.5.1 Wie funktioniert Radius-Accounting? .................................................................... 69
4.5.2 Accounting-Pakettypen ........................................................................................... 69
4.5.3 Arbeitsablauf des RADIUS-Accounting................................................................. 70
5. Entwicklungsumgebung .................................................................................. 72
5.1 VoIP-Netz....................................................................................................................... 72
5.1 SER (SIP-Express-Router)............................................................................................. 73
5.2.1 Was ist SER?........................................................................................................... 73
5.2.2 Installation............................................................................................................... 74
5.2.3 Konfiguration .......................................................................................................... 75
a) Konfigurationsdatei.................................................................................................. 75
b) Datenbank und Datenbankbibliothek erstellen ........................................................ 77
5.2.4 Anwendung ............................................................................................................. 77
5.2.4.1 SER starten....................................................................................................... 77
5.2.4.2 Benutzer anlegen .............................................................................................. 77
5.2.4.3 Registrierte Benutzer ansehen.......................................................................... 78
5.2.5 SERWEB (Web-Interface von SER)....................................................................... 78

Inhaltsverzeichnis iii

5.2.5.1 Installation........................................................................................................ 78
5.2.5.2 Konfiguration ................................................................................................... 78
5.2.5.3 Anwendung ...................................................................................................... 79
5.3 Freeradius ....................................................................................................................... 81
5.3.1 Was ist Freeradius? ................................................................................................. 81
5.3.2 Installation und Grundkonfiguration....................................................................... 81
a) Radiusclient.............................................................................................................. 81
b) Radiusserver............................................................................................................. 82
5.3.4 Radius-Server starten und testen ............................................................................. 84
5.4 SER und Freeradius........................................................................................................ 85
5.5 MySQL-Datenbank ........................................................................................................ 86
6. Implementierung ............................................................................................. 88
6.1 Erweiterungsanforderungen ........................................................................................... 88
6.2 Mobilität ......................................................................................................................... 89
6.2.1 Nomaden-IP-Adresse .............................................................................................. 89
6.2.1 Anschluss-IP-Adresse ............................................................................................. 91
6.3 Verbindungsdauer .......................................................................................................... 91
6.4 Type of Service .............................................................................................................. 93
6.5 Quality of Service........................................................................................................... 93
6.5.1 Verwendete Codecs................................................................................................. 93
6.5.2 Bandbreite ............................................................................................................... 94
6.6 Übertragenes Volumen................................................................................................... 95
6.7 Instant Messaging........................................................................................................... 96
6.8 Konferenz ....................................................................................................................... 98
7. Fazit ............................................................................................................... 100
Abbildungs- und Tabellenverzeichnis............................................................... 102
Literaturverzeichnis........................................................................................... 104
Abkürzungenverzeichnis................................................................................... 106
Anhang 1: SIP Status Code ............................................................................... 110
Anhang 2: Dictionary File................................................................................. 111
Anhang 3: RADIUS-Attribut-Typen................................................................. 117
Anhang 4: Quell-Code-Änderungen ................................................................. 119

1. Einleitung 1

1. Einleitung

Der in der ganzen Menschengeschichte unvergleichbare Fortschritt der Wissenschaft und
Technik im letzten Jahrhundert ist ohne die explosionsartige Entwicklung der
Kommunikation nicht vorzustellen.
Sichere und zuverlässige Kommunikation ist eines der wichtigsten Bestandteile der heutigen
Gesellschaft. Dabei handelt es sich sowohl um die verbale Kommunikation als auch um den
Austausch von Informationen über Fax oder Internet.
Auf das Telefon kann man heutzutage nicht mehr verzichten. Es bietet eine schnelle
Möglichkeit, direkt zu einer Person Kontakt aufzunehmen, und durch den Einsatz des mobilen
Telefons ist das Wissen des Aufenthaltsorts irrelevant geworden.
In den letzten zwanzig Jahren nahmen die technischen Möglichkeiten im Telefonieumfeld in
sehr kurzen Abständen rasant zu. So bietet z.B. ISDN1 vielfältige technische Möglichkeiten
neben dem „Nur-Telefonieren“.
Für die Übermittlung von nonverbalen Informationen bietet die Telefonie-Infrastruktur den
Fax-Service an, der jedoch primär für Texte, und nicht für Bilder geeignet ist.
Parallel dazu hat das Internet auch in den vergangenen zwanzig Jahren immer mehr an
Bedeutung gewonnen, vor allem beim nonverbalen Informationsaustausch.
Telefon und Internet sind jedoch zwei voneinander unabhängige Netzinfrastrukturen, die
getrennt gepflegt werden müssen.
Seit einigen Jahren bietet IP-Telefonie Sprachübertragung über IP2-basierte Netze, also über
das Internet, mit dem langfristigen Ziel, das separate Telefonnetz einsparen zu können.
Zunächst wird die Migration beider Netze nötig, wobei sich Komponenten beider Netze (IP-
Netz und PSTN3) gemeinsam nutzen lassen.

1
ISDN: Integrated Services Digital Network: Digitale Variante des herkömmlichen Telefonnetzes. ISDN stellt
die Integration vieler einzelner Dienste wie Telefonie, Fax, Telex, typische leitungs- oder paketvermittelte
Datendienste etc. in ein einheitliches Mehrdienstenetz dar.
Die Vorteile liegen in einer besseren Sprachqualität, einer höheren Datendurchsatzrate und ein schnelleres
Anwählen andere Telefonnummern. Die Telekomfirmen bieten in der Regel bei einem ISDN-Anschluss eine
zweite Leitung sowie drei Rufnummern und weitere Serviceleistungen an.
2
IP: Internet Protocol: Die Aufgabe des Internet-Protokolls (IP) besteht darin, Datenpakete von einem Sender
über mehrere Netze hinweg zu einem Empfänger zu transportieren. Die Übertragung ist paketorientiert,
verbindungslos und nicht garantiert. IP garantiert weder die Einhaltung einer bestimmten Reihenfolge noch eine
Ablieferung beim Empfänger. Empfangsquittungen gibt es auf IP-Schicht nicht. Die maximale Länge von IP-
Datenpaketen ist auf 65.535 Bytes beschränkt.
3
PSTN: Public Switched Telephne Network. Öffentliches Telefonnetz, oft mit digitalen Vermittlungsstellen
(Switches).

1. Einleitung 2

Abbildung 1: IP-Netz-PSTN-Migration

Legende: PSTN: Public Switched Telephone Network,
POTS4: Plain Old Telephone Service,
SIP5: Session Initiation Protocol,
IP Phone: Internet-Protocol-Telefon.
Gateway: Verbindungseinrichtung zur Kopplung von Netwerken
unterschiedlichster Art.

1.1 Begriffserklärung

Bevor eine eindeutige Zielsetzung für diese Arbeit formuliert werden kann, sind grobe
Erklärungen der im gewählten Diplomarbeitstitel vorkommenden Begriffe unerlässlich.
Ganz am Anfang ist der Begriff „AAA“ kurz zu erklären, damit andere von ihm abhängige
Begriffe deutlich werden.
„AAA“ (Authentication, Authorization, Accounting) bezieht sich auf die Aufgaben
Authentication: Authentifikation, Echtheit des Benutzers feststellen,
Authorization: Autorisierung, Zugriffsberechtigung zu den gewünschten Diensten/Inhalten
prüfen und
Accounting: Kontierung/Leistungserfassung, also die Protokollierung von Art und Umfang
der genutzten Leistungen.

4
Unter POTS ist die analoge Telefonie zu verstehen, die eine Bandbreite von 3,1 kHz hat, die im
Frequenzbereich von 300 Hz bis 3,4 kHz liegt. Dieser Frequenzumfang ist so gewählt, dass die
Sprachübertragung verständlich ist und der Sprechende mit seinen Stimmcharakteristiken erkannt werden kann.
5
Das SIP-Protokoll ist ein Signalisierungsprotokoll für die IP-Telefonie, das im Rahmen dieser Diplomarbeit
noch tiefer behandelt wird.

1. Einleitung 3

„VoIP“ ist die Abkürzung von „Voice over IP“ und wird auch auf Deutsch IP-Telefonie
genannt.
„SIP“ ist das „Session Initiation Protocol“: Protokoll zur Verbindungssteuerung für VoIP.
„RADIUS“ kürzt „Remote Authentication Dial-In User Service“ ab, und ist das wichtigste
AAA-Protokoll.
„Billing“ Unter diesem weit gefassten Begriff versteht man die Abrechnung der IT-
Leistungen für die Nutzung unterschiedlicher Netze und Dienste. Das Billing umfasst die
Sammlung der Verbindungs- und Übertragungsdaten, die Zuordnung der Daten, das so
genannte Accounting, das Rating mit der Zuordnung der verschiedenen Tarife, die
Rechnungsstellung, das Controlling und das Inkasso.
Für die Bezahlung von Einkäufen im Web bietet sich das Online-Billing an, von dem es
mehrere Bezahlsysteme gibt.

1.2 Motivation und Zielsetzung

Diese Diplomarbeit ist eine Zusammenarbeit der Fachhochschule Köln mit der Firma TECON
Systems AG.
Diese entwickelt eigene Produkte und Software-Lösungen im Kundenauftrag, wobei das IT-
Accountig einer der Schwerpunkte ist.
Im IP-Telefonie-Bereich hat TECON ein Verfahren entwickelt (GEOVIPA), das ursprünglich
für die geographische Verzonung von VoIP-Verbindungen erdacht wurde und während der
Entwicklung verbessert und erweitert werden dürfte.
Mit neuen und innovativen Abrechnungslösungen für VoIP will TECON für die zukünftigen
Anforderungen im internationalen Markt „Akzente setzen“.
Da das Billing Ziel aller Prozesse ist, gerade bei Service Providern, die für ihre Leistungen
schließlich vergütet werden wollen, beabsichtigt TECON ihnen bei den neuen
Abrechnungslösungen genügend Accounting-Daten anzubieten.
Dies war der Hintergrund der Unterstützung dieser Diplomarbeit durch die Firma TECON.
Ihrerseits wurde das RADIUS-Protokoll als Basis der Entwicklung vorgeschlagen, um im
Rahmen dieser Arbeit detaillierte Accounting-Daten gewinnen zu können.

1.3 Aufbau der Arbeit

Im ersten Teil dieser Diplomarbeit wird das nötige theoretische Wissen vorgestellt:
Kapitel 2: Voice over IP und seine Standards,
Kapitel 3: AAA, seine Architektur und seine Protokolle,

1. Einleitung 4

Kapitel 4: Die Funktionalität von RADIUS und deren Attribute, sowie das RADIUS-
Accounting und deren Konfigurationsoptionen.
Im Zweiten Teil wird die Entwicklungsumgebung vorgestellt, dies erfolgt in dem Kapitel 5.
In diesem Kapitel wird die Realisierung im Rahmen der Arbeit zusammengefasst, dabei
wurde eine Open-Source6-RADIUS-Variante (freeradius) installiert und in Betrieb
genommen.
Einen Open-Source-SIP-Server7, der eine einwandfreie Interoperabilität mit dem Freeradius-
Server zeigt, wurde ebenfalls installiert und konfiguriert. Hier wurde der SIP-Express-Router
eingesetzt.
Im Dritten Teil (Kapitel 6) wurden die eigentlichen Entwicklungen und der Kern dieser
Diplomarbeit vorgestellt. Die Arbeit umfasst insgesamt über 700 Zeilen selbst geschriebenen
Quellcode.
Kapitel 7 fasst die wesentlichen Ergebnisse zusammen und schließt mit einem Ausblick auf
weiterführende Arbeiten.

6
Der englische Ausdruck Open Source steht für quelloffen, einerseits in dem Sinne, dass der Quelltext eines
Programms frei erhältlich ist, andererseits für 'offene Quelle', also dass ein Werk frei zur Verfügung steht.
7
SIP-Server ist eine Vermittlungsstelle der Teilnehmer im VoIP-Netz

2. VoIP (IP-Telefonie) 5

2. VoIP (IP8-Telefonie)

Unter IP-Telefonie im klassischen Sinn wird die Übertragung von Gesprächen direkt über das
Internet durch die Nutzung des Internet-Protokolls (IP) verstanden. Man verwendet dafür
verschiedene Begriffe, wie Internet Telefonie, IP Telefonie, Packet Voice und auch Voice
over IP.
Die erste Lösung für die Sprachübertragung über das IP-Daten-Netz führte die israelische
Firma VocalTec im Jahr 1995 vor.

2.1 Grundsätzliche Unterschiede zu PSTN

Im klassischen Telefonnetz wird die Sprache in Form von unterschiedlich starken
elektrischen Impulsen über eine Leitung von einem Teilnehmer zum anderen übermittelt,
dabei wird ein Kanal während der Kommunikation durchgehend durchgeschaltet und nach
Kommunikationsende wieder für andere Teilnehmer freigegeben.
Bei VoIP wird die analoge Sprache in digitale Signale umgewandelt, die zu Paketen
zusammengefasst und an den Telefonpartner verschickt werden. Zwischen zwei Paketen ist
die Leitung frei für anderweitige Nutzung. Im Vergleich zur Telefonleitung, die für die Dauer
des gesamten Gesprächs belegt ist, können so Kapazitäten gewonnen werden.
Außerdem ist grundsätzlich von der Digitalisierung der Sprachsignale eine im Vergleich zur
analogen Telefontechnik Verminderung der Sprachqualitätsverlusten zu erwarten.
Doch in der Praxis macht das Telefonieren über das Internet die User noch nicht ganz
glücklich, da die Qualität der Audioübertragung und die Fähigkeit des Internets
Audioübertragung zu bieten, noch zu wünschen lässt. Das Problem liegt dabei vor allem in
der „veralteten“ Internet-Infrastruktur. Trotzdem ist das Interesse der Industrie an dieser Art
der Kommunikation sehr hoch. Organisationen rund um die Erde suchen Lösungen, um die
Kosten der immer wachsenden Kommunikation zu reduzieren. Viele Firmen suchen auch
Lösungen die Daten- und Audioübertragung auf ein Netzwerk zu legen und dadurch Kosten
zu sparen. Dies kann erreicht werden, wenn ein paketvermitteltes Netzwerk wie IP verwendet
wird, welches Daten und zur gleichen Zeit auch Audiodaten übertragen kann. Auch die
Video-Kommunikation im IP-Umfeld wird erleichtert.
Durch Softwarelösungen lassen sich noch zusätzliche Funktionen sehr einfach realisieren. An
Kosten wird auch gespart, da nicht in neue Hardware investiert werden muss. Individuelle

8
IP: Internet Protocol, eines der Basisprotokolle des Internet. Es gehört zu den verbindungslosen Protokollen,
d.h. zwischen dem Sender und Empfänger der Daten muss keine direkte Verbindung bestehen.


Kundenanforderungen sind ebenso leichter zu realisieren, da durch modulare
Programmierung Arbeitsabläufe und Strukturen leichter verändert werden.

2.2 VoIP-Varianten

Es lassen sich drei VoIP-Varianten unterscheiden: Computer-zu-Computer, Computer-zu-
Telefon und Telefon-zu-Telefon.
Als das Thema Internet-Telefonie Ende 1994 aufkam, wurde darunter nur die Möglichkeit
verstanden, kostengünstige Telefonate zwischen zwei Computern über das Internet zu führen.
VoIP-Gateways ermöglichen seit 1996 Gespräche zwischen Computern und herkömmlichen
Telefonen. Sie verbinden das Telefonnetz (PSTN) mit einem IP-Netz und integrieren
Computer und Telefone in einem System.

2.2.1 PC-zu-PC-Telefonie
Die Sprachdaten werden zwischen zwei Computern ausgetauscht, die über das Internet bzw.
ein anderes IP-Netz miteinander verbunden sind. Bei dieser Variante müssen beide
Teilnehmer online sein, damit ein Gespräch zustande kommen kann.

Abbildung 2: PC-zu-PC-Verbindungen

Als weitere Voraussetzung müssen beide Computer „sprachfähig“ sein, was gewisse
Anforderungen an Hard- und Software stellt. Neben einem Zugang zu einem IP-Netz und der
notwendigen IP-Telefonie-Software wird im Allgemeinen lediglich vorausgesetzt, dass die
Computer über eine Soundkarte, ein Mikrophon und die Möglichkeit zur Sprachausgabe
verfügen.
Anstelle der Kombination von Mikrophon und Lautsprecher wird sehr gerne ein Headset
eingesetzt. Dadurch steigt die Verständlichkeit der Kommunikation, der Benutzer hat mehr
Kopffreiheit und die Gefahr der Rückkopplung wird geringer.
Ein schneller Netzzugang, ein schneller Prozessor (einige Verfahren zur Sprachcodierung
benötigen diese Leistungsfähigkeit zur Echtzeitcodierung9) sowie spezielle DSP10-Karten

9
Dabei muss das Signal mit minimaler Verzögerung kodierbar und dekodierbar sein.


tragen ebenfalls zur Verbesserung der Qualität bei. Diese Karten sind speziell für IP-Telefonie
entwickelt worden. Es lässt sich ein normales Telefon anschließen, um über das Internet zu
telefonieren, und die Karte verfügt über einen DSP-Chip zur Schnellen Codierung und
Decodierung der Sprache.

2.2.2 PC-zu-Telefon-Verbindungen
Um PC-zu-Telefon-Verbindungen oder Telefon-zu-Telefon-Verbindungen mit VoIP
realisieren zu können, sind auf jeden Fall VoIP-Gateways notwendig, da sie das
leitungsvermittelte Telefonnetz mit dem paketorientierten Internet verbinden.

Abbildung 3: PC-zu-Telefon-Verbindungen

VoIP-Gateways lösen das Problem der Kontaktaufnahme, da sie nur noch die Eingabe der
herkömmlichen Telefonnummer des Gesprächspartners erwarten. Ein Gateway verfügt über
eine Schnittstelle zum Anschluss an das TCP/IP-Netz sowie eine ISDN-oder
Analogschnittstelle für den Anschluss an das Telefonnetz oder eine Nebenstellenanlage
(PBX11).
Auf der einen Seite erhält das Gateway das Telefonsignal, digitalisiert dieses, komprimiert es
(wenn nötig), teilt es in Paketen auf und überträgt es über das IP-Netz. Beim Empfang von
Daten aus dem IP-Netz führt der Gateway die Aufgaben in umgekehrter Reihenfolge aus.
Komprimierte Sprachdaten werden dekomprimiert und dann an das Telefonnetz geleitet.
Die Anwendung (Application) eines Gateways verwaltet die Verbindungen und sorgt für die
Umwandlung zwischen Telefonnummer und IP-Adresse.

10
DSP: Digital Signal Processor, spezieller Chip, der sinusförmige Signale (z.B. Sprache, Musik) durch
mehrfaches Abtasten digitalisiert. Er wird z.B. in Soundkarten eingesetzt. [20]
11
PBX: Private Branch Exchange: ist eine Nebenstellenanlage, die via Telefonleitungen das öffentliche
Telefonnetz mit den Endgeräten (Telefone, Faxgeräten) einer Firma oder eines großen Hauses verbindet, für
Privathaushalte sind solche Lösungen oft überdimensioniert.
Mit solchen Anlagen kann man viele Endgeräte gezielt miteinander verschalten und so ein eigenes Telefonnetz
aufbauen. Speziell die Möglichkeit, innerhalb der Telefonanlage kostenlos telefonieren zu können, ist gerade für
Firmen sehr interessant.


Weitere Aufgaben, die von der Anwendung übernommen werden können, sind die
Organisation von Datenbankzugriffen, die Gebührenverwaltung, das Führen von
Verbindungsnachweisen und das Protokollieren von Fehlern.

2.2.3 Telefon-zu-Telefon-Verbindungen
Bei dieser Variante werden die Gespräche zwischen zwei herkömmlichen Telefonen geführt.
An den Übergangspunkten zwischen Internet und Telefonnetz arbeiten jeweils Telefon-
Gateways.

Abbildung 4: Telefon-zu-Telefon-Verbindungen

Bei Internet-Telefonaten zwischen Telefonen werden die Daten zunächst über das
Telefonnetz an einen VoIP-Gateway in der Nähe des Empfängers übertragen. Die Auswahl
des Zielgateways kann nach unterschiedlichen Kriterien erfolgen (Zuverlässigkeit,
Geschwindigkeit oder Kosten der Verbindung). Der Zielgateway stellt die Verbindung in das
öffentliche oder private Telefonnetz her und leitet die Daten zum Empfänger weiter.
Die deutsche Telekom ermöglichte Ende 1997 in einem Pilotprojekt ausgewählte Kunden das
Führen von Telefonaten über das Internet. Bei diesem Projekt arbeitete die Deutsche Telekom
mit dem Internet-Telefonie-Pionier VocalTec zusammen. Das Projekt wurde nach einer
Testphase wieder eingestellt.
Die deutsche ABC Bücherdienst GmbH in Regensburg setzte ein VoIP-Gateway-System des
amerikanischen Unternehmens Lucent Technologies ein, um Telefongespräche zwischen
Standorten in Deutschland und den USA über das Internet zu leiten. Die Qualität der
Verbindungen wird von Seiten des deutschen Unternehmens positiv beurteilt.
Wie bei allen Varianten, steht auch bei der Telefon-zu-Telefon-Variante mögliche
Kosteneinsparungen im Vordergrund. Potentielle Dienstanbieter sind neben den traditionellen
Telefongesellschaften Unternehmen wie IDT, Global Exchange oder Delta Three, die als so


genannt Internet Telephony Service Provider (ITSP) VoIP-Dienste anbieten und sich zu den
Telefongesellschaften der nächsten Generation entwickeln könnten. Als in Betracht
kommende Kunden für deren Dienste sieht die ITU12 die über 700 Millionen
Telefonteilnehmer.

Alle drei verschiedenen VoIP-Varianten (PC-zu-PC, PC-zu-Telefon und Telefon-zu-Telefon)
können in einem integrierten Kommunikationssystem kombiniert werden. Ein System, in dem
mehrere Gateways zu einem großen System verbunden sind, wird auch als Virtual Unified
Network bezeichnet.

2.3 Funktionsweise der IP-Telefonie

Dieser Abschnitt erläutert einige Begriffe aus der IP-Telefonie und stellt den Netzaufbau und
verschiedene Komponenten vor. Ferner wird erläutert, wie Endpunkte kontaktiert und
Mediendaten übertragen werden.
Grundsätzlich müssen zwei Arten von Datenströmen unterschieden werden:
• Signalisierungsdaten dienen zum Verbindungsaufbau, Steuerung von
Verbindungseigenschaften und zum Verbindungsabbau.
• Mediendaten enthalten die eigentlichen Sprachinformationen.

Für beide Datenströme werden separate Verbindungen verwendet.

2.3.1 Netzaufbau

Abbildung 5 zeigt ein Beispiel für ein IP-Telefonie-Netz mit einem Telefonie-Server,
Arbeitsplatz-Rechnern, die über IP-Telefonie-Software verfügen und IP-Telefonen. Über
einen Gateway kann eine Verbindung in das PSTN hergestellt werden.

12
ITU: International Telecommunications Union (Sitz in Genf): seit Jahrzehnten bestehende internationale
Organisation von Herstellern und staatlichen Einrichtungen im Bereich der Telekommunikation, die auch
Standards und Normen definieren.


Abbildung 5: IP-Telefonie-Netzaufbau
Anders als bei der herkömmlichen Telefonie kann bei der IP-Telefonie ein Endpunkt direkt
eine Verbindung zu einem anderen Endpunkt aufbauen. Den Endpunkten ist es freigestellt, ob
sie den Telefonie-Server nutzen oder nicht. Wenn sie es tun, müssen sie sich dort registrieren.
Eine Registrierung enthält unter anderem Informationen über den Endpunkt und dessen
Benutzer. Eine der wichtigsten Informationen ist die Adresse für die Anrufsignalisierung.

2.3.2 Komponenten
Endpunkt

An einem Endpunkt kann ein Benutzer ein Telefonat annehmen oder initiieren.
Ein Endpunkt für Benutzerinteraktion kann ein IP-Telefon, also ein Telefon mit
Netzanschluss
und IP-Telefonie-Software, oder ein Rechner mit einer solchen Software sein. Endpunkte
verwenden eine Hierarchie von Protokollen zur Anrufsignalisierung, Medienaushandlung und
Mediendatenerzeugung und -Paketisierung. Über ein GUI (Graphical User Interface) kann
Benutzerinteraktion stattfinden.
Telefonie-Server

Ein Telefonie-Server ist eine zentrale Instanz einer IP-Telefonie-Umgebung. Endpunkte
können sich bei ihm registrieren und erhalten Dienste von ihm wie z. B. die Lokalisierung


eines Benutzers. Dies ist wichtig, da nicht immer klar ist, an welchem Rechner sich der
Benutzer gerade aufhält, da er eine IP-Telefonie-Anwendung auf jedem Rechner verwenden
kann. Für die Benutzerlokalisierung befragt der Server eine Datenbank. Bei einer
Registrierung teilt der Benutzer einem Telefonie-Server mit, unter welchen Aliasnamen er
erreichbar sein möchte. Ein Benutzer kann über eine Menge von Aliasnamen verfügen, die in
der Regel ein Name gefolgt von einer Domäne, z. B. faik@dn.fh-koeln.de, sind. Ein Anrufer
kann bei einem Telefonie-Server erfragen, wo sich der gewünschte Gesprächspartner
befindet. Der Server ist in der Lage, einem Aliasnamen eine entsprechende Transportadresse
zuzuordnen. In einem IP-Telefonnetz können mehrere Telefonie-Server parallel arbeiten.
Sollte der gewünschte Benutzer bei einem anderen Server registriert sein, so kann der erste
Server bei dem anderen die Transportadresse des Benutzers erfragen, da er selber keine
Informationen über den Benutzer besitzt. Für den Anrufer bleibt dieser Vorgang verborgen.
Ein Telefonie-Server kann Anrufe genehmigen oder ablehnen. Die Entscheidung kann von
unterschiedlichen Faktoren abhängig sein. Denkbar sind Faktoren wie:
- Wer ist der Benutzer? Hat dieser spezielle Privilegien?
- Wie stark ist das Netz ausgelastet? Überschreitet ein weiteres Gespräch die Kapazität
des Netzes?
- Verursacht das Gespräch Kosten, die nicht entstehen dürfen?
Gateway

Ein Gateway verbindet verschiedene Netze miteinander, wodurch z. B. ein Telefonat von
einem IP-Netz in das PSTN möglich ist. Ein Gateway übersetzt dazu die Anrufsignalisierung
des einen Netzes in die des anderen. Auch die Datenströme werden aufeinander abgebildet
und übersetzt.

Abbildung 6: Anrufbeispiel von PSTN nach IP


Abbildung 6 zeigt ein Anrufbeispiel von einem Anschluss im PSTN zu einem Rechner mit IP-
Telefonie-Software. Betrachtet wird dabei nur die Anrufsignalisierung. Der Anrufer wählt die
gewünschte Nummer. Da er von einem normalen Telefon anruft, stehen ihm nur Ziffern zur
Verfügung. Die Nummer 218-9999 ist einem Gateway des Betreibers des IP-Netzes
zugeordnet. Dort wird festgestellt, dass der Benutzer mit dem Aliasnamen 2800 gewünscht
wird. Der Gateway wendet sich an einen Telefonie-Server, der feststellt, dass die Nummer
2800 dem Benutzer „bunti“ zugeordnet ist, und dass dieser sich an dem Rechner mit der IP-
Adresse 134.102.218.70 befindet. Daraufhin wird die Verbindung hergestellt.

2.3.3 Anrufsignalisierung

Bei der Anrufsignalisierung baut der anrufende Endpunkt eine Verbindung zum angerufenen
Endpunkt auf. In erster Linie geht es dabei darum, dass der angerufene Endpunkt weiß, dass
eine Gesprächsverbindung aufgebaut werden soll. Er kann dabei zusätzliche Informationen
über den anrufenden Endpunkt erfahren, z. B. den Namen oder die Telefonnummer des
Anrufers. In der IP-Telefonie ist der Kanal für die Anrufsignalisierung getrennt von dem
Kanal für die Mediendaten.

Abbildung 7: Anrufsignalisierung

Abbildung 7 zeigt vereinfacht, wie der Verbindungsaufbau abläuft. Der anrufende Endpunkt
(Endpunkt 1) signalisiert dem angerufenen Endpunkt (Endpunkt 2) seinen Verbindungs-
Wunsch. Endpunkt 2 signalisiert Endpunkt 1, dass er den Wunsch verstanden hat (Ringing)
und jetzt reagiert. Sobald der Benutzer das Gespräch angenommen hat, signalisiert Endpunkt
an Endpunkt 1, dass die Verbindung zustande gekommen ist (Connect). Nachdem Endpunkt 2


über den Verbindungswunsch Bescheid weiß, handeln die beiden Endpunkte den Codec13 aus,
mit dem die Sprachinformationen übertragen werden. Anders als im PSTN können bei der IP-
Telefonie verschiedene Kodierungsverfahren verwendet werden.
Wenn die Anrufsignalisierungsphase beendet ist, bleibt der Kanal dennoch bestehen, da
Steuerinformationen für das Gespräch weiterhin über diesen Kanal ausgetauscht werden.
Diese Steuerinformationen können z. B. Übergabe an einen anderen Gesprächspartner oder
Beenden des Gespräches sein.

2.3.4 Medienübertragung
Die Verbindung für die Mediendaten wird nach der Codec-Aushandlung geöffnet und erst
beim Beenden des Gespräches oder bei einer Änderung des Codecs wieder geschlossen.
Bei der herkömmlichen Telefonie gibt es nur einen Kanal für die Mediendaten, der
leitungsorientiert ist. VoIP ist hingegen - wie vorhin erwähnt - paketorientiert, wobei die zu
übertragenen Daten (Pakete) verschiedene Wege nehmen.

2.3.5 Transportprotokolle
Die Nutzer von TCP/IP-Netzwerken haben grundsätzlich die Wahl zwischen TCP
(Transmission Control Protocol, RFC14 793) und UDP (User Datagram Protocol, RFC 768)
als Transportprotokoll.

Abbildung 8: TCP und UDP im TCP/IP-Protokollstack15

Der Unterschied zwischen den Transportprotokollen TCP und UDP liegt darin, dass das TCP
ein verbindungsorientiertes Protokoll ist. Das heißt, beim TCP-Protokoll wird zwischen zwei

13
Codec: Abkürzung für Coder/Decoder oder Compressor/Decompressor [20] (siehe Kapitel 2.5)
14
RFC: Die Requests for Comments (kurz RFCs; zu Deutsch etwa „Bitten um Kommentare“) sind eine Reihe
von technischen und organisatorischen Dokumenten zum Internet, die am 7. April 1969 begonnen wurde.
15
Standard von IEEE zum Aufbau lokaler Netzwerke, IEEE (Institute of Electrical and Electonicss Engineers)
ist der weltweit größter professioneller Zusammenschluss von Ingenieuren.


Sockets (Verbindungsendpunkten) eine Verbindung aufrechterhalten, solange die
Kommunikation zwischen Client und Server anhält.
Beim UDP-Protokoll muss keine schon aufgebaute Verbindung zwischen Client und Server
bestehen, sondern dem so genannten Datagramm (Nutzinformation) wird nur der Endadressat
mitgegeben, ob dieser nun erreichbar ist oder nicht.
Es ist somit direkt eingeplant, dass das Datagramm seinen Kommunikationspartner gar nicht
erreicht, falls dieser zurzeit nicht bereit ist, Daten zu empfangen.
TCP ist zur Übertragung von Datenströmen gut geeignet und effizient, solange der
Datentransport nicht an Zeitgrenzen gekoppelt ist. Eine eigentlich positive Eigenschaft des
TCP-Protokolls, nämlich nicht eingetroffene Datenpakete erneut anzufordern, hat eine
zeitverzögernde Wirkung auf den Datentransport, so dass man zumeist das UDP-Protokoll bei
VoIP-Applikationen einsetzt.
TCP wird dagegen in den meisten VoIP-Signalisierungsprotokollen für den Anrufaufbau
verwendet.
Da aber UDP ohne weitere Mittel zur Übertragung von isochronen16 Audio- und Videodaten
nicht ausreicht, benutzt man z.B. die IETF17-Empfehlungen RTP (Real Time Transfer
Protocol, RFC 1889) bzw. RTCP (Real Time Control Protocol).
RTP und RTCP wurden als Echtzeit-Transportprotokolle entwickelt und dienen dem Ende-zu-
Ende-Transport von Echtzeitdaten. Innerhalb des RTP-Headers befindet sich unter anderem
ein Datenfeld, das einen Zeitstempel (Timestamp) enthält, um die Echtzeitdaten zu
synchronisieren.

Die im folgenden kommenden Abschnitte 2.7 und 2.8 stellen zwei verschiedene Standards der
IP-Telefonie vor: H.323 und SIP. Beide Standards definieren eine Anrufsignalisierung für IP-
basierte Netze. Für den Transport der Mediendaten verwenden beide Standards RTP.

16
Eine isochrone Übertragung zeichnet sich dadurch aus, dass die vom Sender zu übertragenden Datenpakete in
einem gleichmäßigen Abstand gesendet werden und beim Empfänger in gleichmäßigem Abstand ankommen.
Die Verzögerung der zu übertragenden Daten muss in so engen Grenzen liegen, dass dies zu keinem
Fehlverhalten der Anwendung führt.
Isochrone Anwendungen sind z.B. Sprach und Videoübertragungen von Live-Ereignissen.
17
IETF ist eine internationale Organisation, die Standards für Internetprotokolle definiert. Die von der IETF
festgeschriebenen Standards werden in so genannten RFC’s veröffentlicht.


2.4 Quality of Service

Den Begriff Quality of Service (QoS) kann man definieren als die Fähigkeit, eine gewisse
Sicherheit bezüglich der Erfüllung von Dienstanforderungen (z.B.: Verständlichkeit der
Sprache, kein Echo etc) bieten zu können. Hinsichtlich der Sprachqualität könnte man QoS
als eine Anzahl der folgenden Bedingungen für eine ausreichende Verständlichkeit der
Sprache definieren:
Die Bandbreite muss ausreichend sein und dauerhaft zur Verfügung stehen
Zeitdingungen wie Verzögerung (Delay) und Verzögerungsschwankung (Jitter)
müssen eingehalten werden
Geringer Prozentsatz an verloren gegangenen Daten und gute Sprachkodierer
Diese Bedingungen gelten sowohl für kanalorientierte GSTN-Netze18 als auch für die
paketorientierte IP-Telefonie. Eine QoS sollte immer Ende zu Ende zwischen zwei
kommunizierenden Partnern zur Verfügung stehen. Das bedeutet, dass QoS auf dem gesamten
Weg durch das Netz von allen Netzelementen unterstützt werden muss. Die paketoreintierte
IP-Telefonie hat spezielle Eigenschaften wie lange Verzögerungen, Jitter und Paketverluste.
Das Thema QoS ist einerseits durch viele ITU-Empfehlungen, Arbeiten von ETSI TIPHON19
(Work Group 5) bzw. in der IETF und durch viele Forschungsprojekte abgedeckt. [18]

2.4.1 Verzögerung (Latency)
Ein großes Problem bei der Übertragung von Audio- oder Videodaten sind die Verzögerungs-
(delay time) oder Wartezeiten des Empfängers während der er auf gesendete Daten warten
muss.
Es gibt zwei arten von Verzögerungen: die Ausbreitungsverzögerung (Propagation-Delay)
und die Verarbeitungszögerung (Handling-Delay). Die Ausbreitungs-Verzögerung wird durch
die Lichtgeschwindigkeit in Glasfaser oder kupferbasierte Netzwerken verursacht.
Die Verarbeitungsverzögerung, auch Prozess-Verzögerung genannt, umfasst viele
verschiedene Verzögerungsursachen (momentane Paketrate, Komprimierung und Paket-
Switching) und wird durch Geräte verursacht, die den Frame durch das Netzwerk

18
GSTN: General Switched Telefone Network, Bezeichnung für kanalorientierte Telefonnetze. Diese gliedern
sich in das öffentliche Festnetz (PSTN) und das öffentliche Mobilfunknetz, das Public Land Mobile Network
PLMN.
19
TIPHON: Abkürzung für Telecommunications and Internet Protocol Harmonization Over Networks.
Projekt des ETSI (European Telecommunications Standards Institute) zur Erarbeitung von Schnittstellen und
Rahmenvereinbarungen für die Architektur der Zusammenschaltung von leistungsvermittelnden und
paketorientierten öffentlichen Netzen. Dies dient v.a. der Internet-Telefonie auf der Basis der H.323-
Protokollfamilie.


weiterleiten.
Für die Sprachübertragung im klassischen Telefonnetz wurden maximale Ende-zu-Ende-
Laufzeiten definiert, die für den nationalen Bereich 25 ms und für den internationalen Bereich
150 ms betragen dürfen.
Innerhalb eines normalen TCP/IP-Netzwerks kommt es bei der Datenübertragung zu
Verzögerungen von bis zu mehreren 100 ms, die auf der Einteilung der Nutzinformationen in
einzelne Datenpakete sowie auf dem Zusammensetzen einzelner Datenpakete zu einem
Ganzen basieren.
Auch aktive Netzwerkkomponenten, wie z.B. Switches oder Router beeinflussen die
Verzögerungszeiten der zu übertragenden Datenpakete innerhalb eines TCP/IP-Netwerks
sehr.

Verursachte
Netzwerk-Hardware Bemerkungen
Verzögerung
Netzwerkkarte 0,2 – 1 ms Abhängig vom Netzwerk-
karten-Typ (1000 – 10 MBit/s)
Router 35 – 200 ms Abhängig vom Router-Typ
Switch (Layer 2) 35 – 100 ms Abhängig vom Switch-Typ
Switch (Layer 3) 70 – 250 ms Hardware-basierter Switch
Switch (Layer 3) > 120 ms Software-basierter Switch
Firewalls oder Proxy-Server > 400 ms

Tabelle 1: Typische Verzögerungszeiten durch klassische Netzwerkhardware

Dagegen übertrug Cisco den Hauptteil des Framing und der Paketformung auf den DSP
(siehe Kapitel 2.2.1), um den Router-Overhead möglichst gering zu halten. Der Real Time
Transport-Protokoll-(RTP)Header wird z.B. im DSP auf den Frame gesetzt, anstatt dem
Router diese Aufgabe zu überlassen.
Kommt es wegen mangelnder Bandbreite innerhalb eines TCP/IP-Netzwerks zu erhöhten
Kollisionen20 und somit zu einer erhöhten Anzahl von Datenpaketen, die wiederholt vom

20
Grund für Kollisionen ist es, dass bei dem CSMA/CD-Verfahren (Carreir Sense Muliple Access with Collision
Detection) eine sendwillige Station im Netzwerk horcht, ob Datenpakete übertragen werden. Ist dies nicht der
Fall, so fängt sie an, ihre Daten auf das Netzwerk zu geben. Tut dies gleichzeitig eine andere Station, kommt es
zu einer Kollision, die zu einer Verwerfung der zu übertragenen Daten und zu einem Abbruch der Übertragung
führt, sowie zu einer weiteren Verzögerung, bis die Stationen erneut versuchen, ihr Daten zu übertragen.


Sender zum Empfänger übertragen werden müssen, so wird die gesammte Verzögerungszeit
rasant anwachsen.
Die einfachste Art, für ausreichende Bandbreite zu sorgen, ist die Überdimensionierung des
Netzes. Sie ist heute kurzfristig durchaus einsetzbar, in der Zukunft bei immer höher
werdenden Zugangsdatenraten und bei der hohen Konkurenzsituation zwischen den
Betreibern allerdings teuer.
Weiter Grund für die Verzögerung der Datenübertragung ist das Queuing. Wenn Pakete
wegen Datenstau an einer ausgehenden Schnittstelle in eine Queue (Warteschlange) gesetzt
werden, resultiert daraus eine Queuing-Verzögerung. Die Queuing-Verzögerung tritt auf,
wenn mehr Pakete ausgesendet werden, als die Schnittstelle in einem bestimmten Zeitraum
verarbeiten kann. Dagegen werden Bandbreitenreservierungen und Verkehrspriorisierungen
eingesetzt.
Um eine Bandbreite reservieren zu können, benötigt man eine Einteilung des Verkehrs in
verschiedene Qualitätsklassen. Dazu dienen Protokollfelder von TCP/IP wie das Type-of-
Service-Feld im IPv4-Header bzw. das Trafic-Class-Feld im IPv6-Header. Abbildung 9 zeigt
das Type-of-Service (TOS)-Feld von IPv4.

Precedence: Rangordnung
D: Deley, Verzögerung
Normal (0), Low (1)
T: Throughput,
Datenübertragungsbandbreite,
Normal (0), High (1)
R: Reability, Zuverlässigkeit
Normal (0), High (1)
C: Cost, Kosten
Normal (0), Minimale Kosten (1)

Abbildung 9: Type of Servise des IP-Headers des RFC 791 (IPv4) [16]

Der Precedence-Bereich erlaubt es Routern in Zeiten großen Datenaufkommens, diejenigen
Daten herauszufiltern und als erste weiterzutransportieren, die den höchsten Rang oder die
höchste Priorität haben. Der Bereich Type of Service beschreibt die Eigenschaft der
gewünschten Datenübertragung.
Es ist auch notwendig verschiedene Prioritätsklassen in Routern zu realisieren, dafür besitzen
moderne Router hardwaremäßig eine bestimmte Anzahl von Warteschlangen (Queues).


Außerdem erfolgt die Steuerung der einzelnen Warteschlangen über einen Mechanismus, der
entscheidet, welche Pakete welcher Warteschlangen für die Einhaltung der QoS-
Anforderungen als Nächstes nach einer festgelegten Regel gesendet werden (Scheduling).
Man muss Scheduling-Methoden einsetzen, die den Spachverkehr bevorzugen. Dazu gehört
LLQ21, die von vielen genutzt wird, die VoIP-Netzwerke in Umgebungen mit geringen
Bandbreiten einsetzen (weniger als 768 Kbps).

2.4.3 Jitter
Einfach ausgedrückt ist Jitter die Zeitschwankung zwischen der Ankunft einzelner Pakete.
Jitter tritt nur in paketbasierten Netzwerken auf. In einer Paket-Sprach-Umgebung wird
erwartet, dass der Sender die Sprachpakete zuverlässig in einem regelmäßigen Intervall
überträgt (z.B. alle 20 ms ein Frame). Diese Sprachpakete können verzögert werden und nicht
im selben regelmäßigen Intervall an der empfangenden Station ankommen. Der Unterschied
zwischen dem Zeitpunkt, wann das Paket erwartet und dem Zeitpunkt, zu dem es wirklich
empfangen wird, ist Jitter. [16]
Daher wird ein Jitter-Puffer benötigt, der diese dynamische Paketverzögerung verschleiert.

Abbildung 10: Delay und Jitter im paketbasierten Netzwerk [15]

Viele Hersteller haben sich für den Einsatz von statischen Jitter entschieden, im Gegensatz zu
Cisco. In der Cisco IOS22-Software werden RTP-Zeitstempel verwendet, um zu bestimmen,
wie groß der Jitter innerhalb des Netzwerks ist. Der Jitter-Puffer von Cisco wächst oder

21
LLQ: Low Latency Queuing, dieser Queuing-Mechanismus wurde entwickelt, um Sprachverkehr absolute
Priorität vor jedem anderen Verkehr auf einer Schnittstelle einzuräumen.
22
IOS: Internetwork Operating System ist das Betriebssystem von Cisco-Routern und Switches. Dieses wird
beim Einschalten des Gerätes aus dem nichflüchtigen Flash-Speicher in den Hautspeicher geladen und stellt die
grundlegenden Funktionen des Routing und/oder Switching zur Verfügung.


schrumpft dynamisch, je nach Verzögerungsvarianz der letzten empfangenen Paketen und ist
somit ein dynamischer Jitter-Puffer.

2.4.4 Echo
Unter Echo versteht man das zeitversetzte Hören seiner eigenen Stimme durch Verzögerung
auf der Übertragungsleitung und Rückkopplung beim Empfänger. Alle heutigen
Sprachdienste reflektieren einen gewissen Anteil des Signals zurück zum Sender.
Man kann drei Arten von Echo unterscheiden:
• Das elektrische Echo stammt aus einer Fehlanpassung der Impedanzen beim Übergang
vom vieradrigen Netzwerk-Switch auf die Zweiadrige lokale Schleife (wie in
Abbildung 11 gezeigt). Eine Impedanzanpassung ist wegen der unbekannten
Impedanz der Zweidrahtleitung nicht möglich.
• Das akustische Echo stammt aus der akustischen Rückkopplung zwischen
Lautsprecher und Mikrofon.
• Das einzige erwünschte Echo ist der so genannte „Sidetone“, der das Hören der
eigenen Sprache im Lautsprecher des Telefons mit geringer Verzögerung
bezeichnet.[18]

Abbildung 11: Durch nicht abgestimmte Impedanzen erzeugtes Echo [16]

Das Echo beeinflusst ganz wesentlich die Sprachqualität, wobei diese negative Beeinflussung
von der Verzögerung im Hin und Rückrichtung und dem Amplitudenunterschied zwischen
dem Ursprungs- und Echosignal ab. Dieser Amplitudenunterschied wird durch den Faktor
TELR (Talker Echo Loudness Rating) in der ITU G.122 beschrieben.
Maßnahmen zur Echokompensation sind ab einer Echo-Verzögerung von 20 – 30 ms
unausweichlich; eine billige Variante zur Echokompensation sind Echounterdrücker (Echo
Supressors), die eine hohe Dämpfung in den Sendepfad einschalten, wenn der andere
Teilnehmer spricht. Diese Methode wird vor allem in billigen Endgeräten bei


Freisprecheinrichtungen angewendet und hat den Nachteil einer Sprachunterdrückung, wenn
beide Teilnehmer gleichzeitig sprechen.
In der öffentlichen Telefonie werden Echosperren (Echo Cancellers) eingesetzt, die viel
komplexer als Echounterdrücker sind, Echosperren schätzen den Echoanteil des Empfängers
im Retoureweg zum Sender und subtrahieren diesen Anteil vom tatsächlichen Signal. Dazu
wird ein mathematisches Model zusammen mit dem Ursprungssignal dazu verwendet, das
Echo abzuschätzen. Moderne Echosperren können sich an das Signal und die Empfänger-
Eigenschaften anpassen und werden mit digitalen Signalprozessoren (DSP’s) realisiert.
Grundsätzlich sind Echosperren adaptive digitale Filter (FIR: Finite Impulse Response). Beim
Beginn eines Gesprächs benötigt der Echokompensierer eine gewisse Zeit, um sich optimal
einzustellen. Für eine Echofreie Verbindung in beide Richtungen ist eine Echosperre an
beiden Enden notwendig.

2.4.5 Paketverluste (Packet Loss)
Verluste von Sprachpaketen sind in TCP/IP-Netzen keine Besonderheiten und haben zwei
Ursachen:
Die erste Ursache sind Verstopfungen im Netz, die zu einem hohen Füllgrad der
Warteschlangen in den Routern und damit zu einem Verwurf von Paketen führen. Bei der
Verwendung von TCP führ ein Paketverlust zu einer Wiederholung der Übertragung. Bei der
Übertragung der Sprache über TCP/IP würde eine wiederholte Übertragung nichts nützen, da
nur ein kleines Zeitfenster zu Rekonstruktion der Sprachinformation zu Verfügung steht und
daher UDP ohne Übertragungssicherheit verwendet wird. Um Paketverluste zu vermeiden,
sind Mechanismen wie beispielsweise DiffServe für den hochprioren Sprachverkehr
erforderlich, die einen garantierten Durchsatz bei minimalen Paketverlusten für priorisierten
Verkehr ermöglichen.
Die zweite Ursache für den Verlust von Sprachpaketen sind hohe Verzögerungen, wodurch
die Pakete außerhalb des Jittebufferbereichs verzögert eintreffen und daher verworfen werden.
Eine Verbesserung kann durch einen genügend großen Jitterbuffer erzielt werden, was
allerdings die Gesamtverzögerung vergrößert. [18]
Verluste, die 5 – 10 Prozent aller Sprachpakete überschreiten, können die Sprachqualität
signifikant verschlechtern wie folgende Abbildung 12 zeigt, dabei ist MOS (Mean Opinion
Score) eine Größe zur Bewertung der Sprachqualität (1: Schlecht bis 5: exzellent), (siehe
Kapitel 2.5.3).


5

4
MOS

3

2

1
1 3 5 7 9 11 13 15 17 19
Verlust von Sprachdaten [%]

Abbildung 12: Verschlechterung der Sprachqualität durch Paketverluste [18]

Wie aus der Abbildung ersichtlich ist, führen schon geringe Paketverlustraten kleiner 5
Prozent zu Qualitätseinbußen. Daher ist ein geringer Paketverlust kleiner 2 Prozent
anzustreben.
Für die Erkennung von verloren gegangenen Paketen verwenden die Gateways die
Sequenznummer im RTP-Headers. Die verlorenen Sprachpakete können zur Verbesserung
der Sprachqualität rekonstruiert oder versteckt werden (Packet Loss Concealment – PLC).
Die einfachste PLC-Methode ist die Stummschaltung (Silence Substitution) für Verlustraten
unter 1 Prozent, indem bei Paketverlust einfach stumm geschaltet wird. Eine bessere,
ebenfalls einfache Methode ist die Wiederholung des letzten Pakets (Packet Repetition), bei
der bei Paketverlust das letzte korrekt empfangene Sprachpaket wiedergegeben wird. Auch
dieses häufig verwendete Verfahren ist nur bei geringeren Paketverlusten anwendbar.
Bei höheren Paketverlusten sind ausgeklügeltere Maßnahmen notwendig: Eine Möglichkeit
ist die Paketinterpolation (Packet Interleaving), die die verlorenen Sprachpakete durch ein
synthetisches Sprachmodell abschätzt. [18]

2.4.6 Sprach-Aktivitäts-Entdeckung (Voice Activity Detection)

Bei normalen Gesprächen spricht eine Person und die andere hört zu. Die heutigen
gebührenpflichtigen Netzwerke enthalten einen bidirektionalen Kanal mit 64000 Bit pro
Sekunde (Bps), ganz gleich, ob irgendjemand spricht. Das bedeutet, dass bei einem normalen
Gespräch etwa 50 Prozent der gesamten Bandbreite verschwendet wird. Die Menge der


verschwendeten Bandbreite kann in Wahrheit noch viel höher sein, wie sich herausstellt,
wenn Sie eine statistische Aufzeichnung der Unterbrechungen und Pausen im normalen
Sprachmuster einer Person vornehmen.
Beim Einsatz des VoIP man diese „verschwendete“ Bandbreite für andere Zwecke nutzen,
wenn die Sprach-Aktivitäts-Entdeckung (VAD: Voice-Activity-Detection) aktiviert ist. Wie
in Abbildung 13 gezeigt, funktioniert VAD durch eine Messung der Sprachstärke in Dezibel
(dB) und durch die Entscheidung, wann die Sprache nicht mehr in Frames eingebunden wird.

Abbildung 13: Sprach-Aktivitäts-Entdeckung [16]
Wenn die VAD einen Abfall der Sprachamplitude bemerkt, wartet sie gewöhnlich eine
bestimmte Zeitdauer, bevor sie aufhört, die Sprachframes in Pakete zu verpacken. Diese feste
Zeitdauer wird als Überhang {Hangover) bezeichnet und beträgt in der Regel 200 ms.
Bei jeder Technologie treten Nachteile auf. VAD erfährt bestimmte innere Probleme bei der
Bestimmung, wann Sprache endet bzw. beginnt und bei der Unterscheidung zwischen
Sprache und Hintergrundrauschen. Wenn sich ein Gesprächsteilnehmer also in einem Raum
voller Geräusche befindet, kann VAD nicht zwischen Sprache und Hintergrundrauschen
unterscheiden. Dies wird auch als Signal/Rausch-Grenzwert (Signal-to-Noise Threshold;
siehe 13) bezeichnet. In diesen Szenarien deaktiviert sich die VAD zu Beginn des Anrufs
selbständig.

Ein weiteres Problem der VAD ist die Erkennung, wann die Sprache einsetzt. Gewöhnlich
wird der Beginn eines Satzes abgeschnitten. Dieses Phänomen wird als Front-End-Speech-
Clipping bezeichnet. Normalerweise bemerkt die zuhörende Person das Front-End-Speech-
Clipping nicht. [16]

2.5 Codecs


In Kapitel 2.1 wurde schon darauf hingewiesen, dass bevor ein Telefongespräch über das
Internet geführt werden kann, muss das analoge Audiosignal in ein digitales Signal
umgewandelt werden.
Dieser Prozess, sinnigerweise „Digitalisierung“ genannt, unterteilt sich in drei Schritte:
Abtastung (oder auch Sampling), Quantisierung und Kodierung.
Beim Sampling wird das analoge Signal in einer bestimmten Frequenz über die Zeit
abgetastet und nur die zu diesen diskreten Zeitpunkten gemessenen Werte werden weiter
berücksichtigt, alle anderen verworfen. Somit haben wir eine endliche Anzahl von Werten,
die aber immer noch potentiell beliebig genau sein können. Dieses Problem wird durch den
zweiten Schritt, die Quantisierung, gelöst. Die beliebig genauen Werte werden schlicht auf
den nächsten diskreten Wert gerundet, die so genannten Quantisierungsintervalle. Bei diesem
Runden entstehen natürlich Fehler, da nicht der exakte, sondern nur der gerundete Wert
abgespeichert wird. Sind zu wenig Quantisierungsintervalle vorhanden, kann dieser Fehler zu
hörbaren Qualitätseinbußen führen. Man nennt diesen Effekt daher auch
Quantisierungsrauschen oder Quantisierungsfehler.
Unter Kodierung versteht man ganz einfach die Beschreibung der Quantisierungsintervalle
durch bestimmte binäre Codewörter. Dies schließt den Prozess analog-digital-Wandlung ab
und wir haben nun ein rein digitales Signal vorliegen. Das Wiederherstellen der analogen
Signale aus den digitalen wird als Dekodierung bezeichnet.
Ein Codec (Coder/Decoder) ist ein Algorithmus, der die Aufgabe der Kodierung und
Dekodierung erfüllt. Die Abkürzung Codec steht aber auch für (Compressor/Decompressor).

Abbildung 14: Sprachkodierung für die Internetübtragung23 [27]
Da oft nur eine geringe Bandbreite zur Verfügung steht, ist auch eine entsprechende
Komprimierung des Signals notwendig. Dabei wird eine möglichst hohe Sprachqualität bei

23
De-Jitter-Buffer zur Paketverzögerungsverschleierung (Kapitel 2.4.3)


einer möglichst niedrigen Datenrate angestrebt. Wählt man dabei ein Kodierverfahren mit
niedriger Bitrate und hoher Kompression, so ist beim Kodieren und Dekodieren viel
Rechenleistung notwendig. Steht diese nicht zur Verfügung, so muss zwangsläufig ein
Verfahren verwendet werden, bei dem die Bitrate höher ist.
Das Sprachsignal wird beim Sender kodiert, über das Internet übertragen und beim
Empfänger dekodiert, also für die Wiedergabe in ein analoges Signal umgewandelt. Die
wichtigste Forderung an das verwendete Kodierungsverfahren ist: das Signal muss in
Echtzeit, das heißt mit minimaler Verzögerung, kodierbar und dekodierbar sein.
Taugliche Verfahren lassen sich in den im kommenden Kapitel folgenden Hauptgruppen
einteilen.

Abbildung 15: Sampling und 8-Bit-Kodierung eines Analogsignals [15]

2.5.1 Kodierungsverfahren
• Signalformkodierung

Dabei wird das Analogsignal mit einer geeigneten Quantisierung, um die Originalform
des Signals möglichst fehlerfrei zu reproduzieren. Die einfachste und am weitesten
verbreitete Möglichkeit zur Realisierung dieses Verfahrens ist die Pulse Code Modulation
(PCM).
Das Nyquist-Theorem besagt, dass bei einer Aufnahme eines analogen Signals mit der
doppelten Rate der höchsten noch interessanten Frequenz dieses Signals aus der
Aufnahme heraus wieder genau in seiner analogen Form rekonstruiert werden kann. Da
der meiste Sprachinhalt unter 4000 Hz liegt, ist eine Aufzeichnungsrate von 8000
Aufnahmen pro Sekunde (125 ms zwischen den Aufnahmen) erforderlich.


PCM benutzt diese Abtastrate und eine 7- oder 8-Bit-Quantisierung. Das Ergebnis ergibt
eine Datenrate von 56 Kbit/s (7Bits/Abtastung * 8 kHz) oder 64 Kbit/s (8Bits/Abtastung *
8 kHz). Bei PCM wird auf eine Komprimierung der Daten verzichtet, wodurch man auf
breitbandige Übertragunswege angewiesen ist. Allgemein werden zwei grundlegende
Varianten der PCM verwendet: µ-law (Nordamerika) und a-law (Europa). Diese
Methoden erzielen eine Komprimierung durch eine logarithmische Einteilung der
Quantisierungsintervalle.
Eine andere häufig verwendete Möglichkeit der Signalkodierung ist die Differential Puls
Code Modulation (DPCM). Im Unterschied zur PCM werden bei DPCM nicht die
Amplituden der Sprachsignale kodiert, sondern die Unterschiede der Amplitude. Bei den
Differenzen der Amplituden ist der Wertebereich naturgemäß kleiner, was zu weniger
Datenaufkommen gegenüber der Standard-PCM führt. Nachteil dieses Verfahrens ist, dass
bei schnellen Signalschwankungen schwerwiegende Quantisierungsfehler auftreten
können. Durch anpassen der Schrittgröße des Quantisierers erreicht man eine
Verbesserung der Sprachqualität, und dies ist das Prinzip der Adaptive Differential Puls
Code Modulation (ADPCM).

• Quellenkodierung (Analyse-Synthese-Verfahren)

Quellenkodierer werden auch als Vocoder bezeichnet. Sie Versuchen das Eingangssignal
durch Generierung eines künstlichen Signals in der Form zu reproduzieren, dass es sich
dem Eingangssignal annähert. Dabei werden nur die Parameter eines Sprachmodels
übertragen, somit sind die Datenraten extrem niedrig.
Die leistungsfähigsten Vocoder sind die LPC-Vocoder (Linear Predictive Coding), sie
arbeiten im Allgemeinen mit Bandbreiten von 2,4 Kbit/s.
Quellenkodierer haben den niedrigsten Bandbreitenbedarf, werden in der IP-Telefonie
jedoch nicht eingesetzt, da sie eine künstlich klingende Sprache erzeugen.

• Hybride Verfahren

Stellen eine Mischung aus den beiden oben genannten Verfahren dar und vereinen die
Vorteile von Signalform- und Quellenkodierern.
Die bekanntesten Methoden der hybriden Verfahren sind die CELP-Kodierung (Code
Excitation Linear Predictive Coding), die ACELP (Algebraic Code Excitation Linear
Predictive Coding), die auf kurze Verzögerungszeiten (<5 ms) optimierte LD-CELP
(Low Delay Code Excitation Linear Predictive Coding), die CS-CELP (Conjugate


Structure Code Excitation Linear Predictive Coding) und die MPMLQ (Multiple
Maximum Likelihood Quantization).
Die Bandbreiten erreichen zwischen 5,3 und 16 Kbit/s, die erzeugten Sprachqualitäten
liegen zwischen „akzeptabel“ und „sehr gut“.

2.5.2 Sprachdaten-Komprimierung

Die Komprimierung (Reduktion der Datenmenge) der kodierten Daten ist unumgänglich, um
eine vertretbare Übertragungszeit oder gar Streaming24 sicherzustellen.
Man unterscheidet Grundsätzlich zwei Arten der Audiokomprimierung: Die verlustfreie
Komprimierung und die verlustbehaftete Komprimierung.

Verlustfreie Komprimierung: Bei dieser Komprimierungsart ist das Ursprungssignal
auch nach der Komprimierung noch eindeutig widerherstellbar und es treten keinerlei
qualitätsmindernde Effekte auf. Das Grundprinzip der verlustfreien Komprimierung ist
die Differenzkodierung mit linearer Prediktion. Differenzkodierung wurde schon in
Kapitel 2.5.1 erläutert. Unter Prediktion versteht man das Nutzen des Wissens über
das bereits kodierten Signals zur Vorhersage des Folgesignals. Auch hier speichert
man nur die Differenz zwischen dem Signal und seiner Vorhersage. Wendet man nun
noch eine Hufmann-Kodierung25 an, kann man auf diese Weise eine Kompressionsrate
von immerhin 1:2 erreichen. Auch wenn diese Datenreduktion bereits beachtlich ist,
reicht sie jedoch nicht aus um eine effiziente Übertragung über das Internet zu
ermöglichen.

Verlustbehaftete Komprimierung: Bei dieser Methode verringert man die Qualität
gezielt, um sehr hohe Kompressionsraten zu erreichen. Das Grundprinzip: Nicht oder
kaum wahrnehmbare Anteile der Audiodaten müssen nicht mitkodiert werden. Wie
bereits eher erwähnt hat das menschliche Gehör einen Wahrnehmungsbereich von ca.
20 bis 22 kHz. Das heißt, Signale die außerhalb dieses Bereiches liegen, müssen gar
nicht erst mitkodiert werden. Aber auch Signale, die innerhalb dieses
Frequenzbereiches liegen können unter Umständen vom Menschen nicht
wahrgenommen werden. Ein solches Phänomen ist die so genannte „Verdeckung“.

24
Streaming: Echtzeitübertragung (man hört, während man gleichzeitig noch herunterlädt)
25
Häufig vorkommende Kodewörter werden kürzer kodiert als selten vorkommende


Allgemein versteht man unter Verdeckung die Überlagerung eines leisen Signals
durch ein lautes Signal, so dass das leise Signal nicht mehr wahrnehmbar ist (man sagt
auch, das Signal liegt unter der so genannten Verdeckungsschwelle).

Abbildung 16: Signalverdeckung

2.5.3 Standards der Sprachkodierung
Im diesem Unterkapitel werden die populärsten VoIP-Kodierungsstandards erläutert und kurz
beschrieben (nach [16]).

– G.711 – Beschreibt die bereits angesprochene PCM-Sprachkodierungstechnik. Die
G.711-kodierte Sprache ist bereits in der korrekten Form für die digitale
Sprachübertagung im öffentlichen Telefonnetzwerk oder durch Private Branch
Exchanges (PBX’s)

– G.726 – ADPCM-Kodierung mit 40, 32, 24 und 16 Kbps. Der Austausch der
ADPCM-Sprache ist auch zwischen Paket-Sprach- und öffentlichen Telefon- oder
PBX-Netzwerken unter der Voraussetzung möglich, dass Letztere über ADPCM-
Fähigkeiten verfügen.

– G.728 – Beschreibt eine 16 Kbps-Variante der CELP-Sprachkomprimierung mit
geringer Verzögerung.

– G.729 – Beschreibt die CELP-Komprimierung, mit der Sprache in 8 Kbps-
Strömen kodiert werden kann. Zwei Varianten dieser Standards (G.729 und


G.729a) unterscheiden sich stark in Hinsicht auf die Komplexität der Berechnung
und beide ermöglichen im Allgemeinen Sprachqualitäten, die mit der 32 Kbps-
ADPCM vergleichbar sind.

– G.723.1 – Beschreibt eine Komprimierungstechnik, mit der Sprache mit einer
geringen Bitrate komprimieren werden kann. Zwei Bitraten sind mit dieser
Kodierung verbunden: 5,3 und 6,3 Kbps. Die höhere Bitrate basiert auf der MP-
MLQ-Technologie und bietet eine bessere Qualität, Die geringere Bitrate basiert
auf CELP, sie bietet gute Qualität und verleiht Systemdesignern zusätzliche
Flexibilität.

2.5.4 Qualität der Codecs

Die Qualität der Codecs lässt sich nach den folgenden Qualitätsmerkmalen beurteilen.

• Datenrate

Die Datenrate ist ein wichtiges Qualitätsmerkmal, da eine Leitung nur eine begrenzte
Bandbreite besitzt und bei einer geringen Datenrate entsprechend mehr Kapazität anderen
Teilnehmern oder Anwendungen zur Verfügung steht.

• Sprachqualität

Ein Maß für die Sprachqualität wurde als Mean Opinion Score (MOS) definiert. Er
beschreibt das statische Empfinden der Sprachqualität eines Benutzers als Zahlenwert
(von 1: Schlecht bis 5: exzellent).
Die Sprachqualität soll möglichst verständlich und natürlich klingen, sodass der Sprecher
nicht nur verstanden, sondern auch anhand der Stimme identifiziert werden kann.

• Verzögerung

Das Dekodieren und Enkodieren ist je nach Verfahren mehr oder weniger aufwändig.
Entsprechend wird Zeit zum Dekodieren und Enkodieren benötigt, wobei eine
wahrnehmbare Verzögerung beim Telefonieren nicht akzeptabel ist. Insgesamt dürfen
nicht mehr als 150 ms inklusive Transport benötigt werden.[18]
Je aufwändiger ein Codec ist, desto länger dauern Encodieren wie auch Decodieren, und
desto größer ist die Verzögerung. Es gibt auch einen Zusammenhang mit der Datenrate. Je


stärker ein Signal komprimiert wurde, desto kleiner ist das Datenaufkommen und somit
die Datenrate.

• Komplexität des Verfahrens

Das Verfahren darf nicht so komplex sein, dass der Aufwand, der betreiben werden muss,
um einen Codec zu implementieren, die Grenze des Wirtschaftlichen übersteigt.
Normalerweise ist dies kein Hindernis, das Hardware nicht teuer ist und ständig durch
billigere und leistungsfähigere Nachfolger abgelöst wird.[18]

In der Praxis gibt es keinen idealen Codec, der all diesen Erfordernissen am besten gerecht
wird. Jeder Codec hat seine Vor- und Nachteile, so dass man nur den optimalen
auswählen kann.

Codec Nutzdatenrate Verzögerung Prozessorlast MOS
(Kbps) ms MIPS26
G.711 (PCM) 64 0,125 0 4,1
G.726 (ADPCM) 32 0,125 6,5 3,85
G.728 (LD-CELP) 15 2 37,5 3,61
G.729 (CS-ACELP) 8 20 34 3,92
G.729a (CS-ACELP) 8 20 17 3,7
G.723.1 (MP-MLQ) 6,3 70 25 3,9
G.723.1 (ACELP) 5,3 70 25 3,65

Tabelle 2: Vergleich von Qualität und Komplexität verschiedener ITU-Codecs [18]

26
MIPS: Million Instructions per Second


2.6 H.323-Standard

Der H.323 Standart (Packet Based Multimedia Communications Systems) ist eine
Rahmenempfehlung der ITU-T27 von 1996 bzw. 1998 (Rev. 2) welche auf ca. 50 Standards
verweist. Diese legen die technischen Voraussetzungen für die multimediale Kommunikation
über nonguaranteed QoS-Netzwerke fest. Wobei besonders auf Beschreibung der
Komponenten, Verarbeitung der Medienströme (Audio, Video, Daten),
Verbindungsmanagment und Interworking verschiedener Netzwerke eingegangen wird.

2.6.1 Architektur
H.323 beschreibt die Architektur und die Funktionen von einzelnen Systemkomponenten für
die Übermittlung von Audio und Video in IP-Netzen. Die Summe aller Elemente (H.323
Entities) in einem Netzwerk wird als H.323 Netzwerk bezeichnet.
H.323 unterscheidet zwischen folgenden Komponenten

Terminal

Ein H.323 Terminal ist ein Endgerät, mit dem eine bidirektionale Echtzeitkommunikation mit
anderen Terminals bzw. Gateways oder einer MCU möglich ist.

Gateway

Wie Terminals, so sind auch Gateways Endgeräte in einem H.323 Netzwerk. Gateways
ermöglichen die Verbindung eines H.323 Netzwerks zu anderen Netzwerken, wie z. B. dem
SCN.

MCU (Multipoint Controler)

Eine MCU ermöglicht den Aufbau einer Konferenzschaltung (Multipoint-Konferenz)
zwischen mehreren Endgeräten.

Gatekeeper

Als zentrale Stelle in einem H.323 Netzwerk übernimmt der Gatekeeper verschiedene
Kontroll- und Verwaltungsaufgaben für alle registrierten Endgeräte. Eine Gruppe von
Terminals, die von einem Gatekeeper kontrolliert wird, bildet eine H.323-Zone (kurz Zone).

27
ITU-T: Telecommunication Standardization Sector of ITU


Abbildung 17: H.323-Komponenten

2.6.2 H.323-Protokollsuite
Die H.323-Protokollsuite basiert auf mehreren Protokollen, die in Abbildung 18 gezeigt sind.
Die Protokollfamilie unterstützt Erlaubnis, Aufbau, Zustand, Trennung, Medienströme und
Meldungen vom Anrufen in H.323-Systemen.

Abbildung 18: H.323-Protokollhierarchie

2.6.2.1 RAS-(Registration Admission Status) Signalisierung

Es handelt sich hier um die Steuerung, die zwischen Terminals und Gatekeeper abläuft. Der
Gatekeeper stellt quasi eine Zentrale innerhalb einer H.323-Zone dar. Ein Terminal kann nur


dann eine Verbindung initiieren, wenn es beim Gatekeeper bereits registriert ist. Beim
Verbindungsaufbau muss jedes Terminal jede neue Verbindung beim Gatekeeper anmelden,
falls keine sog. pre-granted Admission, also eine „Vorausbewilligung“ vorliegt. Damit wird
auch die benötigte Bandbreite beim Gatekeeper angemeldet.
Dafür wird ein RAS-Kanal zwischen Endpunkten und dem Gatekeeper über ein IP-Netzwerk
eingerichtet. Diese unzuverlässige UDP-Verbindung überträgt die RAS-Meldungen, die die
Registrierungs-, Erlaubnis-, Bandbreitenänderungs- und Zustandsprozeduren ausführen.

Gatekeeper-Entdeckung

Innerhalb einer Zone können mehrere Gatekeeper eingesetzt werden, um die Ausfallsicherheit
zu erhöhen. Jeder Endpunkt einer Zone wird von einem Gatekeeper dieser Zone verwaltet.
Somit muss jeder neue Endpunkt bei einem Gatekeeper registriert werden. Hierfür muss
zuerst ermittelt werden, welcher Gatekeeper für die Verwaltung des neuen Endpunktes
zuständig ist. Jeder neue Endpunkt muss somit seinen Gatekeeper entdecken (auffinden).
Abbildung 19 illustriert die Gatekeeper-Entdeckung.
Um den Gatekeeper zu entdecken, sendet ein Endpunkt eine Multicast-Nachricht
GatekeeperRequest (GRQ). Ein oder mehrere Gatekeeper können mit einer Nachricht
GatekeeperConfirmation (GCF) antworten, in der sie dem Endpunkt ihre Bereitschaft
signalisieren, als dessen Gatekeeper zu fungieren. Falls mehrere Gatekeeper auf die Anfrage
antworten, steht es dem Endpunkt frei, für welchen er sich entscheidet. Der Gatekeeper, der
für den Endpunkt nicht zuständig ist, antwortet mit GatekeeperReject (GRJ).

Abbildung 19: Endeckung des zuständigen Gatekeeper (GK) [1]

Registrierung

Die Registrierung beim Gatekeeper ist der Prozess, während dessen Ablauf ein neuer
Endpunkt einer Zone den Gatekeeper über seine Adresse für Audio- und
Videokommunikation informiert. Sie wird bei H.323 als Alias-Adresse bezeichnet.
Da jedes IP-Telefon über eine Telefonnummer bzw. eine Alias-Adresse, in der Form


Tel-Nr@xyz.de, verfügen muss, handelt es sich hierbei um die Bekanntgabe seiner Alias-
Adresse.
Abbildung 20 illustriert die Registrierung. Ein Endpunkt sendet eine Nachricht
RegistrationRequest (RRQ) zum Gatekeeper mit der Angabe seiner Alias-Adresse. Der
Gatekeeper muss bei der Registrierung die Alias-Adresse des Endpunktes zu seiner IP-
Adresse zuordnen und dies in einer speziellen Tabelle mit den Zuordnungen Alias-Adresse
=> IPAdresse eintragen.
Der Gatekeeper kann entweder mit RegistrationConfirm (RCF) die Registrierung annehmen
oder mit RegistrationReject (RRJ) die Registrierung ablehnen. Wie Abbildung 20 zeigt, kann
sich ein Endpunkt beim Gatekeeper durch das Absenden von UnregistrationRequest (URQ)
deregistrieren (abmelden). Der Gatekeeper kann die Deregistrierung entweder mit
UnregistrationConfirm (UCF) bestätigen oder mit UnregistrationReject (URJ) ablehnen.

Abbildung 20: Ablauf: a) der Registrierung, b) der Deregistrierung [1]

Lokalisierung der Endpunkte

Eine Aufgabe jedes Gatekeepers besteht in der Verwaltung einer Tabelle mit der Zuordnung
Alias-Adresse => IP-Adresse. Die Abfrage der IPAdresse eines Endpunktes wird bei H.225.0
als Location-Prozess bezeichnet. Abbildung 21 veranschaulicht die Bedeutung dieses
Prozesses.
Hier fragt der Endpunkt A seinen Gatekeeper GK1 nach der IP-Adresse des Endpunktes B,
d.h. seines Kommunikationspartners, bereits bei der Anmeldung der zu initiierenden
Verbindung mit der Nachricht ARQ ab.
Befindet sich der Endpunkt B aber in einer anderen (H.323-)Zone, so muss GK1 die IP-
Adresse des Endpunktes B vom Gatekeeper dieser Zone abfragen. Hierfür definiert H.225.0
entsprechende Nachrichten.
Wie Abbildung 21 zeigt, sendet der GK1 der Zone 1 an den GK2 der fremden Zone 2 die
Nachricht LocationRequest (LRQ), in der er die Alias-Adresse des Endpunktes B angibt und
nach seiner IP-Adresse fragt. Der GK2 antwortet normalerweise mit LocationConfirm (LCF),


in der die gewünschte IPAdresse enthalten ist. Falls der GK2 die gewünschte IP-Adresse nicht
liefern kann, antwortet er mit LocationReject (LRJ).

Abbildung 21: Verlauf eines Location-Prozesses [1]

Zulassung von Verbindungen

Jeder Endpunkt darf nur dann eine abgehende Verbindung für Audio- bzw.
Videokommunikation initiieren bzw. eine ankommende Verbindung annehmen, wenn dies
vom Gatekeeper zugelassen wurde (Admission). Damit kann der Verbrauch der
Übertragungskapazität (Bandbreite) im IP-Netz vom Gatekeeper kontrolliert werden. Nach
dem Ablauf der Kommunikation muss eine abgebaute Verbindung beim Gatekeeper
abgemeldet werden, sodass er die reservierte Bandbreite für andere Verbindungen freigeben
kann. Abbildung 22 zeigt die Zulassung (Admission) einer Verbindung für Audio- bzw.
Videokommunikation und Freigabe der reservierten Bandbreite (Disengage) nach dem
Abbau der Verbindung.

Abbildung 22: Funktionen Admission und Disengage [1]


2.6.2.2 Anruf-Kontroll-Signalisierung (H.225)

Um eine Verbindung zwischen zwei Endpunkten für die Übermittlung von Echtzeitmedien
(Audio/Sprache, Video) aufbauen zu können, werden zwei Signalisierungsprotokolle H.225.0
und H.245 als H.323-Signalisierung (kurz H.323-SIG) verwendet. H.225.0 definiert ein
Anruf-Signalisierungs-Protokoll (Anruf-SIG-Protokoll), nach dem der H.245-Kanal aufgebaut
und abgebaut wird. Über den H.245-Kanal werden logische RTP- und RTCP-Kanäle für die
Audio/Video-Kommunikation eingerichtet. H.225.0 nutzt einige Nachrichten des D-Kanal-
Protokolls Q.930/Q931 vom ISDN. Bei H.225.0 handelt es sich im Prinzip um eine
Realisierung des D-Kanal-Protokolls über TCP-Verbindungen.

2.6.2.3 Medien-Kontroll-Signalisierung (H.245)

Es handelt sich hier um die Steuerung beim Auf- und Abbau logischer Kanäle für die Audio-
und Video-Übermittlung. Diese logischen Kanäle stellen die RTP-Sitzungen (Real Time
Transport Protocol) dar und entsprechen weitgehend den B-Kanälen im ISDN. Die Steuerung
beim Auf- und Abbau logischer Kanäle wird zwischen jeweils zwei Terminals über den
H.245-Steuerungskanal ausgetauscht. Für die Übermittlung von H.245-Nachrichten wird das
Protokoll TCP verwendet
Die wichtigsten Funktionen von H.245 sind:
Austausch der Terminal-Fähigkeiten (Capability Exchange),
Master/Slave-Festlegung28 (Master/Slave Determination),
Aufbau und Abbau logischer RTP/RTCP-Kanäle für die Übermittlung verschiedener
Medien (Audio, Video, Daten),

2.6.2.4 Anruf-Signalisierung (Q.931)

Der Q.931 Standard der ITU beinhaltet Prozeduren für den Auf- und Abbau einer Verbindung
im ISDN. Die Signalisierung verläuft dabei über den D-Kanal des ISDN-Anschlusses.
Für die Signalisierung in H.323 wird ebenfalls Q.931 verwendet. Diese Designentscheidung
ist historisch bedingt, da zu Beginn von H.323 versucht wurde, Standards und Protokolle aus
dem ISDN (bzw. von H.320) zu übernehmen.

28
Mit der Master/Slave-Festlegungsprozedur wird für einen bestimmten Anruf bestimmt, welcher Endpunkt der
Master und welcher der Slave ist. Die Beziehung bleibt für die Dauer des Anrufs bestehen und sie ist zuständig
für die Auflösung von Konflikten zwischen den Endpunkten. Die Master/Slave-Regeln kommen zum Einsatz,
wenn beide Endpunkte zum selben Zeitpunkt ähnliche Aktionen anfordern.


2.6.2.5 Unterstützung von Datenanwendungen nach T.120

Der ITU-T-Standard T.120 beschreibt die Prinzipien der Datenkommunikation bei den PC-
basierten Videokonferenzen und ist integrierbar in H.323. Parallel zur Sprach- und
Videokommunikation kann zwischen jeweils zwei Terminals auch die Datenkommunikation
nach T.120 stattfinden.

2.6.2.6 Struktur von Anruf-SIG-Nachrichten beim H.225.0

Als Anruf-SIG-Nachrichten beim H.225.0 werden die Q.931-Nachrichten in einer erweiterten
Form verwendet. Abbildung 23 zeigt, wie die Anruf-SIG-Nachrichten strukturiert sind und
wie sie in IP-Paketen übermittelt werden.

Abbildung 23: H.225.0-Anruf-SIG-Nachrichten in IP-Paketen [1]

Für den H.225.0-Einsatz werden die Q.931-Nachrichten um zusätzliche und H.225.0-
spezifische Angaben erweitert, die man als User-to-User Information Elements (UUIEs)
bezeichnet. UUIEs werden am Ende einer Q.931-Nachricht angehängt. Um die Länge der
erweiterten Q.931-Nachricht, die eine H.225.0-Anruf-SIG-Nachricht darstellt, angeben zu
können, wird der Header des Protokolls TPKT (Transport PacKeT) nach RFC 2126 der
Q.931-Nachricht vorangestellt.
Somit wird ein TPKT-Paket aus einer H.225.0-SIG-Nachricht gebildet und über eine TCP-
Verbindung übermittelt.


Jede Q.931-Nachricht enthält immer folgende Angaben:

Message type als Angabe des Nachrichtentyps (Setup, Alerting, ...).
Call reference als Identifikation des Anrufes, d.h. auf welchen Anruf sich diese
Signalisierung bezieht.
Protocol discriminator als Identifikation des Protokolls Q.931.
Informationselemente IEs (Information Elements) als Parameter der Nachricht, die oft
optional sind.

Die folgenden Q.931-Meldungen sind die am häufigsten verwendeten Signalisierungs-
Meldungen in H.323-Netwerken:

Setup: (Einrichtung) wird von der anrufenden Einheit zur angerufenen gesendet. Mit
„Setup“ wird versucht, eine Verbindung einzurichten.
Call-Proceeding: wird von der angerufenen Einheit zur anrufenden gesendet. Mit
(Anruffortschritt) Call-Proceeding wird angezeigt, dass die Prozeduren zur
Anrufeinrichtung gestartet wurden.
Alerting: (Alarmierung) wird von der angerufenen Einheit gesendet, um mitzuteilen,
dass das Klingeln an der angerufenen Seite gestartet wurde.
Connect: (Verbinden) wird von der anrufenden Einheit zur angerufenen gesendet, die
anzeigt, dass die angerufene Seite den Anruf beantwortete.

Die Q.931-Nachrichten und UUIEs werden mit Hilfe von ASN.1 spezifiziert. ASN.1
(Abstract Syntax Notation No. 1) spezifiziert. ASN.1 dient als Sprache für die Beschreibung
von Nachrichten der Protokolle in den Telekommunikationssystemen.

2.6.3 H.323-Verbindungsablauf
Abbildung 24 stellt ein Beispiel eines Verbindungsablaufes dar, bei dem die H.323-
Protokollfamilie die Einrichtung eines Anrufs zwischen zwei Endpunkten erreicht. Wir gehen
davon aus, dass es sich um einen Sprachanruf handelt und dass beide Endpunkte die
Registrierung beim Gatekeeper bereits abgeschlossen haben.


Abbildung 24: H.323-Verbindungsablauf [16]

2.6.4 Zusammenfassung
H.323 ist ein hybrides System, das aus zentralisierten intelligenten Gatekeepern, MCUs und
weniger intelligenten Endpunkte zusammengesetzt ist. Obwohl der H.323-Standard in
neueren Veröffentlichungen vervollständigt wurde, sind Probleme aufgetreten, wie z.B. lange
Anruf Einrichtungszeiten, Overhead29 bei einem mit allen Features ausgestatteten Konferenz-
Protokoll viele erforderliche Funktionen in jedem Gatekeeper und Skalierungsprobleme bei
Implementierungen, bei denen Anrufe durch Gatekeeper geroutet werden. Wenn High-
Density-Gateways für die Anbindung ans PSTN benötigt werden, werden Alternativen wie
das Simple Gateway Control Protocol (SGCP) und das Media Gateway Control Protocol
(MGCP) entwickelt. Diese Anruf-Kontroll-Systeme ermöglichen eine effektivere und
skalierbarere Lösung, um Implementierungen für Carrier befriedigen zu können.
Entsprechend löst SIP (Session-lnitiation-Protokoll) einige Probleme des H.323 für
intelligente Endpunktkonfiguration und es wird als Alternative zu H.323 eingesetzt. SIP wird
ausführlich in Kapitell 2.7 diskutiert.
29
In der Kommunikation werden mit Overhead alle Informationen bezeichnet, die zusätzlich zu den Nutzdaten
übertragen werden. Das sind Daten, die technisch erforderlich sind, wie Header in Datenpaketen, Routing- und
Kontrolldaten, Prüfzeichen usw.


2.7 SIP (Session Initiation Protocol)

Das Session Initiation Protocol (SIP, RFC 2543, RFC 3261) wurde 1999 durch die IETF
(Internet Engineering Task Force) standardisiert und wird zur Kommunikation zwischen SIP
fähigen Endgeräten und Servern oder zwischen Endgeräten genutzt.
SIP wurde in Anlehnung an die Struktur des Internets entwickelt. Die Architektur ist verteilt
beziehungsweise modular. Das Protokoll ist im Klartext kodiert und der Aufbau ähnelt HTTP
oder SMTP. Dadurch ist SIP im Gegensatz zu H.323 besser skalier- und erweiterbar (siehe
Kapitel 2.9)
SIP wurde nicht ausschließlich für die Verwendung bei VoIP vorgesehen. Ziel bei der
Entwicklung von SIP war die Definition eines umfassenden Kommunikationssystems. SIP
kann beispielsweise auch bei der Steuerung von Geräten, zum Versenden von
Kurznachrichten oder auch zum Verbindungsaufbau bei Onlinespielen zum Einsatz kommen.

2.7.1 SIP-Protokollhierarchie
Das Versenden von SIP Nachrichten erfolgt bevorzugt über UDP; TCP ist jedoch optional
möglich. Dabei wird zur Kommunikation zwischen Endgerät und Server standardmäßig der
Port 5060 verwendet. Bei Sprachverbindungen werden die Audiodaten mittels Real Time
Transport Protocol RTP transportiert, dieses Protokoll versendet seine Pakete über UPD.
Das Session Description Protocol (SDP) ist schwieriger einzuordnen. Es setzt auf dem SIP
und dem RTP Protokoll auf, indem es seine Informationen im Body einer SIP-Nachricht
verpackt bzw. das RTP Protokoll ansteuert.

Abbildung 25: SIP-Protokollhierarchie

2.7.1 SIP-Architektur
Gegenüber H.323-Systemen werden für SIP-Systeme nur zwei Komponenten benötigt: User
Agent und SIP-Server, wobei SIP drei Server-Typen unterscheidet: Proxy-Server, Location
Server und Redirect Server.


User Agent

Als User Agent (UA) werden alle SIP-fähigen Endgeräte (d.h. Softwaretelefon am PC,
PDAs30, SIP-Telefone, aber auch PSTN-Gateways etc.) bezeichnet. Dabei wird meist noch
eine (rein logische) Aufteilung in User Agent Client (UAC) und User Agent Server (UAS)
vorgenommen, wobei jedoch jeder UA immer aus einem UAC und einem UAS besteht. Diese
haben folgende Aufgaben:
- UAC’s stellen Anfragen und verarbeiten Antworten
- UAS’s empfangen Anfragen und versende Antwortnachrichten

Abbildung 26: User Agent

Proxy Server

Diese spielen eine zentrale Rolle in einem SIP-Netzwerk. Ihre Aufgabe ist es, das Routing der
SIP-Nachrichten zum Aufbau einer SIP-Verbindung zu übernehmen. Verbindungsgesuche
eines Anrufers können über mehrere Proxies bis zum Aufenthaltsort des Angerufenen geleitet
werden.
Es wird dabei zwischen Stateless und Stateful Proxies unterschieden. Stateless Proxies leiten
empfangene Nachrichten einfach weiter. Sie sind deshalb schneller als Stateful Proxies und
finden vor allem Verwendung als Loadbalancer und einfache Router. Allerdings sind sie nicht
in der Lage, anspruchvolleres Routing wie z.B. Call Forking (mehrere Endgeräte können
gleichzeitig angerufen werden) zu betreiben.
Stateful Proxies generieren für eine Anfrage einen Zustand (''State'') und behalten diesen, bis
die entsprechende Transaktion31 beendet ist. Dies kann im Falle einer INVITE (Einladung)-
Nachricht relativ lang dauern (nämlich so lange, bis der Angerufene den Anruf annimmt oder

30
Unter dem Begriff PDA (Personal Digital Assistent) werden handliche elektronische Geräte mit Kalender-,
Adress-, Notiz- und ähnlichen Funktionen zusammengefasst
31
Transaktion: Kompletter Zyklus einer Datenverarbeitung.


abweist). Aufgrund der Tatsache, dass Stateful Proxies diese Zustände für die Dauer der
Anfrage aufrecht erhalten müssen, sind an diese höhere Leistungsanforderungen gestellt.
Dafür sind sie aber auch in der Lage, weitergehende Dienste anzubieten und können auch von
einem Endgerät mehrfach versandte Nachrichten abfangen, da sie ja wissen, ob diese bereits
empfangen wurde.

Location Server (Registrar)

Damit ein Proxy weiß, wo der betreffende Benutzer zu finden ist, muss sich sein UA an
einem Location Server angemeldet haben. Dieser speichert dann den derzeitigen
Aufenthaltsort (d.h. IP-Adresse, Port und Benutzername) in einer sog. ''location database''.
Auf diese kann dann der Proxy-Server des Angerufenen zugreifen, um den Aufenthaltsort
herauszufinden. Bei einem Registrar handelt es sich allerdings für gewöhnlich nur um eine
logische Einheit - wegen der engen Verzahnung von Registrar und Proxy sind diese meist in
einem Gerät (Soft- oder Hardware) zusammengefasst.

Redirect Server

Aufgabe dieses Servers ist es, bei eingehenden Anfragen den gewünschten Empfänger in der
location database nachzuschlagen. Die gefundenen Aufenthaltsorte - es ist bei SIP möglich,
dass man sich zur gleichen Zeit mit verschiedenen Endgeräten von verschieden Orten aus mit
dem gleichen Benutzer anmelden kann - werden dann dem Sender der Anfrage mit einer
entsprechenden Nachricht zurückgesandt.

Abbildung 27: Interaktion verschiedener SIP-Server

Diplom arbeit lotfi_faik_2005

Recommandé

Recommandé

Contenu connexe

Similaire à Diplom arbeit lotfi_faik_2005

Similaire à Diplom arbeit lotfi_faik_2005 (20)

Diplom arbeit lotfi_faik_2005