Surround Sound Formate

Einleitung

Surround Sound arbeitet unter der Verwendung von verschiedenen Audio-Kanälen oder Spuren, um dem Zuhörer den Eindruck zu vermitteln, sich innerhalb des Geschehens zu befinden. Anwendung findet dies sowohl für Film-Soundtracks, als auch für reine Musikdaten wie Konzerte.

Die Idee ist dabei, den Zuhörer innerhalb einer bestimmten Anordnung von Klangerzeugern zu plazieren. Dazu werden eine Anzahl von Lautsprechern um die Zuhörer herum angeordnet. Für gewöhnlich kommen dabei mindestens 6 Lautsprecher zum Einsatz. Die Position der Lautsprecher ist dabei in der Regel festgelegt. Sie befinden sich direkt vor (center), seitlich rechts und links vor (left, right) und seitlich neben dem Zuhörer (surround). Die Lautsprecher center, left und right sind dabei für Sprache und Musik, während die Surround-Boxen für Klangeffekte vorgesehen sind.

Zusätzlich wird noch eine Tieftoneinheit (subwoofer) eingesetzt um die sog. Low Frequency Effects (LFE) zu erzeugen. Die LFE-Einheit wird für gewöhnlich ebenfalls zentral vorne angeordnet, da die akustische Ortung eines sehr tiefen Signals nur bedingt möglich ist.

Diese Gesamtanordnung wird auch als 5.1 Surround Sound bezeichnet, da 5 Hochton- und 1 Tieftoneinheit Verwendung finden. Weiterführende Verfahren unterstützen sogar 6.1 oder 7.1 Anordnungen.

Neben diesen sog. echten Surround-Verfahren gibt es auch virtuelle Surround-Verfahren, wie z.B. das Sound Retrieval System (SRS), welche den Surround-Effekt unter der Verwendung von nur zwei Stereo-Kanälen (Lautsprechern) durch psychoakustische Modelle erzeugt. Der Surround-Eindruck entsteht also erst beim Zuhörer.

Nachfolgende Betrachtung beschränkt sich aber auf den Bereich der echten Surround-Verfahren.

Zur Erzeugung des Surround-Sounds gibt es am Markt verschiedene, proprietäre Algorithmen, die von unterschiedlichen Herstellern entwickelt wurden. Diese liegen allerdings in der Regel nur in einem Standard-Code vor, so dass Lizenznehmer, also Hersteller von Geräten, die Surround-Sound unterstützen sollen, diese Algorithmen noch an die gewünschte Plattform anpassen müssen. Es bedarf daher in der Regel einer Portierung des Algorithmus.

Als bekannteste Verfahren lassen sich angeben:

Dolby Digital (ehemals AC3)
Dolby Digital EX
DTS Digital Surround
DTS Extended Surround (DTS-ES)
THX Surround EX

Die am weitesten verbreiteten Verfahren sind dabei:

Dolby Digital (ehemals AC3)
DTS Digital Surround

Die nachfolgenden Informationen sind den Links: http://www.dolby.com entnommen.

DTS / AC3 Allgemein

Auch wenn DTS und AC3 sich im Detail unterscheiden, so besitzen beide Verfahren grundlegende Gemeinsamkeiten. Als Eingangssignal wird stets ein digitales, d.h. PCM-codiertes, mehrkanaliges Signal verwandt. Ziel ist es, durch erneute Codierung eine Datenreduktion zu erreichen.

Im Vordergrund steht hier jedoch nicht, die Datenrate zu verringern, um Speicherkosten zu minimieren, sondern es ist das Ziel, die Qualität des Audiosignals zu maximieren, so dass bei einer Bitrate, die der eines PCM Signals entspricht, ein Signal mit höherer Qualität codiert wird.

Eine PCM-Codierung erreicht eine Datenrate von 705 kBits/s je Kanal bei einer Sample-Auflösung von 16 Bit und einer Sampling-Rate von 44,1 kHz des Ursprungssignals. Diese Datenrate läßt sich konstant beibehalten, wobei bei DTS nun jedoch eine Auflösung von 24 Bit und einer Sampling-Rate von 192 kHz je Kanal als Ursprungssignal vorliegen kann.

Um diese Datenreduktion zu erreichen werden sog. Irrelevanzen aus dem Audiosignal entfernt. Dies wird u.a. durch einen geeigneten zusätzlichen Codierungsalgorithmus und durch Verwendung psychoakustischer Modelle erreicht. Während der Codierungsalgorithmus eine verlustlose Datenreduktion erlaubt, werden durch die Anwendung der psychoakustischen Modelle alle Daten entfernt, die die Qualität des Höreindrucks nicht reduzieren, aber dennoch irrelevant sind. Diese Codierung ist verlustbehaftet, da die Daten im Decoder nicht rekonstruiert werden können.

In einem ersten Schritt wird dazu in beiden Verfahren das Signal in mehrere Frequenz-Teilbänder zerlegt. Dies geschieht in einer sog. Filterbank. Dabei verwendet DTS eine sog. Polyphasen-Filterbank und AC3 eine TDAC-Filterbank (time domain aliasing cancellation).

Eine weitere Gemeinsamkeit ist die Verwendung von Quantisierern unter Zuhilfenahme einer globalen Bit-Management-Einheit (Bit-Allokation). Diese dient zur Berechnung der optimalen Bitrate je Kanal. Dabei werden alle Kanäle global betrachtet, um die globale Bitrate durch Veränderung der Einzelbitraten je Teilband und je Kanal konstant zu halten. Die Berechnung erfolgt auf der Basis der Ausgangs-Koeffizienten der Filterbank.

Die angewandten psychoakustischen Modelle erlauben einerseits das Ausnutzen des sog. Verdeckungseffekts, sowie die Anpassung des Eingangssignals an die Hörkurve des menschlichen Gehörs, dessen Empfindlichkeit stark frequenzabhängig ist.

Der Verdeckungseffekt besagt, dass eine Frequenz mit hoher Amplitude (Pegel) eine Nachbar-Frequenz mit geringerer Amplitude verdeckt. Damit ist sie nicht wahrnehmbar (maskiert). Eine Codierung dieser Frequenz ist somit irrelevant und redundant. Maskierungen sind dabei besonders wirksam, wenn die Frequenz mit geringem Pegel höher liegt, als die Frequenz mit hohem Pegel.

Die Hörkurve des Menschen ist frequenzabhängig. Zu höheren Frequenzen nimmt dabei die Empfindlichkeit des Ohres stark ab. Daher müssen hohe Frequenzen einen größere Amplitude aufweisen, um wahrgenommen zu werden. Fallen Frequenzen unter die Hörschwelle des menschlichen Ohres, so müssen diese nicht codiert werden und sind redundant.

Das globale Bit-Management prüft daher dynamisch die nötigen Bitraten je Teilband und Kanal, um auf Basis der Psychoakustik die einzelnen Datenraten zu variieren, sie aber global konstant zu halten. Eine gesteuerte Quantisierung sorgt dann für die Eliminierung sämtlicher Irrelevanzen aus den Signalen.