Reverse Mastering: Ist es möglich, den Dynamikumfang komprimierter Aufnahmen zu erhöhen? Dynamikkomprimierung Dynamikbereich komprimiert oder Standard

Diese Methodengruppe basiert auf der Tatsache, dass gesendete Signale nichtlineare Amplitudentransformationen durchlaufen und die Nichtlinearitäten im Sende- und Empfangsteil reziprok sind. Wenn beispielsweise im Sender die nichtlineare Funktion Öu verwendet wird, wird im Empfänger u 2 verwendet. Durch die konsequente Anwendung reziproker Funktionen wird sichergestellt, dass die Gesamttransformation linear bleibt.

Die Idee nichtlinearer Datenkomprimierungsverfahren besteht darin, dass der Sender bei gleicher Amplitude der Ausgangssignale einen größeren Änderungsbereich des übertragenen Parameters (also einen größeren Dynamikbereich) übertragen kann. Dynamikbereich- Dies ist das Verhältnis der größten zulässigen Signalamplitude zur kleinsten, ausgedrückt in relativen Einheiten oder Dezibel:

;	(2.17)
.	(2.18)

Der natürliche Wunsch, den Dynamikbereich durch Verringerung von U min zu erhöhen, wird durch die Empfindlichkeit des Geräts und den zunehmenden Einfluss von Interferenzen und Eigenrauschen begrenzt.

Am häufigsten wird die Komprimierung des Dynamikbereichs mithilfe eines Paares reziproker Funktionen aus Logarithmus und Potenzierung durchgeführt. Der erste Vorgang zum Ändern der Amplitude wird aufgerufen Kompression(durch Komprimierung), die zweite - Erweiterung(Strecken). Die Wahl dieser speziellen Funktionen hängt mit deren größter Komprimierungsfähigkeit zusammen.

Gleichzeitig haben diese Methoden aber auch Nachteile. Die erste davon ist, dass der Logarithmus einer kleinen Zahl negativ ist und im Grenzwert liegt:

das heißt, die Empfindlichkeit ist sehr nichtlinear.

Um diese Mängel zu verringern, werden beide Funktionen durch Verschiebung und Approximation modifiziert. Für Telefonkanäle hat die Näherungsfunktion beispielsweise die Form (Typ A):

mit A=87,6. Der Gewinn durch Komprimierung beträgt 24 dB.

Die Datenkomprimierung mit nichtlinearen Verfahren wird auf analogem Wege mit großen Fehlern umgesetzt. Durch den Einsatz digitaler Tools kann die Genauigkeit bzw. Geschwindigkeit der Konvertierung deutlich verbessert werden. Gleichzeitig erfolgt die direkte Verwendung der Mittel Computertechnologie(d. h. die direkte Berechnung von Logarithmen und Exponenten) führt aufgrund geringer Leistung und sich häufender Berechnungsfehler nicht zu den besten Ergebnissen.

Aufgrund von Genauigkeitseinschränkungen wird die Datenkomprimierung durch Komprimierung in unkritischen Fällen eingesetzt, beispielsweise zur Übertragung von Sprache über Telefon- und Funkkanäle.

Effiziente Codierung

Effiziente Codes wurden von K. Shannon, Fano und Huffman vorgeschlagen. Das Wesen von Codes besteht darin, dass sie ungerade sind, also eine ungleiche Anzahl von Bits aufweisen, und dass die Länge des Codes umgekehrt proportional zur Wahrscheinlichkeit seines Auftretens ist. Ein weiteres großartiges Merkmal effizienter Codes ist, dass sie keine Trennzeichen erfordern, d. h. spezielle Charaktere, Trennen benachbarter Codekombinationen. Dies wird durch die Befolgung einer einfachen Regel erreicht: Kürzere Codes sind nicht der Anfang längerer Codes. In diesem Fall wird der kontinuierliche Bitstrom eindeutig decodiert, da der Decoder zuerst die kürzeren Codewörter erkennt. Effiziente Codes waren lange Zeit rein akademischer Natur, aber In letzter Zeit werden erfolgreich beim Erstellen von Datenbanken sowie beim Komprimieren von Informationen in modernen Modems und Softwarearchivierern eingesetzt.

Aufgrund der Unebenheit wird die durchschnittliche Codelänge eingeführt. Durchschnittliche Länge – mathematische Erwartung der Codelänge:

außerdem strebt l av von oben nach H(x) (d. h. l av > H(x)).

Die Erfüllung der Bedingung (2.23) wird umso stärker, je größer N ist.

Es gibt zwei Arten effizienter Codes: Shannon-Fano und Huffman. Schauen wir uns anhand eines Beispiels an, wie man sie erhält. Nehmen wir an, dass die Wahrscheinlichkeiten der Symbole in der Sequenz die in Tabelle 2.1 angegebenen Werte haben.

Tabelle 2.1.

Symbolwahrscheinlichkeiten

N
p ich	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

Symbole werden geordnet, d. h. in absteigender Wahrscheinlichkeitsreihenfolge in einer Reihe dargestellt. Anschließend wird mit der Shannon-Fano-Methode folgender Vorgang periodisch wiederholt: Die gesamte Ereignisgruppe wird in zwei Untergruppen mit gleichen (oder annähernd gleichen) Gesamtwahrscheinlichkeiten aufgeteilt. Der Vorgang wird fortgesetzt, bis ein Element in der nächsten Untergruppe verbleibt. Anschließend wird dieses Element entfernt und die angegebenen Aktionen werden mit den verbleibenden fortgeführt. Dies geschieht so lange, bis in den letzten beiden Untergruppen nur noch ein Element übrig ist. Fahren wir mit unserem Beispiel fort, das in Tabelle 2.2 zusammengefasst ist.

Tabelle 2.2.

Shannon-Fano-Kodierung

N	P ich
4	0.3		ICH
	0.2	ICH	II
6	0.15		ICH	ICH
	0.1			II
1	0.1			ICH	ICH
9	0.05	II			II
5	0.05		II		ICH
7	0.03			II	II	ICH
8	0.02					II

Wie aus Tabelle 2.2 ersichtlich ist, nahm das erste Symbol mit der Wahrscheinlichkeit p 4 = 0,3 an zwei Verfahren zur Einteilung in Gruppen teil und landete beide Male in der Gruppe Nummer I. Dementsprechend ist es mit einem zweistelligen Code II kodiert. Das zweite Element gehörte in der ersten Stufe der Teilung zur Gruppe I, im zweiten zur Gruppe II. Daher ist sein Code 10. Die Codes der übrigen Symbole benötigen keine zusätzlichen Kommentare.

Typischerweise werden uneinheitliche Codes als Codebäume dargestellt. Ein Codebaum ist ein Diagramm, das zulässige Codekombinationen angibt. Die Richtungen der Kanten dieses Diagramms sind voreingestellt, wie in Abb. 2.11 dargestellt (die Wahl der Richtungen ist willkürlich).

Sie navigieren wie folgt durch die Grafik: Erstellen Sie eine Route für das ausgewählte Symbol. Die Anzahl der Bits entspricht der Anzahl der Kanten in der Route und der Wert jedes Bits entspricht der Richtung der entsprechenden Kante. Die Route wird vom Startpunkt aus erstellt (in der Zeichnung ist er mit dem Buchstaben A gekennzeichnet). Beispielsweise besteht die Route zum Scheitelpunkt 5 aus fünf Kanten, von denen alle bis auf die letzte die Richtung 0 haben; Wir erhalten den Code 00001.

Berechnen wir für dieses Beispiel die Entropie und die durchschnittliche Wortlänge.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 Bits

l Durchschnitt = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 + 0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Wie Sie sehen, liegt die durchschnittliche Wortlänge nahe an der Entropie.

Huffman-Codes werden mit einem anderen Algorithmus erstellt. Das Kodierungsverfahren besteht aus zwei Schritten. In der ersten Stufe werden einzelne Komprimierungen des Alphabets nacheinander durchgeführt. Einmalige Komprimierung – Ersetzen der letzten beiden Symbole (mit den niedrigsten Wahrscheinlichkeiten) durch eines mit einer Gesamtwahrscheinlichkeit. Es werden Komprimierungen durchgeführt, bis zwei Zeichen übrig bleiben. Gleichzeitig wird eine Codierungstabelle ausgefüllt, in der die resultierenden Wahrscheinlichkeiten eingetragen werden und die Routen dargestellt werden, auf denen sich neue Symbole im nächsten Schritt bewegen.

In der zweiten Stufe erfolgt die eigentliche Kodierung, die mit der letzten Stufe beginnt: Dem ersten der beiden Symbole wird der Code 1 zugewiesen, dem zweiten der Code 0. Danach geht es weiter zur vorherigen Stufe. Den Symbolen, die zu diesem Zeitpunkt nicht an der Komprimierung teilgenommen haben, werden Codes aus der nachfolgenden Stufe zugewiesen, und der Code des nach dem Kleben erhaltenen Symbols wird den letzten beiden Symbolen zweimal zugewiesen und dem Code hinzugefügt Top-Charakter 1, der untere - 0. Wenn das Symbol nicht weiter an der Verklebung beteiligt ist, bleibt sein Code unverändert. Der Vorgang wird bis zum Ende (also bis zur ersten Stufe) fortgesetzt.

Tabelle 2.3 zeigt die Huffman-Kodierung. Wie aus der Tabelle hervorgeht, erfolgte die Codierung in 7 Stufen. Links sind die Symbolwahrscheinlichkeiten, rechts die Zwischencodes. Die Pfeile zeigen die Bewegungen der neu gebildeten Symbole. In jeder Stufe unterscheiden sich die letzten beiden Symbole nur im niedrigstwertigen Bit, was der Kodierungstechnik entspricht. Berechnen wir die durchschnittliche Wortlänge:

l avg = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Dies kommt der Entropie noch näher: Der Code ist noch effizienter. In Abb. Abbildung 2.12 zeigt den Huffman-Codebaum.

Tabelle 2.3.

Huffman-Codierung

N	p ich	Code	ICH	II	III	IV	V	VI	VII
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Beide Codes erfüllen die Anforderung einer eindeutigen Dekodierung: Wie aus den Tabellen hervorgeht, sind kürzere Kombinationen nicht der Anfang längerer Codes.

Mit zunehmender Zeichenanzahl nimmt die Effizienz der Codes zu, sodass in einigen Fällen größere Blöcke codiert werden (wenn es sich beispielsweise um Texte handelt, können einige der am häufigsten vorkommenden Silben, Wörter und sogar Phrasen codiert werden).

Die Wirkung der Einführung solcher Codes wird durch den Vergleich mit einem einheitlichen Code ermittelt:

(2.24)

Dabei ist n die Anzahl der Bits des einheitlichen Codes, die durch den effektiven ersetzt werden.

Modifikationen von Huffman-Codes

Der klassische Huffman-Algorithmus ist ein Two-Pass-Algorithmus, d.h. erfordert zunächst das Sammeln von Statistiken zu Symbolen und Nachrichten und anschließend die oben beschriebenen Verfahren. Dies ist in der Praxis unpraktisch, da es die Zeit erhöht, die zum Verarbeiten von Nachrichten und zum Anlegen eines Wörterbuchs benötigt wird. Häufiger kommen One-Pass-Verfahren zum Einsatz, bei denen Akkumulations- und Kodierungsverfahren kombiniert werden. Solche Verfahren werden nach Huffman [46] auch adaptive Komprimierung genannt.

Das Wesentliche der adaptiven Komprimierung besteht laut Huffman in der Konstruktion eines anfänglichen Codebaums und seiner sequentiellen Modifikation nach dem Eintreffen jedes nächsten Symbols. Nach wie vor sind die Bäume hier binär, d.h. Von jedem Scheitelpunkt des Baumdiagramms gehen höchstens zwei Bögen aus. Es ist üblich, den ursprünglichen Scheitelpunkt als übergeordneten Scheitelpunkt und die beiden damit verbundenen nachfolgenden Scheitelpunkte als untergeordnete Scheitelpunkte zu bezeichnen. Lassen Sie uns das Konzept der Scheitelpunktgewichtung einführen – dies ist die Anzahl der Zeichen (Wörter), die einem bestimmten Scheitelpunkt entsprechen und bei der Eingabe der Originalsequenz erhalten werden. Offensichtlich ist die Summe der Gewichte der Kinder gleich dem Gewicht der Eltern.

Nach Einführung des nächsten Symbols der Eingabesequenz wird der Codebaum überarbeitet: Die Gewichte der Scheitelpunkte werden neu berechnet und bei Bedarf werden die Scheitelpunkte neu angeordnet. Die Regel zum Permutieren von Scheitelpunkten lautet wie folgt: Die Gewichte der unteren Scheitelpunkte sind am kleinsten und die Scheitelpunkte auf der linken Seite des Diagramms haben die geringsten Gewichte.

Gleichzeitig werden die Eckpunkte nummeriert. Die Nummerierung beginnt an den unteren (hängenden, d. h. keine untergeordneten) Scheitelpunkten von links nach rechts und bewegt sich dann zu Höchststufe usw. bevor der letzte, ursprüngliche Scheitelpunkt nummeriert wird. In diesem Fall wird folgendes Ergebnis erzielt: Je kleiner das Gewicht eines Scheitelpunkts ist, desto niedriger ist seine Nummer.

Die Permutation wird hauptsächlich für hängende Eckpunkte durchgeführt. Beim Permutieren ist die oben formulierte Regel zu beachten: Eckpunkte mit größerem Gewicht haben eine höhere Zahl.

Nach dem Bestehen der Sequenz (auch Kontrolle oder Test genannt) werden allen hängenden Scheitelpunkten Codekombinationen zugewiesen. Die Regel für die Zuweisung von Codes ist ähnlich wie oben: Die Anzahl der Bits des Codes entspricht der Anzahl der Scheitelpunkte, durch die die Route von der Quelle zum angegebenen hängenden Scheitelpunkt verläuft, und der Wert eines bestimmten Bits entspricht der Richtung vom Elternteil zum „Kind“ (sagen wir, nach links vom Elternteil zu gehen entspricht dem Wert 1, nach rechts - 0 ).

Die resultierenden Codekombinationen werden zusammen mit ihren Analoga im Speicher des Komprimierungsgeräts gespeichert und bilden ein Wörterbuch. Die Verwendung des Algorithmus ist wie folgt. Die komprimierte Zeichenfolge wird entsprechend dem vorhandenen Wörterbuch in Fragmente unterteilt, wonach jedes der Fragmente durch seinen Code aus dem Wörterbuch ersetzt wird. Fragmente, die nicht im Wörterbuch gefunden werden, bilden neue hängende Eckpunkte, gewinnen an Gewicht und werden ebenfalls in das Wörterbuch eingetragen. Auf diese Weise wird ein adaptiver Algorithmus zum Auffüllen des Wörterbuchs gebildet.

Um die Effizienz der Methode zu steigern, ist es wünschenswert, die Größe des Wörterbuchs zu erhöhen; in diesem Fall erhöht sich das Kompressionsverhältnis. In der Praxis beträgt die Größe des Wörterbuchs 4 bis 16 KB Speicher.

Lassen Sie uns den angegebenen Algorithmus anhand eines Beispiels veranschaulichen. In Abb. Abbildung 2.13 zeigt das Originaldiagramm (es wird auch Huffman-Baum genannt). Jeder Scheitelpunkt des Baums wird durch ein Rechteck dargestellt, in das durch einen Bruch zwei Zahlen eingeschrieben sind: Die erste bedeutet die Nummer des Scheitelpunkts, die zweite bedeutet sein Gewicht. Wie Sie sehen, ist die Übereinstimmung zwischen den Gewichten der Scheitelpunkte und ihrer Anzahl erfüllt.

Nehmen wir nun an, dass das dem Scheitelpunkt 1 entsprechende Symbol ein zweites Mal in der Testsequenz vorkommt. Das Gewicht des Scheitelpunkts hat sich geändert, wie in Abb. 2.14, wodurch die Regel zur Nummerierung von Eckpunkten verletzt wird. Im nächsten Schritt ändern wir die Position der hängenden Scheitelpunkte, indem wir die Scheitelpunkte 1 und 4 austauschen und alle Scheitelpunkte des Baums neu nummerieren. Die resultierende Grafik ist in Abb. dargestellt. 2.15. Anschließend geht der Vorgang auf die gleiche Weise weiter.

Es sollte beachtet werden, dass jeder hängende Scheitelpunkt im Huffman-Baum einem bestimmten Symbol oder einer Gruppe von Symbolen entspricht. Das übergeordnete Element unterscheidet sich von den untergeordneten Elementen dadurch, dass die ihm entsprechende Gruppe von Symbolen um ein Symbol kürzer ist als die seiner untergeordneten Elemente, und diese untergeordneten Elemente unterscheiden sich im letzten Symbol. Beispielsweise entsprechen die Symbole „Auto“ dem übergeordneten Element; dann können Kinder die Sequenzen „kara“ und „karp“ haben.

Der angegebene Algorithmus ist nicht akademisch und wird aktiv in Archivierungsprogrammen verwendet, auch beim Komprimieren von Grafikdaten (sie werden weiter unten besprochen).

Lempel-Ziv-Algorithmen

Dies sind heute die am häufigsten verwendeten Komprimierungsalgorithmen. Sie werden in den meisten Archivierungsprogrammen verwendet (z. B. PKZIP, ARJ, LHA). Der Kern der Algorithmen besteht darin, dass ein bestimmter Satz von Symbolen bei der Archivierung durch seine Nummer in einem speziell generierten Wörterbuch ersetzt wird. Beispielsweise kann die in der Geschäftskorrespondenz häufig vorkommende Phrase „Die ausgehende Nummer für Ihren Brief...“ die Position 121 im Wörterbuch belegen; Anstatt die erwähnte Phrase (30 Bytes) zu übertragen oder zu speichern, können Sie dann die Phrasennummer speichern (1,5 Bytes in binärer Dezimalform oder 1 Byte in Binärform).

Die Algorithmen sind nach den Autoren benannt, die sie 1977 erstmals vorgeschlagen haben. Der erste davon ist LZ77. Zur Archivierung wird ein sogenanntes Nachrichtenschiebefenster erstellt, bestehend aus zwei Teilen. Der erste Teil, ein größeres Format, dient der Bildung eines Wörterbuchs und hat eine Größe von etwa mehreren Kilobyte. Der zweite, kleinere Teil (normalerweise bis zu 100 Byte groß) nimmt die aktuellen Zeichen des angezeigten Textes auf. Der Algorithmus versucht, im Wörterbuch einen Satz von Zeichen zu finden, der mit den im Anzeigefenster empfangenen Zeichen übereinstimmt. Wenn dies erfolgreich ist, wird ein Code generiert, der aus drei Teilen besteht: dem Offset im Wörterbuch relativ zu seiner anfänglichen Teilzeichenfolge, der Länge dieser Teilzeichenfolge und dem Zeichen, das dieser Teilzeichenfolge folgt. Der ausgewählte Teilstring besteht beispielsweise aus den Zeichen „app“ (insgesamt 6 Zeichen), das nächste Zeichen ist „e“. Wenn die Teilzeichenfolge dann eine Adresse (Platz im Wörterbuch) 45 hat, sieht der Eintrag im Wörterbuch wie folgt aus: „45, 6. e“. Anschließend wird der Inhalt des Fensters um die Position verschoben und die Suche fortgesetzt. So entsteht ein Wörterbuch.

Der Vorteil des Algorithmus besteht darin, dass er leicht formalisiert werden kann, um ein Wörterbuch zu erstellen. Darüber hinaus ist das Entpacken ohne das Originalwörterbuch möglich (es empfiehlt sich eine Testsequenz) – das Wörterbuch wird beim Entpacken neu gebildet.

Die Nachteile des Algorithmus treten mit zunehmender Größe des Wörterbuchs zutage – die Suchzeit nimmt zu. Wenn außerdem im aktuellen Fenster eine Zeichenfolge erscheint, die nicht im Wörterbuch enthalten ist, wird jedes Zeichen mit einem dreiteiligen Code geschrieben, d. h. Das Ergebnis ist keine Kompression, sondern eine Dehnung.

Der 1978 vorgeschlagene LZSS-Algorithmus weist die besten Eigenschaften auf. Es gibt Unterschiede in der Schiebefensterunterstützung und den Kompressor-Ausgabecodes. Zusätzlich zum Fenster generiert der Algorithmus einen binären Baum ähnlich einem Huffman-Baum, um die Suche nach Übereinstimmungen zu beschleunigen: Jeder Teilstring, der das aktuelle Fenster verlässt, wird dem Baum als eines der untergeordneten Elemente hinzugefügt. Mit diesem Algorithmus können Sie die Größe des aktuellen Fensters weiter erhöhen (es ist wünschenswert, dass seine Größe einer Zweierpotenz entspricht: 128, 256 usw. Bytes). Auch Sequenzcodes werden anders gebildet: Es wird ein zusätzliches 1-Bit-Präfix eingeführt, um uncodierte Zeichen von „Offset-, Längen“-Paaren zu unterscheiden.

Ein noch höherer Komprimierungsgrad wird erreicht, wenn Algorithmen wie LZW verwendet werden. Die zuvor beschriebenen Algorithmen haben eine feste Fenstergröße, wodurch es unmöglich ist, Phrasen, die länger als die Fenstergröße sind, in das Wörterbuch einzugeben. Bei den LZW-Algorithmen (und ihrem Vorgänger LZ78) hat das Anzeigefenster eine unbegrenzte Größe und das Wörterbuch sammelt Phrasen (und nicht wie zuvor eine Sammlung von Zeichen). Das Wörterbuch hat eine unbegrenzte Länge und der Encoder (Decoder) arbeitet im Phrase-Wartemodus. Wenn eine Phrase gebildet wird, die mit dem Wörterbuch übereinstimmt, wird ein Übereinstimmungscode (d. h. der Code dieser Phrase im Wörterbuch) und der Code des darauf folgenden Zeichens ausgegeben. Wenn durch die Anhäufung von Symbolen eine neue Phrase gebildet wird, wird diese ebenso wie die kürzere in das Wörterbuch eingetragen. Das Ergebnis ist ein rekursives Verfahren, das eine schnelle Kodierung und Dekodierung ermöglicht.

Zusätzliche Gelegenheit Durch die Komprimierung wird eine komprimierte Kodierung wiederholter Zeichen bereitgestellt. Wenn in einer Sequenz einige Zeichen hintereinander folgen (im Text können dies beispielsweise „Leerzeichen“, in einer Zahlenfolge aufeinanderfolgende Nullen usw. sein), dann ist es sinnvoll, diese durch das Paar „Zeichen“ zu ersetzen. Länge“ oder „Vorzeichen, Länge“ „. Im ersten Fall gibt der Code das Vorzeichen an, mit dem die Sequenz codiert wird (normalerweise 1 Bit), dann den Code des sich wiederholenden Zeichens und die Länge der Sequenz. Im zweiten Fall (vorgesehen für die am häufigsten vorkommenden Wiederholungszeichen) weist das Präfix lediglich auf ein Wiederholungszeichen hin.

, Mediaplayer

Schallplatten, insbesondere ältere, die vor 1982 aufgenommen und produziert wurden, wurden viel seltener gemischt, um die Aufnahme lauter zu machen. Sie reproduzieren natürliche Musik mit einem natürlichen Dynamikumfang, der auf der Schallplatte erhalten bleibt und in den meisten Standard-Digital- oder High-Definition-Formaten verloren geht.

Natürlich gibt es hiervon Ausnahmen – hören Sie sich Steven Wilsons aktuelles Album von MA Recordings oder Reference Recordings an und Sie werden hören, wie gut digitales Audio sein kann. Dies ist jedoch selten; die meisten modernen Tonaufnahmen sind laut und komprimiert.

Die Musikkomprimierung ist in letzter Zeit viel Kritik ausgesetzt, aber ich wette, dass fast alle Ihrer Lieblingsaufnahmen komprimiert sind. Manche davon sind weniger, manche mehr, aber immer noch komprimiert. Die Komprimierung des Dynamikumfangs ist ein Sündenbock für schlecht klingende Musik, aber stark komprimierte Musik ist nichts Neues: Hören Sie sich Motown-Alben aus den 60er Jahren an. Das Gleiche gilt für die klassischen Werke von Led Zeppelin oder die jüngeren Alben von Wilco und Radiohead. Durch die Komprimierung des Dynamikbereichs wird das natürliche Verhältnis zwischen den lautesten und leisesten Tönen in einer Aufnahme reduziert, sodass ein Flüstern genauso laut sein kann wie ein Schrei. Es ist ziemlich schwierig, Popmusik der letzten 50 Jahre zu finden, die nicht komprimiert wurde.

Ich hatte kürzlich ein nettes Gespräch mit Larry Crane, dem Gründer und Herausgeber des Tape Op-Magazins, über die guten, die schlechten und die hässlichen Aspekte der Komprimierung. Larry Crane hat mit Bands und Künstlern wie Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi und Richmond Fontaine zusammengearbeitet. Er leitet außerdem das Tonstudio Jackpot! in Portland, Oregon, wo The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him und viele, viele andere zu Hause waren.

Als Beispiel für überraschend unnatürlich klingende, aber dennoch großartige Songs nenne ich Spoons Album They Want My Soul aus dem Jahr 2014. Crane lacht und sagt, er höre es im Auto, weil es dort großartig klingt. Das bringt uns zu einer weiteren Antwort auf die Frage, warum Musik komprimiert wird: Weil Komprimierung und zusätzliche „Klarheit“ das Hören an lauten Orten erleichtern.

Larry Crane bei der Arbeit. Foto von Jason Quigley

Wenn Leute sagen, dass ihnen der Klang einer Audioaufnahme gefällt, denke ich, dass ihnen die Musik gefällt, als ob Klang und Musik untrennbare Begriffe wären. Aber für mich selbst unterscheide ich diese Konzepte. Aus der Sicht eines Audiophilen mag der Klang rau und roh sein, aber das wird den meisten Hörern egal sein.

Viele beschuldigen Mastering-Ingenieure schnell, dass sie die Komprimierung überbeanspruchen, aber die Komprimierung wird direkt während der Aufnahme, beim Mischen und erst dann beim Mastering angewendet. Wenn Sie nicht bei jedem dieser Schritte persönlich anwesend waren, können Sie nicht sagen, wie die Instrumente und Gesangspartien gleich zu Beginn des Prozesses klangen.

Crane war auf dem richtigen Weg: „Wenn ein Musiker absichtlich verrückt und verzerrt klingen möchte wie die Guided by Voices-Platten, dann ist daran nichts auszusetzen – der Wunsch überwiegt immer die Klangqualität.“ Die Stimme des Interpreten ist fast immer komprimiert, und das Gleiche passiert auch bei Bass, Schlagzeug, Gitarren und Synthesizern. Durch die Komprimierung bleibt die Lautstärke des Gesangs während des gesamten Songs auf dem gewünschten Niveau oder wird gegenüber dem Hintergrund anderer Geräusche leicht angehoben.

Eine richtig durchgeführte Komprimierung kann dazu führen, dass Trommeln lebendiger oder absichtlich seltsamer klingen. Um Musik großartig klingen zu lassen, müssen Sie in der Lage sein, die notwendigen Werkzeuge zu verwenden. Aus diesem Grund dauert es Jahre, herauszufinden, wie man die Komprimierung nutzt, ohne sie zu übertreiben. Wenn der Mix-Ingenieur den Gitarrenpart zu stark komprimiert, kann der Mastering-Ingenieur die fehlenden Frequenzen nicht mehr vollständig wiederherstellen.

Wenn Musiker wollten, dass Sie Musik hören, die nicht die Phasen des Mischens und Masterns durchlaufen hat, würden sie sie direkt aus dem Studio in die Regale bringen. Crane sagt, dass die Leute, die aufgenommene Musik erstellen, bearbeiten, mischen und mastern, nicht dazu da sind, Musikern im Weg zu stehen – sie haben Künstlern von Anfang an, seit mehr als hundert Jahren, geholfen.

Diese Menschen sind Teil des Schöpfungsprozesses, der zu erstaunlichen Kunstwerken führt. Crane fügt hinzu: „Sie wollen keine Version von ‚Dark Side of the Moon‘, die nicht gemischt und gemastert wurde.“ Pink Floyd veröffentlichte den Song so, wie sie ihn hören wollten.

Die Lautstärke ist während der gesamten Komposition gleich, es gibt mehrere Pausen.

Einengender Dynamikbereich

Einengung des Dynamikumfangs, oder einfacher ausgedrückt Kompression ist für verschiedene Zwecke notwendig, die häufigsten davon sind:

1) Erreichen einer gleichmäßigen Lautstärke über die gesamte Komposition (oder den Instrumententeil).

2) Erzielen einer einheitlichen Lautstärke für Songs während des gesamten Albums/der Radiosendung.

2) Erhöhte Verständlichkeit, vor allem beim Komprimieren eines bestimmten Teils (Gesang, Bassdrum).

Wie kommt es zu einer Verengung des Dynamikbereichs?

Der Kompressor analysiert den Schallpegel am Eingang, indem er ihn mit einem vom Benutzer festgelegten Schwellenwert vergleicht.

Wenn der Signalpegel unter dem Wert liegt Schwelle– dann analysiert der Kompressor den Klang weiter, ohne ihn zu verändern. Wenn der Schallpegel den Schwellenwert überschreitet, beginnt der Kompressor zu arbeiten. Da die Aufgabe des Kompressors darin besteht, den Dynamikbereich einzuschränken, ist es logisch anzunehmen, dass er die größten und kleinsten Amplitudenwerte (Signalpegel) begrenzt. In der ersten Stufe werden die größten Werte begrenzt, die mit einer bestimmten Kraft reduziert werden, die man nennt Verhältnis(Attitüde). Schauen wir uns ein Beispiel an:

Grüne Kurven zeigen den Schallpegel an; je größer die Amplitude ihrer Schwingungen von der X-Achse, desto größer der Signalpegel.

Die gelbe Linie stellt den Schwellenwert (Threshold) für den Betrieb des Kompressors dar. Durch Erhöhen des Schwellenwerts verschiebt der Benutzer ihn von der operieren und umgekehrt: Je höher, desto seltener. Wenn der Ratio-Wert sehr hoch ist, werden nach Erreichen des Schwellenwertsignalpegels alle nachfolgenden Signale vom Kompressor unterdrückt, bis Stille herrscht. Wenn der Verhältniswert sehr klein ist, passiert nichts. Die Wahl der Schwellen- und Verhältniswerte wird später besprochen. Nun sollten wir uns die folgende Frage stellen: Welchen Sinn hat es, alle nachfolgenden Geräusche zu unterdrücken? Das macht in der Tat keinen Sinn, wir müssen nur die Amplitudenwerte (Spitzen) entfernen, die den Schwellenwert überschreiten (in der Grafik rot markiert). Um dieses Problem zu lösen, gibt es einen Parameter Freigeben(Dämpfung), der die Dauer der Komprimierung festlegt.

Das Beispiel zeigt, dass die erste und zweite Überschreitung des Schwellenwerts weniger lange anhalten als die dritte Überschreitung des Schwellenwerts. Wenn also der Release-Parameter auf die ersten beiden Spitzen eingestellt ist, kann bei der Verarbeitung des dritten Spitzenwerts ein unverarbeiteter Teil verbleiben (da das Überschreiten des Schwellenwerts länger anhält). Wenn der Release-Parameter auf den dritten Peak eingestellt ist, entsteht bei der Verarbeitung des ersten und zweiten Peaks dahinter ein unerwünschter Abfall des Signalpegels.

Das Gleiche gilt für den Ratio-Parameter. Wenn der Parameter „Ratio“ auf die ersten beiden Peaks eingestellt wird, wird der dritte Peak nicht ausreichend unterdrückt. Wenn der Parameter „Ratio“ für die Verarbeitung des dritten Peaks konfiguriert ist, ist die Verarbeitung der ersten beiden Peaks zu stark.

Diese Probleme können auf zwei Arten gelöst werden:

1) Einstellen des Angriffsparameters (Attack) – eine Teillösung.

2) Dynamische Komprimierung – eine Komplettlösung.

Parameter Aimmer noch (Angriff) dient dazu, die Zeit einzustellen, nach der der Kompressor nach Überschreiten des Schwellenwerts den Betrieb aufnimmt. Wenn der Parameter nahe bei Null liegt (gleich Null bei paralleler Komprimierung, siehe entsprechenden Artikel), beginnt der Kompressor sofort mit der Unterdrückung des Signals und arbeitet für die durch den Release-Parameter angegebene Zeit. Wenn die Angriffsgeschwindigkeit hoch ist, beginnt der Kompressor nach einer bestimmten Zeitspanne (dies ist zur Verdeutlichung erforderlich) zu wirken. In unserem Fall können wir die Parameter Schwelle (Threshold), Dämpfung (Release) und Kompressionsstufe (Ratio) anpassen, um die ersten beiden Spitzen zu verarbeiten, und den Attack-Wert nahe Null einstellen. Dann unterdrückt der Kompressor die ersten beiden Spitzen und bei der Verarbeitung der dritten unterdrückt er diese, bis der Schwellenwert (Threshold) überschritten wird. Dies garantiert jedoch keine hochwertige Klangverarbeitung und liegt nahe am Limiter (ein grober Schnitt aller Amplitudenwerte, in diesem Fall wird der Kompressor als Limiter bezeichnet).

Schauen wir uns das Ergebnis der Klangbearbeitung mit einem Kompressor an:

Die Spitzen verschwanden, ich stelle fest, dass die Verarbeitungseinstellungen recht sanft waren und wir nur die auffälligsten Amplitudenwerte unterdrückt haben. In der Praxis wird der Dynamikbereich deutlich enger, und dieser Trend schreitet weiter voran. In den Augen vieler Komponisten machen sie die Musik lauter, in der Praxis entziehen sie ihr jedoch völlig die Dynamik für jene Zuhörer, die sie möglicherweise zu Hause und nicht im Radio hören.

Wir müssen nur den letzten Komprimierungsparameter berücksichtigen, diesen Gewinnen(Gewinnen). Gain soll die Amplitude der gesamten Komposition erhöhen und entspricht tatsächlich einem anderen Sound-Editor-Tool – Normalisieren. Schauen wir uns das Endergebnis an:

In unserem Fall war die Komprimierung gerechtfertigt und verbesserte die Klangqualität, da die markante Spitze eher ein Zufall als ein absichtliches Ergebnis ist. Darüber hinaus ist klar, dass die Musik rhythmisch ist und daher einen engen Dynamikbereich aufweist. In Fällen, in denen hohe Amplitudenwerte beabsichtigt sind, kann die Komprimierung ein Fehler sein.

Dynamische Komprimierung

Der Unterschied zwischen dynamischer Komprimierung und nicht dynamischer Komprimierung besteht darin, dass bei ersterer der Grad der Signalunterdrückung (Ratio) vom Pegel des Eingangssignals abhängt. Dynamische Kompressoren sind in allen modernen Programmen zu finden; die Parameter Ratio und Threshold werden über ein Fenster gesteuert (jeder Parameter hat seine eigene Achse):

Es gibt keinen einheitlichen Standard für die Darstellung eines Diagramms; irgendwo auf der Y-Achse wird der Pegel des eingehenden Signals angezeigt, irgendwo im Gegenteil der Signalpegel nach der Komprimierung. Irgendwo ist der Punkt (0,0) in der oberen rechten Ecke, irgendwo in der unteren linken Ecke. Wenn Sie den Mauszeiger über dieses Feld bewegen, ändern sich in jedem Fall die Werte der Zahlen, die den Parametern Verhältnis und Schwellenwert entsprechen. Diese. Sie legen die Komprimierungsstufe für jeden Schwellenwert fest und ermöglichen so sehr flexible Komprimierungseinstellungen.

Seitenkette

Ein Side-Chain-Kompressor analysiert das Signal eines Kanals und wendet die Komprimierung auf einen anderen Kanal an, wenn der Schallpegel einen Schwellenwert überschreitet. Side-Chaining hat seine Vorteile, da es mit Instrumenten arbeitet, die sich im gleichen Frequenzbereich befinden (die Bass-Kick-Kombination wird aktiv genutzt), manchmal werden aber auch Instrumente verwendet, die sich in unterschiedlichen Frequenzbereichen befinden, was zu einem interessanten Side-Chain-Effekt führt.

Zweiter Teil – Kompressionsstufen

Es gibt drei Komprimierungsstufen:

1) Die erste Stufe ist die Komprimierung einzelner Töne (Singleshoots).

Die Klangfarbe eines jeden Instruments hat die folgenden Eigenschaften: Attack, Hold, Decay, Delay, Sustain, Release.

Die Stufe der Komprimierung einzelner Töne gliedert sich in zwei Teile:

1.1) Komprimierung einzelner Klänge rhythmischer Instrumente

Oft erfordern die Komponenten eines Beats eine separate Komprimierung, um ihnen Klarheit zu verleihen. Viele Menschen bearbeiten die Bassdrum getrennt von anderen Rhythmusinstrumenten, sowohl auf der Stufe der Komprimierung einzelner Klänge als auch auf der Stufe der Komprimierung einzelner Teile. Dies liegt daran, dass es im Tieftonbereich angesiedelt ist, wo zusätzlich meist nur Bässe vorhanden sind. Die Klarheit einer Bassdrum bedeutet das Vorhandensein eines charakteristischen Klickens (die Bassdrum hat eine sehr kurze Attack- und Haltezeit). Wenn kein Klick zu hören ist, müssen Sie es mit einem Kompressor bearbeiten, indem Sie den Schwellenwert auf Null und die Attack-Zeit auf 10 bis 50 ms einstellen. Das Abklingen (Realese) des Kompressors muss vor dem nächsten Kick-Drum-Schlag beendet sein. Das letzte Problem kann mit der Formel gelöst werden: 60.000 / BPM, wobei BPM das Tempo der Komposition ist. Also zum Beispiel) 60.000/137=437,96 (Zeit in Millisekunden bis zu einem neuen Downbeat einer 4-dimensionalen Komposition).

Alle oben genannten Punkte gelten auch für andere rhythmische Instrumente mit kurzer Attack-Zeit – sie sollten ein ausgeprägtes Klicken haben, das in keiner Stufe der Kompressionsstufen durch den Kompressor unterdrückt werden sollte.

1.2) Komprimierungeinzelne Klängeharmonische Instrumente

Im Gegensatz zu rhythmischen Instrumenten bestehen Teile harmonischer Instrumente selten aus einzelnen Klängen. Dies bedeutet jedoch nicht, dass sie nicht mit der Tonkomprimierungsstufe verarbeitet werden sollten. Wenn Sie ein Sample mit einem aufgenommenen Teil verwenden, ist dies die zweite Komprimierungsstufe. Für diese Komprimierungsstufe gelten nur synthetisierte harmonische Instrumente. Dies können Sampler, Synthesizer sein, die verschiedene Methoden der Klangsynthese verwenden (physikalische Modellierung, FM, additiv, subtraktiv usw.). Wie Sie wahrscheinlich schon vermutet haben, geht es um die Programmierung der Synthesizer-Einstellungen. Ja! Auch das ist Komprimierung! Fast alle Synthesizer verfügen über einen programmierbaren Hüllkurvenparameter (ADSR), was Hüllkurve bedeutet. Mit der Hüllkurve legen Sie die Zeit von Attack, Decay, Sustain und Release fest. Und wenn Sie mir sagen, dass dies keine Komprimierung jedes einzelnen Tons ist, sind Sie mein Feind fürs Leben!

2) Zweite Stufe – Komprimierung einzelner Teile.

Unter Komprimierung einzelner Teile verstehe ich die Einengung des Dynamikumfangs mehrerer kombinierter Einzelklänge. Diese Phase umfasst auch Aufnahmen von Teilen, einschließlich Gesang, die einer Komprimierungsverarbeitung bedürfen, um ihnen Klarheit und Verständlichkeit zu verleihen. Bei der Verarbeitung von Teilen durch Komprimierung müssen Sie berücksichtigen, dass beim Hinzufügen einzelner Sounds unerwünschte Spitzen auftreten können, die Sie in dieser Phase beseitigen müssen, da sich das Bild in dieser Phase möglicherweise verschlechtern kann, wenn dies jetzt nicht erfolgt Mischen der gesamten Komposition. Bei der Komprimierung einzelner Teile muss die Komprimierung der Stufe der Verarbeitung einzelner Klänge berücksichtigt werden. Wenn Sie die Klarheit der Bassdrum erreicht haben, kann eine falsche Nachbearbeitung im zweiten Schritt alles ruinieren. Es ist nicht notwendig, alle Teile mit einem Kompressor zu bearbeiten, ebenso wenig wie es notwendig ist, alle einzelnen Klänge zu bearbeiten. Ich empfehle Ihnen, für alle Fälle einen Amplitudenanalysator zu installieren, um das Vorhandensein unerwünschter Nebenwirkungen bei der Kombination einzelner Töne festzustellen. Zusätzlich zur Komprimierung ist in dieser Phase darauf zu achten, dass die Chargen möglichst unterschiedlich sind Frequenzbereiche damit eine Quantisierung stattfinden kann. Es ist auch nützlich, sich daran zu erinnern, dass Schall eine Eigenschaft wie Maskierung (Psychoakustik) hat:

1) Ein leiseres Geräusch wird von einem lauteren Geräusch überdeckt, das davor kommt.

2) Ein leiserer Ton bei niedriger Frequenz wird durch einen lauteren Ton bei hoher Frequenz überdeckt.

Wenn Sie beispielsweise einen Synthesizer-Part haben, beginnen die Noten häufig zu spielen, bevor die vorherigen Noten erklingen. Manchmal ist dies notwendig (Harmonie erzeugen, Spielstil, Polyphonie), manchmal aber auch überhaupt nicht – Sie können deren Ende (Delay – Release) abschneiden, wenn es im Solo-Modus hörbar ist, im Wiedergabemodus jedoch nicht aller Parts . Dasselbe gilt auch für Effekte, wie z. B. Hall – dieser sollte nicht anhalten, bis die Schallquelle erneut startet. Indem Sie unnötige Signale abschneiden und entfernen, wird der Klang sauberer. Dies kann auch als Komprimierung betrachtet werden, da Sie unnötige Wellen entfernen.

3) Die dritte Stufe – Komprimierung der Komposition.

Bei der Komprimierung einer gesamten Komposition muss berücksichtigt werden, dass alle Teile eine Kombination aus vielen Einzelklängen sind. Daher müssen wir bei der Kombination und der anschließenden Komprimierung sicherstellen, dass die endgültige Komprimierung nicht das zunichte macht, was wir in den ersten beiden Stufen erreicht haben. Sie müssen auch Kompositionen trennen, bei denen ein breiter oder enger Bereich wichtig ist. Bei der Komprimierung von Kompositionen mit großem Dynamikumfang reicht es aus, einen Kompressor zu installieren, der kurzfristige Spitzen, die durch das Zusammenfügen von Teilen entstehen, unterdrückt. Beim Komprimieren einer Komposition, bei der es auf einen schmalen Dynamikbereich ankommt, ist alles viel komplizierter. Hier werden Kompressoren neuerdings als Maximierer bezeichnet. Maximizer ist ein Plugin, das einen Kompressor, einen Limiter, einen grafischen Equalizer, einen Enhyzer und andere Tools zur Klangtransformation kombiniert. Gleichzeitig muss er über fundierte Analysetools verfügen. Die Maximierung, die abschließende Bearbeitung mit einem Kompressor, ist weitgehend notwendig, um Fehler aus früheren Phasen zu bekämpfen. Fehler - nicht so sehr bei der Komprimierung (wenn Sie jedoch im letzten Schritt das tun, was Sie im ersten Schritt hätten tun können, ist dies bereits ein Fehler), sondern in der anfänglichen Auswahl guter Samples und Instrumente, die sich nicht gegenseitig beeinträchtigen würden andere (wir sprechen über Frequenzbereiche) . Genau deshalb wird der Frequenzgang korrigiert. Es kommt häufig vor, dass bei starker Komprimierung auf dem Master die Komprimierungs- und Mischparameter zu einem früheren Zeitpunkt geändert werden müssen, da bei einer starken Einengung des Dynamikbereichs zuvor maskierte leise Töne und der Klang einzelner Komponenten zum Vorschein kommen der Zusammensetzung ändert sich.

An diesen Stellen habe ich bewusst nicht auf konkrete Komprimierungsparameter eingegangen. Ich hielt es für notwendig, darüber zu schreiben, dass bei der Komprimierung in allen Phasen der Erstellung einer Komposition auf alle Klänge und alle Teile geachtet werden muss. Nur so erhalten Sie am Ende ein stimmiges Ergebnis nicht nur aus musiktheoretischer, sondern auch tontechnischer Sicht.

Die folgende Tabelle gibt praktische Ratschläge zur Bearbeitung einzelner Chargen. Bei der Komprimierung können Zahlen und Voreinstellungen jedoch nur den gewünschten Suchbereich vorschlagen. Die idealen Komprimierungseinstellungen hängen von jedem Einzelfall ab. Die Parameter Gain und Threshold gehen von einem normalen Schallpegel aus (logische Nutzung des gesamten Bereichs).

Teil drei – Komprimierungsparameter

Brief Information:

Schwellenwert – bestimmt den Schallpegel des eingehenden Signals, bei dessen Erreichen der Kompressor zu arbeiten beginnt.

Attack – bestimmt die Zeit, nach der der Kompressor zu arbeiten beginnt.

Pegel (Verhältnis) – bestimmt den Grad der Reduzierung der Amplitudenwerte (relativ zum ursprünglichen Amplitudenwert).

Release – definiert die Zeit, nach der der Kompressor aufhört zu arbeiten.

Gain – bestimmt den Grad der Verstärkung des eingehenden Signals nach der Verarbeitung durch einen Kompressor.

Kompressionstabelle:

Werkzeug	Schwelle	Attacke	Verhältnis	Freigeben	Gewinnen	Beschreibung
Gesang	0 dB	1-2 ms 2-5 mS 10 ms 0,1 ms 0,1 ms	weniger als 4:1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 ms 50-100 mS 150 ms 150 ms 0,5s		Die Komprimierung während der Aufnahme sollte minimal sein; sie erfordert eine obligatorische Verarbeitung in der Mischphase, um Klarheit und Verständlichkeit zu gewährleisten.
Blasinstrumente		1 – 5 ms	6:1 – 15:1	0,3s
Fass		10 bis 50 ms 10-100 mS	4:1 und höher 10:1	50-100 ms 1 mS		Je niedriger der Threshold, je höher das Ratio und je länger der Attack, desto ausgeprägter ist das Klicken am Anfang der Kickdrum.
Synthesizer						Hängt vom Wellentyp ab (ADSR-Hüllkurven).
Kleine Trommel:		10-40 mS 1–5 ms	5:1 5:1 – 10:1	50 mS 0,2s
Hallo Hut		20 ms	10:1	1 mS
Overhead-Mikrofone		2-5 mS	5:1	1-50 mS
Schlagzeug		5ms	5:1 – 8:1	10 ms
Bas-Gitarre		100-200 mS 4ms bis 10ms	5:1	1 mS 10 ms
Saiten		0-40 mS	3:1	500 mS
Synth. Bass		4ms – 10ms	4:1	10 ms		Hängt von den Umschlägen ab.

Schlagzeug		0-20 mS	10:1	50 mS
Akustische Gitarre, Klavier		10-30 mS 5 – 10 ms	4:1 5:1 -10:1	50-100 mS 0,5s
Elektro-Nitara		2 – 5 ms	8:1	0,5s

Endgültige Komprimierung		0,1 ms 0,1 ms	2:1 von 2:1 bis 3:1	50 ms 0,1 ms	0-dB-Ausgang	Die Attack-Zeit hängt vom Zweck ab – ob Sie Spitzen entfernen oder den Track glatter machen möchten.
Limiter nach der Endkomprimierung		0 mS	10:1	10-50 mS	0-dB-Ausgang	Wenn Sie einen schmalen Dynamikbereich und einen groben „Schnitt“ der Wellen benötigen.

Die Informationen stammen aus verschiedenen Quellen, auf die in beliebten Quellen im Internet verwiesen wird. Der Unterschied in den Kompressionsparametern erklärt sich durch unterschiedliche Klangvorlieben und die Arbeit mit unterschiedlichen Materialien.

Zu einer Zeit, als Forscher gerade erst damit begannen, das Problem der Entwicklung einer Sprachschnittstelle für Computer zu lösen, mussten sie häufig eigene Geräte herstellen, mit denen Audioinformationen in den Computer eingegeben und auch vom Computer ausgegeben werden konnten. Heutzutage sind solche Geräte möglicherweise nur noch von historischem Interesse, da moderne Computer problemlos mit Audio-Ein- und Ausgabegeräten wie Soundadaptern, Mikrofonen, Kopfhörern und Lautsprechern ausgestattet werden können.

Wir werden uns nicht mit den Details der internen Struktur dieser Geräte befassen, aber wir werden über ihre Funktionsweise sprechen und einige Empfehlungen für die Auswahl von Audio-Computergeräten für die Arbeit mit Spracherkennungs- und Synthesesystemen geben.

Wie wir bereits im vorherigen Kapitel sagten, handelt es sich bei Schall um nichts anderes als Luftschwingungen, deren Frequenz im Bereich der vom Menschen wahrgenommenen Frequenzen liegt. Die genauen Grenzen des hörbaren Frequenzbereichs können von Person zu Person unterschiedlich sein, es wird jedoch angenommen, dass Schallschwingungen im Bereich von 16–20.000 Hz liegen.

Die Aufgabe eines Mikrofons besteht darin, Schallschwingungen in elektrische Schwingungen umzuwandeln, die dann verstärkt, zur Beseitigung von Störungen gefiltert und zur Eingabe digitalisiert werden können. Audioinformationen an den Computer.

Aufgrund ihres Funktionsprinzips werden die gängigsten Mikrofone in Kohlenstoff-, Elektrodynamik-, Kondensator- und Elektretmikrofone unterteilt. Einige dieser Mikrofone benötigen für ihren Betrieb eine externe Stromquelle (z. B. Kohle- und Kondensatormikrofone), andere sind unter dem Einfluss von Schallschwingungen in der Lage, selbstständig elektrische Wechselspannung zu erzeugen (dies sind elektrodynamische und Elektretmikrofone).

Sie können die Mikrofone auch nach ihrem Zweck trennen. Es gibt Studiomikrofone, die man in der Hand halten oder auf einem Ständer montieren kann, es gibt Funkmikrofone, die man an der Kleidung befestigen kann und so weiter.

Es gibt auch Mikrofone, die speziell für Computer entwickelt wurden. Solche Mikrofone werden üblicherweise auf einem Ständer montiert, der auf der Tischoberfläche platziert wird. Computermikrofone können mit Kopfhörern kombiniert werden, wie in Abb. 2-1.

Reis. 2-1. Kopfhörer mit Mikrofon

Wie können Sie aus der Vielzahl an Mikrofonen auswählen, welche für Spracherkennungssysteme am besten geeignet sind?

Grundsätzlich können Sie mit jedem Mikrofon experimentieren, das Sie haben, sofern es an den Audio-Adapter Ihres Computers angeschlossen werden kann. Entwickler von Spracherkennungssystemen empfehlen jedoch die Anschaffung eines Mikrofons, das im Betrieb einen konstanten Abstand zum Mund des Sprechers hat.

Wenn sich der Abstand zwischen Mikrofon und Mund nicht ändert, ändert sich auch der durchschnittliche Pegel des vom Mikrofon kommenden elektrischen Signals nicht allzu sehr. Dies wird sich positiv auf die Leistungsfähigkeit moderner Spracherkennungssysteme auswirken.

Was ist das Problem?

Eine Person ist in der Lage, Sprache, deren Lautstärke in einem sehr weiten Bereich variiert, erfolgreich zu erkennen. Das menschliche Gehirn ist in der Lage, leise Sprache aus Störungen wie dem Lärm vorbeifahrender Autos, Gesprächen im Freien und Musik herauszufiltern.

Die Fähigkeiten moderner Spracherkennungssysteme in diesem Bereich lassen viel zu wünschen übrig. Wenn das Mikrofon auf einem Tisch steht, ändert sich der Abstand zwischen Mund und Mikrofon, wenn Sie den Kopf drehen oder Ihre Körperhaltung ändern. Dadurch ändert sich der Mikrofonausgangspegel, was wiederum die Zuverlässigkeit der Spracherkennung verringert.

Daher werden bei der Arbeit mit Spracherkennungssystemen die besten Ergebnisse erzielt, wenn Sie ein an Kopfhörer angeschlossenes Mikrofon verwenden, wie in Abb. 2-1. Bei Verwendung eines solchen Mikrofons bleibt der Abstand zwischen Mund und Mikrofon konstant.

Wir machen Sie außerdem darauf aufmerksam, dass alle Experimente mit Spracherkennungssystemen am besten in einem ruhigen Raum durchgeführt werden. In diesem Fall ist der Einfluss von Störungen minimal. Wenn Sie ein Spracherkennungssystem auswählen müssen, das unter Bedingungen starker Interferenz funktionieren kann, müssen die Tests natürlich anders durchgeführt werden. Allerdings ist die Störfestigkeit von Spracherkennungssystemen nach Kenntnis der Autoren des Buches immer noch sehr, sehr gering.

Das Mikrofon wandelt Schallwellen für uns in Schwingungen um. elektrischer Strom. Diese Schwankungen sind auf dem Bildschirm des Oszilloskops sichtbar, aber beeilen Sie sich nicht, dieses teure Gerät zu kaufen. Wir können alle oszillographischen Studien mit einem normalen Computer durchführen, der mit einem Soundadapter, beispielsweise einem Sound Blaster-Adapter, ausgestattet ist. Später erklären wir Ihnen, wie das geht.

In Abb. 2-2 zeigten wir das Oszillogramm Tonsignal, resultierend aus der Aussprache eines langen Lautes a. Diese Wellenform wurde mit dem Programm GoldWave erhalten, über das wir später in diesem Kapitel des Buches sprechen werden, sowie mit einem Sound Blaster-Audioadapter und einem Mikrofon, das dem in Abb. gezeigten ähnelt. 2-1.

Reis. 2-2. Oszillogramm des Audiosignals

Mit dem GoldWave-Programm können Sie das Oszillogramm entlang der Zeitachse strecken, wodurch Sie kleinste Details erkennen können. In Abb. In Abb. 2-3 zeigten wir ein gestrecktes Fragment des oben erwähnten Oszillogramms des Schalls a.

Reis. 2-3. Fragment eines Oszillogramms eines Audiosignals

Bitte beachten Sie, dass sich die Stärke des vom Mikrofon kommenden Eingangssignals periodisch ändert und sowohl positive als auch negative Werte annimmt.

Wenn im Eingangssignal nur eine Frequenz vorhanden wäre (d. h. wenn der Ton „sauber“ wäre), wäre die vom Mikrofon empfangene Wellenform eine Sinuswelle. Wie bereits erwähnt, besteht das Spektrum menschlicher Sprachlaute jedoch aus einer Reihe von Frequenzen, wodurch die Form des Oszillogramms des Sprachsignals alles andere als sinusförmig ist.

Wir nennen ein Signal, dessen Größe sich im Laufe der Zeit kontinuierlich ändert Analogsignal. Genau dieses Signal kommt vom Mikrofon. Anders als analog, Digitalsignal ist eine Menge numerischer Werte, die sich im Laufe der Zeit diskret ändern.

Damit ein Computer ein Audiosignal verarbeiten kann, muss es von der analogen in die digitale Form umgewandelt, also als eine Reihe numerischer Werte dargestellt werden. Dieser Vorgang wird als analoge Signaldigitalisierung bezeichnet.

Die Digitalisierung eines Audiosignals (und jedes analogen Signals) erfolgt mit einem speziellen Gerät namens Analog-Digital-Wandler ADC (Analog-Digital-Wandler, ADC). Dieses Gerät befindet sich auf der Soundadapterplatine und ist ein normal aussehender Mikroschaltkreis.

Wie funktioniert ein Analog-Digital-Wandler?

Es misst periodisch den Pegel des Eingangssignals und gibt einen Zahlenwert des Messergebnisses aus. Dieser Vorgang ist in Abb. dargestellt. 2-4. Hier zeigen graue Rechtecke Eingangssignalwerte an, die in einem konstanten Zeitintervall gemessen wurden. Ein Satz solcher Werte ist eine digitalisierte Darstellung des analogen Eingangssignals.

Reis. 2-4. Messungen der Signalamplitude über der Zeit

In Abb. In den Abbildungen 2-5 haben wir den Anschluss eines Analog-Digital-Wandlers an ein Mikrofon gezeigt. In diesem Fall wird dem Eingang x 1 ein analoges Signal zugeführt und an den Ausgängen u 1 -u n ein digitales Signal entnommen.

Reis. 2-5. Analog-Digital-Wandler

Analog-Digital-Wandler zeichnen sich durch zwei wichtige Parameter aus – die Wandlungsfrequenz und die Anzahl der Quantisierungsstufen des Eingangssignals. Die richtige Auswahl dieser Parameter ist entscheidend für eine angemessene digitale Darstellung des analogen Signals.

Wie oft muss die Amplitude des analogen Eingangssignals gemessen werden, damit Informationen über Änderungen im analogen Eingangssignal nicht durch die Digitalisierung verloren gehen?

Die Antwort scheint einfach zu sein: Das Eingangssignal muss so oft wie möglich gemessen werden. Denn je öfter ein Analog-Digital-Wandler solche Messungen durchführt, desto besser kann er kleinste Änderungen in der Amplitude des analogen Eingangssignals verfolgen.

Zu häufige Messungen können jedoch zu einem ungerechtfertigten Anstieg des digitalen Datenflusses und einer Verschwendung von Computerressourcen bei der Signalverarbeitung führen.

Zum Glück, richtige Wahl Konvertierungsfrequenzen (Abtastfrequenzen) sind recht einfach durchzuführen. Dazu genügt es, auf den Satz von Kotelnikov zurückzugreifen, der Fachleuten auf dem Gebiet der digitalen Signalverarbeitung bekannt ist. Der Satz besagt, dass die Konvertierungsfrequenz doppelt so hoch sein muss wie die maximale Frequenz des Spektrums des konvertierten Signals. Um ein Audiosignal, dessen Frequenz im Bereich von 16–20.000 Hz liegt, ohne Qualitätsverlust zu digitalisieren, müssen Sie daher eine Konvertierungsfrequenz von mindestens 40.000 Hz wählen.

Beachten Sie jedoch, dass bei professionellen Audiogeräten die Wandlungsfrequenz um ein Vielfaches höher als der angegebene Wert gewählt wird. Dies geschieht, um sehr viel zu erreichen Gute Qualität digitalisierter Ton. Diese Qualität ist für Spracherkennungssysteme nicht relevant, daher werden wir Ihre Aufmerksamkeit nicht auf diese Auswahl lenken.

Welche Konvertierungsfrequenz wird benötigt, um den Klang menschlicher Sprache zu digitalisieren?

Da die Laute der menschlichen Sprache im Frequenzbereich von 300–4000 Hz liegen, beträgt die minimal erforderliche Konvertierungsfrequenz 8000 Hz. Viele Computer-Spracherkennungsprogramme verwenden jedoch die Standardkonvertierungsfrequenz von 44.000 Hz für herkömmliche Audioadapter. Eine solche Konvertierungsfrequenz führt einerseits nicht zu einer übermäßigen Erhöhung des digitalen Datenflusses und gewährleistet andererseits eine Sprachdigitalisierung mit ausreichender Qualität.

Schon in der Schule wurde uns beigebracht, dass bei jeder Messung Fehler auftreten, die sich nicht vollständig beseitigen lassen. Solche Fehler entstehen aufgrund der begrenzten Auflösung von Messgeräten sowie aufgrund der Tatsache, dass der Messvorgang selbst zu gewissen Änderungen des Messwerts führen kann.

Ein Analog-Digital-Wandler stellt das analoge Eingangssignal als Zahlenstrom begrenzter Kapazität dar. Herkömmliche Audioadapter enthalten 16-Bit-ADC-Blöcke, die die Amplitude des Eingangssignals als 216 = 65536 verschiedene Werte darstellen können. ADC-Geräte in High-End-Audiogeräten können 20-Bit sein und bieten so eine höhere Genauigkeit bei der Darstellung der Amplitude des Audiosignals.

Dafür wurden moderne Spracherkennungssysteme und -programme entwickelt normale Computer, ausgestattet mit herkömmlichen Soundadaptern. Um Experimente mit der Spracherkennung durchzuführen, müssen Sie daher keinen professionellen Audioadapter kaufen. Ein Adapter wie Sound Blaster eignet sich durchaus zum Digitalisieren von Sprache zum Zwecke der weiteren Erkennung.

Neben dem Nutzsignal dringen in der Regel auch verschiedene Geräusche in das Mikrofon ein – Straßenlärm, Windgeräusche, Fremdgespräche etc. Lärm wirkt sich negativ auf die Leistung von Spracherkennungssystemen aus und muss daher bekämpft werden. Eine Möglichkeit haben wir bereits erwähnt: Heutige Spracherkennungssysteme lassen sich am besten in einem ruhigen Raum, allein mit dem Computer, nutzen.

Allerdings ist es nicht immer möglich, ideale Bedingungen zu schaffen, daher ist der Einsatz spezieller Methoden zur Beseitigung von Störungen erforderlich. Um den Geräuschpegel zu reduzieren, werden beim Design von Mikrofonen spezielle Tricks und spezielle Filter verwendet, die nicht tragende Frequenzen aus dem Spektrum des analogen Signals entfernen nützliche Informationen. Darüber hinaus wird eine Technik wie die Komprimierung des Dynamikbereichs der Eingangssignalpegel verwendet.

Lassen Sie uns das alles der Reihe nach besprechen.

Frequenzfilter ist ein Gerät, das das Frequenzspektrum eines analogen Signals umwandelt. Dabei werden beim Umwandlungsprozess Schwingungen bestimmter Frequenzen freigesetzt (bzw. absorbiert).

Man kann sich dieses Gerät als eine Art Blackbox mit einem Eingang und einem Ausgang vorstellen. In Bezug auf unsere Situation wird ein Mikrofon an den Eingang des Frequenzfilters und ein Analog-Digital-Wandler an den Ausgang angeschlossen.

Es gibt verschiedene Frequenzfilter:

· Tiefpassfilter;

Hochpassfilter;

· Sendebandpassfilter;

· Bandsperrfilter.

Tiefpassfilter(Tiefpassfilter) entfernen aus dem Spektrum des Eingangssignals alle Frequenzen, deren Werte je nach Filtereinstellung unterhalb einer bestimmten Schwellenfrequenz liegen.

Da Audiosignale im Bereich von 16–20.000 Hz liegen, können alle Frequenzen unter 16 Hz abgeschnitten werden, ohne dass die Klangqualität darunter leidet. Für die Spracherkennung ist der Frequenzbereich von 300-4000 Hz wichtig, daher können Frequenzen unter 300 Hz herausgeschnitten werden. In diesem Fall werden alle Störungen, deren Frequenzspektrum unter 300 Hz liegt, aus dem Eingangssignal herausgeschnitten und stören den Spracherkennungsprozess nicht.

Ebenfalls, Hochpassfilter(Hochpassfilter) schneidet alle Frequenzen oberhalb einer bestimmten Schwellenfrequenz aus dem Spektrum des Eingangssignals heraus.

Der Mensch kann Geräusche mit einer Frequenz von 20.000 Hz und höher nicht hören, sodass sie ohne merkliche Verschlechterung der Klangqualität aus dem Spektrum herausgeschnitten werden können. Bei der Spracherkennung können Sie hier alle Frequenzen über 4000 Hz ausschneiden, was zu einer deutlichen Reduzierung der hochfrequenten Störungen führt.

Bandpassfilter(Bandpassfilter) kann man sich als eine Kombination aus Tiefpass- und Hochpassfilter vorstellen. Ein solcher Filter verzögert alle Frequenzen unterhalb des sogenannten niedrigere Passfrequenz, und auch oben obere Passfrequenz.

Daher eignet sich ein Durchlassfilter für ein Spracherkennungssystem, das alle Frequenzen außer Frequenzen im Bereich von 300–4000 Hz verzögert.

Mit Bandsperrfiltern können Sie alle in einem bestimmten Bereich liegenden Frequenzen aus dem Spektrum des Eingangssignals herausschneiden. Ein solcher Filter eignet sich beispielsweise zur Unterdrückung von Störungen, die einen bestimmten kontinuierlichen Teil des Signalspektrums einnehmen.

In Abb. In Abb. 2-6 haben wir den Anschluss eines Passbandpassfilters gezeigt.

Reis. 2-6. Filterung des Audiosignals vor der Digitalisierung

Es muss gesagt werden, dass herkömmliche Soundadapter, die in einen Computer eingebaut werden, einen Bandpassfilter enthalten, den das analoge Signal vor der Digitalisierung durchläuft. Der Durchlassbereich eines solchen Filters entspricht normalerweise dem Bereich von Audiosignalen, nämlich 16-20.000 Hz (bei verschiedenen Audioadaptern können die Werte der oberen und unteren Frequenzen in kleinen Grenzen variieren).

Wie erreicht man eine schmalere Bandbreite von 300–4000 Hz, die dem informativsten Teil des Spektrums der menschlichen Sprache entspricht?

Wenn Sie eine Vorliebe für die Entwicklung elektronischer Geräte haben, können Sie natürlich Ihren eigenen Filter aus einem Operationsverstärkerchip, Widerständen und Kondensatoren herstellen. Dies ist ungefähr das, was die ersten Entwickler von Spracherkennungssystemen taten.

Allerdings müssen industrielle Spracherkennungssysteme auf einem Standard lauffähig sein Computerausrüstung Daher ist die Herstellung eines speziellen Bandpassfilters hier nicht geeignet.

Stattdessen in moderne Systeme Die Sprachverarbeitung nutzt das sogenannte digitale Frequenzfilter, in Software implementiert. Dies wurde möglich, nachdem der Zentralprozessor des Computers leistungsfähig genug wurde.

Ein in Software implementierter digitaler Frequenzfilter wandelt ein digitales Eingangssignal in ein digitales Ausgangssignal um. Während des Konvertierungsprozesses verarbeitet das Programm in besonderer Weise den vom Analog-Digital-Wandler kommenden Strom numerischer Werte der Signalamplitude. Das Ergebnis der Transformation wird ebenfalls ein Zahlenstrom sein, dieser Strom entspricht jedoch einem bereits gefilterten Signal.

Als wir über den Analog-Digital-Wandler sprachen, haben wir ein so wichtiges Merkmal wie die Anzahl der Quantisierungsstufen erwähnt. Wenn im Soundadapter ein 16-Bit-Analog-Digital-Wandler installiert ist, können die Audiosignalpegel nach der Digitalisierung als 216 = 65536 verschiedene Werte dargestellt werden.

Wenn es wenige Quantisierungsstufen gibt, dann sind die sogenannten Quantisierungsrauschen. Um dieses Rauschen zu reduzieren, sollten hochwertige Audio-Digitalisierungssysteme Analog-Digital-Wandler mit der maximalen Anzahl verfügbarer Quantisierungsstufen verwenden.

Es gibt jedoch eine andere Technik zur Reduzierung des Einflusses von Quantisierungsrauschen auf die Qualität des Audiosignals, die in digitalen Audioaufzeichnungssystemen verwendet wird. Bei dieser Technik wird das Signal vor der Digitalisierung durch einen nichtlinearen Verstärker geleitet, wodurch Signale mit niedriger Signalamplitude hervorgehoben werden. Dieses Gerät verstärkt schwache Signale stärker als starke.

Dies wird durch das Diagramm der Ausgangssignalamplitude gegenüber der Eingangssignalamplitude in Abb. veranschaulicht. 2-7.

Reis. 2-7. Nichtlineare Verstärkung vor der Digitalisierung

Beim Schritt der Rückumwandlung digitalisierter Audiodaten in analoge Signale (wir werden uns diesen Schritt später in diesem Kapitel ansehen) wird das analoge Signal erneut durch einen nichtlinearen Verstärker geleitet, bevor es an die Lautsprecher ausgegeben wird. Diesmal wird ein anderer Verstärker verwendet, der Signale mit hoher Amplitude hervorhebt und eine Übertragungscharakteristik (die Abhängigkeit der Amplitude des Ausgangssignals von der Amplitude des Eingangssignals) aufweist, die umgekehrt zu der bei der Digitalisierung verwendeten ist.

Wie kann all dies den Entwicklern von Spracherkennungssystemen helfen?

Eine Person erkennt bekanntlich Sprache, die mit leisem Flüstern oder mit ziemlich lauter Stimme gesprochen wird, recht gut. Wir können sagen, dass der Dynamikbereich der Lautstärkepegel erfolgreich erkannter Sprache für eine Person ziemlich groß ist.

Heute Computersysteme Damit kann sich die Spracherkennung leider noch nicht rühmen. Um den angegebenen Dynamikbereich jedoch vor der Digitalisierung etwas zu erweitern, können Sie das Signal vom Mikrofon durch einen nichtlinearen Verstärker leiten, dessen Übertragungscharakteristik in Abb. dargestellt ist. 2-7. Dadurch wird der Quantisierungsrauschpegel bei der Digitalisierung schwacher Signale reduziert.

Auch hier sind Entwickler von Spracherkennungssystemen gezwungen, sich in erster Linie auf kommerziell hergestellte Soundadapter zu konzentrieren. Sie ermöglichen nicht die oben beschriebene nichtlineare Signalumwandlung.

Es ist jedoch möglich, das Software-Äquivalent eines nichtlinearen Verstärkers zu erstellen, der das digitalisierte Signal umwandelt, bevor es an das Spracherkennungsmodul weitergeleitet wird. Obwohl ein solcher Softwareverstärker das Quantisierungsrauschen nicht reduzieren kann, kann er verwendet werden, um die Signalpegel hervorzuheben, die die meisten Sprachinformationen enthalten. Sie können beispielsweise die Amplitude schwacher Signale reduzieren und so das Signal von Rauschen befreien.

Dynamische Komprimierung(Dynamic Range Compression, DRC) – Verengung (oder Erweiterung im Falle eines Expanders) des Dynamikumfangs des Tonträgers. Dynamikbereich ist der Unterschied zwischen dem leisesten und dem lautesten Ton. Manchmal ist der leiseste Ton in einem Soundtrack etwas lauter als der Geräuschpegel und manchmal etwas leiser als der lauteste. Hardwaregeräte und Programme, die eine dynamische Komprimierung durchführen, werden Kompressoren genannt und unterscheiden sich in vier Hauptgruppen: Kompressoren selbst, Begrenzer, Expander und Gates.

Röhrenanalogkompressor DBX 566

Abwärts- und Aufwärtskompression

Downcompression(Abwärtskomprimierung) reduziert die Lautstärke eines Tons, wenn er beginnt, einen bestimmten Schwellenwert zu überschreiten, während leisere Töne unverändert bleiben. Eine extreme Version der Abwärtskomprimierung ist Begrenzer. Komprimierung steigern Durch die Aufwärtskomprimierung hingegen wird die Lautstärke eines Tons erhöht, wenn diese unter einem Schwellenwert liegt, ohne dass sich dies auf lautere Töne auswirkt. Gleichzeitig verengen beide Komprimierungsarten den Dynamikumfang des Audiosignals.

Downcompression

Komprimierung steigern

Expander und Tor

Wenn ein Kompressor den Dynamikbereich reduziert, erhöht ein Expander ihn. Wenn der Signalpegel über den Schwellenwert steigt, erhöht der Expander ihn weiter und vergrößert so den Unterschied zwischen lauten und leisen Tönen. Geräte wie dieses werden häufig bei der Aufnahme eines Schlagzeugs verwendet, um die Klänge einer Trommel von einer anderen zu trennen.

Als Expander wird eine Art Expander bezeichnet, der nicht zur Verstärkung lauter Geräusche, sondern zur Dämpfung leiser Geräusche, die einen Schwellenwert nicht überschreiten (z. B. Hintergrundgeräusche), verwendet wird Noise-Gate. Sobald bei einem solchen Gerät der Schallpegel den Schwellenwert unterschreitet, hört das Signal auf zu passieren. Typischerweise wird ein Gate verwendet, um Geräusche in Pausen zu unterdrücken. Bei einigen Modellen können Sie sicherstellen, dass der Ton beim Erreichen eines Schwellenwerts nicht abrupt stoppt, sondern allmählich ausklingt. In diesem Fall wird die Abklingrate durch den Decay-Regler eingestellt.

Gate kann, wie andere Arten von Kompressoren auch, sein frequenzabhängig(d. h. bestimmte Frequenzbänder unterschiedlich behandeln) und in denen gearbeitet werden kann Seitenkette(siehe unten).

Funktionsprinzip des Kompressors

Das in den Kompressor eintretende Signal wird in zwei Kopien aufgeteilt. Eine Kopie wird an einen Verstärker gesendet, in dem der Verstärkungsgrad durch ein externes Signal gesteuert wird, und die zweite Kopie erzeugt dieses Signal. Es gelangt in ein Gerät namens Sidechain, wo das Signal gemessen wird und auf Grundlage dieser Daten eine Hüllkurve erstellt wird, die die Änderung seiner Lautstärke beschreibt.
So sind die meisten modernen Kompressoren aufgebaut, es handelt sich um den sogenannten Feed-Forward-Typ. Bei älteren Geräten (Feedback-Typ) wird der Signalpegel nach dem Verstärker gemessen.

Es gibt verschiedene analoge Verstärkungstechnologien mit variabler Verstärkung, jede mit ihren eigenen Vor- und Nachteilen: Röhre, optisch mit Fotowiderständen und Transistor. Bei der Arbeit mit digitaler Ton(in einem Soundeditor oder einer DAW) kann seine eigenen mathematischen Algorithmen verwenden oder die Funktionsweise analoger Technologien emulieren.

Hauptparameter von Kompressoren

Schwelle

Ein Kompressor reduziert den Pegel eines Audiosignals, wenn dessen Amplitude einen bestimmten Schwellenwert (Threshold) überschreitet. Sie wird normalerweise in Dezibel angegeben, wobei ein niedrigerer Schwellenwert (z. B. -60 dB) bedeutet, dass mehr Audio verarbeitet wird als ein höherer Schwellenwert (z. B. -5 dB).

Verhältnis

Das Ausmaß der Pegelreduzierung wird durch den Verhältnisparameter bestimmt: Verhältnis 4:1 bedeutet, dass, wenn der Eingangspegel 4 dB über dem Schwellenwert liegt, der Ausgangspegel 1 dB über dem Schwellenwert liegt.
Zum Beispiel:
Schwelle = −10 dB
Eingang = −6 dB (4 dB über dem Schwellenwert)
Ausgang = −9 dB (1 dB über dem Schwellenwert)

Es ist zu beachten, dass die Unterdrückung des Signalpegels noch einige Zeit anhält, nachdem der Schwellenwert unterschritten wurde. Diese Zeit wird durch den Wert des Parameters bestimmt freigeben.

Eine Komprimierung mit einem maximalen Verhältnis von ∞:1 wird als Begrenzung bezeichnet. Dies bedeutet, dass jedes Signal oberhalb des Schwellenwertpegels auf den Schwellenwertpegel gedämpft wird (außer für einen kurzen Zeitraum nach einem plötzlichen Anstieg der Eingangslautstärke). Weitere Einzelheiten finden Sie weiter unten unter „Limiter“.

Beispiele für verschiedene Verhältniswerte

Angriff und Befreiung

Ein Kompressor bietet eine gewisse Kontrolle darüber, wie schnell er auf Änderungen in der Signaldynamik reagiert. Der Attack-Parameter bestimmt die Zeit, die der Kompressor benötigt, um die Verstärkung auf einen durch den Ratio-Parameter festgelegten Wert zu reduzieren. Release bestimmt die Zeit, in der der Kompressor die Verstärkung erhöht oder in den Normalzustand zurückkehrt, wenn der Eingangssignalpegel unter den Schwellenwert fällt.

Attack- und Release-Phasen

Diese Parameter geben die Zeit (normalerweise in Millisekunden) an, die benötigt wird, um die Verstärkung um einen bestimmten Betrag in Dezibel zu ändern, normalerweise 10 dB. Wenn in diesem Fall beispielsweise „Attack“ auf 1 ms eingestellt ist, dauert es 1 ms, um die Verstärkung um 10 dB zu reduzieren, und 2 ms, um die Verstärkung um 20 dB zu reduzieren.

Bei vielen Kompressoren können die Parameter „Attack“ und „Release“ angepasst werden, bei einigen sind sie jedoch voreingestellt und können nicht angepasst werden. Manchmal werden sie als „automatisch“ oder „programmabhängig“ bezeichnet, d. h. ändern sich je nach Eingangssignal.

Knie

Ein weiterer Kompressorparameter: hartes/weiches Knie. Es bestimmt, ob der Beginn der Komprimierung abrupt (hart) oder allmählich (weich) erfolgt. Soft Knee verringert die Wahrnehmung des Übergangs vom trockenen Signal zum komprimierten Signal, insbesondere bei hohen Ratio-Werten und plötzlichen Lautstärkeanstiegen.

Hard Knee- und Soft Knee-Kompression

Peak und RMS

Der Kompressor kann auf Spitzenwerte (kurzzeitige Maximalwerte) oder auf den Durchschnittspegel des Eingangssignals reagieren. Die Verwendung von Spitzenwerten kann zu starken Schwankungen im Komprimierungsgrad und sogar zu Verzerrungen führen. Daher wenden Kompressoren eine Durchschnittsfunktion (normalerweise RMS) auf das Eingangssignal an, wenn sie es mit einem Schwellenwert vergleichen. Dies sorgt für eine angenehmere Komprimierung, die näher an der menschlichen Wahrnehmung der Lautstärke liegt.

RMS ist ein Parameter, der die durchschnittliche Lautstärke eines Soundtracks widerspiegelt. Aus mathematischer Sicht ist RMS (Root Mean Square) der quadratische Mittelwert der Amplitude einer bestimmten Anzahl von Abtastwerten:

Stereo-Verknüpfung

Ein Kompressor im Stereo-Linking-Modus wendet die gleiche Verstärkung auf beide Stereokanäle an. Dadurch werden Stereoverschiebungen vermieden, die durch die individuelle Verarbeitung des linken und rechten Kanals entstehen können. Diese Verschiebung tritt auf, wenn beispielsweise ein lautes Element außermittig geschwenkt wird.

Make-up-Gewinn

Da der Kompressor den Gesamtsignalpegel reduziert, fügt er normalerweise eine feste Ausgangsverstärkungsoption hinzu, um den optimalen Pegel zu erreichen.

Schau voraus

Die Look-Ahead-Funktion soll Probleme lösen, die sowohl mit zu hohen als auch mit zu niedrigen Attack- und Release-Werten verbunden sind. Eine zu lange Attack-Zeit ermöglicht es uns nicht, Transienten effektiv abzufangen, und eine zu kurze Attack-Zeit ist für den Zuhörer möglicherweise nicht angenehm. Bei Verwendung der Look-Ahead-Funktion wird das Hauptsignal gegenüber dem Steuersignal verzögert, sodass Sie die Komprimierung bereits im Voraus starten können, noch bevor das Signal den Schwellenwert erreicht.
Der einzige Nachteil dieser Methode ist die Zeitverzögerung des Signals, die in manchen Fällen unerwünscht ist.

Verwendung dynamischer Komprimierung

Komprimierung kommt überall dort zum Einsatz, nicht nur bei Musiktonspuren, sondern auch überall dort, wo es notwendig ist, die Gesamtlautstärke zu erhöhen, ohne Spitzenpegel zu erhöhen, wo kostengünstige Tonwiedergabegeräte oder ein begrenzter Übertragungskanal zum Einsatz kommen (Beschallungs- und Kommunikationsanlagen, Amateurfunk, usw.).

Die Komprimierung wird während der Wiedergabe angewendet Hintergrundmusik(in Geschäften, Restaurants usw.), wo spürbare Lautstärkeänderungen nicht erwünscht sind.

Der wichtigste Einsatzbereich der dynamischen Komprimierung ist jedoch die Musikproduktion und -ausstrahlung. Komprimierung wird verwendet, um dem Klang „Dichte“ und „Drive“ zu verleihen beste Kombination Instrumente untereinander, insbesondere bei der Bearbeitung von Gesang.

Gesangsstimmen in der Rock- und Popmusik werden häufig komprimiert, um sie von der Begleitung abzuheben und für mehr Klarheit zu sorgen. Zur Unterdrückung von Zischlauten wird ein spezieller Kompressortyp eingesetzt, der nur auf bestimmte Frequenzen abgestimmt ist – ein De-Esser.

Bei Instrumentalparts wird die Komprimierung auch für Effekte eingesetzt, die nicht direkt mit der Lautstärke zusammenhängen, so können beispielsweise schnell ausklingende Schlagzeugklänge verlängert werden.

Elektronische Tanzmusik (EDM) verwendet häufig Side-Chaining (siehe unten) – beispielsweise kann die Basslinie von einer Kickdrum oder ähnlichem angetrieben werden, um zu verhindern, dass Bass und Schlagzeug aufeinanderprallen und eine dynamische Pulsation erzeugen.

Komprimierung wird häufig im Rundfunk (Radio, Fernsehen, Internetübertragungen) eingesetzt, um die wahrgenommene Lautstärke zu erhöhen und gleichzeitig den Dynamikbereich der Audioquelle (normalerweise CD) zu verringern. In den meisten Ländern gibt es gesetzliche Beschränkungen hinsichtlich der maximalen momentanen Lautstärke, die gesendet werden kann. Typischerweise werden diese Einschränkungen durch permanente Hardware-Kompressoren in der Luftkette implementiert. Darüber hinaus verbessert eine Erhöhung der wahrgenommenen Lautstärke aus Sicht der meisten Zuhörer die „Qualität“ des Klangs.

siehe auch Lautheitskrieg.

Kontinuierliche Steigerung der Lautstärke desselben Songs, der von 1983 bis 2000 für CD remastered wurde.

Seitenverkettung

Ein weiterer häufig anzutreffender Kompressorschalter ist die „Side Chain“. In diesem Modus erfolgt die Tonkomprimierung nicht in Abhängigkeit vom eigenen Pegel, sondern in Abhängigkeit vom Pegel des in den Anschluss eingehenden Signals, der üblicherweise als Side Chain bezeichnet wird.

Dafür gibt es mehrere Einsatzmöglichkeiten. Beispielsweise lispelt der Sänger und alle „s“ stechen aus dem Gesamtbild hervor. Sie leiten seine Stimme durch einen Kompressor und speisen denselben Klang in den Side-Chain-Anschluss, jedoch durch einen Equalizer. Mit einem Equalizer eliminieren Sie alle Frequenzen außer denen, die der Sänger beim Aussprechen des Buchstabens „s“ verwendet. Typischerweise etwa 5 kHz, kann aber auch zwischen 3 kHz und 8 kHz liegen. Wenn Sie den Kompressor dann in den Side-Chain-Modus versetzen, wird die Stimme in den Momenten komprimiert, in denen der Buchstabe „s“ ausgesprochen wird. Dies führte zu einem Gerät, das als De-Esser bekannt ist. Diese Arbeitsweise wird „frequenzabhängig“ genannt.

Eine andere Verwendung dieser Funktion heißt „Ducker“. Bei einem Radiosender beispielsweise läuft die Musik durch einen Kompressor und die Worte des DJs kommen durch eine Seitenkette. Wenn der DJ zu chatten beginnt, verringert sich die Musiklautstärke automatisch. Dieser Effekt kann auch bei Aufnahmen erfolgreich eingesetzt werden, um beispielsweise die Lautstärke von Keyboard-Parts beim Singen zu reduzieren.

Begrenzung durch Ziegelmauer

Der Kompressor und der Limiter funktionieren ungefähr auf die gleiche Weise; wir können sagen, dass der Limiter ein Kompressor mit einer hohen Ratio (ab 10:1) und normalerweise einer niedrigen Attack-Zeit ist.

Es gibt ein Konzept des Brick-Wall-Limiting – Limitierung mit einem sehr hohen Verhältnis (20:1 und höher) und einem sehr schnellen Angriff. Im Idealfall darf das Signal den Schwellenwert überhaupt nicht überschreiten. Das Ergebnis wird für das Ohr unangenehm sein, aber dadurch werden Schäden an der Tonwiedergabeausrüstung oder ein Übermaß vermieden Bandbreite Kanal. Viele Hersteller integrieren zu diesem Zweck Begrenzer in ihre Geräte.