Schallanalyse-Software modelliert das menschliche Gehör
von Helmuth Lemme
für die Zeitschrift
Nr. 22 / 2000, S. 150
In alten Zeiten hat man an mechanischen Teilen – etwa Motor und Auspuff – empirisch so lange herumgedoktert, bis das Ergebnis befriedigt hat. Das nahm meist viel Zeit in Anspruch und war in seinen Möglichkeiten dennoch eng begrenzt. Unter dem heutigen Konkurrenzdruck zwischen verschiedenen Konzernen und dem Zeitdruck bei der Entwicklung muss die Suche nach einem spezifischen Klang schnell und effizient gehen. "Sound-Designer" trimmen ihn hin, bis er stimmt – heute überwiegend mit Computerhilfe.
Unentbehrliches Werkzeug dafür ist die Schallanalyse. Ihre klassische Form berechnet das Frequenzspektrum mittels Fourier-Transformation. Was theoretisch-mathematisch noch rein analog ist, kann auf einem Rechner nur digital ablaufen: Zum einen wird das zu untersuchende Signal zeitdiskret abgetastet, zum anderen kann die Anzahl der Frequenzlinien im untersuchten Bereich nur endlich groß sein. Daher auch die Bezeichnung Diskrete Fourier-Transformation (DFT). Sie war in der Praxis zunächst mit enorm hohem Rechenaufwand verbunden; einen wesentlichen Fortschritt brachte dann aber die Erfindung der so genannten Schnellen Fourier-Transformation (FFT), bei der sich durch einen mathematischen Trick die Rechnungen erheblich vereinfachen.
Gab es für FFT zunächst nur Stand-alone-Messgeräte (etwa von Brüel & Kjaer, Ono Sokki u. a.) für fünf- bis sechsstellige Preise, so machen diesen mittlerweile die sehr viel leistungsfähiger gewordenen PCs ernsthafte Konkurrenz. Und seitdem es hochwertige Soundkarten gibt, sind die anfänglich für die A/D- und D/A-Wandlung verwendeten Messtechnik-Steckkarten auch nicht mehr nötig. Damit ist die FFT bedeutend kostengünstiger geworden als noch vor wenigen Jahren und weiten Kreisen zugänglich. Es gibt bereits eine ganze Reihe derartiger Programme, zum Teil sehr billig oder sogar kostenlos aus dem Internet herunterladbar.
FFT stößt an Grenzen
Die ersten FFT-Messsysteme bedeuteten für die Schallanalyse einen enormen Durchbruch, weil sie die Zusammensetzung eines Klangsignals erstmals in eine sichtbare Form bringen konnten. Dabei zeigen sich Feinheiten, die auch ein sehr gutes Gehör nicht oder nur schwer entdeckt. Doch je länger man damit arbeitet, um so mehr kommt man zu der Erkenntnis, dass die FFT für viele praktische Fälle auch noch nicht das Optimum ist.
Die Grenze ist zunächst einmal prinzipbedingt: Je präziser die Analyse im Frequenzbereich sein soll, um so mehr Abtastwerte muss man in die Rechnung einbeziehen, und um so unpräziser wird sie dann zwangsläufig im Zeitbereich (Bild 1). Will man dagegen eine hohe Zeitauflösung, dann darf man nur wenige Abtastwerte berücksichtigen, woraus eine schlechte Frequenzauflösung resultiert (Bild 2). Was sich der Anwender wünscht – in beiden Bereichen hohe Auflösung – ist mathematisch-physikalisch nicht möglich. Man muss sich jeweils für das eine oder das andere entscheiden. Diese Erscheinung tritt bei allen wellenartigen Vorgängen auf – bis zur Heisenbergschen Unschärferelation in der Quantenphysik, wo Ort und Impuls eines Teilchens nicht gleichzeitig mit beliebiger Präzision bestimmbar sind.
Dazu kommen dann noch weitere Fehler der FFT, die rein technisch bedingt sind und mit den verwendeten Zeitfenstern zusammenhängen. Davon einmal abgesehen, zeigt die FFT, was im Schallsignal physikalisch vorhanden ist. Sie zerlegt das untersuchte Frequenzband in äquidistante Bereiche; jede Linie auf dem Bildschirm repräsentiert also die gleiche absolute Breite. Das zeitliche Auflösungsvermögen – die Reaktionsgeschwindigkeit auf Änderungen – ist dadurch ebenfalls in jedem Frequenzbereich gleich.
Das menschliche Gehör hat aber ganz andere Eigenschaften als ein FFT-Analysator: Bei tieferen Frequenzen (unterhalb von etwa 1 kHz) hat es eine hohe Frequenz-Unterscheidungsfähigkeit, dafür braucht es aber längere Zeit für die Analyse. Bei höheren Frequenzen (oberhalb von etwa 1 kHz) verhält es sich umgekehrt, es trennt weniger scharf und reagiert dafür um so schneller. Grundlegende Forschungsarbeiten auf diesem Gebiet haben Eberhard Zwicker (Psychoakustik, Das Ohr als Nachrichtenempfänger), Ernst Terhardt (gehörangepasste Kurzzeit-Spektralanalyse, Fourier-Zeit-Transformation, FTT), Wolfgang Heinbach (spektrale Konturierung, Teilton-Zeitmuster, TTZM) und Markus Mummert (zeitliche Konturierung) an der TU München durchgeführt.
Alternative Frequenzskala
Weil nun für den Erfolg eines Produkts – ob Motorrad, Waschmaschine oder Musikinstrument – beim Kunden rein subjektive Maßstäbe entscheiden, setzt die streng objektive FFT für die Analyse nicht das richtige Maß. Sinnvollerweise muss die technische Analyse derjenigen möglichst nahe kommen, die das menschliche Ohr (einschließlich des damit verbundenen bewertenden Gehirns) durchführt. Dazu muss zunächst einmal die grundsätzliche Art der hier ablaufenden Informationsverarbeitung verstanden sein.
Die gehörgerechte Analyse muss also ein Auflösungsvermögen haben, das mit der Frequenz in gleicher Weise variiert wie das menschliche Ohr. Um das zu erreichen, hat man – schon vor Jahrzehnten – die normale Frequenzskala (in Hertz) durch die so genannte "Tonheits"-Skala ersetzt, mit der Maßeinheit "Bark" (benannt nach dem Forscher Heinrich Barkhausen, s. Kasten). Hier sind die Frequenzen so skaliert, wie es der Auflösung des menschlichen Gehörs entspricht.
Die Bark-Frequenzskala |
||||||||
Die Auflösungsfähigkeit des menschlichen Ohres ist bei verschiedenen Frequenzen unterschiedlich: bei tiefen hoch, bei hohen gering. Die Angabe von Frequenzen in Hertz ist für den subjektiven Klangeindruck deshalb weniger günstig. Deshalb wurde die nichtlineare Bark-Frequenzskala eingeführt, die im unteren Bereich linear beginnt und im oberen annähernd logarithmisch wird. Sie verwendet die Berechnungsformel: |
||||||||
z/Bark = 13 arctan (0,76 f/kHz) + 3,5 arctan (f/7,5 kHz)2 |
||||||||
z/Bark |
f/Hz |
|
z/Bark |
f/Hz |
|
z/Bark |
f/Hz |
|
1 |
100 |
9 |
1080 |
17 |
3700 |
|||
2 |
200 |
10 |
1270 |
18 |
4400 |
|||
3 |
300 |
11 |
1480 |
19 |
5300 |
|||
4 |
400 |
12 |
1720 |
20 |
6400 |
|||
5 |
510 |
13 |
2000 |
21 |
7700 |
|||
6 |
630 |
14 |
2320 |
22 |
9500 |
|||
7 |
770 |
15 |
2700 |
23 |
12000 |
|||
8 |
920 |
16 |
3150 |
24 |
15500 |
Bei der weiteren Analyse kommt es dann darauf an, das physikalische Schallsignal auf diejenigen Komponenten zu reduzieren, die für die Hörempfindung tatsächlich relevant sind. Dazu sind die für das Gehör informationstragenden Schallsignalparameter zu extrahieren, wobei die Verdeckungseffekte des Gehörs berücksichtigt werden müssen. Denn so fein wie es ist, weist es doch eine ganze Reihe von "Fehlern" auf; so machen starke Tonsignale auf der einen Frequenz schwache Tonsignale auf anderen Frequenzen unhörbar.
Auditorische Analyse
Ein PC-Programm, das entscheidend über die normale FFT hinausgeht und die besagten Eigenschaften des menschlichen Gehörs in die Auswertung von Schallsignalen mit einbezieht, hat bisher gefehlt. Diese Lücke hat jetzt die Firma Cortex Instruments in Regensburg geschlossen. Bei "VIPER" (VIsual PERception of audio signals) sind Zeit- und Frequenzauflösung bei hohen und tiefen Frequenzen jeweils so eingestellt, wie es dem menschlichen Gehör entspricht. Man spricht hier von einer so genannten "auditorischen" Analyse. Damit können – im Gegensatz zur konventionellen FFT – die Zusammenhänge zwischen physikalischen Größen und gehörmäßiger Wahrnehmung für das Auge sehr viel besser sichtbar gemacht werden als bisher. Auf dem Bildschirm kann man dann sozusagen "sehen, was man hört".
VIPER arbeitet mit bis zu 800 Frequenzkanälen und einer zeitlichen Auflösung von 1 ms. Dabei ist die Analysebandbreite nicht absolut in Hertz, sondern vielmehr in Bark konstant. Das Ergebnis – das auditorische Spektrogramm (ASP) – ist somit wesentlich aussagekräftiger als das einer herkömmlichen FFT (Bild 3).
Einziger kleiner Wermutstropfen dabei: Der Rechenaufwand ist erheblich höher als bei der FFT, weil sich hier deren mathematischer Abkürzungsweg nicht nutzen lässt. Ein Echtzeitbetrieb ist bisher nicht zu schaffen. Man muss das Signal erst aufnehmen und auf der Festplatte als wav- oder ähnliche Datei abspeichern, danach kann man die Rechnung starten, die je nach Signallänge, Abtastrate und Rechnergeschwindigkeit einige Minuten dauern kann. Hier lohnt sich ein GHz-PC durchaus. Dafür kann man das Signal wiederholt abhören, archivieren und weiterverarbeiten. VIPER ist nicht für den Live-Betrieb gedacht.
Ein Beispiel: Der Testsatz "Bring your problems", aufgenommen mit 16 kHz Abtastfrequenz (Zeitdauer 1288 ms, Analyse von 20 Hz bis 8 kHz), ergibt bei normaler FFT, die mit VIPER auch möglich ist und sehr schnell geht, das in Bild 4 gezeigte Ergebnis: Das Spektrogramm zeigt den Verlauf der enthaltenen Frequenzkomponenten über der Zeit, wobei die Amplitude durch die Farbe ausgedrückt wird (blau schwach, rot stark). Bei der auditorischen Analyse erhält man dagegen Bild 5. Durch die Streckung im unteren und die Stauchung im oberen Frequenzbereich lassen sich hier viel feinere Details unterscheiden (Frequenzauflösung 0,05 Bark, Analyseintervall 1 ms). Die in den Bildern 1 und 2 gezeigten Spektrogramme sind Ausschnitte aus Bild 4, Bild 3 und Bild 5, jeweils für die Silbe "ro" im Frequenzbereich 50 bis 2700 Hz.
In das auditorische Spektrogramm lassen sich jetzt mit einem Maus-gesteuerten Fadenkreuz Schnitte einlegen. Ein horizontaler Schnitt liefert den zeitlichen Amplitudenverlauf bei einer ausgewählten Frequenz, ein vertikaler das Frequenzspektrum in einem bestimmten Zeitintervall.
Reduktion auf Konturen und Tracks
Die weiteren Stufen der auditorischen Analyse bestehen dann darin, die Teile der Information aus dem Bild zu eliminieren, die das menschliche Ohr nicht wahrnimmt. Das erhöht die Klarheit der visuellen Darstellung. Das Ohr bildet aus der Repräsentation des Klanges eine Art Konturierung. VIPER vollzieht diesen Vorgang durch die Extraktion der Maxima im Spektrogramm nach (Bild 6). Dabei lassen sich sowohl Frequenz- wie Zeitkonturen bilden. Die Frequenzkonturen (Bild 7) spüren tonale Komponenten von Klängen wie Vokalen in Sprache auf, die Zeitkonturen plötzliche Komponenten wie Explosivlaute.
Hieraus lassen sich dann so genannte "Tracks" berechnen, die die tonalen Komponenten im Signal nachbilden (Bild 8). Diese verbinden benachbarte Konturelemente, solange deren Frequenzabstände innerhalb eines Bereiches liegen, der in subjektiven Gruppierungs-Experimenten gefunden wurde. Komponenten, die nicht zu Tracks gehören, werden als Rauschen verworfen. So kann die Track-Bildung auch für die Rauschverminderung verwendet werden.
Auf der Basis dieser Analyse lassen sich die Klänge dann am Bildschirm editieren, d. h. gezielt umbauen. Man kann einzelne Bereiche verstärken, abschwächen, verschieben, kopieren, löschen usw. und sich dann den veränderten Klang erneut anhören. Mit flexiblen Zoomfunktionen lassen sich dabei Details herausvergrößern (Bild 9). Aus dem Spektrogramm oder den Konturen ist dann auch eine erneute Resynthese des Klanges möglich. Man kann ihn so lange maßschneidern und verschiedene Versionen miteinander vergleichen, bis das Optimum erreicht ist.
Für spezielle Analysemethoden lassen sich die gewonnenen Daten in das Programm MATLAB exportieren und damit weiterverarbeiten.
An Anwendungen kein Mangel
VIPER wurde keineswegs nur für die akademische Forschung entwickelt. Hauptanwendungsfeld wird die Entwicklung und Optimierung von industriell hergestellten Serienprodukten sein – vom besagten Motorrad über Küchenmaschinen und Musikinstrumente bis zu Hörgeräten. Daneben kann die Forschung im Bereich der Psychoakustik damit noch effizienter werden. In Tonstudios kann VIPER zur Produktion von Musikaufnahmen mit noch höherer Qualität oder zur Verbesserung von schlechten alten Aufnahmen beitragen, und die Kriminalpolizei kann damit Stimmproben noch genauer als bisher untersuchen.
VIPER besteht aus zwei Programmteilen: "PX" (Perceptual Explorer) für allgemeine Klang- und Geräuschuntersuchungen und "SQ" (Speech Quality) speziell für die Bewertung von Sprachsignalen. Die immer häufiger kommenden automatischen Sprachansagen sollen nicht nur klar verständlich sein, sondern auch freundlich klingen, gleichzeitig soll aber die digitalisierte Form möglichst wenig Speicherplatz in Anspruch nehmen – sich widersprechende Forderungen. Mit VIPER lassen sich Kompressionsmethoden, wie sie z. B. in der Telekommunikation verwendet werden, sehr effizient testen.
Das Programm läuft unter Windows NT 4.0 oder Windows 2000, nicht unter Windows 98. Dabei schützt sich der Hersteller gegen Raubkopiererei: Mit der CD wird ein Hardware-Kopierschutz (Dongle) mitgeliefert, der an eine parallele Schnittstelle des Rechners gesteckt werden muss. Ohne den ist nichts zu machen. Die Entwicklung war enorm aufwendig, die geistigen Väter – Schüler von Zwicker und Terhardt – haben deren rein akademischen Untersuchungen hiermit in eine konkret handhabbare Form gebracht. Die Ergebnisse können sich sehen und hören lassen.
Literatur
[1] Lemme, H.: Menschliches Ohr elektronisch imitiert. Elektronik 1990. H. 21, S. 56.
[2] Zwicker, E., Feldtkeller, R.: Das Ohr als Nachrichtenempfänger. Hirzel, Stuttgart 1967.
[3] Zwicker, E.: Psychoakustik. Springer-Verlag 1982.
[4] Terhardt, E.: Akustische Kommunikation. Springer-Verlag 1998.
[5] Valenzuela, M.N.: Zur Rolle des Gehörs bei akustischen Untersuchungen an Musikinstrumenten. Universität der Bundeswehr, München 1999.
Nachtrag 2005:
Der Name des Programms hat sich inzwischen geändert, es heißt jetzt nicht mehr „VIPER“, sondern „db Sonic“.
Vertrieb:
Fa. 01dB, www.01db.com
oder http://www.cortex-instruments.de/BU2/cortex/Psychoacoustique.html