Auditorische Analyse
Ein PC-Programm, das entscheidend über die normale FFT hinausgeht und die besagten Eigenschaften des menschlichen Gehörs in die Auswertung von Schallsignalen mit einbezieht, hat bisher gefehlt. Diese Lücke hat jetzt die Firma Cortex Instruments in Regensburg geschlossen. Bei "VIPER" (VIsual PERception of audio signals) sind Zeit- und Frequenzauflösung bei hohen und tiefen Frequenzen jeweils so eingestellt, wie es dem menschlichen Gehör entspricht. Man spricht hier von einer so genannten "auditorischen" Analyse. Damit können – im Gegensatz zur konventionellen FFT – die Zusammenhänge zwischen physikalischen Größen und gehörmäßiger Wahrnehmung für das Auge sehr viel besser sichtbar gemacht werden als bisher. Auf dem Bildschirm kann man dann sozusagen "sehen, was man hört".
VIPER arbeitet mit bis zu 800 Frequenzkanälen und einer zeitlichen Auflösung von 1 ms. Dabei ist die Analysebandbreite nicht absolut in Hertz, sondern vielmehr in Bark konstant. Das Ergebnis – das auditorische Spektrogramm (ASP) – ist somit wesentlich aussagekräftiger als das einer herkömmlichen FFT (Bild 3).
Einziger kleiner Wermutstropfen dabei: Der Rechenaufwand ist erheblich höher als bei der FFT, weil sich hier deren mathematischer Abkürzungsweg nicht nutzen lässt. Ein Echtzeitbetrieb ist bisher nicht zu schaffen. Man muss das Signal erst aufnehmen und auf der Festplatte als wav- oder ähnliche Datei abspeichern, danach kann man die Rechnung starten, die je nach Signallänge, Abtastrate und Rechnergeschwindigkeit einige Minuten dauern kann. Hier lohnt sich ein GHz-PC durchaus. Dafür kann man das Signal wiederholt abhören, archivieren und weiterverarbeiten. VIPER ist nicht für den Live-Betrieb gedacht.
Ein Beispiel: Der Testsatz "Bring your problems", aufgenommen mit 16 kHz Abtastfrequenz (Zeitdauer 1288 ms, Analyse von 20 Hz bis 8 kHz), ergibt bei normaler FFT, die mit VIPER auch möglich ist und sehr schnell geht, das in Bild 4 gezeigte Ergebnis: Das Spektrogramm zeigt den Verlauf der enthaltenen Frequenzkomponenten über der Zeit, wobei die Amplitude durch die Farbe ausgedrückt wird (blau schwach, rot stark). Bei der auditorischen Analyse erhält man dagegen Bild 5. Durch die Streckung im unteren und die Stauchung im oberen Frequenzbereich lassen sich hier viel feinere Details unterscheiden (Frequenzauflösung 0,05 Bark, Analyseintervall 1 ms). Die in den Bildern 1 und 2 gezeigten Spektrogramme sind Ausschnitte aus Bild 4, Bild 3 und Bild 5, jeweils für die Silbe "ro" im Frequenzbereich 50 bis 2700 Hz.
In das auditorische Spektrogramm lassen sich jetzt mit einem Maus-gesteuerten Fadenkreuz Schnitte einlegen. Ein horizontaler Schnitt liefert den zeitlichen Amplitudenverlauf bei einer ausgewählten Frequenz, ein vertikaler das Frequenzspektrum in einem bestimmten Zeitintervall.