Filter fuer bessere Hoerverstaendlichkeit

Ralf . K u s m i e r z · 2012-03-16T18:04:22+00:00

X-No-Archive: Yesbegin ThreadMoin!Ich ärgere mich gerade mit Transkriptionen herum. Es gibtSprachtonaufnahmen mit nicht so guter Qualität (nicht so hochausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es istab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Fragean die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o.ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen dieVerständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Essoll nicht "schön" klingen, sondern (zwecks Transkription) möglichstverständlich.Tontechnik ist irgendwie nicht so meines, aber ich kann dieRohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, dietippen werden, habe ich schon gefunden), und gescheite Anleitungenhabe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann manBereiche markieren - unglücklicherweise nur nach ganzzahligenSekunden, obwohl die Trennstellen manchmal schon sinnvoll aufSekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen"Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wennirgendwelche fleißigen Leuten ein ganz offensichtlich ziemlichraffiniertes Programm mit vielen ausgeklügelten Funktionen stricken,aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zuverpassen, die ich auch kapiere.)Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach aufeine Spracherkennung geben - keine Chance.Gruß aus BremenRalf

W

Wolfgang SÃ¶rgel vor 14 Jahren

[...]

Audacity bietet schon ein paar Möglichkeiten. Genau genommen bin ich gerade (habs mal eben gestartet) erstaunt, wie viele Dinge da sind. Alternativ kommerziell Adobe Audition. Braucht aber wohl ebenso Grundkenntnisse im Audiobereich und ein wenig Einarbeitung.

Persönlich würde ich mir die Tools selbst mit Matlab/Simulink (oder freien Alternative wie Scilab oder Octave) oder auch in C/C++ selbst machen, aber für mich ist das halt kein Hobby.

Für eine Möglichkeit siehe z.B.

formatting link

{lnt1997-2, author = {A. Stenger and R. Rabenstein and B. Girod}, title = {Fehlerverschleierung für paketierte Sprachübertragung durch Zeitdehnung und Phasenanpassung}, booktitle = {9. Aachener Kolloquium }, year = {1997}, month = {March}, file = {lnt1997-2:http\://

formatting link

}}

Wolfgang

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

[...]

;-)

Wie soll das funktionieren?

Herausfiltern von einzelnen Störern bekannter Frequenz oder von Bereichen mit wenig Sprachinformation, aber Störung (also z.B. unterhalb 50...400 Hz und oberhalb von irgendwo ab gut 3 kHz) kann tatsächlch helfen, muss man halt mit dem gegebenen Signal ausprobieren.

Zumindest gibt es aktuell keine einkanaligen (== 1 Mikrofon) Störgeräuschreduktionsalgorithmen, die bei grundsätzlich unbekanntem / nur statistisch beschriebenen Störgeräusch das Sprachverstehen signifikant messbar verbessern. Wohl aber welche, deren Ergebnis von Hörern bevorzugt wird und die die Höranstrengung mindern.

Hat man mehr Informationen über das Störgeräusch, so kann man auch mehr machen...

Vote

G

Gerald Gruner vor 14 Jahren

Wolfgang Sörgel schrieb am 17.03.12:

Ich hätte jetzt vermutet, jede handelsübliche Freisprecheinrichtung fürs Auto tut genau das.

@Ralf, wilde Idee: Wenn deine Aufnahme ein ähnlich verrauschtes Signal ist und du vielleicht solch eine Freisprechanlage hast, speise doch mal deine Aufnahmen dort in den Mikrofoneingang ein und lausche am fernen Ende, was dort ankommt. Wie gesagt, Autotelefone müssen bei Rauschunterdrückung kleine Wunder bewirken, wenn du auf der Gegenseite überhaupt etwas verstehen willst.

MfG Gerald

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

Primärer Bestandteil so einer Freisprecheinrichtung ist die Echounterdrückung, die verhindert, dass das lokal aufgenommene Signal eine Rundreise via fernem Ende macht.

Daneben sind dann potentiell je nach Ausführung weitere Dinge drin: Einkanalige Störgeräuschreduktion (siehe oben), mehrere Mikrophone/ Richtmikrophone/Beamformer (so was kann die Sprachverständlichkeit in der Tat verbessern), Sprachaktivitätserkennung, adaptive Lautstärkeregelung abhängig vom Umgebungsrauschen oder was auch immer, ggf. auch AGC/ Kompression,...

Im Auto kann man einiges an Information über die lokale akustische Situation nutzen: Grundsätzlich ist Autolärm relativ stationär und tieffrequent. Bei Festeinbauten kennt man sogar die Motordrehzahl, hat relativ genaue Kenntnisse über die akustische Situation, z.B. Hall, Position des Fahrers relativ zu den Mikrophonen,.... All das hilft potentiell.

Servus Wolfgang

Vote

L

Leo Baumann vor 14 Jahren

Das ist doch aus der digitalen Signalverarbeitung bekannt. Siehe: FFT, Schnelle Fourier-Transformation, Anwendungen, 6. Auflage, Oldenbourg Verlag, E.O. Brigham

Bei Überabtastung verteilt sich das Rauschen des Signalkanals auf den Frequenzbereich des jetzt redundant in mehreren Frequenzlagen erscheinenden Signals, wird also kleiner.

mfG Leo

Vote

H

Heinrich Pfeifer vor 14 Jahren

nein, nein, nein.

Die erwähnte "extreme Überabtastung" wird bei Delta-Sigma-Wandlern angewendet, um das Quantisierungsrauschen zu reduzieren - also das Rauschen, das durch die AD-Umsetzung hinzukommt.

Es hilft aber überhaupt nicht, um Rauschen, das bereits im Originalsignal enthalten ist, zu reduzieren. Dieses Rauschen ist Bestandteil des Signals.

Vote

R

Ralf . K u s m i e r z vor 14 Jahren

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Blubber, blubber? (Nein, es taugt nichts, ist viel zu rudimentär.)

Ist Dir wirklich nicht klar, wei schwachsinnig solche "Tips" sind, oder willst Du mich veräppeln?

Gruß aus Bremen Ralf

Vote

R

Ralf . K u s m i e r z vor 14 Jahren

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Beweis durch Behauptung? Dann behaupte ich mal das Gegenteil.

(Schönes Gegenbeispiel ist die Funktion "Autokorrektur" (Shift+U) bei IrfanView - es gibt keine "Standardbilder", aber es funktioniert trotzdem hervorragend. Warum sollte die Funktion "Sprachverständlichkeit optimieren" nicht genauso funktionieren? Was zu tun ist, ist im Prinzip klar.)

Gruß aus Bremen Ralf

Vote

B

Bernd Mayer vor 14 Jahren

Am 18.03.2012 13:08, schrieb Ralf . K u s m i e r z:

Hallo

wenn es Dir bei der Lösung hilft die Tonaufnahme mit einem Bildbearbeitungsprogramm zu verbessern dann ist das doch OK für Dich.

Bernd Mayer

Vote

R

Ralf . K u s m i e r z vor 14 Jahren

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Entschuldigung, ich dachte, man könnte Dich ernstnehmen.

Gruß aus Bremen Ralf

Vote

G

Gerald Gruner vor 14 Jahren

Wolfgang Sörgel schrieb am 17.03.12:

Damit erzählst du mir nichts neues. Ich habe vor einigen Jahren in dem Bereich gearbeitet. Nur ist das Thema dieses Threades nicht dein nachgeschobenes Echo, sondern Störgeräusche und deine unsinnige Behauptung oben, es gäb solche Algorithmen nicht einkanalig bei unbekanntem, statistisch beschriebenem Störgeräusch. Im Auto (und vermutlich auch in den meisten Handys) gibt es diese seit vielen Jahren für jedermann zu kaufen.

Potentiell gibt es das alles je nach Fahrzeug und Ausstattung. Die zu filternden Störgeräusche sind trotzdem weitgehend nur statistisch zu beschreiben und einkanalig. Und die Ergebnisse der modernen Filteralgorithmen sind beeindruckend.

BTW: Entscheide dich für eine Variante. Geht es jetzt auf einmal doch oder immer noch nicht? Oder ist das oben dein stillschweigendes Zurückrudern? Dann meinetwegen Schwamm drüber...

MfG Gerald

Vote

R

Ralf . K u s m i e r z vor 14 Jahren

X-No-Archive: Yes

begin quoting, "Ralf . K u s m i e r z" schrieb:

Ich hab's inzwischen ganz brauchbar hingekriegt. Im wesentlichen habe ich mit 3 kHz Eckfrequenz hochpaßgefiltert und dann mit dem Kompressor von Audacity die Pegel vergleichmäßigt (und dieses blöde Programm realisiert das einfach nur mies - unerklärlicherweise gibt es zwischendrin leise Stellen, die eben nicht angeglichen werden; ein Grund dafür ist nicht ersichtlich).

Die ganze Angelegenheit sollte sich (*nicht* mit Audacity*) ziemlich leicht automatisieren lassen:

Sppracherkenung (also: Erkennung, *daß* gesprochen wird, keine sematische Analyse) Dazu braucht man eigentlich nur den Level ermitteln, also gleichrichten und tiefpassen, dann müßte "Sprache" einen ziemlich typischen rhythmischen Verlauf ergeben, den man als Spektrogramm des Hüllkurvensignals identifizieren können sollte. (Der wird wohl von der verwendeten Sprache abhängen - Deutsch und Englisch haben wohl typischerweise andere Sprachrhythmen als das melodiöser "gesungene" Französisch und Italienisch. Das läßt sich aber auch aus der jeweiligen Aufnahme automatisiert "lernen" - notfalls muß der Anwender dem Programm noch einen expliziten Hinweis "das hier ist jetzt Sprache" geben.) Dann weiß daß Programm, daß gerade gesprochen wird. Damit kann man dann die Sprache als solche von anderen Geräuschen isolieren.
Spektralanalyse Aus den in 1. identifizierten "Sprechimpulsen" kann man Spektren machen, die eine halbwegs normale Verteilung haben sollten - wenn die gefundene Verteilung "schief" bzw. verzerrt ist, kann man daraus dann die Filterparameter berechnen, um den Frequenzgang zu entzerren. Damit wird dann auch automatisch das Rauschen minimiert.
Pegelangleichung Das ist dann der triviale Teil der Angelegenheit.

Ich denke, daß ich das ziemlich fix programmiert hätte - was allerdings nicht sinnvoll sein dürfte, da die großen Akustikhersteller das sicher schon längst getan und in die Geräte eingebaut haben. (Daß man die Geräte kaufen kann, bedeutet ja nicht, daß man dann auch die Algorithmen explizit zur Verfügung hätte.) Als erstes hätte ich mal die Spracherkenner im Verdacht - wenn die eine semantische Analyse machen wollen, müssen sie schließlich als erstes mal das Signal selbst normalisieren und sauberputzen.

Geht nicht automatisch? Da lachen ja die Hühner!

*) Ich habe jetzt die neue Audacity-Version 14 noch nicht installiert - vielleicht wurden dort genau die Bugs behoben.

Gruß aus Bremen Ralf

Vote

L

Leo Baumann vor 14 Jahren

o.k. dann steht Quatsch in meinen wissenschaftl. Büchern ...

lies: Brigham, Oldenbourg-Verlag

mfG Leo

Vote

L

Leo Baumann vor 14 Jahren

E.O. Brigham, FFT-Anwendungen, Oldenbourg-Verlag

Kapitel 14.3 Signaldetektion mit Hilfe der FFT/Signaldetektion durch Steigerung des Auflösungsvermögen der FFT/Oversampling, Seite 366

Zitat:

Um das Vorhandensein eines Signals mit einer größeren Sicherheit feststellen zu können, müssen wir die Energie des Rauschens auf eine größere Anzahl von Frequenzpunkten verteilen. Darum erhöhen wir die FFT-Stützstellen auf N= ... und zeigen in Bild 14-13c die Ergebnisse. Nun ist im Rauschspektrum ein Signal klar zu identifizieren. ...

schönen Tag noch ...

mfG Leo

Vote

H

Heinrich Pfeifer vor 14 Jahren

das ist nochmal was anderes. Ich war in meiner letzten Antwort davon ausgegangen, du meintest das Oversampling alleine, wie bei den Delta-Sigma-Wandlern.

Nun kommst du aber mit schmalbandiger Selektion durch eine FFT hoher Auflösung. Klar, durch schmalbandiges Filtern (egal ob mit FFT oder mit Bandpass) kann man ein *schmalbandiges* Signal, z.B. ein Sinussignal, auch bei starkem Rauschsignal detektieren, selbst wenn das Rauschen ursprünglich weit stärker ist als das Sinussignal.

Hier sprechen wir aber nicht vom Identifizieren eines schmalbandigen Sinus, sondern von einem Sprachsignal, und dieses ist bereits so breitbandig wie das störende Rauschen. Keine Chance mit dieser Methode.

Vote

L

Leo Baumann vor 14 Jahren

Das siehst Du falsch, geh' bitte erst lesen bevor Du Dich hier mit mir sinnlos anlegst. Nichts mit schmalbandigem Filter.

mfG Leo

Vote

L

Leo Baumann vor 14 Jahren

Es gibt ein Rauschfilter das folgendermaßen arbeitet:

-Oversampling

-FFT

-Rauschflordiskriminator

-inverse FFT

Es wird in milit. RADAR-Anlagen eingesetzt :-)

mfG Leo

Vote

H

Heinrich Pfeifer vor 14 Jahren

bevor ich weiter schreibe eine Klarstellung: wenn ich hier noch einmal Vokabeln lese wie "sinnlos anlegst", dann bin ich hier weg; auf diesem Niveau diskutiere ich nicht. Ich weiß, dass es der übliche Stil in vielen NGs ist, sich auf diese Weise persönlich zu diffamieren, aber da mach ich nicht mit.

Eine FFT mit nachfolgender inverser FFT bewirkt nichts anderes als eine Reihe schmalbandiger Bandpassfilter in parallelen Kanälen.

da sind wir schon wieder beim Punkt, den ich meine: von diesem "Rauschflordiskriminator" hast du bisher nichts gesagt. Der hat halt auch überhaupt nicht mit einer Rauschverminderung eines Sprachsignals zu tun.

Um einzelne Sinussignale oder Impulsfolgen (Radar) in einem verrauschten Signal zu detektieren, ist eine Spektralanalyse (z.B. FFT) sinnvoll, um dann die großen Spektralanteile (Nutzsignale) durchzulassen und die kleinen (Rauschen) zu sperren. Danach kann man mit der inversen FFT den Rest wieder zusammensetzen und hat die Rauschunterdrückung geschafft.

Und jetzt setzt du dich bitte mal mit einem Sprachsignal auseinander. Das besteht aus einem ganzen Sack voller tonaler Komponenten (Sinus und Oberschwingungen) und zusätzlich atonaler Komponenten (praktisch alle Konsonanten, die für das Verstehen besonders wichtig sind). Letztere erstrecken sich über das gesamte Frequenzband.

Und jetzt bist du wieder dran: wie kann dein "Rauschflordiskriminator" die atonalen Komponenten des Sprachsignals vom Rauschen unterscheiden? Wenn du dieses Geheimnis verrätst, hast du gewonnen.

Vote

L

Leo Baumann vor 14 Jahren

Das ist schon wieder Quatsch was Du schreibst. denn FFT + invFFT = gar nichts ... da kommt unverändert das Originalsignal heraus.

Diese Diskriminatoren schneiden kleine Spektrallinien im Spektrum (also unten) einfach ab, setzen die Null.

Du musst dringend das Buch von Brigham lesen und noch ein wenig studieren.

mfG Leo

Vote

H

Heinrich Pfeifer vor 14 Jahren

Am 22.03.2012 00:01, schrieb Leo Baumann:

oha.

selbstverständlich. Habe ich das Gegenteil behauptet?

auch das hatte ich in dem Teil beschrieben, den du jetzt nicht zitiert hast.

Brigham kenne ich nicht, aber unzählige andere Literatur über FFT, und ich arbeite seit Jahren damit. Und nein, das Studieren habe ich längst hinter mir (obwohl man bekanntlich nie auslernt).

Nachdem du dich beharrlich weigerst, deine FFT/Diskriminator-Methode in den Zusammenhang mit einem Sprachsignal zu stellen, ist das für mich das Ende der Fahnenstange.

Und tchüss.

Vote

Filter fuer bessere Hoerverstaendlichkeit

Join the Discussion

Didn't find your answer?