Filter fuer bessere Hoerverstaendlichkeit

Ralf . K u s m i e r z · 2012-03-16T18:04:22+00:00

X-No-Archive: Yesbegin ThreadMoin!Ich ärgere mich gerade mit Transkriptionen herum. Es gibtSprachtonaufnahmen mit nicht so guter Qualität (nicht so hochausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es istab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Fragean die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o.ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen dieVerständlichkeit optimieren kann (Aussteuerung vergleichmäßigen,Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Essoll nicht "schön" klingen, sondern (zwecks Transkription) möglichstverständlich.Tontechnik ist irgendwie nicht so meines, aber ich kann dieRohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, dietippen werden, habe ich schon gefunden), und gescheite Anleitungenhabe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann manBereiche markieren - unglücklicherweise nur nach ganzzahligenSekunden, obwohl die Trennstellen manchmal schon sinnvoll aufSekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen"Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wennirgendwelche fleißigen Leuten ein ganz offensichtlich ziemlichraffiniertes Programm mit vielen ausgeklügelten Funktionen stricken,aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zuverpassen, die ich auch kapiere.)Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach aufeine Spracherkennung geben - keine Chance.Gruß aus BremenRalf

L

Leo Baumann vor 14 Jahren

Ich habe auf die Literatur hingewiesen, die das Thema schlüssig darstellt. Das muss Dir hier reichen.

mfG Leo

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

Hast du schon mal wirklich selbst ein Sprachsignal verarbeitet, eine Methode oder Hardware dafür entworfen, die dann auch in einem Produkt zum Einsatz gekommen sind?

Ansonsten gebe ich Heinrich völlig recht.

Servus Wolfgang

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

On Sun, 18 Mar 2012 14:09:37 +0100, Gerald Gruner wrote: [...]

Natürlich gibt es einkanalige Störgeräuschreduktionsalgorithmen und diese sind auch nützlich im Sinne verbesserter Benutzerakzeptanz / subjektive Verbesserung. Nur wenn es um harte Daten zum Sprachverstehen bzw. dessen Verbesserung geht, nachgewiesen z.B. durch entsprechende Satz- oder Logatomtests helfen die eben nicht signifikant.

[...]

Beeindruckende Demos sind das eine. Wirklich verbesserte Sprachverständlichkeit (und darum ging es dem OP ja primär, wobei ein "angenehmener" Klang sicher auch OK ist, wenn man sich Dinge sehr lang anhören muss) das andere. Und für letzteres brauche ich eben entweder Kenntniss über die akustische Szene oder muss diese ermitteln und primär mehrere Mikrofone==Beamformer/Richtmikrofon (im Auto übrigens gar nicht so selten) oder genauere Kenntnis über das Störgeräusch. Letzteres hat ja scheinbar dem OP dann doch geholfen mittels einfacher Methoden ans Zeil zu kommen.

Ich bleib einfach dabei.

Servus Wolfgang

Vote

L

Leo Baumann vor 14 Jahren

Ja Wolfgang, ich habe Signale der demodulierten ZF von Schiffs-RADAR-Anlagen mit dieser Methode und zusätzlich mit einer CEPSTRUM-Analyse zur Impulslängenbestimmung digital verarbeitet, aber dieses Wissen, das ich das gemacht habe, hilft Euch nicht weiter. Auch war ich vor vielen Jahren an der theoretischen Entwicklung der CEPSTRUM-Analyse beteiligt und habe Brauchbarkeitsstudien dafür durchgeführt. Auch das hilft Euch hier nicht weiter.

Meine Literaturangabe war gut gemeint. Es handelt sich um 2 Bücher in denen die MODERNSTEN und AKTUELLSTEN Erkenntnisse der digitalen Signalverarbeitung ausführlich behandelt werden, auch die der CEPSTRUM-Analysen.

Falls es Euch interessiert, hier dazu eine meine Arbeiten aus der digitalen Signalverarbeitung, obwohl ich nicht so gerne auf die Kacke haue:

formatting link

mfG Leo

Vote

L

Leo Baumann vor 14 Jahren

Außerdem, Wikipedia --> Überabtastung, da findest Du schon den entscheidenden Hinweis:

Zitat:

Oversampling führt nicht zu höheren Datenraten und höherem Speicherplatzverbrauch. Dieses Verfahren findet beim Auslesen und nicht beim Schreiben von Daten Anwendung. Ein Nebeneffekt ist, dass durch Oversampling der Störabstand, beispielsweise bei CD-Wiedergabe, verbessert wird. Die Rauschleistung wird durch Überabtastung gleichmäßig auf ein größeres Frequenzintervall verteilt.

Zitat Ende:

Das hat nichts mit Quantisierungsrauschen zu tun.

Du hast einfach keine Ahnung!

mfG Leo

Vote

G

Gerald Gruner vor 14 Jahren

Wolfgang Sörgel schrieb am 22.03.12:

Ah ja, jetzt auf einmal doch... ;-)

Nunja, ich erlebe im Auto mit der Freisprechanlage jeden Tag gegenteiliges. Aber meinetwegen kannst du bei deiner Überzeugung bleiben.

Beamformer sind da sogar *sehr* selten. Und die Wirkung der Richtcharakteristik der Einzelmikrofone wird stark überschätzt, da diese zum einen mechanisch sehr klein sind und sich zum anderen in dem engen, umschlossenen Volumen des Fahrzeuginnenraums die Keulen kaum richtig ausbilden und von überall her Reflektionen des Störschalls (Umgebungsgeräusche, Fahrzeuglärm, Beifahrer, ...) kommen. Das Auto ist kein Freifeld.

Diese Kenntnis braucht man vorallem zur Echoreduktion. Die geht ohne ein Referenzsignal vom fernen Ende gar nicht.

Gerne. Ich ebenfalls... ;-)

MfG Gerald

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

[...]

Nein, so weit schon immer...

Du emfindest die Anlage in deinem Auto subjektiv als gut. Schön, freut mich. Nur damit ist weder gezeigt, dass du besser verstehst, noch ist dies statistisch signifikant. Teste das mal wirklich, mit ausreichend Testpersonen usw.

Beamformer rechnet man üblicherweise aus mehreren omnidirektionalen Mikrophonen. Und das funktioniert auch in komplizierteren Umgebungen recht gut, wenngleich nicht so ideal wie im Freifeld. In dem Bereich, in dem ich mich auskenne sind Beamformer DAS Mittel der Wahl, um Sprachverständlichkeit zu verbessern (und darauf kommt es da wirklich an). Im Consumer / KFZ - Bereich kenne ich die Produktseite nicht so genau. Aber so weit ich es kenne, werden auch dort Mikrophon-Arrays praktisch eingesetzt, siehe z.b.

formatting link

oder

formatting link

(beide recht willkürlich herausgegriffen).

Servus Wiolfgang

Vote

G

Gerald Gruner vor 14 Jahren

Wolfgang Sörgel schrieb am 3.04.12:

[...]

Da ich außerdem weiß, wie unglaublich und nahezu völlig unverständlich schlecht die Verständigung bei einer defekten Freisprechanlage ohne Noise-Reduktion ist, glaube ich weiterhin, dass es funktionierende, einkanalige Filteralgos gibt, die die Verständlichkeit von Sprache in stark gestörter Umgebung *drastisch* verbessern. Ich verstehe nicht, wieso du dich so sehr dagegen wehrst.

Aha, das könnte es sein. ;-) Vielleicht liegt unser gegenseitiges Problem schlicht daran, dass du von einem anderen Bereich schreibst als ich?

Mercedes war IIRC so ziemlich der einzige, der das mal in seinen Innenspiegel integriert hat. Netto war der Effekt kaum besser als ein besser platziertes konventionelles Miktrofon, dafür aber 20mal so teuer.

Verzeih mir, wenn ich die jetzt nicht lese. Dass Unis an allem möglichen forschen, bestreite ich ja nicht, nur dass es real in nennenswertem Umfang heutigen Fahrzeugen eingesetzt wird.

MfG Gerald

Vote

W

Wolfgang SÃ¶rgel vor 14 Jahren

[...]

Vielleicht, weil selbst schon mal den Unterschied zwischen subjektiver und objektiver Leistung von tatsächlich in Produkten verwendeten Algorithmen bzw. der Situation mit "Algorithmus an" vs. "Algorithmus aus" getestet habe?

[...]

Die Links verweisen auf Patente einer kommerziellen Firma (Harman Becker Automotive), die möglicherweise durchaus Verbindungen zum von dir angeführten Autombilhersteller hat / hatte. Die Links über die Uni kommen nur daher, dass einer der Erfinder mittlerweile dort lehrt und forscht (was ich wusste und daher dort die Links leicht fand).

Neben vielen anderen interessanten (durchaus nicht verkehrten, aber natürlch "marketing colored" Aussagen findet sich u.a folgendes am Ende von

formatting link

"But before these processes can take place, the sound signals collected by the two microphones and arriving to the earSmart voice processor must be digitized and then transformed to the frequency domain."

-> two microphones

Vote

G

Gerald Gruner vor 14 Jahren

Wolfgang Sörgel schrieb am 9.04.12:

Dann bitte erläutere dem unwissenden Laien, was an den Varianten "verstehe ich nicht" vs. "verstehe ich recht gut" für deine hohen Ansprüche nicht objektiv genug ist?

Mittlerweile nur noch Harman. Und die haben wohl zu den meisten hiesigen Herstellern mehr oder weniger gute Beziehungen.

Ich kenne sogar einen der Einreicher. Das mag ja alles sein. Nur was erwartest du jetzt von mir? Soll ich alle Patente von vorne bis hinten durchlesen und dann erraten, auf welchen der vielen Ansprüche du eigentlich beziehst und was du damit eigentlich sagen willst? Sagt es doch einfach direkt. OK?

Seufz^2. Das ist wieder eine andere Anwednung. Nochmals gaaaanz laaaangsaaaammmm zum Mitlesen: Ja, es gibt Mikrofonarrays und Beamformer, ja, sie funktionieren in bestimmtem Umfeld ganz gut, und nein, im Automobilbereich bringen sie nicht so viel und werden daher derzeit nicht breitflächig eingesetzt.

MfG Gerald

Vote

B

Bunyip vor 8 Jahren

replying to Ralf . K u s m i e r z, Bunyip wrote: Keine Chance!

Vote

Filter fuer bessere Hoerverstaendlichkeit

Join the Discussion

Didn't find your answer?