Filter fuer bessere Hoerverstaendlichkeit

X-No-Archive: Yes

begin Thread

Moin!

Ich ärgere mich gerade mit Transkriptionen herum. Es gibt Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch ausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es ist ab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Frage an die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o. ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen, Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst verständlich.

Tontechnik ist irgendwie nicht so meines, aber ich kann die Rohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, die tippen werden, habe ich schon gefunden), und gescheite Anleitungen habe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann man Bereiche markieren - unglücklicherweise nur nach ganzzahligen Sekunden, obwohl die Trennstellen manchmal schon sinnvoll auf Sekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen "Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wenn irgendwelche fleißigen Leuten ein ganz offensichtlich ziemlich raffiniertes Programm mit vielen ausgeklügelten Funktionen stricken, aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zu verpassen, die ich auch kapiere.)

Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf eine Spracherkennung geben - keine Chance.

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z
Loading thread data ...

Also was weg ist, weil die Aufnahme nichts konnte oder weil der Sprecher am Mikrofon vorbei gesprochen hat, bekommst Du nicht wieder. Was allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B. Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke stark schwankt. Aber wenn die Höhen für die Differenzierung der Zischlaute weg sind, kommen sie durch reindrehen auch nicht wieder.

Alte Regel, wenn Du es schlecht verstehst, versteht es der Computer noch schlechter. Du darfst nicht vergessen, dass unsere "Fehlerkorrektur" auch auf der semantischen Ebene funktioniert. Also wenn ein Wort in einem Kontext keinen Sinn ergibt, verstehen wir halt das ähnlich klingende Wort, was passt.

Marcel

Reply to
Marcel Müller

X-No-Archive: Yes

begin quoting, Marcel Müller schrieb:

Es schon noch alles da - irgendwie. (Wenn ich es mir abschnittsweise fünfmal anhöre, kriege ich meistens raus, was gesagt wurde. Aber auf die Art tippe ich zwei Seiten pro Tag, und soviel Zeit hat keiner.)

Schön. Und wie mache ich das nun? Heißt: Was ist das fertige Werkzeug dafür?

(Ich denke, daß das keine dumme Frage ist, weil es sich schließlich um ein Standardproblem handelt. Also ist zu erwarten, daß es dafür auch Standardlösungen gibt.)

Schon klar.

Interessante Beobachtung am Rande: Mit VLC kann man die Wiedergabegeschwindigkeit verändern. Interessanteweise geht das aber ohne Frequenzshift, d. h. das Programm transponiert die Tonhöhe passend, so daß die Änderung der Abspielgeschwindigkeit ausgeglichen wird. Das ist aber nun alles andere als trivial: Damit ändert sich nämlich das Zeitverhältnis zwischen Hüllkurve und moduliertem Ton, d. h. es gehen mehr oder weniger Schwingungen auf einen Hüllkurvenabschnitt. Ich wüßte nicht, wie man sowas programmiert. Einfach die omega-Achse strecken bringt es nicht, das gibt einen proportionalen Shift in der Grundfrequenz. Und ein Band-Shift tut es auch nicht, das gibt dann nämlich Disproportionen zwischen Grund- und Obertönen. (Wenn ich f und 2*f auf f+df und 2*f+df abbilde, dann bilden f+df und 2*f+df keine Oktave mehr.)

Also werden wahrscheinlich viele schmale Bandabschnitte einzeln "passend" geshiftet - ziemlich aufwendig, sowas. (Wenn man die Wiedergabegeschwindigkeit ganz langsam macht, klingt es auch sehr merkwürdig "hallig".)

So ganz uninteressant ist die ganze Tontechnik nicht, aber leider habe ich keine Zeit, mich da wirklich reinzuknien.

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

Naja, "Mein Auto fährt nicht." ist auch ein Standardproblem. Daraus zu schließen, dass es auch eine Standardlösung dafür geben müsste, ist kühn. Ich meine, die gibt es schon: wegschmeißen und neu machen. Aber das will man in der Regel nicht. Kurzum, man wird schon nach den Ursachen fahnden müssen. Und die können wir hier ohne das Material nur aus der Glaskugel erfahren.

Wir können die Phase nicht hören. Deshalb kann man das Signal in ein Frequenzzspektrum mit endlicher Genauigkeit zerlegen und anders wieder zusammenbauen. Das eigentliche, zeitabhängige Signal ist dem ursprünglichen dann völlig unähnlich. Es hört sich aber ähnlich an.

Wieso? Wo ist da das Problem? Du musst nur gleichzeitig an der Sampling-Rate drehen.

Stimmt, ganz schlecht, macht sich aber in kleinen Dosen sehr gut zur Feedback-Vermeidung bei Sprachverstärkung.

Ja, klar. Der Hall war schon vorher da, nur hört man ihn nicht so, wenn er schneller vorbei ist.

Wenn Dir das hilft, ist es doch gut. Langsamer abspielen ist übrigens eine gängige Methode für Diktiervorgänge. Selbst, wenn dabei die Tonhöhe mit verändert wird, und es deshalb komisch klingt, kann die Verständlichkeit dennoch profitieren.

Hall bei der Aufnahme ist hingegen ziemlich lästig. Technisch kann man den zwar auch entfernen - das schafft jede 500MHz CPU in Echtzeit -, aber in der Praxis ist es nicht leicht, erst mal das notwendige Profil für die Entfaltungsoperation (Deconvolution) zu bekommen. Und oft ist das auch keine Konstante, weil sich der Sprecher bewegt. Und im Gegensatz zu unserem Ohr ist die Entfaltung sehr sensibel auf die Phase.

Marcel

Reply to
Marcel Müller

Ich sehe als Möglichkeit nur die extreme Überabtastung des Signals zwecks Rauschreduzierung. Naja und dann vielleicht noch einen guten Equilizer. Ansonsten sind die Möglichkeiten schon theoretisch beschränkt.

mfG Leo

Reply to
Leo Baumann

"Marcel Müller" schrieb im Newsbeitrag news:4f63aea0$0$6547$ snipped-for-privacy@newsspool4.arcor-online.net...

Hi, ich täte einen Profi anrufen. Aka Abschleppunternehmer :-)

Reply to
gUnther nanonüm

X-No-Archive: Yes

begin quoting, Marcel Müller schrieb:

Mein exakt beschriebenes Problem war aber nicht "das Auto fährt nicht", sondern "der Reifen ist platt". Und dafür gibt es die Standardlösung.

Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden, wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der Telefonstrippe haben und entzerren wollen, damit der Zuhörer was versteht. *Das* Filter will ich. Wo kriege ich es her?

In der Tat.

Erst mache ich eine Fouriertransformation, dann multipliziere ich das Ergebnis mit einem konstanten Faktor, mache die Rücktransformation, um dann die Abtastrate zu verändern, um die Streckung im s-Bereich wieder rückgängig zu machen, damit genau gar kein Effekt resultiert.

Ganz toll! Und was haben wir dann gekonnt?

???

Ich denke, daß es ein Artefakt der Frequenzsynthese ist. Es werden immer nur Spektrogramme von kurzen Signalabschnitten erstellt und daraus dann das frequenzgeshiftete Signal errechnet. Das ist aber für die gedehnte Zeit zu kurz und muß deswegen periodisch wiederholt werden - genau das gibt den "Hall".

Mich *nicht* damit zu befassen? Was mir helfen würde, wäre der Link auf die Problemlösung.

Ich weiß, deswegen habe ich damit probiert. Blöderweise verlängert das auch die Abhörzeit erheblich.

Es hallt nichts in der Aufnahme, dafür war der Raum zu klein und zu möbliert.

Falls Du mein Anliegen vergessen haben solltest, schau doch einfach nochmal in das Subject.

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

Am 17.03.2012 00:48, schrieb Ralf . K u s m i e r z:

Hallo,

ein Bandpass mit Telefonbandbreite (300 Hz bis 3kHz) ist optimiert für Sprache. Das kann man zeitsparend mit einem Equalizer in Hardware oder durch aufwendige Nachbearbeitung per Software erledigen.

Bernd Mayer

Reply to
Bernd Mayer

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Bandbegrenzt ist es doch schon. (Mehr konnte die Hardware nicht.)

Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz" bezweifle: Männer- und Frauenstimmen können auch schon einmal eine Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz und 0,4-4 kHz.

Was ich brauche, ist (u. a.) Dynamikkompression bzw. ALC, evtl. noch Clipping (die zusätzlichen Obertöne aus dem Klirren können sich durchaus positiv auf die Verständlichkeit auswirken), sowie Entrauschen und Entknacksen.

Wenn ich mehr Zeit und Möglichkeiten hätte, fielen mir bestimmt noch so einige Dinge ein: Sprache besteht aus einem Grundrauschen und darüberliegenden Tönen und Klängen (also Formanten usw.), und das kann die GSM-Codierung auch ganz gut auseinanderfieseln, weil natürlich gar nicht das komplette Tonspektrum übertragen wird, sondern aus unvollständigen Spektralinformationen beim Empfänger ein relativ künstliches Sprachsignal synthetisiert wird. Daß man trotzdem mit Mobilen ganz gut was versteht, zeigt, daß das Verfahren was taugt. Wenn man die entsprechenden Digitalfilter aufbohrt, könnte man damit bestimmt auch bei so einer "versauten" Aufnahme etwas erreichen.

Bloß ist das ein so komplexer Aufwand (Größenordnung Diplomarbeit), daß es weniger aufwendig wäre, die schlechte Aufnahme abtippen.

Ich habe aber immer noch die Hoffnung, daß sowas schon längst gemacht wurde (mit adaptiven Systemen, an denen nicht ich herumfummeln muß, sondern die sich selbständig optimal auf das vorhandene System einregeln) und mir irgend jemand einen Tip geben kann, wo in den Tiefen des Internet sowas zu finden ist. (Wenn nicht, müssen die armen Schweine darunter leiden, die es dann trotzdem transkribieren müssen.)

Ja, es wäre natürlich besser gewesen, von vornherein bessere Aufzeichnungen herzustellen. Aber es nützt nichts, über vergossene Milch zu jammern. (So wahnsinnig schlecht ist die Aufnahme übrigens gar nicht, es ist doch erstaunlich viel ganz gut zu verstehen, nur ein paar Abschnitte sind wirklich mies.)

Haben übrigens die Hörgerätefritzen nicht sowas? Wäre doch eigentlich naheliegend, Geräusche für Schwerhörige auf bessere Sprachverständlichkeit aufzupeppen.

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

Am 17.03.2012 12:36, schrieb Ralf . K u s m i e r z:

Hallo,

welche Hardware wurde denn eingesetzt?

Meine Version von Audacity hat u.A. Effekte für Klickfilter, Kompressor, Leveler, Normalisieren, Rauschentfernung usw..

Woran klemmt es denn? Man muss die Effekte halt je nach Tonmaterial einstellen und optimieren, das kann *zeitaufwendig* sein und zaubern können die Programme auch nicht. Grundlagen und Erfahrung in Tonbearbeitung sind dabei sicher hilfreich. Bei richtig schlechten Aufnahmen kann selbst ein Rundfunkstudio wenig machen - da wird das dann halt nicht gesendet.

Anleitungen zu Audacity gibt es im Netz reichlich:

formatting link

Bernd Mayer

Reply to
Bernd Mayer

Ralf . K u s m i e r z schrieb am 17.03.12:

Die hätte ich auch vorgeschlagen. Oder wie schon genannt Telefonhersteller bzw. eher nicht die von Freisprechanlagen fürs Auto. Aber die verdienen damit ihr Geld und werden ihr Kern-Know-How kaum einfach so rausgeben.

Wer einmal gehört hat, wie laut und verrauscht ein fahrendes Auto wirklich ist, wird es erstens nicht glauben und zweitens sich wundern, dass das Ohr der Beifahrer da überhaupt noch irgendetwas versteht und dass beim Telefonieren auf der Gegenseite trotzdem fast nur die Stimme ankommt, nicht das Rauschen. Ich war vor Jahren mal bei einer Vorführung von Head-Acoustics (stehendes Auto, der "Fahrtlärm" wird per Lautsprecher erzeugt). Wahnsinn, wie laut es dort war...

MfG Gerald

Reply to
Gerald Gruner

Klassische Telefonie arbeitet im Bereich von exakt 300 bis 3400 Hz. Ohne Rücksicht auf Geschlecht und Stimmlage des Sprechers. Das kannst du doof finden, es ist aber so :-)

vG

Reply to
Volker Gringmuth

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Das ist im nachhinein doch ziemlich Hupe.

Aha, das kann das?

An kA.

Daher suche ich die Standardlösung, die zwar nicht 99,... % optimiert, sondern nur 85 %, aber dafür "auf Knopfdruck".

Wird auch nicht verlangt.

Hammwa nich'...

Es soll nicht gesendet, sondern nur transkribiert werden.

Was davon ist empfehlenswert? (Ich habe Audacity 1.3.14 Beta installiert - die Versionen unterscheiden sich jeweils - und heute rein zufällig festgestellt, daß man einfach mit den Pfeiltasten jeweils ein Stück vorwärts und zurück springen kann - steht natürlich nirgendwo (bzw. habe ich es nicht gefunden). Kann man auch den Cursor festklemmen und dann "das Band" laufenlassen? Bis jetzt läuft mir beim Abspielen immer der Cursor von links nach rechts und blättert dann jeweils eine Seite weiter, wenn er den rechten Rand erreicht hat - ein bißchen lästig, wenn man das Dings vergrößert hat, um auf Sekundenbruchteile genau zu schneiden, dann ist es nämlich immer schon weitergesprungen, bevor ich gesehen habe, wo ich nun schneiden muß.) Im Moment bin ich noch emsig dabei, aus mehreren Spuren des gleichen Signals (also: von verschiedenen Standpunkten und deshalb in unterschiedlicher Qualität aufgezeichnet) jeweils den für den jeweiligen Sprecher optimalen Abschnitt rauszusuchen und die alle hintereinanderzupappen für eine zusammengeschnittene Komplettversion (wobei nervt, daß die Leute gelegentlich ein bißchen durcheinanderquatschen - wie um Himmels willen transkribiert man das, selbst, wenn man jeden der Sprecher verstehen kann?), und das ist schon alles andere als spaßig.

Aber wenn ich die "Schnittversion" dann komplett habe, wäre so ein Durchgang mit einer "Sauberputzfunktion" schon gar nicht so schlecht.

Kann durchaus sein, daß Audacity so ziemlich all das kann, was ich brauche - nützt nur nichts, wenn ich nicht weiß, wie das geht. (Ich hab's z. B. auch nicht hingekriegt, die Abspielgeschwindigkeit zu verändern, obwohl es dafür rechts oben Knöpscha gibt - ist eben scheiße dokumentiert. Und die Lokalisierung ist auch ein bißchen in die Hose gegangen - lustiges Deutsch-Englisch-Mischmasch. EEs ist nicht intuitiv - nein, ist es nicht.)

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

X-No-Archive: Yes

begin quoting, Gerald Gruner schrieb:

Es würde mir vollauf genügen, wenn ich denen die murksige Version zukommen lassen könnte und dann eine in verstehbar zurückbekäme (notfalls gegen ein paar Mäuse), aber das werden die auch nicht machen, vermute ich. (Außerdem bin ich mir nicht so sicher, ob ich das Zeugs eigentlich aus der Hand gegebn darf, sonst hätte ich schonmal ein paar Hörproben hochgeladen.)

Ich bezweifle nicht, daß es Leute "mit Ahnung" gibt. Nützt *mir* im konkreten Fall nur nichts...

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

X-No-Archive: Yes

begin quoting, Volker Gringmuth schrieb:

Ok: Ich finde es doof, aber es ist so...

(Meine Aufnahmen gehen angeblich bis 4,5 kHz - "gefühlt" ist es weniger, eher "klassisches Telefon", aber ich habe nicht gemessen. ... Wie messe ich das denn? Audacity kann doch Testtöne erzeugen, kann es nicht? Die könnte ich dann akustisch aufnehmen und das Zeugs hochladen zum Beschnüffeln - nützt aber auch wieder nichts, weil ich den Frequenzgang von meinen Spielzeuglautsprechern hier nicht kenne und man also bestenfalls das Produkt der Frequenzgänge aus Wiedergabe- und Aufnahmeeinheit ermitteln könnte. Hach, ist das kompliziert...)

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

Am 17.03.2012 16:42, schrieb Ralf . K u s m i e r z:

Hallo,

dann halt auf F4 drücken:

formatting link

Bernd Mayer

Reply to
Bernd Mayer

X-No-Archive: Yes

begin quoting, Bernd Mayer schrieb:

Ja, aber das verändert das Signal doch gar nicht, sondern nur die Abspielgeschwindigkeit - das kann VLC auch. (Und wahrscheinlich auch Audacity.)

Taugt das: was? (Ich blättere gerade mal drin.)

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

X-No-Archive: Yes

begin quoting, "Ralf . K u s m i e r z" schrieb:

Hm, mit den Effekt-Funktionen geht wohl eine ganze Menge, aber man muß das alles selbst einstellen, und ich bin einfach eine ungeeignete Referenzperson zur Beurteilung der Sache...

Gibt's denn da keine automatischen oder Standard-Einstellungen?

Gruß aus Bremen Ralf

Reply to
Ralf . K u s m i e r z

Am 17.03.2012 17:21, schrieb Ralf . K u s m i e r z:

Hallo,

*nein* - weil es keine Standardaufnahmesituation (Sprecher, Lautstärke, Störgeräusche, Mikrofon, Aufnahmegerät, Aussteuerung usw.) gibt!

Bernd Mayer

Reply to
Bernd Mayer

Am 17.03.2012 17:10, schrieb Ralf . K u s m i e r z:

Hallo,

das kannst Du nur selbst beantworten - die Antwort hängt doch stark von den persönlichen Voraussetzungen ab (Vorkenntnisse, Sprachfertigkeit, Verständnisfähigkeit, Sehvermögen, Motivation usw.).

Am Besten zweimal lesen!

Hier noch ein paar links:

formatting link
entsprechend in anderen Sprachen.

Bernd Mayer

Reply to
Bernd Mayer

PolyTech Forum website is not affiliated with any of the manufacturers or service providers discussed here. All logos and trade names are the property of their respective owners.