Filter fuer bessere Hoerverstaendlichkeit

X-No-Archive: Yes
begin Thread
Moin!
Ich ärgere mich gerade mit Transkriptionen herum. Es gibt Sprachtonaufnahmen mit nicht so guter Qualität (nicht so hoch
ausgesteuert, Telefonbandbreite, Störgeräusche, Genuschel), und es ist ab und zu wirklich nicht so gut zu verstehen. Und jetzt mal die Frage an die Experten: Gibt es irgendwas in der Gegend Audacity, VideoLAN o. ä., womit man mit irgendwelchen sinnvollen Standardeinstellungen die Verständlichkeit optimieren kann (Aussteuerung vergleichmäßigen, Knacks-, Rausch- und Störunterdrückung, Frequenzgangbeeinflussung)? Es soll nicht "schön" klingen, sondern (zwecks Transkription) möglichst verständlich.
Tontechnik ist irgendwie nicht so meines, aber ich kann die Rohaufnahmen auch nicht einfach ungeschnitten weggeben (Opfer, die tippen werden, habe ich schon gefunden), und gescheite Anleitungen habe ich nicht gefunden. (Simples Beispiel: Bei "Audacity" kann man Bereiche markieren - unglücklicherweise nur nach ganzzahligen Sekunden, obwohl die Trennstellen manchmal schon sinnvoll auf Sekundenbruchteile festzulegen wären. Da gibt es dann ein Kästchen "Einrasten" - was zum Kuckuck ist "einrasten"? Es nervt einfach, wenn irgendwelche fleißigen Leuten ein ganz offensichtlich ziemlich raffiniertes Programm mit vielen ausgeklügelten Funktionen stricken, aber dann leider zu blöd sind, dem auch ein GUI und eine Anleitung zu verpassen, die ich auch kapiere.)
Ich hatte mal die naive Vorstellung, ich könnte das Blabla einfach auf eine Spracherkennung geben - keine Chance.
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Hallo,
On 16.03.2012 19:04, Ralf . K u s m i e r z wrote:

Also was weg ist, weil die Aufnahme nichts konnte oder weil der Sprecher am Mikrofon vorbei gesprochen hat, bekommst Du nicht wieder. Was allerdings funktioniert ist, Dinge wegzufiltern, die Du nicht brauchst und die aber trotzdem die Verständlichkeit mindern. Man kann also z.B. Rumpelgeräusche oder Brummen wegfiltern. In gewissen Grenzen auch Rauschen. Man kann auch die Dynamik einebnen, falls die Lautstärke stark schwankt. Aber wenn die Höhen für die Differenzierung der Zischlaute weg sind, kommen sie durch reindrehen auch nicht wieder.

Alte Regel, wenn Du es schlecht verstehst, versteht es der Computer noch schlechter. Du darfst nicht vergessen, dass unsere "Fehlerkorrektur" auch auf der semantischen Ebene funktioniert. Also wenn ein Wort in einem Kontext keinen Sinn ergibt, verstehen wir halt das ähnlich klingende Wort, was passt.
Marcel
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Marcel Müller schrieb:

Es schon noch alles da - irgendwie. (Wenn ich es mir abschnittsweise fünfmal anhöre, kriege ich meistens raus, was gesagt wurde. Aber auf die Art tippe ich zwei Seiten pro Tag, und soviel Zeit hat keiner.)

Schön. Und wie mache ich das nun? Heißt: Was ist das fertige Werkzeug dafür?
(Ich denke, daß das keine dumme Frage ist, weil es sich schließlich um ein Standardproblem handelt. Also ist zu erwarten, daß es dafür auch Standardlösungen gibt.)

Schon klar.
Interessante Beobachtung am Rande: Mit VLC kann man die Wiedergabegeschwindigkeit verändern. Interessanteweise geht das aber ohne Frequenzshift, d. h. das Programm transponiert die Tonhöhe passend, so daß die Änderung der Abspielgeschwindigkeit ausgeglichen wird. Das ist aber nun alles andere als trivial: Damit ändert sich nämlich das Zeitverhältnis zwischen Hüllkurve und moduliertem Ton, d. h. es gehen mehr oder weniger Schwingungen auf einen Hüllkurvenabschnitt. Ich wüßte nicht, wie man sowas programmiert. Einfach die omega-Achse strecken bringt es nicht, das gibt einen proportionalen Shift in der Grundfrequenz. Und ein Band-Shift tut es auch nicht, das gibt dann nämlich Disproportionen zwischen Grund- und Obertönen. (Wenn ich f und 2*f auf f+df und 2*f+df abbilde, dann bilden f+df und 2*f+df keine Oktave mehr.)
Also werden wahrscheinlich viele schmale Bandabschnitte einzeln "passend" geshiftet - ziemlich aufwendig, sowas. (Wenn man die Wiedergabegeschwindigkeit ganz langsam macht, klingt es auch sehr merkwürdig "hallig".)
So ganz uninteressant ist die ganze Tontechnik nicht, aber leider habe ich keine Zeit, mich da wirklich reinzuknien.
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Hallo,
On 16.03.2012 20:03, Ralf . K u s m i e r z wrote:

Naja, "Mein Auto fährt nicht." ist auch ein Standardproblem. Daraus zu schließen, dass es auch eine Standardlösung dafür geben müsste, ist kühn. Ich meine, die gibt es schon: wegschmeißen und neu machen. Aber das will man in der Regel nicht. Kurzum, man wird schon nach den Ursachen fahnden müssen. Und die können wir hier ohne das Material nur aus der Glaskugel erfahren.

Wir können die Phase nicht hören. Deshalb kann man das Signal in ein Frequenzzspektrum mit endlicher Genauigkeit zerlegen und anders wieder zusammenbauen. Das eigentliche, zeitabhängige Signal ist dem ursprünglichen dann völlig unähnlich. Es hört sich aber ähnlich an.

Wieso? Wo ist da das Problem? Du musst nur gleichzeitig an der Sampling-Rate drehen.

Stimmt, ganz schlecht, macht sich aber in kleinen Dosen sehr gut zur Feedback-Vermeidung bei Sprachverstärkung.

Ja, klar. Der Hall war schon vorher da, nur hört man ihn nicht so, wenn er schneller vorbei ist.

Wenn Dir das hilft, ist es doch gut. Langsamer abspielen ist übrigens eine gängige Methode für Diktiervorgänge. Selbst, wenn dabei die Tonhöhe mit verändert wird, und es deshalb komisch klingt, kann die Verständlichkeit dennoch profitieren.
Hall bei der Aufnahme ist hingegen ziemlich lästig. Technisch kann man den zwar auch entfernen - das schafft jede 500MHz CPU in Echtzeit -, aber in der Praxis ist es nicht leicht, erst mal das notwendige Profil für die Entfaltungsoperation (Deconvolution) zu bekommen. Und oft ist das auch keine Konstante, weil sich der Sprecher bewegt. Und im Gegensatz zu unserem Ohr ist die Entfaltung sehr sensibel auf die Phase.
Marcel
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload

Hi, ich täte einen Profi anrufen. Aka Abschleppunternehmer :-)
--
mfg,
gUnther
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Marcel Müller schrieb:

Mein exakt beschriebenes Problem war aber nicht "das Auto fährt nicht", sondern "der Reifen ist platt". Und dafür gibt es die Standardlösung.

Ursachen? Die Aufnahme ist schlecht ausgesteuert, verrauscht und vernuschelt und hat eine relativ geringe Bandbreite. Und das läßt sich mit genau den Filtern verbessern, die die Rundfunkanstalten verwenden, wenn sie $Promi oder Reporter X aus Ganz-weit-Wegkistan an der Telefonstrippe haben und entzerren wollen, damit der Zuhörer was versteht. *Das* Filter will ich. Wo kriege ich es her?

In der Tat.

Erst mache ich eine Fouriertransformation, dann multipliziere ich das Ergebnis mit einem konstanten Faktor, mache die Rücktransformation, um dann die Abtastrate zu verändern, um die Streckung im s-Bereich wieder rückgängig zu machen, damit genau gar kein Effekt resultiert.
Ganz toll! Und was haben wir dann gekonnt?

???
Ich denke, daß es ein Artefakt der Frequenzsynthese ist. Es werden immer nur Spektrogramme von kurzen Signalabschnitten erstellt und daraus dann das frequenzgeshiftete Signal errechnet. Das ist aber für die gedehnte Zeit zu kurz und muß deswegen periodisch wiederholt werden - genau das gibt den "Hall".

Mich *nicht* damit zu befassen? Was mir helfen würde, wäre der Link auf die Problemlösung.

Ich weiß, deswegen habe ich damit probiert. Blöderweise verlängert das auch die Abhörzeit erheblich.

Es hallt nichts in der Aufnahme, dafür war der Raum zu klein und zu möbliert.

Falls Du mein Anliegen vergessen haben solltest, schau doch einfach nochmal in das Subject.
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 17.03.2012 00:48, schrieb Ralf . K u s m i e r z:

Hallo,
ein Bandpass mit Telefonbandbreite (300 Hz bis 3kHz) ist optimiert für Sprache. Das kann man zeitsparend mit einem Equalizer in Hardware oder durch aufwendige Nachbearbeitung per Software erledigen.
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Bandbegrenzt ist es doch schon. (Mehr konnte die Hardware nicht.)
Mal abgesehen davon, daß ich die pauschale Angabe "0,3-3 kHz" bezweifle: Männer- und Frauenstimmen können auch schon einmal eine Oktave auseinanderliegen, das wäre ein Unterschied zwischen 0,2-2 kHz und 0,4-4 kHz.
Was ich brauche, ist (u. a.) Dynamikkompression bzw. ALC, evtl. noch Clipping (die zusätzlichen Obertöne aus dem Klirren können sich durchaus positiv auf die Verständlichkeit auswirken), sowie Entrauschen und Entknacksen.
Wenn ich mehr Zeit und Möglichkeiten hätte, fielen mir bestimmt noch so einige Dinge ein: Sprache besteht aus einem Grundrauschen und darüberliegenden Tönen und Klängen (also Formanten usw.), und das kann die GSM-Codierung auch ganz gut auseinanderfieseln, weil natürlich gar nicht das komplette Tonspektrum übertragen wird, sondern aus unvollständigen Spektralinformationen beim Empfänger ein relativ künstliches Sprachsignal synthetisiert wird. Daß man trotzdem mit Mobilen ganz gut was versteht, zeigt, daß das Verfahren was taugt. Wenn man die entsprechenden Digitalfilter aufbohrt, könnte man damit bestimmt auch bei so einer "versauten" Aufnahme etwas erreichen.
Bloß ist das ein so komplexer Aufwand (Größenordnung Diplomarbeit), daß es weniger aufwendig wäre, die schlechte Aufnahme abtippen.
Ich habe aber immer noch die Hoffnung, daß sowas schon längst gemacht wurde (mit adaptiven Systemen, an denen nicht ich herumfummeln muß, sondern die sich selbständig optimal auf das vorhandene System einregeln) und mir irgend jemand einen Tip geben kann, wo in den Tiefen des Internet sowas zu finden ist. (Wenn nicht, müssen die armen Schweine darunter leiden, die es dann trotzdem transkribieren müssen.)
Ja, es wäre natürlich besser gewesen, von vornherein bessere Aufzeichnungen herzustellen. Aber es nützt nichts, über vergossene Milch zu jammern. (So wahnsinnig schlecht ist die Aufnahme übrigens gar nicht, es ist doch erstaunlich viel ganz gut zu verstehen, nur ein paar Abschnitte sind wirklich mies.)
Haben übrigens die Hörgerätefritzen nicht sowas? Wäre doch eigentlich naheliegend, Geräusche für Schwerhörige auf bessere Sprachverständlichkeit aufzupeppen.
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 17.03.2012 12:36, schrieb Ralf . K u s m i e r z:

Hallo,
welche Hardware wurde denn eingesetzt?
Meine Version von Audacity hat u.A. Effekte für Klickfilter, Kompressor, Leveler, Normalisieren, Rauschentfernung usw..
Woran klemmt es denn? Man muss die Effekte halt je nach Tonmaterial einstellen und optimieren, das kann *zeitaufwendig* sein und zaubern können die Programme auch nicht. Grundlagen und Erfahrung in Tonbearbeitung sind dabei sicher hilfreich. Bei richtig schlechten Aufnahmen kann selbst ein Rundfunkstudio wenig machen - da wird das dann halt nicht gesendet.
Anleitungen zu Audacity gibt es im Netz reichlich: http://www.google.de/search?q=Audacity+Anleitung
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Das ist im nachhinein doch ziemlich Hupe.

Aha, das kann das?

An kA.

Daher suche ich die Standardlösung, die zwar nicht 99,... % optimiert, sondern nur 85 %, aber dafür "auf Knopfdruck".

Wird auch nicht verlangt.

Hammwa nich'...

Es soll nicht gesendet, sondern nur transkribiert werden.

Was davon ist empfehlenswert? (Ich habe Audacity 1.3.14 Beta installiert - die Versionen unterscheiden sich jeweils - und heute rein zufällig festgestellt, daß man einfach mit den Pfeiltasten jeweils ein Stück vorwärts und zurück springen kann - steht natürlich nirgendwo (bzw. habe ich es nicht gefunden). Kann man auch den Cursor festklemmen und dann "das Band" laufenlassen? Bis jetzt läuft mir beim Abspielen immer der Cursor von links nach rechts und blättert dann jeweils eine Seite weiter, wenn er den rechten Rand erreicht hat - ein bißchen lästig, wenn man das Dings vergrößert hat, um auf Sekundenbruchteile genau zu schneiden, dann ist es nämlich immer schon weitergesprungen, bevor ich gesehen habe, wo ich nun schneiden muß.) Im Moment bin ich noch emsig dabei, aus mehreren Spuren des gleichen Signals (also: von verschiedenen Standpunkten und deshalb in unterschiedlicher Qualität aufgezeichnet) jeweils den für den jeweiligen Sprecher optimalen Abschnitt rauszusuchen und die alle hintereinanderzupappen für eine zusammengeschnittene Komplettversion (wobei nervt, daß die Leute gelegentlich ein bißchen durcheinanderquatschen - wie um Himmels willen transkribiert man das, selbst, wenn man jeden der Sprecher verstehen kann?), und das ist schon alles andere als spaßig.
Aber wenn ich die "Schnittversion" dann komplett habe, wäre so ein Durchgang mit einer "Sauberputzfunktion" schon gar nicht so schlecht.
Kann durchaus sein, daß Audacity so ziemlich all das kann, was ich brauche - nützt nur nichts, wenn ich nicht weiß, wie das geht. (Ich hab's z. B. auch nicht hingekriegt, die Abspielgeschwindigkeit zu verändern, obwohl es dafür rechts oben Knöpscha gibt - ist eben scheiße dokumentiert. Und die Lokalisierung ist auch ein bißchen in die Hose gegangen - lustiges Deutsch-Englisch-Mischmasch. EEs ist nicht intuitiv - nein, ist es nicht.)
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 17.03.2012 16:42, schrieb Ralf . K u s m i e r z:

Hallo,
dann halt auf F4 drücken: http://www.audiotranskription.de/f4.htm
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Ja, aber das verändert das Signal doch gar nicht, sondern nur die Abspielgeschwindigkeit - das kann VLC auch. (Und wahrscheinlich auch Audacity.)
Taugt das: <http://manual.audacityteam.org/man/Main_Page/de was? (Ich blättere gerade mal drin.)
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, "Ralf . K u s m i e r z" schrieb:

Hm, mit den Effekt-Funktionen geht wohl eine ganze Menge, aber man muß das alles selbst einstellen, und ich bin einfach eine ungeeignete Referenzperson zur Beurteilung der Sache...
Gibt's denn da keine automatischen oder Standard-Einstellungen?
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 17.03.2012 17:21, schrieb Ralf . K u s m i e r z:

Hallo,
*nein* - weil es keine Standardaufnahmesituation (Sprecher, Lautstärke, Störgeräusche, Mikrofon, Aufnahmegerät, Aussteuerung usw.) gibt!
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Beweis durch Behauptung? Dann behaupte ich mal das Gegenteil.
(Schönes Gegenbeispiel ist die Funktion "Autokorrektur" (Shift+U) bei IrfanView - es gibt keine "Standardbilder", aber es funktioniert trotzdem hervorragend. Warum sollte die Funktion "Sprachverständlichkeit optimieren" nicht genauso funktionieren? Was zu tun ist, ist im Prinzip klar.)
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 18.03.2012 13:08, schrieb Ralf . K u s m i e r z:

Hallo
wenn es Dir bei der Lösung hilft die Tonaufnahme mit einem Bildbearbeitungsprogramm zu verbessern dann ist das doch OK für Dich.
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Entschuldigung, ich dachte, man könnte Dich ernstnehmen.
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Am 17.03.2012 17:10, schrieb Ralf . K u s m i e r z:

Hallo,
das kannst Du nur selbst beantworten - die Antwort hängt doch stark von den persönlichen Voraussetzungen ab (Vorkenntnisse, Sprachfertigkeit, Verständnisfähigkeit, Sehvermögen, Motivation usw.).
Am Besten zweimal lesen!
Hier noch ein paar links: http://www.google.de/search?q=Sprachaufnahme+Audacity+Transkription oder entsprechend in anderen Sprachen.
Bernd Mayer
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
X-No-Archive: Yes
begin quoting, Bernd Mayer schrieb:

Blubber, blubber? (Nein, es taugt nichts, ist viel zu rudimentär.)

Ist Dir wirklich nicht klar, wei schwachsinnig solche "Tips" sind, oder willst Du mich veräppeln?
Gruß aus Bremen Ralf
--
R60: Substantive werden groß geschrieben. Grammatische Schreibweisen:
adressiert Appell asynchron Atmosphäre Autor bißchen Ellipse Emission
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload
Ralf . K u s m i e r z schrieb am 17.03.12:

Die hätte ich auch vorgeschlagen. Oder wie schon genannt Telefonhersteller bzw. eher nicht die von Freisprechanlagen fürs Auto. Aber die verdienen damit ihr Geld und werden ihr Kern-Know-How kaum einfach so rausgeben.
Wer einmal gehört hat, wie laut und verrauscht ein fahrendes Auto wirklich ist, wird es erstens nicht glauben und zweitens sich wundern, dass das Ohr der Beifahrer da überhaupt noch irgendetwas versteht und dass beim Telefonieren auf der Gegenseite trotzdem fast nur die Stimme ankommt, nicht das Rauschen. Ich war vor Jahren mal bei einer Vorführung von Head-Acoustics (stehendes Auto, der "Fahrtlärm" wird per Lautsprecher erzeugt). Wahnsinn, wie laut es dort war...
MfG Gerald
--
No trees were killed in the sending of this message. However
a large number of electrons were terribly inconvenienced.
  Click to see the full signature.
Add pictures here
<% if( /^image/.test(type) ){ %>
<% } %>
<%-name%>
Add image file
Upload

Polytechforum.com is a website by engineers for engineers. It is not affiliated with any of manufacturers or vendors discussed here. All logos and trade names are the property of their respective owners.