Archiv der Kategorie: maschinelle Übersetzung

Handytelefonie mit simultaner Sprachübersetzung

Die sprachlichen Barrieren stellen vor allem im geschäftlichen Bereich der Handytelefonie nach wie vor ein überaus ernstes Problem dar. Da sich in der heutigen Zeit jedoch die meisten Unternehmen grundsätzlich auf internationaler Ebene bewegen, hat sich nun der japanische Mobilfunkbetreiber NTT Docomo dazu entschlossen, einen auf Cloud basierenden Simultanübersetzer für die internationale Handytelefonie zu entwicklen.

Der Simultanübersetzer soll grundsätzlich sowohl für die verbale als auch für die schriftliche Kommunikation funktionieren, wodurch beispielsweise zwei Geschäftsleute aus den USA und aus Japan mit dem Handy telefonieren und hierbei jeweils in ihrer eigenen Muttersprache sprechen können. Der Simultanübersetzer von NTT Docomo wandelt die gesprochenen Worte (oder auch die geschriebenen einer SMS) zeitgleich in die Sprache des jeweils anderen Gesprächsteilnehmers um, wodurch die sprachlichen Barrieren optimal überwunden werden sollen.

Um diesen Simultanübersetzer für die reibungslose, internationale Kommunikation mit dem Mobiltelefon zu ermöglichen, greift der Entwickler NTT Docomo auf verschiedene Technologien, wie die automatische Spracherkennung, die Sprachsynthese und die Maschinen-Übersetzung zurück. Im Rahmen einer Demonstration auf der Technik-Messe “Wireless Japan 2011“ wurde beispielsweise ein Zeitungsartikel in japanischer Sprache über ein Handy vorgelesen und der Empfänger erhielt daraufhin die gesprochenen Worte in seiner englischen Muttersprache.

Das einzige Problem bei diesem Simultanübersetzer stellt die bisher noch nicht einwandfreie Erkennungsrate der gesprochenen Worte dar, da diese bei Weitem noch nicht die 100% erreicht hat. (siehe hier) Die jeweilige Erkennungsrate der gesprochenen Worte hängt grundsätzlich von der Deutlichkeit des Sprechers und auch von der Übertragungsqualität des Telefongesprächs ab. Auch stellen die verschiedenen Dialekte und die hiermit verbundenen, teilweise sehr unterschiedlichen Betonungen der Silben und Worte in der heutigen Zeit leider immer noch für viele Spracherkennungsprogramme ein ernst zu nehmendes Problem dar. Dieser Umstand bezieht sich nicht nur auf den Simultanübersetzer von NTT Docomo, sondern zum Beispiel auch auf viele Spracherkennungsprogramme für die Texterstellung am PC. Jedoch hat die Erkennungsrate vieler renommierter Spracherkennungsprogramme in den letzten Jahren erhebliche Fortschritte gemacht und daher scheint es nur noch eine Frage der Zeit zu sein, bis das letzte Hindernis bezüglich der optimalen Erkennung der gesprochenen Worte endlich beseitigt wird.

Dennoch plant der Entwickler NTT Docomo noch in diesem Jahr die Veröffentlichung einer ersten Testversion des cloudbasierten Simultanübersetzers, wobei sich die Nutzer dieser Vorabversion jedoch auf einige Einschränkungen bezüglich der nicht einwandfreien Spracherkennung einstellen müssen.

Von Konsum-Enten und Punk-Tieren

In einem Posting vor einiger Zeit habe ich einige Probleme aufgezählt, die dem Computer das automatische Übersetzen erschweren. Eines der Hauptprobleme – zumindest im Deutschen – habe ich aber nicht erwähnt: zusammengesetzte Substantive (Komposita). Bei der Sammlung von unfreiwillig komischen Computerübersetzungen auf der schon einmal zitierten Seite von Stefan Winterstein handelt es sich in fast allen Fällen um Komposita. Besonders lustig finde ich die Übersetzung chewing case republic für Kaukasusrepublik (Kau-Kasus-Republik).

Da täglich zahllose neue Komposita gebildet werden (dokumentiert z.B. von der Wortwarte), ist es unmöglich, alle in einem Wörterbuch aufzuzählen. Deswegen benötigt ein Übersetzungsprogramm eine Komponente, die Komposita automatisch in ihre Bestandteile zerlegt, damit diese Teile dann im Wörterbuch nachgeschlagen und übersetzt werden können. Leider ist die automatische Zerlegung von Komposita äußerst schwierig, denn sehr oft gibt es mehr als eine Zerlegungsmöglichkeit.

Eine erste Verkomplizierung der Angelegenheit bringen die Fugenelemente mit sich, z.B. das Fugen-s wie in Leistungsfähigkeit. Es gibt auch Auslassungsfugen (Elisionsfugen) wie in Birnbaum, wo das -e am Ende von Birne wegfällt, und sogar Kombinationen aus Auslassung und Fugen-s, wie in Mietskaserne.

Beim Zerlegen muss man also die Fugenelemente berücksichtigen. Deswegen kann man Gipfelsturm auf zwei Arten zerlegen: Gipfel-Sturm oder Gipfels-Turm. Bei diesem Beispiel gäbe es ein linguistisches Kriterium, die zweite Zerlegung zu verwerfen, denn auf Gipfel folgt nie eine s-Fuge. Die Fuge richtet sich nämlich nach dem vorangehenden Wort, jedes Wort hat eine Reihe von möglichen Kompositionsstammformen. Für Miete sind das Miet (Miethai), Miets (Mietshaus) und Mieten (Mietenerhöhung). Für Gipfel ist das nur Gipfel, dagegen kommen Gipfels oder Gipfeln nie als Erstglieder in einem Kompositum vor. Es könnte also höchstens einen Gipfel-Turm geben, aber keinen Gipfels-Turm. Dummerweise gibt es aber keine Liste mit Kompositionsstammformen für alle Wörter.

Aber auch ohne Fugenelemente gibt es oft mehrere Zerlegungsmöglichkeiten. Unser Kompositazerleger KOKOZ, den wir gerade im linguatools-Labor zusammenbrauen, behauptete gestern, das Patentieren (von Erfindungen) hätte etwas mit godfathers animals zu tun (Paten-Tieren). Solche Fehlanalysen könnte man durch Abgleich der grammatischen Merkmale mit dem Kontext herausfiltern. Denn Tieren ist sächlich und Dativ Plural, der Artikel das passt damit nicht zusammen (nur den). Allerdings müsste man dazu erst einmal eine syntaktische Analyse durchführen.

Bei anderen Komposita helfen weder Fugenregeln noch grammatische Merkmale. Beide würden unseren Zerleger nicht daran hindern, Konsumentenverhalten mit consumption ducks behaviour zu übersetzen (Konsum-Enten-Verhalten). Wir bräuchten einen “Quatschfilter”, der dem Zerleger sagt, dass es keine Konsum-Enten gibt, und dass Konsumenten sehr viel wahrscheinlicher sind. Bei anderen Zusammensetzungen sind jedoch beide Zerlegungen sinnvoll: ob es sich bei Staubecken um Staub-Ecken oder Stau-Becken handelt, hängt vom Kontext ab.

Wieso ist maschinelle Übersetzung so schwierig?

Am 7. Januar 1954 stellten Wissenschaftler von IBM und der Washingtoner Georgetown-Universität in New York einen Computer vor, der mehr als 60 russische Sätze ins Englische übersetzte. Das Publikum aus Wissenschaftlern und Regierungsbeamten war höchst beeindruckt von diesem “Elektronengehirn”, und als der Leiter des Experiments verkündete, dass in drei bis fünf Jahren die automatische Übersetzung ein gelöstes Problem sei, flossen reichlich Gelder in das vielversprechende neue Forschungsgebiet.

Heute, 55 Jahre später, sind die Computer ungleich leistungsfähiger geworden, und Generationen von Linguisten und Informatikern haben sich dem Problem der automatischen Übersetzung gewidmet. Und was ist dabei herausgekommen? Wenn ich den Satz

Our online translator will help you to achieve the best language translation over the Internet.

von ihrer eigenen Webseite entnehme und in den bekannten Babylon-Übersetzer kopiere, erhalte ich als Übersetzung

Unser Online-Übersetzer hilft ihnen, um die beste Sprache Übersetzung über das Internet.

Da fehlt wohl was. Aber wieso? Was ist denn an der automatischen Übersetzung so schwierig? Wenn ich

Here comes the mouse.

ins Deutsche übersetzen will, muss ich doch nur im Wörterbuch nachschlagen und Here durch Hier, comes durch kommt, mouse durch Maus usw. ersetzen, dann erhalte ich die richtige Übersetzung:

Hier kommt die Maus.

Wo ist das Problem? Das Problem fängt an bei dem Wörtchen die. Woher weiß ich, dass ich das englische the mit die übersetzen soll und nicht mit der oder das? Weil die Maus im Deutschen weiblich ist (linguistischer ausgedrückt: das Merkmal Genus besitzt den Wert weiblich). Das wiederum setzt voraus, dass der Computer weiß, dass sich das the auf mouse bezieht. Hierfür ist eine Analyse des Satzbaus nötig, denn in dem Satz

Hier kommt der Hund, der Katzen mag.

bezieht sich das zweite der nicht auf Katzen, obwohl es ebenfalls direkt davor steht. An diesem Beispiel sieht man bereits wie eine Wort-für-Wort-Übersetzung selbst in einfachen Fällen scheitert, und dass deswegen eine syntaktische Analyse des Satzes erforderlich ist.

Neben der Übereinstimmung (Kongruenz) zwischen einem Substantiv und seinem Artikel sind für einen grammatikalisch richtigen Satzaufbau weitere Übereinstimmungen zu beachten, wie etwa die zwischen Subjekt und Prädikat:

Hier kommt[Einzahl] die Maus[Einzahl].

Hier kommen[Mehrzahl] die Mäuse[Mehrzahl].

Welche Merkmale jeweils übereinstimmen müssen, hängt von der Art der Phrase ab, aber auch von der jeweiligen Sprache: im Tschechischen und anderen slawischen Sprachen beispielsweise muss das Prädikat (zumindest in der Vergangenheitsform) auch im Genus mit dem Subjekt übereinstimmen.

Ein einziges Merkmal wie der Genus kann es selbst einem menschlichen Übersetzer nahezu unmöglich machen, einen völlig banalen englischen Satz wie

The doctor gave me some pills.

korrekt ins Deutsche zu übertragen. Denn wenn der Autor seine Leser darüber im Unklaren lassen will, ob es sich bei dem doctor um eine Frau oder einen Mann handelt, hat der Übersetzer ein Problem. Im Deutschen muss er sich nämlich für Arzt oder Ärztin entscheiden. Selbst wenn durch den vorangegangenen Kontext für einen menschlichen Übersetzer klar ist, ob von einem Arzt oder einer Ärztin die Rede ist, macht das die Sache für den Computer nicht viel einfacher: Der Computer müsste nämlich über alle eingeführten Personen und Gegenstände Buch führen, und dann auch noch erkennen können, dass die Frau im weißen Kittel, die drei Absätze vorher das Behandlungszimmer betrat, mit the doctor identisch sein soll.

Die nächste Schwierigkeit bildet die Tatsache, dass viele Wörter mehrere Bedeutungen haben können, und entsprechend unterschiedlich übersetzt werden müssen. Um die richtige Übersetzung auswählen zu können, muss der Computer herausfinden können, was ein Wort im gegebenen Kontext bedeutet.

Der Hahn kräht.

Der Hahn tropft.

Im ersten Satz ist die richtige Übersetzung von Hahn cock, im zweiten Satz dagegen crane. Dazu muss dem Computer eingegeben werden, dass Wasserhähne zwar tropfen, aber nicht krähen können und umgekehrt. Leider können unmöglich alle Kontexte von Hahn im Voraus aufgezählt werden; es muss eine allgemeinere Methode gefunden werden.

Nun kommen wir zum letzten und größten Problem, das den Computer bei der Übersetzung scheitern lässt. Betrachten wir folgenden Beispielsatz:

Der Mann ging in den Fluss, weil er schmutzig war.

Wie übersetzt man das Fürwort (Pronomen) er ins Englische? Mit he oder mit it? Wahrscheinlich werden Sie he antworten, denn die sinnvollste Interpretation ist, dass der Mann schmutzig war und in den Fluss ging, um sich zu waschen. Wir können den Satz leicht verändern:

Der Mann ging aus dem Fluss, weil er schmutzig war.

Jetzt würden Sie das Fürwort er wohl eher mit it übersetzen – weil man im Allgemeinen nicht gern in schmutzigem Wasser badet. Man sieht, was man alles wissen muss, um das kleine Wörtchen er korrekt ins Englische übersetzen zu können. Dieses Wissen (man kann sich mit Wasser waschen, man ist nicht gerne schmutzig, ein Fluss enthält Wasser, …) nennt man Alltagswissen oder Weltwissen.

Bei der Eingabe von Weltwissen in den Computer steht die Forschung vor zwei gänzlich ungelösten Problemen: Kann sämtliches Alltagswissen überhaupt aufgezählt werden? Und in welcher Form soll es gespeichert werden, damit der Computer damit etwas anfangen kann?