Archiv für den Monat: September 2009

Wieso ist maschinelle Übersetzung so schwierig?

Am 7. Januar 1954 stellten Wissenschaftler von IBM und der Washingtoner Georgetown-Universität in New York einen Computer vor, der mehr als 60 russische Sätze ins Englische übersetzte. Das Publikum aus Wissenschaftlern und Regierungsbeamten war höchst beeindruckt von diesem “Elektronengehirn”, und als der Leiter des Experiments verkündete, dass in drei bis fünf Jahren die automatische Übersetzung ein gelöstes Problem sei, flossen reichlich Gelder in das vielversprechende neue Forschungsgebiet.

Heute, 55 Jahre später, sind die Computer ungleich leistungsfähiger geworden, und Generationen von Linguisten und Informatikern haben sich dem Problem der automatischen Übersetzung gewidmet. Und was ist dabei herausgekommen? Wenn ich den Satz

Our online translator will help you to achieve the best language translation over the Internet.

von ihrer eigenen Webseite entnehme und in den bekannten Babylon-Übersetzer kopiere, erhalte ich als Übersetzung

Unser Online-Übersetzer hilft ihnen, um die beste Sprache Übersetzung über das Internet.

Da fehlt wohl was. Aber wieso? Was ist denn an der automatischen Übersetzung so schwierig? Wenn ich

Here comes the mouse.

ins Deutsche übersetzen will, muss ich doch nur im Wörterbuch nachschlagen und Here durch Hier, comes durch kommt, mouse durch Maus usw. ersetzen, dann erhalte ich die richtige Übersetzung:

Hier kommt die Maus.

Wo ist das Problem? Das Problem fängt an bei dem Wörtchen die. Woher weiß ich, dass ich das englische the mit die übersetzen soll und nicht mit der oder das? Weil die Maus im Deutschen weiblich ist (linguistischer ausgedrückt: das Merkmal Genus besitzt den Wert weiblich). Das wiederum setzt voraus, dass der Computer weiß, dass sich das the auf mouse bezieht. Hierfür ist eine Analyse des Satzbaus nötig, denn in dem Satz

Hier kommt der Hund, der Katzen mag.

bezieht sich das zweite der nicht auf Katzen, obwohl es ebenfalls direkt davor steht. An diesem Beispiel sieht man bereits wie eine Wort-für-Wort-Übersetzung selbst in einfachen Fällen scheitert, und dass deswegen eine syntaktische Analyse des Satzes erforderlich ist.

Neben der Übereinstimmung (Kongruenz) zwischen einem Substantiv und seinem Artikel sind für einen grammatikalisch richtigen Satzaufbau weitere Übereinstimmungen zu beachten, wie etwa die zwischen Subjekt und Prädikat:

Hier kommt[Einzahl] die Maus[Einzahl].

Hier kommen[Mehrzahl] die Mäuse[Mehrzahl].

Welche Merkmale jeweils übereinstimmen müssen, hängt von der Art der Phrase ab, aber auch von der jeweiligen Sprache: im Tschechischen und anderen slawischen Sprachen beispielsweise muss das Prädikat (zumindest in der Vergangenheitsform) auch im Genus mit dem Subjekt übereinstimmen.

Ein einziges Merkmal wie der Genus kann es selbst einem menschlichen Übersetzer nahezu unmöglich machen, einen völlig banalen englischen Satz wie

The doctor gave me some pills.

korrekt ins Deutsche zu übertragen. Denn wenn der Autor seine Leser darüber im Unklaren lassen will, ob es sich bei dem doctor um eine Frau oder einen Mann handelt, hat der Übersetzer ein Problem. Im Deutschen muss er sich nämlich für Arzt oder Ärztin entscheiden. Selbst wenn durch den vorangegangenen Kontext für einen menschlichen Übersetzer klar ist, ob von einem Arzt oder einer Ärztin die Rede ist, macht das die Sache für den Computer nicht viel einfacher: Der Computer müsste nämlich über alle eingeführten Personen und Gegenstände Buch führen, und dann auch noch erkennen können, dass die Frau im weißen Kittel, die drei Absätze vorher das Behandlungszimmer betrat, mit the doctor identisch sein soll.

Die nächste Schwierigkeit bildet die Tatsache, dass viele Wörter mehrere Bedeutungen haben können, und entsprechend unterschiedlich übersetzt werden müssen. Um die richtige Übersetzung auswählen zu können, muss der Computer herausfinden können, was ein Wort im gegebenen Kontext bedeutet.

Der Hahn kräht.

Der Hahn tropft.

Im ersten Satz ist die richtige Übersetzung von Hahn cock, im zweiten Satz dagegen crane. Dazu muss dem Computer eingegeben werden, dass Wasserhähne zwar tropfen, aber nicht krähen können und umgekehrt. Leider können unmöglich alle Kontexte von Hahn im Voraus aufgezählt werden; es muss eine allgemeinere Methode gefunden werden.

Nun kommen wir zum letzten und größten Problem, das den Computer bei der Übersetzung scheitern lässt. Betrachten wir folgenden Beispielsatz:

Der Mann ging in den Fluss, weil er schmutzig war.

Wie übersetzt man das Fürwort (Pronomen) er ins Englische? Mit he oder mit it? Wahrscheinlich werden Sie he antworten, denn die sinnvollste Interpretation ist, dass der Mann schmutzig war und in den Fluss ging, um sich zu waschen. Wir können den Satz leicht verändern:

Der Mann ging aus dem Fluss, weil er schmutzig war.

Jetzt würden Sie das Fürwort er wohl eher mit it übersetzen – weil man im Allgemeinen nicht gern in schmutzigem Wasser badet. Man sieht, was man alles wissen muss, um das kleine Wörtchen er korrekt ins Englische übersetzen zu können. Dieses Wissen (man kann sich mit Wasser waschen, man ist nicht gerne schmutzig, ein Fluss enthält Wasser, …) nennt man Alltagswissen oder Weltwissen.

Bei der Eingabe von Weltwissen in den Computer steht die Forschung vor zwei gänzlich ungelösten Problemen: Kann sämtliches Alltagswissen überhaupt aufgezählt werden? Und in welcher Form soll es gespeichert werden, damit der Computer damit etwas anfangen kann?