Relaunch des deutsch-spanischen Wörterbuchs

Seit Juli 2009 ist linguatools deutsch-spanisches Satzarchiv bereits online und erfreut sich steigender Beliebtheit. Jetzt nach neun Monaten erfolgte die “Wiedergeburt” zu einem richtigen Wörterbuch und das nicht zu irgendeinem. Im Gegensatz zu herkömmlichen Wörterbüchern werden bei diesem Wörterbuch zu jeder Übersetzung Verwendungsbeispiele angezeigt, was ungemein die Entscheidung erleichtert, welche der angebotenen Übersetzungen die geignete oder gar nur die einzig richtige ist.

Schauen wir uns zum Beispiel an, welche spanischen Übersetzungen uns das Wörterbuch für das Wort “schließen” liefert. Wir erhalten insgesamt zehn verschiedene Übersetzungen, wobei eine davon Teil einer festen Wortverbindung ist:

cerrar clausurar concluir deducir finalizar llegar a una conclusión encerrar tapar levantar colmar

Wenn man Spanisch nicht beherrscht, fragt man sich wahrscheinlich nun, welche Übersetzung die passende für den jeweiligen Verwendungszweck ist. Genau an dieser Stelle setzt das linguatools-Wörterbuch an und präsentiert zu jeder Übersetzung eine Menge zweisprachiger Beispielsätze, aus denen ersichtlich ist, ob es DIE Übersetzung ist, nach der man gesucht hat.

Das Anklicken der oben auf der Seite präsentierten spanischen Übersetzungen zum gesuchten Wort führt zum Übersetzungspaar mit den jeweiligen zweisprachigen Verwendungsbeispielen. Zusätzlich bei jedem Übersetzungspaar findet man noch eine Anmerkung auf welche Weise dieses spanische Wort widerum ins Deutsche übersetzt wird. Nehmen wir zum Beispiel das Übersetzungspaar Schließen:cerrar. Bei “wird noch übersetzt mit” stehen folgende Wörter, die gleichzeitg als Synonyme zu “schließen” verstanden werden können:

absperren, blockieren, dichten, sperren, verschließen

Auch für Suchwörter, für die keine direkte Übersetzung in unserem Wörterbuch gefunden wird, werden zweisprachige Beispielsätze angezeigt. Links der Beispielsatz in der einen Sprache mit dem gesuchten Wort und rechts der entsprechende übersetzte Satz aus dem die gesuchte Übersetzung “herausgefischt” werden kann.

Das Wörterbuch enthält zum jetzigen Zeitpunkt 96.000 Übersetzungen und feste Wortverbindungen vorwiegend aus Wikipedia und dem Wiktionary, sowie fast 2,5 Millionen zweisprachige Beispielsätze, die hauptsächlich aus Reden des Europäischen Parlaments stammen. Einen großen Teil an Beispielsätzen bilden auch die Zeitungskommentare, die aus dem Projekt Syndicate stammen, sowie die Untertitel, die von http://www.opensubtitles.org/ stammen.

Lebenslanges Lernen

Mittlerweile ist es weit verbreitet, an eine Genitivgruppe einen Relativsatz im Dativ anzuschließen, also z.B.:

So soll der Titel des Transformprogramms, dem Beratungskonzept der Bundesregierung für Osteuropa, kontinuierlich abgebaut werden […]
Parlamentsrede

Neu ist, dass jetzt auch der Nominativ verwendet wird:

Lebenslanges Lernen – dieser Leitgedanke der Klett Gruppe, das größte Bildungsunternehmen im deutschsprachigen Raum, ist es, der uns verbindet und uns auf der Suche nach dem Neuen immer andere Wege gehen lässt.

Anzeige der Klett Gruppe, Hochschulanzeiger, Mai 2010, S. 25

Man lernt eben nie aus. Oder sollte man besser sagen: Man lernt nie. Aus.

Von Konsum-Enten und Punk-Tieren

In einem Posting vor einiger Zeit habe ich einige Probleme aufgezählt, die dem Computer das automatische Übersetzen erschweren. Eines der Hauptprobleme – zumindest im Deutschen – habe ich aber nicht erwähnt: zusammengesetzte Substantive (Komposita). Bei der Sammlung von unfreiwillig komischen Computerübersetzungen auf der schon einmal zitierten Seite von Stefan Winterstein handelt es sich in fast allen Fällen um Komposita. Besonders lustig finde ich die Übersetzung chewing case republic für Kaukasusrepublik (Kau-Kasus-Republik).

Da täglich zahllose neue Komposita gebildet werden (dokumentiert z.B. von der Wortwarte), ist es unmöglich, alle in einem Wörterbuch aufzuzählen. Deswegen benötigt ein Übersetzungsprogramm eine Komponente, die Komposita automatisch in ihre Bestandteile zerlegt, damit diese Teile dann im Wörterbuch nachgeschlagen und übersetzt werden können. Leider ist die automatische Zerlegung von Komposita äußerst schwierig, denn sehr oft gibt es mehr als eine Zerlegungsmöglichkeit.

Eine erste Verkomplizierung der Angelegenheit bringen die Fugenelemente mit sich, z.B. das Fugen-s wie in Leistungsfähigkeit. Es gibt auch Auslassungsfugen (Elisionsfugen) wie in Birnbaum, wo das -e am Ende von Birne wegfällt, und sogar Kombinationen aus Auslassung und Fugen-s, wie in Mietskaserne.

Beim Zerlegen muss man also die Fugenelemente berücksichtigen. Deswegen kann man Gipfelsturm auf zwei Arten zerlegen: Gipfel-Sturm oder Gipfels-Turm. Bei diesem Beispiel gäbe es ein linguistisches Kriterium, die zweite Zerlegung zu verwerfen, denn auf Gipfel folgt nie eine s-Fuge. Die Fuge richtet sich nämlich nach dem vorangehenden Wort, jedes Wort hat eine Reihe von möglichen Kompositionsstammformen. Für Miete sind das Miet (Miethai), Miets (Mietshaus) und Mieten (Mietenerhöhung). Für Gipfel ist das nur Gipfel, dagegen kommen Gipfels oder Gipfeln nie als Erstglieder in einem Kompositum vor. Es könnte also höchstens einen Gipfel-Turm geben, aber keinen Gipfels-Turm. Dummerweise gibt es aber keine Liste mit Kompositionsstammformen für alle Wörter.

Aber auch ohne Fugenelemente gibt es oft mehrere Zerlegungsmöglichkeiten. Unser Kompositazerleger KOKOZ, den wir gerade im linguatools-Labor zusammenbrauen, behauptete gestern, das Patentieren (von Erfindungen) hätte etwas mit godfathers animals zu tun (Paten-Tieren). Solche Fehlanalysen könnte man durch Abgleich der grammatischen Merkmale mit dem Kontext herausfiltern. Denn Tieren ist sächlich und Dativ Plural, der Artikel das passt damit nicht zusammen (nur den). Allerdings müsste man dazu erst einmal eine syntaktische Analyse durchführen.

Bei anderen Komposita helfen weder Fugenregeln noch grammatische Merkmale. Beide würden unseren Zerleger nicht daran hindern, Konsumentenverhalten mit consumption ducks behaviour zu übersetzen (Konsum-Enten-Verhalten). Wir bräuchten einen “Quatschfilter”, der dem Zerleger sagt, dass es keine Konsum-Enten gibt, und dass Konsumenten sehr viel wahrscheinlicher sind. Bei anderen Zusammensetzungen sind jedoch beide Zerlegungen sinnvoll: ob es sich bei Staubecken um Staub-Ecken oder Stau-Becken handelt, hängt vom Kontext ab.

Noch mehr falsche Freunde

Im letzten Posting ging es um mehrdeutige Wörter, bei denen die Gefahr besteht, beim Übersetzen die falsche Bedeutung auszuwählen, und dadurch im Idealfall einen unfreiwillig komischen Text zu produzieren. Meist weniger lustig, aber dafür umso nerviger, sind die “falschen Freunde”, von denen es wegen der engen Verwandtschaft der beiden Sprachen in der Paarung Deutsch-Englisch besonders viele gibt. Man spricht von einem falschen Freund, wenn ein englisches Wort genauso aussieht wie ein deutsches, es aber (auch) etwas anderes bedeutet, bzw. wenn es im Deutschen in dieser Bedeutung nicht geläufig ist. Oder besser: war.

Den ersten falschen Freund für heute finden wir in dieser Überschrift:

World-of-Warcraft-Spieler beschweren sich über Charakter-Überwachung
(Heise online, 23.1.2010)

Ja, haben die World-of-Warcraft-Spieler denn so einen gefährdeten Charakter? Alles Schummler, Neider, Halunken? Nein, das englische “character” in der Bedeutung von “Spielfigur” wurde so oft einfach mit “Charakter” ins Deutsche übersetzt, dass es sich im Spielebereich schon durchgesetzt hat. Etwas unglücklich formuliert ist die Überschrift trotzdem.

Nächster falscher Freund: “local”. Früher wurde das mit “örtlich”, “ortsansässig” oder “hiesig” übersetzt, heute fast nur noch mit “lokal”. Man liest vom “lokalen Vertreter der Allianz-Versicherung”, den “lokalen Geschäften” und “lokalen Handwerkern”. Komischerweise hört man aber immer nur von den “örtlichen Lokalen”, nie von den “lokalen Lokalen”. Wieso eigentlich nicht?

Der dritte und letzte falsche Freund für heute ist die “Administration”. Dies ist ein spezielles deutsches Wort, das ausschließlich für US-amerikanische Regierungen verwendet wird:
Clinton-Administration, Bush-Administration, Obama-Administration. Hat man je von einer Sarkozy-, Putin- oder Merkel-Administration gehört? Schon bedenklich: “Obama-Administration” ergibt in der deutschen Google News-Suche 55.000 Treffer, “Obama-Regierung” gerade mal 200.

Apple verschifft Computer

In der Liste mit deutsch-englischen Übersetzungsfallen und falschen Freunden von Stefan Winterstein findet sich das lustige Beispiel von der “Verschiffung von Windows 98″. Das englische “to ship” wurde mit “verschiffen” statt “ausliefern” übersetzt. Beide Übersetzungen sind natürlich für sich genommen korrekt. Da man es hier aber mit zwei ganz unterschiedlichen Lesarten des Verbs “to ship” zu tun hat, ist der Übersetzer gefordert, die in den aktuellen Kontext passende Bedeutung auszuwählen. Das gelingt offenbar weniger oft als gedacht, denn es war ziemlich einfach über Google ein weiteres Beispiel des gleichen Übersetzungsfehlers aufzuspüren:

Fundamental laufen die Geschäfte für Apple derzeit gar nicht so schlecht. Die
weltweiten Computerverkäufe sind zwar zum Jahresende erstmals seit fünf Jahren
um 0,4 Prozent gefallen, berichtete das amerikanische Marktforschungsinstitut
IDC am Mittwoch. Immerhin konnte Apple jedoch 1,2 Millionen Computer
verschiffen und den Marktanteil auf 7,2 Prozent steigern. (FAZ vom 15.1.2009)

Neben dem Verb “verschiffen” habe ich auch “Fundamental” hervorgehoben, denn auch hieran könnte man erkennen, dass der Text aus dem Englischen übertragen wurde. Das englische “fundamental(ly)” wurde naheliegenderweise mit “fundamental” übersetzt, was sich hier aber etwas seltsam anhört. Eine alternative Übersetzung wie “grundsätzlich” würde sich flüssiger lesen.

Wie kommt so ein lachhafter deutscher Text zustande? Meine Vermutung ist: das englische Original wurde maschinell übersetzt, und diese Rohübersetzung dann in großer Eile nachkorrigiert, wobei einiges übersehen wurde.

Gleichgeschriebene deutsch-englische ‚falsche Freunde‘

Bei der Wikipedia findet man eine umfangreiche Liste mit deutsch-englischen falschen Freunden. Zum Beispiel wissen wir, dass das englische “silicon” auf Deutsch “Silizium” und nicht “Silikon” bedeutet.

Welche dieser falschen Freunde werden aber auf Englisch genauso wie auf Deutsch geschrieben? Hier sind sie (extrahiert aus der Wikipedia-Liste):

Englisch - Deutsch
abort - Abbruch, Fehlgeburt
administration - Verwaltung
agent - (auch) Vertreter
also - auch
argument - Streit, Diskussion
artist - Künstler
billion - Milliarde
boiler - Dampfkessel
boot - Stiefel
carbon - Kohlenstoff
chance - (meist) Wahrscheinlichkeit
character -  (auch) Figur
chef - (auch) Koch, Chefkoch,...
china - (auch) Porzellan
diverse - verschieden, ungleich
fast - schnell
fatal - (auch) tödlich
gas - (auch) Benzin
genial - herzlich, freundlich
genie - Dschinn, Flaschengeist
gift - Geschenk
grill - Gitter, Rost, ...
gymnasium - Sporthalle
hall - Flur, Diele
handy - geschickt, passend, handlich
hardware - (auch) Eisenwaren, Haushaltswaren
heck - Hölle
helm - das Steuer beim (Raum-)Schiff
hose - (Wasser-)Schlauch
impression - Eindruck,...
interview - befragen, Bewerbungsgespräch
island - Insel
joint -  Gelenk, Verbindung,
kindergarten - 'Vorschule'
lager - Lagerbier
liberal - politisch links, sozialdemokratisch
limousine - Stretch-Limousine
manifest - Passagierliste, Ladungsliste, offenkundig
marine - Marinesoldat
minute - (auch) sehr klein, winzig,...
mist - Nebel
monitor - (auch) Klassensprecher, Aufseher
moor - Heide
national - landesweit
operation - auch: Arbeitsweise, Bedienung
organ - auch: Orgel
paraffin - Petroleum
paragraph - Textabschnitt
parole - Bewährung
paste - einfügen, ankleben
patient - (auch) geduldig, beharrlich
personal - persönlich
pest - Schädling
petroleum - Erdöl
probe - Sonde
psycho - Hellseher
pudding - auch: Nachtisch, Auflauf,...
pumps - Tanzschuhe, Sportschuhe
puzzle - Rätsel, Geduldsspiel,...
queue - Reihe, Warteschlange,...
quote - Zitat, zitieren
ringer - Glöckner
roman - Römer, römisch
schmuck - Trottel, Schwachkopf
sensation - (auch) Sinneseindruck, Empfindung
sense - Sinn
slip - Versehen, Unterrock,...
slipper - Hausschuh
smoking - rauchend, das Rauchen
Sodium - Natrium
spleen - Milz
spur - Sporn (Reiten)
stall - Verkaufsstand, abnehmen,...
stark - schier, offensichtlich,...
stern - streng
still - (auch) ruhig, noch, doch
stock - Brühe, Vorrat
strafe - unter Beschuss nehmen
strand - Ader, Faden,...
string - Zeichenkette, Schnur, Seite,...
student - (auch) Schüler
tachometer - Drehzahlmesser
tag - Etikett
tank - Panzer
ton - ein anderes Maß als die Tonne
tor - steiler Felshügel
total - gesamt, zusammen
trainer - (auch) Sportschuh, Physiotherapeut
trillion - Billion
ventilator - Beatmungsgerät
vital - entscheidend, grundlegend;
wand - Zauberstab, Stab
welt - Rand, Rahmen,...
will - wird
zimmer - Rollator

Korrekte Übersetzung, falscher Gebrauch

Viele Wörterbücher listen zu einem gesuchten Wort lediglich
Übersetzungen auf, ohne weitere Hinweise zum Gebrauch oder
Verwendungsbeispiele. Die zwei folgenden Anekdoten zeigen, dass man sich
ganz schön blamieren kann, wenn man solche Übersetzungen einfach
übernimmt.

Im tschechisch-deutschen Wörterbuch von Seznam
erscheint u.a. “Visage” als Übersetzung des tschechischen Wortes “tvář”
(dt. “Gesicht”). Ein Berliner Professor erzählt gern die Geschichte von
der tschechischen Institutsmitarbeiterin, die ihn am Bahnhof in Prag
abholte und ausdrücken wollte, dass sie beide sich schon einmal begegnet
seien. Sie sagte: “Ich kenne Ihre Visage.”

Im italienisch-deutschen Wörterbuch http://it.lingostudy.de
erscheint als deutsche Übersetzung des italienischen “dilettante”
(Amateur) neben “Amateur” auch “Dilettant”, leider ohne weitere
Gebrauchshinweise. Dazu fällt mir die Pressekonferenz zum
Fußballländerspiel Deutschland – San Marino vor einigen Jahren ein. Die
Dolmetscherin fragte damals die deutschen Kicker, was sie davon hielten,
gegen “Dilettanten” zu spielen.

Wieso ist maschinelle Übersetzung so schwierig?

Am 7. Januar 1954 stellten Wissenschaftler von IBM und der Washingtoner Georgetown-Universität in New York einen Computer vor, der mehr als 60 russische Sätze ins Englische übersetzte. Das Publikum aus Wissenschaftlern und Regierungsbeamten war höchst beeindruckt von diesem “Elektronengehirn”, und als der Leiter des Experiments verkündete, dass in drei bis fünf Jahren die automatische Übersetzung ein gelöstes Problem sei, flossen reichlich Gelder in das vielversprechende neue Forschungsgebiet.

Heute, 55 Jahre später, sind die Computer ungleich leistungsfähiger geworden, und Generationen von Linguisten und Informatikern haben sich dem Problem der automatischen Übersetzung gewidmet. Und was ist dabei herausgekommen? Wenn ich den Satz

Our online translator will help you to achieve the best language translation over the Internet.

von ihrer eigenen Webseite entnehme und in den bekannten Babylon-Übersetzer kopiere, erhalte ich als Übersetzung

Unser Online-Übersetzer hilft ihnen, um die beste Sprache Übersetzung über das Internet.

Da fehlt wohl was. Aber wieso? Was ist denn an der automatischen Übersetzung so schwierig? Wenn ich

Here comes the mouse.

ins Deutsche übersetzen will, muss ich doch nur im Wörterbuch nachschlagen und Here durch Hier, comes durch kommt, mouse durch Maus usw. ersetzen, dann erhalte ich die richtige Übersetzung:

Hier kommt die Maus.

Wo ist das Problem? Das Problem fängt an bei dem Wörtchen die. Woher weiß ich, dass ich das englische the mit die übersetzen soll und nicht mit der oder das? Weil die Maus im Deutschen weiblich ist (linguistischer ausgedrückt: das Merkmal Genus besitzt den Wert weiblich). Das wiederum setzt voraus, dass der Computer weiß, dass sich das the auf mouse bezieht. Hierfür ist eine Analyse des Satzbaus nötig, denn in dem Satz

Hier kommt der Hund, der Katzen mag.

bezieht sich das zweite der nicht auf Katzen, obwohl es ebenfalls direkt davor steht. An diesem Beispiel sieht man bereits wie eine Wort-für-Wort-Übersetzung selbst in einfachen Fällen scheitert, und dass deswegen eine syntaktische Analyse des Satzes erforderlich ist.

Neben der Übereinstimmung (Kongruenz) zwischen einem Substantiv und seinem Artikel sind für einen grammatikalisch richtigen Satzaufbau weitere Übereinstimmungen zu beachten, wie etwa die zwischen Subjekt und Prädikat:

Hier kommt[Einzahl] die Maus[Einzahl].

Hier kommen[Mehrzahl] die Mäuse[Mehrzahl].

Welche Merkmale jeweils übereinstimmen müssen, hängt von der Art der Phrase ab, aber auch von der jeweiligen Sprache: im Tschechischen und anderen slawischen Sprachen beispielsweise muss das Prädikat (zumindest in der Vergangenheitsform) auch im Genus mit dem Subjekt übereinstimmen.

Ein einziges Merkmal wie der Genus kann es selbst einem menschlichen Übersetzer nahezu unmöglich machen, einen völlig banalen englischen Satz wie

The doctor gave me some pills.

korrekt ins Deutsche zu übertragen. Denn wenn der Autor seine Leser darüber im Unklaren lassen will, ob es sich bei dem doctor um eine Frau oder einen Mann handelt, hat der Übersetzer ein Problem. Im Deutschen muss er sich nämlich für Arzt oder Ärztin entscheiden. Selbst wenn durch den vorangegangenen Kontext für einen menschlichen Übersetzer klar ist, ob von einem Arzt oder einer Ärztin die Rede ist, macht das die Sache für den Computer nicht viel einfacher: Der Computer müsste nämlich über alle eingeführten Personen und Gegenstände Buch führen, und dann auch noch erkennen können, dass die Frau im weißen Kittel, die drei Absätze vorher das Behandlungszimmer betrat, mit the doctor identisch sein soll.

Die nächste Schwierigkeit bildet die Tatsache, dass viele Wörter mehrere Bedeutungen haben können, und entsprechend unterschiedlich übersetzt werden müssen. Um die richtige Übersetzung auswählen zu können, muss der Computer herausfinden können, was ein Wort im gegebenen Kontext bedeutet.

Der Hahn kräht.

Der Hahn tropft.

Im ersten Satz ist die richtige Übersetzung von Hahn cock, im zweiten Satz dagegen crane. Dazu muss dem Computer eingegeben werden, dass Wasserhähne zwar tropfen, aber nicht krähen können und umgekehrt. Leider können unmöglich alle Kontexte von Hahn im Voraus aufgezählt werden; es muss eine allgemeinere Methode gefunden werden.

Nun kommen wir zum letzten und größten Problem, das den Computer bei der Übersetzung scheitern lässt. Betrachten wir folgenden Beispielsatz:

Der Mann ging in den Fluss, weil er schmutzig war.

Wie übersetzt man das Fürwort (Pronomen) er ins Englische? Mit he oder mit it? Wahrscheinlich werden Sie he antworten, denn die sinnvollste Interpretation ist, dass der Mann schmutzig war und in den Fluss ging, um sich zu waschen. Wir können den Satz leicht verändern:

Der Mann ging aus dem Fluss, weil er schmutzig war.

Jetzt würden Sie das Fürwort er wohl eher mit it übersetzen – weil man im Allgemeinen nicht gern in schmutzigem Wasser badet. Man sieht, was man alles wissen muss, um das kleine Wörtchen er korrekt ins Englische übersetzen zu können. Dieses Wissen (man kann sich mit Wasser waschen, man ist nicht gerne schmutzig, ein Fluss enthält Wasser, …) nennt man Alltagswissen oder Weltwissen.

Bei der Eingabe von Weltwissen in den Computer steht die Forschung vor zwei gänzlich ungelösten Problemen: Kann sämtliches Alltagswissen überhaupt aufgezählt werden? Und in welcher Form soll es gespeichert werden, damit der Computer damit etwas anfangen kann?