Archiv für den Monat: Mai 2012

Automatische Wörterbucherweiterung

In einem früheren Posting berichteten wir über unsere halb-automatische Methode der
Wörterbucherweiterung. Mittlerweile haben wir das Verfahren verbessert und können nun für eine bestimmte Klasse von Konstruktionen automatisch neue Übersetzungen unserem Wörterbuch hinzufügen. Bei den Konstruktionen handelt es sich um Komposita, also zusammengesetzte Substantive wie Seerechtsabkommen.
Ausgehend von unserem vorhandenen Wörterbuch und unserem Satzarchiv aus knapp 5 Millionen deutsch-englischen Satzpaaren konnten wir mit dem Verfahren 70.000 englische Übersetzungen von 60.000 deutschen Komposita automatisch ins Wörterbuch übernehmen.

Wie funktioniert die automatische Komposita-Übersetzung?
Zunächst muss das deutsche Kompositum in seine Bestandteile zerlegt werden. Das ist für den Computer ein äußerst schwieriges Unterfangen. Nehmen wir als Beispiel das Kompositum Bildungsaustauschprogramm. Unser Kompositazerleger findet als Konstituenten: Bildung, Austausch und Programm. Die Konstituenten können nun im Wörterbuch nachgeschlagen werden:

Bildung: creation development education establishment formation forming genesis learning literacy nurture setting up
Austausch: exchange replace substitutional commutation interchange relocation swapping transposition
Programm: channel cycle program programme schedule scheme manifesto

Die Übersetzungen der beiden Bestimmungswörter Bildung und Austausch werden jetzt noch um ihre Adjektiv-Ableitungen erweitert:

development -> developmental, education -> educational …

Aus den möglichen Übersetzungen jeder Konstituente (und den
Adjektiv-Ableitungen) werden dann alle möglichen Kombinationen gebildet:

creation exchange channel
development exchange channel

forming transposition manifesto

In diesem Beispiel gibt es 14 x 9 x 7 = 882 mögliche Kombinationen. Aber welche davon gibt es im Englischen? Und sind sie überhaupt Übersetzungen des Ausgangskompositums? Angenommen development relocation cycle existiert im Englischen, handelt es sich dabei überhaupt noch um die Übersetzung von Bildungsaustauschprogramm?
Um das herauszufinden, durchsuchen wir unser Satzarchiv aus zweisprachigen deutsch-englischen Sätzen. Auf der deutschen Seite muss das Ausgangswort Bildungsaustauschprogramm vorkommen, und auf der englischen Seite alle drei Wörter einer der 882 erzeugten
Kombinationen. Zwischen den drei Wörtern dürfen außerdem Präpositionen und Artikel vorkommen. So finden wir zu Bildungsaustauschprogramm die englische Entsprechung programme for educational exchange.
Auf gleiche Weise wird aus Seerechtsabkommen zuerst See, Recht und Abkommen, dann (neben vielen anderen Kombinationen) sea, law und convention, und schließlich convention on the Law of the Sea.

Als nächstes planen wir, unsere Methode auf andere Konstruktionen als Komposita auszudehnen. Wenn zu Wirtschaftsentwicklung die englische Entsprechung economic development gefunden werden kann, sollte das für die Nominalphrase wirtschaftliche Entwicklung auch funktionieren.

Zum Schluss einige Beispiele für automatisch gefundene Komposita-Übersetzungen (in Klammern die jeweilige Häufigkeit in unserem Satzarchiv):

Heringsfangmöglichkeit
– possibility for catching herring

Haushaltsbeschluss
– budgetary decision (10)
– budget decision (6)
– decision on the budget (2)

Souveränitätsgewinn
– gain in sovereignty

Imageverlust
– loss to the image

Gefahrensituation
– risk situation (5)
– dangerous situation (4)
– situation of risk (3)