Archiv für den Monat: April 2010

Von Konsum-Enten und Punk-Tieren

In einem Posting vor einiger Zeit habe ich einige Probleme aufgezählt, die dem Computer das automatische Übersetzen erschweren. Eines der Hauptprobleme – zumindest im Deutschen – habe ich aber nicht erwähnt: zusammengesetzte Substantive (Komposita). Bei der Sammlung von unfreiwillig komischen Computerübersetzungen auf der schon einmal zitierten Seite von Stefan Winterstein handelt es sich in fast allen Fällen um Komposita. Besonders lustig finde ich die Übersetzung chewing case republic für Kaukasusrepublik (Kau-Kasus-Republik).

Da täglich zahllose neue Komposita gebildet werden (dokumentiert z.B. von der Wortwarte), ist es unmöglich, alle in einem Wörterbuch aufzuzählen. Deswegen benötigt ein Übersetzungsprogramm eine Komponente, die Komposita automatisch in ihre Bestandteile zerlegt, damit diese Teile dann im Wörterbuch nachgeschlagen und übersetzt werden können. Leider ist die automatische Zerlegung von Komposita äußerst schwierig, denn sehr oft gibt es mehr als eine Zerlegungsmöglichkeit.

Eine erste Verkomplizierung der Angelegenheit bringen die Fugenelemente mit sich, z.B. das Fugen-s wie in Leistungsfähigkeit. Es gibt auch Auslassungsfugen (Elisionsfugen) wie in Birnbaum, wo das -e am Ende von Birne wegfällt, und sogar Kombinationen aus Auslassung und Fugen-s, wie in Mietskaserne.

Beim Zerlegen muss man also die Fugenelemente berücksichtigen. Deswegen kann man Gipfelsturm auf zwei Arten zerlegen: Gipfel-Sturm oder Gipfels-Turm. Bei diesem Beispiel gäbe es ein linguistisches Kriterium, die zweite Zerlegung zu verwerfen, denn auf Gipfel folgt nie eine s-Fuge. Die Fuge richtet sich nämlich nach dem vorangehenden Wort, jedes Wort hat eine Reihe von möglichen Kompositionsstammformen. Für Miete sind das Miet (Miethai), Miets (Mietshaus) und Mieten (Mietenerhöhung). Für Gipfel ist das nur Gipfel, dagegen kommen Gipfels oder Gipfeln nie als Erstglieder in einem Kompositum vor. Es könnte also höchstens einen Gipfel-Turm geben, aber keinen Gipfels-Turm. Dummerweise gibt es aber keine Liste mit Kompositionsstammformen für alle Wörter.

Aber auch ohne Fugenelemente gibt es oft mehrere Zerlegungsmöglichkeiten. Unser Kompositazerleger KOKOZ, den wir gerade im linguatools-Labor zusammenbrauen, behauptete gestern, das Patentieren (von Erfindungen) hätte etwas mit godfathers animals zu tun (Paten-Tieren). Solche Fehlanalysen könnte man durch Abgleich der grammatischen Merkmale mit dem Kontext herausfiltern. Denn Tieren ist sächlich und Dativ Plural, der Artikel das passt damit nicht zusammen (nur den). Allerdings müsste man dazu erst einmal eine syntaktische Analyse durchführen.

Bei anderen Komposita helfen weder Fugenregeln noch grammatische Merkmale. Beide würden unseren Zerleger nicht daran hindern, Konsumentenverhalten mit consumption ducks behaviour zu übersetzen (Konsum-Enten-Verhalten). Wir bräuchten einen “Quatschfilter”, der dem Zerleger sagt, dass es keine Konsum-Enten gibt, und dass Konsumenten sehr viel wahrscheinlicher sind. Bei anderen Zusammensetzungen sind jedoch beide Zerlegungen sinnvoll: ob es sich bei Staubecken um Staub-Ecken oder Stau-Becken handelt, hängt vom Kontext ab.