Google arabisch

Google-Arabic

Ende April hatte Google seinen neuartigen Übersetzungsdienst vom Arabischen ins Englische (und vice versa) vorgestellt. In der Presse wurde das allgemein nur zur Kenntnis genommen, unter Fachleuten gilt aber besonders die erfolgreiche Verarbeitung dieser Sprachkombination als kleine Sensation.

Was macht diesen Dienst so besonders und warum kann man ihn eng verknüpft mit dem sehr umstrittenen Google Book Search sehen? [weiter]

Die Besonderheit daran ist, daß die arabische Sprache zusammen, mit den chinesischen Dialekten, zu den am schwierigsten zu übersetzenden zählt, und außerdem Google hierbei rein auf das statistische Übersetzungsmodell setzt, weshalb es auch ‚maschinelle Übersetzung‘ genannt wird. Üblich ist bei automatisierten Übersetzungsvorgängen bisher das regelbasierte Modell (s.a. Erklärung am Ende des Artikels). Google scheint damit inzwischen hervorragende Ergebnisse zu erzielen:

„We’re very pleased with the results of this evaluation. Our computing infrastructure allows us to do a lot of experiments and work with huge data sets very easily.“ [Quelle]

Mit „huge data sets“ meinte Franz Och die 200 Billionen Wörter (!) aus Dokumenten der Vereinten Nationen, welche Google nutzte um sein statistisches Modell zu füttern:

This is brute force AI, if you want – it works on statistical learning theory only and has not much real “understanding” of anything but patterns. [Quelle]

Das mit den UN-Dokumenten war also schon mal eine brauchbare Einstiegsübung. Das Problem dabei war nur, dass die Formulierungen einer transnationalen Riesenbehörde sich sehr ähneln und ausserhalb – in der realen Welt – ganz andere Satzbaugewohnheiten herrschen.

Woher also die für das statistische Modell so dringend benötigte gigantische Datenmenge an bereits übersetzter Literatur nehmen? Ganz einfach: aus den Bibliotheken der Universitäten. Und da man das wie üblich kostenlos macht, lässt es sich auch wunderbar als wohltätige Aktion darstellen.

Jedenfalls hab ich das mal getestet und einen Probetext von Al Jahzeera übersetzen lassen:

Google-Arabic translation

Das Ergebnis wirkt zwar auch nicht anders als bei den meisten anderen Sprachkombinationen, ist aber deutlich verständlich. Interessant dürfte hier auch die Kombinationssuche über Babelplex sein:

Beispielsuche - Berlusconi auf Arabisch eingegeben

Nachdem nun die arabische Sprachhürde genommen scheint, hat sich Google als nächstes den chinesischen Sprachraum vorgenommen.

guge

In Verbindung mit den zwar noch recht unbeholfenen Bemühungen auf dem chinesischen Markt Fuss zu fassen, und dem bisherigen Platzhirschen baidu.com Paroli zu bieten, würde die Überwindung dieser sprachlichen Barrieren einem Unternehmen ungeahnte kommerzielle Möglichkeiten eröffnen.

Ich bin jedenfalls sehr gespannt auf weitere Teile dieses Riesenpuzzles, welche sich nach und nach zusammenfügen werden…

Unterschiede zwischen dem statistischen und dem regelbasierten Übersetzungsmodell

  • Regelbasiertes Modell

Alles was das Übersetzungsprogramm können soll, muss mühsam von Hand eingetragen und gepflegt werden: grammatikalische Regeln, Metaphern, Verben und Subjekte zur Klassifizierung der Satzaussage und dergleichen mehr. Dadurch dass hier Wörter kategorisch behandelt werden, geht leicht der Kontext verloren. Das führt bei dieser Methode dann gerne zu unsinnigen Satzkonstrukten.

  • Statistisches Modell

Dieses System ist erstmal nur dumm, denn es lebt von der Masse der eingespielten Daten und lernt dadurch. Vereinfacht gesagt lernt es von bereits existierenden Übersetzungen: Ich gebe dem Programm zwei Bücher und sage ihm, dass es sich dabei um die Übersetzung von Sprache 1 nach 2 handelt. Wenn ich das mit genügend Material mache, erlernt das System daraus ein brauchbares Sprachmuster (siehe Beispiel).

………………………………………………………………………………………………

Mehr zum Thema / Related articles:

google

………………………………………………………………………………………………

1 Kommentar »

  1. rollmops said

    Jens Redmer, bei Google Book Search für Europa zurständig, sagte kürzlich bezüglich der Bedenken der Verlage: "Die Buchsuche ist eine strategische Investition, die als Einzelprojekt überhaupt nicht rentabel wäre."
    [Quelle: SZ Feuilleton vom 21. Juni 2oo6]

    Das ist eine Aussage die viel Spielraum für Interpretationen beinhaltet. Ich sehe sie hier mal als Bestätigung meiner Vermutungen…

RSS feed for comments on this post · TrackBack URI

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: