Künstliche Intelligenz-gestützte Tools wie ChatGPT bieten außergewöhnliche Möglichkeiten, wenn Sie die von ihnen unterstützte Sprache kennen.
Mekdes Gebrewold, Gründer des Beratungsunternehmens Ashagari in Addis Abeba, der Hauptstadt Äthiopiens, sagt jedoch, dass eine maschinelle Übersetzung auf Amharisch unmöglich sei. „Tools wie Google Translate sind für Amharisch nicht gut konfiguriert. Stattdessen bezahlen wir Profis“, sagt Gebrewold gegenüber der DW.
Wie Mekdes Gebrewold können Milliarden von Menschen nicht von auf künstlicher Intelligenz basierenden Tools in ihrer Muttersprache profitieren.
Diese Situation beschränkt sich nicht nur auf produktive, auf künstlicher Intelligenz basierende Tools wie ChatGPT oder Übersetzungsdienste wie Google Translate. Viele von künstlicher Intelligenz unterstützte Tools wie Autovervollständigung, Textanalyse, Sprachassistenten und Inhaltskontrolle in sozialen Medien reichen nicht aus, um Dienste in verschiedenen Sprachen bereitzustellen.
Doch einige Unternehmen versuchen, dies zu ändern.
Wie funktionieren Fahrzeuge mit künstlicher Intelligenz?
Tatsächlich gehen moderne Tools der künstlichen Intelligenz auf der Grundlage der erhaltenen Eingaben von der bestmöglichen Antwort aus. Diese von fortschrittlichen Autovervollständigungstools erstellten Vorhersagen basieren auf „Trainingsdaten“, die Ingenieure für künstliche Intelligenz zum Erstellen ihrer Modelle verwenden. Diese Bildungsdaten, die aus digitalen Inhaltssammlungen bestehen, nehmen viel Platz ein.
Common Crawl ist eine wertvolle Ressource für diese Bildungsinformationen. Common Crawl ist eine Sammlung von Informationen, die aus Milliarden von Webseiten im Internet besteht und als Open Source zugänglich ist. Ungefähr 60 Prozent der Informationen, die zum Trainieren der KI-gestützten ChatGPT-3.5-Version verwendet wurden, wurden dieser Sammlung entnommen.
Künstliche Intelligenz-Tools funktionieren in verschiedenen Sprachen nicht mit der gleichen Leistung, da die Trainingsdaten in einigen Sprachen begrenzt sind. Da die Inhalte im Internet überwiegend in mehreren Sprachen erstellt werden, ist das Auffinden von Trainingsdaten für künstliche Intelligenz in vielen Sprachen ein Problem.
Beispielsweise macht Englisch fast die Hälfte aller Inhalte auf Common Crawl aus.
Andererseits macht Amharisch zusammen mit allen anderen afrikanischen, amerikanischen und ozeanischen Sprachen weniger als 0,1 Prozent der Common Crawl-Daten aus. Amharisch ist als ressourcenarme Sprache bekannt, in der nur wenige digitale Informationen produziert werden. Milliarden Menschen auf der ganzen Welt sprechen ressourcenarme Sprachen. Sogar Sprachen wie Hindi, Arabisch und Bengali, die von einer großen Anzahl von Menschen gesprochen werden, gelten als ressourcenarme Sprachen.
Europäische Sprachen hingegen weisen im Vergleich zu vielen asiatischen und afrikanischen Sprachen mehr Inhalte in ihren Bildungsdaten auf. Beispielsweise wird Niederländisch wie Amharisch von mehr als 20 Millionen Menschen als Muttersprache gesprochen. Aber Niederländisch kommt im Common Crawl-Datensatz fast 700-mal häufiger vor als Amharisch. Niederländisch hat hundertmal mehr Inhalte als Hindi, die Muttersprache von mehr als 300 Millionen Menschen im Common Crawl-Datensatz.
Es gibt jedoch Möglichkeiten, diesen Datenmangel zu beheben.
Außer den Technologiegiganten im Silicon Valley entwickeln maschinelle Lernforscher auf der ganzen Welt KI-basierte Tools für ihre eigenen Sprachen.
Wie kann die Sprachlücke in Fahrzeugen mit künstlicher Intelligenz geschlossen werden?
Asmelash Teka Hadgu ist Mitbegründer von Lesan, einem Startup, das maschinelle Übersetzung und Sprachtechnologie für die Sprachen Amharisch und Tigrinya in Äthiopien bereitstellt. Da es für diese Sprachen weitgehend an Online-Ressourcen mangelt, arbeitet Hadgus Team direkt mit den Communities zusammen, die diese Sprachen sprechen, und findet kreative Wege, Informationen zu sammeln.
„Wir arbeiten normalerweise mit Studenten zusammen, die ihre eigene Sprache lieben“, sagt Hadgu im Gespräch mit der DW. Zu den Schülern sagt Hadgu: „Wenn wir ihnen sagen, dass wir so etwas produzieren, sind sie beeindruckt und möchten einen Beitrag leisten. Deshalb stellen wir Aufgaben, um Inhalte in unserer eigenen Sprache zu sammeln. Wir helfen ihnen und entschädigen sie finanziell für ihre Arbeit.“ .“
Ein solcher Informationsbeschaffungsprozess erfordert viel manuelle Arbeit. Die Mitwirkenden identifizieren zunächst hochwertige Informationsbestände wie zuverlässige Bücher oder Zeitungen, digitalisieren sie dann und übersetzen sie in die Zielsprachen. Schließlich listen diese Personen Satz für Satz die Originalversion und die übersetzte Version auf, um den maschinellen Erfassungsprozess zu steuern.
Diese Methode macht Unternehmen wie Lesan nicht konkurrenzfähig gegenüber Tools, die Milliarden von Seiten mit englischen Inhalten enthalten. Es kann aber auch andere Vorteile bieten. Beispielsweise übertrifft Lesan Google Translate sowohl auf Amharisch als auch auf Tigrinya.
„Wir haben gezeigt, dass aus kleinen, sorgfältig ausgewählten Informationssätzen nützliche Modelle erstellt werden können“, erklärt Asmelash Teka Hadgu. Hadgu fügt für diese Modelle hinzu: „Wir verstehen ihre Einschränkungen und Fähigkeiten. Mittlerweile erstellen Microsoft oder Google normalerweise ein einziges, riesiges Modell für alle Sprachen, sodass es fast unmöglich ist, dieses Modell zu kontrollieren.“
Mehr Sprachen brauchen digitale Verstärkung
Lesan ist nicht das einzige Unternehmen mit dieser Arbeitsweise. Ähnliche Projekte werden weltweit erfolgreich umgesetzt, auch für Sprachen mit geringerem digitalen Fußabdruck.
Ethnologue, eine globale Sprachdatenbank, die von SIL International, einer christlichen Nichtregierungsorganisation, betrieben wird, listet Amharisch unter den Sprachen mit „signifikanten“ sprachlichen Grundlagen. Das bedeutet, dass zumindest auf Amharisch einige maschinelle Übersetzungstools, Rechtschreibprüfung und Sprachverarbeitung verfügbar sind.
Tausende Sprachen, darunter viele mit über einer Million Nutzern, bieten weitaus weniger Inhalte und weniger digitale Tools.
Asmelash Teka Hadgu ist Teil eines Netzwerks führender afrikanischer Persönlichkeiten im Bereich der künstlichen Intelligenz. Hadgu ist wissenschaftlicher Mitarbeiter am Distributed Artificial Intelligence Research Institute (DAIR), dem eine Gruppe von Forschern aus Afrika, Europa und Nordamerika angehören. Gleichzeitig steht Hadgu in regelmäßigem Kontakt mit Gruppen wie GhanaNLP und dem afrikanischen Volkskollektiv Masakhane.
„Wir ermöglichen afrikanischen Gründern, diese Technologien zu nutzen“, sagt Hadgu im Gespräch mit der DW. Hadgu sagt: „Diese Fahrzeuge werden von Menschen aus diesen Gemeinden hergestellt und bereitgestellt. Mit anderen Worten: Die finanzielle Rendite kommt ihnen direkt zugute.“
Abgesehen von Afrika arbeiten Forscher auf der ganzen Welt an Möglichkeiten, der künstlichen Intelligenz weitere Sprachen hinzuzufügen, etwa jamaikanisches Patois, Katalanisch, Sudanesisch und Maori.
Während Technologiegiganten wie OpenAI von ChatGPT ihre Modelle geheim und undurchsichtig halten, teilen Startups wie das globale KI-Kollektiv Hugging Face ihr Wissen und ihre KI-Modelle frei. Auf diese Weise erleichtern sie es jedem Forscher, Analysen für seine eigene Sprache zu erstellen.
„Talent ist überall, Chancen fehlen“, sagt Asmelash Teka Hadgu. „Sagen wir, wenn Sie in Ghana die beste medizinische maschinelle Übersetzungstechnologie für eine Sprache entwickeln möchten, gibt es auf jeden Fall einen Ghanaer, der das leidenschaftlich will und es gut kann. Wir müssen die Möglichkeit dafür bieten“, fügt Hadgu hinzu.
Hanna Demissie hat zu diesem Bericht aus Äthiopien beigetragen.
– Diese Nachricht wurde vom Englischen ins Türkische adaptiert.
Wie kann ich über VPN auf DW Turkish zugreifen?
D.W.