Über das Projekt
Wie war die Ausgangslage?
Als einer der größten Hersteller von spanenden Werkzeugmaschinen in Deutschland ist DMG MORI auch international tätig. Daraus ergibt sich im Alltag ein massiver Übersetzungsbedarf. Insgesamt werden im Konzern 24 unterschiedliche Sprachen benötigt. Diese kommen nicht ohne ein umfangreiches Fachvokalubar im Bereich Maschinenbau aus. In der Vergangenheit hatte sich gezeigt, dass Standardlösungen aus der maschinellen Übersetzung dieses Fachvokabular gar nicht oder nur in unzureichender Qualität verwendeten. Die Automatisierung der Übersetzungsprozesse war damit massiv erschwert.
Welche Ziele sollten erfüllt werden?
Im gemeinsamen Projekt sollte damit zunächst herausgefunden werden, ob durch das Training einer Custom KI eine Übersetzungsqualität erzielt werden kann, die an die bisher verwendeten manuellen Übersetzungen heranreiche würde. Der Übersetzungsprozess sollte auf diesem Weg deutlich vereinfacht und beschleunigt werden. Voraussetzung und Gradmesser hierfür war vor allem die korrekte Verwendung des branchenspezifischen Fachvokabulars bei DMG MORI. Erprobt wurden diese Prozesse zunächst an der Übersetzung von internen Dokumentationen. Bei erfolgreichem Verlauf sollten weitere Anwendungsfälle in der Kundendokumentation, Schulungsunterlagen und Maintenance hinzukommen.
Was waren Besonderheiten/Herausforderungen im Projekt?
Die maschinelle Übersetzung von Inhalten stand in der Vergangenheit nicht nur vor qualitativen sondern auch datenschutzrechtlichen Herausforderungen. DMG MORI stellt für seine Inhalte hohe Anforderung an den Datenschutz, die auch bei der Übersetzung und durch den Betrieb einer Custom KI erfüllt werden müssen.
Auf Seiten von SUTSCHE lag die Herausforderung darin, aus umfangreichem Ausgangsmaterial einen nutzbaren Trainingskorpus zu erzeugen. DMG MORI stellte aus bisherigen Übersetzungen mehr als 80.000 Datensätze zur Verfügung, die als Basis für das notwendige Training aufbereitet werden mussten. Dabei galt es sicherzustellen, dass das für DMG MORI besonders relevante Spezialvokubular korrekt und zuverlässig übersetzt wird.
Welche Aufgaben/Rolle hat SUTSCHE dabei übernommen?
Um die korrekte Verwendung der Fachsprache bei der automatisierten Übersetzung zu gewährleisten, wurde zunächst ein umfassendes Glossar aufgesetzt. Anschließend galt es, die umfangreichen Ausgangsdaten für das bevorstehende Training der Custom KI aufzubereiten.
Aus den mehr als 80.000 Rohdaten in deutscher und englischer Sprache wurden in einem ersten Schritt 20.000 Basisdaten extrahiert. Dafür wurden die Rohdaten automatisiert durchsucht, um deutschen Ausgangsformulierungen jeweils die korrekte englische Übersetzung zuzuordnen. Um im weiteren Verlauf eine hohe Übersetzungsqualität zu gewährleisten, wurden nur Satzpaare in den so entstehenden Trainingskorpus aufgenommen, die im Vergleich von Ausgangs- und Zielsprache eine Übereinstimmung von mindestens 85% aufwiesen.
Nach einer weiteren Bereinigung der Basisdaten ergaben sich draus etwa 16.000 Trainingsdaten. Hiervon wurden wiederum 30 Prozent für ersten Valdierungen und Tests des KI-Trainings verwendet, die übrigens 70 Prozent bildeten den finalen Trainingskorpus. SUTSCHE trainierte das frei verfügbare und erst 2020 erschienene mBART-Sprachmodell der Facebook Research AI mit diesen Trainingsdaten.
Was wurde erreicht?
Bereits nach der ersten durchgeführten Iteration des erstellten Trainingskorpus zeigten sich positive Ergebnisse: Die Übersetzungsqualität konnte gegenüber einem untrainierten Basismodell deutlich gesteigert werden. Das trainierte Sprachmodell wird in weiteren Schritten zusätzlich kalibriert und die Übersetzungsqualität für das Sprachpaar Deutsch-Englisch durch einen Re-Trainingsprozess damit verbessert. Die entstandene Custom KI kann von DMG MORI betrieben werden und erfüllt damit die gesetzten Datenschutzstandards. Im Konzern kann die Custom KI über die bereitgestellte API problemlos in Übersetzungsprozesse eingebaut werden.