KI-Wörter und die Evolution der Sprache


Unsplash
Schlechte Wissenschaftler
Der technologische Fortschritt hat schon immer Sprachtransformationen vorangetrieben und als Filter gewirkt. Generative Modelle tun dies in größerem Maßstab und erzeugen sprachliche Inhalte direkt nach der Logik der statistischen Mittelung. Die Risiken und Gegenmaßnahmen
Die Fähigkeit generativer Sprachmodelle, Texte zu produzieren, die den menschlichen Stil nachahmen, basiert auf einem einfachen, aber wirkungsvollen Prinzip: Jedes Wort wird auf Grundlage der in den Trainingsdaten beobachteten Wahrscheinlichkeitsverteilung ausgewählt, wodurch die Gesamtsequenz in Richtung des statistisch plausibelsten optimiert wird . Dieser auf Texte im industriellen Maßstab angewandte Mechanismus bevorzugt syntaktische Strukturen mit hoher Frequenz, wiederkehrende Lexika und „sichere“ Kombinationen, d. h. solche mit der geringsten Wahrscheinlichkeit, vom durchschnittlichen Register abzuweichen. Sobald diese Art von Ausgabe beginnt, bedeutende Teile des kommunikativen Raums auszufüllen – E-Mails, Pressemitteilungen, Schulaufgaben, populäre Texte, Handbücher, Social-Media-Beiträge, redaktionelle Rezensionen –, wird ihr Stil in die gemeinsame sprachliche Umgebung aufgenommen – nicht länger als Kuriosität, sondern als impliziter Standard. Der nächste Schritt erfolgt automatisch: Der Autor neigt dazu, sich dem anzupassen, was er liest, und wenn das Gelesene von einer Maschine erstellt oder verfeinert wurde, wird die Anpassung zu einer Form unbewusster Adaption.
Dies ist kein völlig neues Phänomen. Die Technologie hat die Sprachentwicklung bereits in anderen Epochen vorangetrieben – mit spürbaren Auswirkungen. Das Radio, das ein breites und vielfältiges Publikum erreichen musste, setzte Diktionsmodelle und lexikalische Vereinfachungen durch, die dialektale Unterschiede abschwächten. Das Fernsehen festigte durch die ständige Wiederholung von Erzählmustern und einheitlichen Sprachregistern Formeln und Kadenzen, die in die Alltagssprache einflossen. Telefonnachrichten verkürzten Wörter und reduzierten die Syntax, um Zeichenbeschränkungen und Tippgeschwindigkeit gerecht zu werden, wodurch ein hybrider Code zwischen geschriebener und gesprochener Sprache entstand. Schließlich haben soziale Foren mit ihrer öffentlichen und asynchronen Gesprächsdynamik die Verbreitung und Standardisierung von Redewendungen, sprachlichen Memen und vereinfachten grammatikalischen Konstrukten beschleunigt. Jedes Mal wirkte die massive Einführung einer neuen Technologie wie ein selektiver Filter: Bestimmte Formen wurden verstärkt, andere verschwanden.
Der Unterschied zu generativen Modellen liegt im Umfang und der Art des Filters. Hier geht es nicht nur um ein Medium, das von Menschen produzierte Inhalte überträgt, sondern um ein System, das einen Großteil dieser Inhalte direkt generiert, und zwar nach der Logik der statistischen Mittelung . Die Wiederholung dieses Musters in jedem Kontext, in dem die schriftliche oder verbale Produktion durch KI unterstützt oder ersetzt wird, erzeugt einen viel stärkeren Homogenisierungsdruck als alles, was man bisher gesehen hat: Er beeinflusst nicht nur die Verbreitung bestimmter Formen, sondern auch die ursprüngliche Textgenerierung.
Quantitative Beobachtungen an großen Korpora zeigen bereits eine deutliche Zunahme der Häufigkeit modelltypischer Ausdrücke und eine Abnahme komplexer Syntax oder spezialisierter Lexika. Diese Hinweise – so signifikant sie auch sein mögen – könnten jedoch einfach nur einen stärkeren direkten Einsatz von KI bei der Textproduktion widerspiegeln. Um zu verstehen, ob sich die menschliche Sprache wirklich verändert, müssen wir uns kontrollierte Tests ansehen, in denen die Probanden gebeten werden, ohne Verwendung generativer Hilfsmittel mit menschlichen Gesprächspartnern zu schreiben oder zu sprechen. In diesen Fällen zeigen Teilnehmer, die lange Zeit KI-generierten Texten ausgesetzt waren, eine größere Ähnlichkeit untereinander als Kontrollgruppen: dieselben wiederkehrenden Strukturen, dieselben lexikalischen Entscheidungen, dieselben Argumentationsmuster, sogar ohne dass sie sich dessen bewusst sind . Einige dieser Studien messen auch kognitive Indikatoren: verringerte Gehirnaktivität in Bereichen, die für sprachliche Planung und Arbeitsgedächtnis zuständig sind, weniger lexikalische Vielfalt und verringerte syntaktische Komplexität. Hier entsteht die Ähnlichkeit nicht als Folge der direkten Verwendung eines künstlichen Assistenten, sondern als Ergebnis erlernter und verinnerlichter Anpassung.
Es besteht die Gefahr, dass sich – wie bereits bei anderen Technologien, wenn auch in viel größerem Umfang und mit viel höherer Geschwindigkeit – die Vorstellung von „korrektem Schreiben“ und „guter Sprache“ an diesen durchschnittlichen Mustern festsetzt, weil sie vertraut, leicht zu verarbeiten und als professionell wahrgenommen werden . Werden Modelle anhand eines Korpus trainiert, der einen globalen kulturellen Durchschnitt widerspiegelt, kann dies zu einer Verdichtung sprachlicher und kultureller Vielfalt führen, mit dem Verlust regionaler Beugungen, spezialisierter Register und expressiver Eigenheiten. Und anders als bei den Veränderungen durch Radio oder Fernsehen bleibt hier aufgrund der Geschwindigkeit und Durchdringung des Wandels weniger Zeit für kritische Anpassungen.
Selbst diejenigen, die KI nicht direkt nutzen, werden ihre Eigenschaften und Formeln irgendwann übernehmen, einfach weil sie in den Texten, die sie täglich lesen, allgegenwärtig sein werden. Gegenmaßnahmen, wie der bewusste Einsatz generativer Systeme zur Erstellung von Entwürfen, die dekonstruiert und neu geschrieben werden können, oder die Einbeziehung kritischer Reflexionsphasen in den Schreibprozess, können den Effekt zwar abmildern, ihn aber nicht beseitigen, solange das Gesamtumfeld weiterhin von KI-basierten Inhalten dominiert wird. Ohne explizite kulturelle Aufmerksamkeit bleibt die Entwicklung eine Regression zum Mittelwert: eine Sprache, die auf Komplexität und Vielfalt zugunsten von Vorhersehbarkeit und Einheitlichkeit verzichtet, in der sich die Kluft zwischen menschlicher und maschineller Sprache bis zur Unmerklichkeit verringert.
Mehr zu diesen Themen:
ilmanifesto