Model Collapse: Die Gefahr der KI-Überflutung mit maschinell generierten Inhalten

Die Entwicklung generativer Künstlicher Intelligenz (KI) hat in den vergangenen Jahren enorme Fortschritte gemacht. Heute lassen sich Texte in nahezu menschenähnlicher Form erstellen. Ebenso hat die Einführung von Stable Diffusion die Erzeugung von Bildern aus Textbeschreibungen revolutioniert. Doch ein Problem wurde schon recht früh angesprochen: Was passiert, wenn KI-Inhalte das Internet überfluten?

Die ersten KI-Modelle basierten auf unverfälschten, original von Menschen produzierten Inhalten. Aber seit der Verfügbarkeit der Chatbots und Bildgeneratoren führt der Hype um die neue Technologie zu einer weitverbreiteten Nutzung. Was passiert, wenn schließlich diese Modelle beim Training beginnen, voneinander zu lernen, anstatt von echten menschlichen Inhalten?

Wissenschaftler warnen in diesem Zusammenhang vor einem Phänomen, das als „Model Collapse“ bezeichnet wird. Dieses tritt auf, wenn Künstliche Intelligenz zunehmend mit von Maschinen generierten Inhalten gefüttert wird. Das Ergebnis: Bestimmte seltene und komplexe Inhalte verschwinden aus dem Datensatz, was zu einer irreversiblen Verschlechterung der Qualität der erzeugten Texte führt. Das Problem betrifft nicht nur große Sprachmodelle, sondern auch andere generative Modelle wie Variationale Autoencoder (VAE) und Gaussian Mixture Models (GMM).

Was passiert bei einem Model Collapse?

Die Auswirkungen von „Model Collapse“ sind weitreichend. Es führt dazu, dass die KI im Laufe der Zeit weniger in der Lage ist, seltene oder ungewöhnliche Ereignisse zu modellieren, was vor allem marginalisierte Gruppen betreffen könnte. Diese Gruppen sind oft mit Situationen konfrontiert, die in den allgemeinen Datensätzen als wenig wahrscheinlich gelten, aber für die Betroffenen von großer Bedeutung sind. Bei KI-generierten Daten kann diese Diversität „weggerechnet“ sein. Maschinen erzeugen statistisch einfach nicht die „Inhaltsverteilung“ wie Menschen.

Was muss man zukünftig tun?

Wer heute aus dem Internet Daten für Training extrahieren möchte, weiß kaum, ob die Inhalte authentisch sind. Kurioserweise werden gerade jetzt die Texte von selbst schreibenden Autoren sehr wertvoll. Ein Jammer nur, dass die Gesetzeslage – zum Beispiel in Europa – keine angemessene Vergütung dafür vorsieht. Für Trainings müssen synthetische und menschliche Daten getrennt werden, sonst könnte die Qualität zukünftiger Modelle beeinträchtigt werden.

Rein theoretisch könnte man natürlich regulativ eine Kennzeichnung verlangen, aber jeder wird sich denken können, dass das nicht funktionieren wird. Insbesondere dann, wenn Autoren KI-erzeugter Inhalte nicht wollen, dass es jemand weiß. Eine solche Transparenz erscheint zumindest aus heutiger Sicht als Wunschdenken. Meiner Meinung nach gerät daher die Lizenzierung von Originalinhalten in den Fokus. Und tatsächlich gibt es auch schon Partnerschaften zwischen KI-Unternehmen und Verlagen.

Die aktuellen Forschungsergebnisse zeigen deutlich, dass die Weiterentwicklung von KI-Modellen durch maschinell generierte Daten bedroht ist. Um die positiven Aspekte der KI auch in Zukunft nutzen zu können, muss daher der Zugang zu authentischen, von Menschen erzeugten Daten gesichert werden.

Werbeblock: 😁🤭😊

KI-Firmen, die meine Inhalte für Trainings lizenzieren möchten, können wegen eines Jahresabos gern Kontakt mit mir aufnehmen.

👉 Auf Mastodon kommentieren