Risiken bei der Nutzung von KI
Hier findest du folgende Inhalte
Formeln
Risiken bei der Nutzung von KI
Die zunehmende Nutzung von LLM (Large Language Model) basierter KI birgt sowohl Chancen als auch Risiken. Nachfolgend machen wir und einige der Risken bewusst.
Monopolisierung von Wissen
So begeistert Lernende über den auf LLMs basierenden Durchbruch bei KI basierten Recherchetools auch sein mögen, so sei dennoch vor Missbrauch gewarnt:
- Im Oktober 2022 hat der Tech-Milliardär Elon Musk Twitter – nunmehr X – um unvorstellbare 40 Milliarden Euro gekauft und nach seinen ganz persönlichen Vorstellungen dieses weltumspannende Informationsnetzwerk umgestaltet.
- Im September 2023 kamen Gerüchte auf, Elon Musk als Gründer und CEO von SpaceX, dem Mutterunternehmen von Starlink, hätte persönlich angeordnet das Satellitenkommunikationsnetzwerk in der Umgebung der russisch besetzen Krim Halbinsel abzuschalten, um einen potenziellen Angriff der Ukraine auf die dort stationierte russische Flotte zu verhindern.
Diese beiden Beispiele zeigen, welchen Einfluss bereits heute ein einzelner Mensch auf die freie Meinungsbildung und auf den Verlauf eines Krieges haben könnte.
- Stellen wir uns vor, ein anderer Tech-Milliardär hatte vergleichbaren Einfluss auf die Trainingsdaten einer LLM basierten KI. Stellen wir uns weiter vor, er würde beispielsweise daran glauben, dass Gott die Erde wörtlich in sieben Tagen erschaffen hat und damit Darwins Theorie von der Evolution negieren. Könnte er diese Meinung auf Grund seines Aktenanteils durchsetzen und Darwins Theorie fortan nicht mehr zu den Trainingsdaten gehören, so würde auch die KI diese fragwürdige "sieben Tage" Schöpfungstheorie mit Nachdruck gegenüber seinen Nutzern vertreten.
Risiko systematischer Fehlinformation bei Suchindex basierte Recherche
Die Nutzung von schlüsselwortbasierten Suchmaschinen wie Google zur Informationsbeschaffung beim Lernen ist uns heute bestens vertraut. Der Nutzen ist unbestritten, die größte Gefahr liegt in der weltweiten Konzentration des Angebots auf nur 4 Betreiber von Suchindizexen (Google, Bing, Yandex und Baidu).
Bislang gibt der Nutzer einen Suchbegriff als Anfrage ein und erhält als Antwort eine Liste mit relevanten Links. Aus dieser Vielzahl an möglichen Antworten sucht er sich dann die passende Antwort heraus, indem er den entsprechenden Link anklickt und so auf die Website des Informationserstellers gelangt. Auf Grund der Impressumspflicht weiß der Nutzer, von welchem Menschen die Informationen stammen und kann sich selbst eine Meinung über deren Qualität bilden.
Risiko systematischer Fehlinformation bei Sprachmodell basierte Recherche
Seit der Einführung von ChatGPT, dem Sprachmodell von Open AI, basiert die Anfrage nicht mehr auf einem Schlüsselwort oder Satzteil, sondern auf mehreren ausformulierten Sätzen, mit denen die Suchintention genau abgegrenzt werden kann.
Die Antwort ist aber keine Vielzahl an Verweisen auf individuelle Websites, sondern ein eloquent ausformulierter Text aus mehreren Sätzen bzw. Absätzen, jedoch die zugrunde liegenden Quellen selbst anzusehen, sollten die Quellen überhaupt angegeben sein...
Der Nutzer kann auch um eine Korrektur, Vereinfachung oder Vertiefung der Antwort bitten und erhält so, wie bei einem Dialog zwischen Menschen, eine kontextbezogene Antwort. Super!
Weniger Super: Die Antwort ist allerdings nicht einmal ein „best-off“ aller (mitunter ungenannten) Quellen, sondern – man lasse sich das auf der Zunge zergehen – „Jene Abfolge von Worten, mit der höchsten statistischen Wahrscheinlichkeit, für eine sinnvoll formulierte Antwort“. ChatGPT kann 1+1 nicht (!) berechnen, es kann nur auf Grund von Trainingsdaten sagen, dass es statistisch wahrscheinlich ist, dass „1+1=2“ gilt.
Sind die Trainingsdaten zudem nicht objektiv, sondern tendenziell (rassistisch, frauenfeindlich, politisch geschönt, verschwörerisch, …), so ist die Antwort ebenfalls nicht objektiv. Bei der indexbasierten Suche hingegen deckt die Liste an Links auf verschiedene Websites ein breites Meinungsspektrum ab.
Kommen Informationen in den Trainingsdaten nicht vor, so fabuliert ChatGPT. Sprachmodelle können grundsätzlich und für alle Zukunft gar nicht entscheiden, ob ihre Antwort richtig ist oder falsch ist, denn sonst müsste die KI bei der Bewertung der Antwort über mehr Wissen verfügen als unmittelbar zuvor bei der Formulierung der Antwort.
Unterscheidung zwischen Wahrscheinlichkeit und Wahrheit
LLM erstellen Antworten auf Basis von aus Trainingsdaten gelernten Wahrscheinlichkeiten für sinnvolle Wortabfolgen, nicht aber auf Basis des zugrunde liegenden Wahrheitsgehalts. Durch diesen Ansatz neigen LLM bei Antworten systembedingt zum „Halluzinieren“ und „Schwafeln“.
Erklärbare KI (XAI - Explainable Artificial Intelligence)
Die Probleme beim Halluzinieren von LLM werden dadurch verschärft, dass es uns Menschen auf Grund der Komplexität der Antwortfindung einer KI, die auf einer gigantischen Black-Box, in Form eines neuronalen Netzwerk mit Maschinenlernen basiert, gar nicht möglich ist, nachzuvollziehen, wie die KI zu der konkreten Antwort gekommen ist. Bei XAI versucht man aus einem bereits trainierten neuronalen Netz die zugrunde liegenden Regeln für Menschen verständlich abzuleiten.
Mist-rein → Mist raus
Von wesentlicher Bedeutung für die Qualität der Antworten eines LLM ist die Qualität der Trainingsdaten. Beinhalten die Trainingsdaten falsche, trendige oder diskriminierende Aussagen, darf man von der Antwort nichts Besseres erwarten. Darin liegt auch die Problematik LLM basierte KIs online auf das Internet zugreifen zu lassen. Nicht jeder ist mit der unentgeltlichen Nutzung seiner Daten durch KI-Betreiber einverstanden, und es kommen zunehmend „vergiftete“ Daten ins Netz. Dabei werden Daten absichtlich so verfälscht, dass eine KI in die Irre geführt wird und meinen einen Hund auf einem Bild zu identifizieren, wo eigentlich eine Katze abgebildet ist
Zensur von Daten
Wenn Trainingsdaten ausgewählt werden, entspricht dies einer Wissenskontrolle. Wenn die Trainingsdaten hingegen nicht ausgewählt werden, sondern frei aus dem Web stammen, besteht die Gefahr des Erlernens von Vorurteilen.
Themenfilter
Sowohl bei der Auswertung von Eingaben als auch bei der Ausgabe von Antworten arbeiten die Betreiber von LLMs mit Verbotslisten. Verbotslisten umfassen Wörter, Phrasen oder Muster, die von einem LLM nicht verarbeitet werden dürfen, um sicher zu stellen, dass keine unerwünschten, unangemessenen oder diskriminierende Inhalte erzeugt werden. Andererseits schränken Verbotslisten die Meinungsfreiheit ein und fördern Zensur.
Zusammenbruch des Geschäftsmodells für die Bereitstellung neuen Wissens im Web
Die KI basierten digitalen Assistenten, die allwissend über das gesamte täglich erforderliche Wissen verfügen, machen klassische Websites überflüssig. Sie entziehen ihnen jeglichen Traffic, wodurch es für die Masse der Sitebetreiber keine Motivation mehr gibt, derartige Websites weiterhin zu erstellen und zu pflegen. Es werden nur mehr Websites überbleiben, welche Produkte oder Informationen präsentieren, deren Relevanz über einen Tag nicht hinausgehen (Sportresultate).
Aber auch da droht den kleinen Websites Ungemach, durch die Marktmacht von Amazon und Booking.com. Eventuell steht der Zusammenbruch des World Wide Webs bevor, welches weltweit durch 10 Mega-Sites abgelöst und beherrscht wird.
Generative KI und das Urheberrecht
Wir wollen an dieser Stelle nicht schwarzmalen. Generative KI liefert oft recht brauchbare Resultate. Gehen wir daher kurz auf die Rechte an diesen KI generierten Resultaten ein:
Urheberrecht an Trainingsdaten
Wenn eine KI unentgeltlich mit urheberrechtlich geschützten Werken trainiert wurde, stellt sich die Frage, ob durch die Nutzung der KI nicht Urheberrechte verletzt werden. 2024 laufen in den USA diesbezügliche Sammelklagen.
Die generative Bild-KI „Adobe Firefly“ wurde mit Adobe Stock Bildern, deren Urheber entschädigt wurden, sowie mit gemeinfreien Inhalten und mit Werken trainiert, deren Urheberrechte schon abgelaufen sind.
Urheberrecht an den generierten Daten
Das Urheberrecht gehört demjenigen, der ein Werk mit der erforderlichen Schöpfungshöhe erstellt hat, also z.B.: dem Fotografen. Wem gehört nun das Urheberrecht an KI-generierten Inhalten, dem Betreiber der KI, dem Prompt Engineer, speziell wenn der Prompt sehr komplex formuliert ist, eine eigene individuelle Idee umfasst, oder sind die Werke gar gemeinfrei? Auf jeden Fall lohnt sich ein Blick in die AGBs des KI-Betreibers.
Kommerzielle Nutzung der generierten Bilder
Die kommerzielle Nutzung KI-generierter Bilder wird zwischen dem Betreiber und dem Abonnenten der KI vertraglich in den AGBs geregelt.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
![Startseite Illustration Sandstrand 1050x450](/sites/default/files/2021-06/stock.adobe_.com_196660264_0.jpg)