Künstliche Intelligenz
Hier findest du folgende Inhalte
Formeln
Mathematik Lernen mit Computer Algebra Systemen
Computer-Algebra-Systeme (CAS) sind Softwareprogramme, welche die symbolische oder numerische Berechnung mathematischer Aufgabenstellungen ermöglichen.
- Bei der symbolischen Berechnung werden mathematische Ausdrücke so umgeformt oder berechnet bis ein exaktes allgemeingültiges Resultat vorliegt, ohne dass dabei für die Variablen konkrete Werte eingesetzt werden.
- Bei der numerischen Berechnung wird die (näherungsweise) Lösung eines mathematischen Ausdrucks durch schrittweise Annäherung anhand spezifischer numerischer Werte iterativ ermittelt. Es werden dabei konkrete Zahlen für die Variablen eingesetzt und die resultierenden Ausdrücke ausgewertet. Auf die sehr rechenintensive numerische Berechnung greift man zurück, wenn eine symbolische Berechnung nicht sinnvoll möglich ist.
Beliebte Computer-Algebra-Systeme
Die nachfolgenden Computer-Algebra-Systeme werden in verschiedenen Bereichen eingesetzt, darunter Mathematik, Physik, Ingenieurwesen, Informatik und Bildung. Sie helfen Forschern, Wissenschaftlern, Ingenieuren und Studenten bei der Durchführung komplexer Berechnungen, der Erforschung mathematischer Konzepte und der Lösung komplizierter mathematischer Probleme.
Bei den oben genannten CAS handelt es sich um kommerzielle Software deren Vollversion auf Grund der Anschaffungskosten für Nutzer mit begrenzten Budgets kaum zugänglich sind. Die Software ist nicht für ad-hoc Einsätze gedacht, da sie eine umfangreiche Einarbeitung erfordern.
Wolfram Alpha (Pro)
Wolfram Alpha ist eine kostenlose Website, welche einzelne Suchabfragen basierend auf kuratierten Daten und CAS-Funktionalität miteinander verbindet. Die Benutzeroberfläche weist einen Suchslot auf, in den man die jeweilige Abfrage, losgelöst von vorherigen Abfragen, entweder in englischer natürlicher Sprache oder als mathematischen Term gemäß der Wolfram-Language eingibt. Die Ausgabe erfolgt als Set von strukturierten Daten.
Die Basisversion Wolfram Alpha ist kostenlos, die Pro Version bietet zusätzlich Schritt-für-Schritt Lösungen, ermöglicht Downloads und verfügt über einen Aufgaben-Generator, ist jedoch kostenpflichtig.
Wolfram Alpha Notebook Edition
Wolfram Alpha Notebook Edition ist kostenpflichtig als Desktop- bzw. als Online-Variante verfügbar. Die Alpha Notebook Edition ist als separates Produkt und als Teil von Mathematica erhältlich. Die Wolfram Alpha Notebook Edition erweitert die Funktionalität von Wolfram Alpha Pro, indem es aufeinander aufbauende Verarbeitungen ermöglicht, während Alpha Pro auf eine „one-Shot“ Abfrage/Antwort limitiert ist. Die Notebook Edition basiert auf Mathematica, erlaubt aber weitgehend eine Eingabe in englischer natürlicher Sprache, dh man muss die Wolfram-Language nicht unbedingt beherrschen.
Mathematica
Mathematica wurde von Wolfram Research entwickelt und ist ein umfassendes CAS, das eine breite Palette an mathematischen und rechnerischen Fähigkeiten speziell für symbolische Berechnungen bietet. Wolfram Mathematica ist kostenpflichtig als Desktop- bzw. als Online-Variante verfügbar. Mathematica ist eine professionelle Software für Mathematik auf Universitäts-Niveau und erfordert einiges an Einarbeitungszeit.
Maple
Maple ist ein leistungsstarkes CAS, das von Maplesoft entwickelt wurde. Es bietet umfangreiche Werkzeuge für symbolische Berechnungen, mathematische Visualisierung und Programmierung.
MATLAB
MATLAB ist in erster Linie als numerische Rechenumgebung bekannt, umfasst aber über seine Symbolic Math Toolbox auch Funktionen für symbolische Berechnungen. Es kann durch Simulink ergänzt werden, welches speziell zur Modellierung von technischen, physikalischen oder finanzmathematischen Aufgabenstellungen optimiert ist.
Beliebte Programmiersprachen für numerische Berechnungen
Python
Python als eine weit verbreitete und lizenzlos zugängliche Programmiersprache, die sich leicht erlernen und für numerische Berechnungen verwenden lässt, speziell um große Datenmengen zu sammeln, zu strukturieren, zu analysieren und zu visualisieren. NumPy- und SciPy-Bibliotheken bieten einen umfangreichen Satz numerischer Funktionen und Algorithmen, einschließlich linearer Algebra, Optimierung, Interpolation und mehr. Bei rechenintensiven Aufgaben kann Python im Vergleich zu kompilierten Sprachen langsamer sein. Obwohl NumPy und SciPy leistungsstark sind, bieten sie möglicherweise nicht das gleiche Leistungsniveau wie spezialisierte numerische CAS-Systeme
R
R ist eine beliebte Sprache für statistische Berechnungen und Datenanalysen mit umfangreichen Paketen und Bibliotheken. Es bietet eine breite Palette an Statistikfunktionen und Visualisierungsmöglichkeiten. R verfügt über eine starke Community und eine Fülle an Ressourcen zum Lernen und zur Unterstützung. Für allgemeine numerische Berechnungen, die über Statistik und Datenanalyse hinausgehen, ist R möglicherweise nicht so gut geeignet wie spezialisierte numerische CAS-Systeme.
Beliebte Computer-Algebra-Systeme für ad-hoc Einsätze
GeoGebra
GeoGebra ist vor allem als dynamische Mathematiksoftware bekannt, die verschiedene mathematische Darstellungen integriert, darunter Geometrie, Algebra, Analysis und Statistik. Es bietet Benutzern eine Plattform zum Erstellen und Bearbeiten geometrischer Objekte, zum Plotten von Funktionen und zum Durchführen symbolischer Berechnungen mithilfe des integrierten CAS. GeoGebra legt Wert auf interaktives Lernen und Visualisierung und ist daher bei Pädagogen und Studenten beliebt.
Mit den CAS-Funktionen von GeoGebra können Benutzer symbolische Berechnungen durchführen, beispielsweise Ausdrücke vereinfachen, Gleichungen lösen, Ableitungen finden und Integrale auswerten. Allerdings ist die CAS-Funktionalität im Vergleich zu dedizierten CAS-Tools eingeschränkt. Auch die Möglichkeiten komplexe numerische Berechnungen durchzuführen können auf Grund der zugrundeliegenden Spezialisierung nicht mit Wolfram Alpha oder Wolfram Mathematik mithalten. GeoGebra‘s CAS ist in eine umfassenderen mathematischen Visualisierungs- und Explorationsfunktionen integriert und ermöglicht es Benutzern, symbolische Berechnungen mit dynamischen geometrischen Konstruktionen und Visualisierungen zu verbinden.
Wolfram Alpha als CAS
Wolfram Alpha ist eine rechnergestützte Wissensmaschine, die darauf ausgelegt ist, Fragen zu beantworten und detaillierte Informationen zu einem breiten Themenspektrum bereitzustellen. Es beinhaltet ein leistungsstarkes CAS, das über traditionelle mathematische Berechnungen hinausgeht und ein breites Spektrum an Bereichen abdeckt, darunter Mathematik, Naturwissenschaften, Ingenieurwesen, Finanzen, Linguistik und mehr. Wolfram Alpha kann komplexe mathematische Operationen verarbeiten, sein Anwendungsbereich geht jedoch weit über die reine Mathematik hinaus.
Das CAS von Wolfram Alpha kann anspruchsvolle Berechnungen durchführen, die symbolische Manipulation, Gleichungslösung, Analysis, lineare Algebra, Statistik und mehr umfassen. Es bietet umfassendes integriertes Wissen und Algorithmen, die es ihm ermöglichen, komplexe Probleme in verschiedenen Disziplinen zu lösen. Im Gegensatz zu GeoGebra konzentriert sich Wolfram Alpha in erster Linie auf die Bereitstellung detaillierter Antworten und Erklärungen auf der Grundlage von Benutzeranfragen und nicht auf interaktive Erkundungen oder dynamische Visualisierungen.
Zusammenfassend lässt sich sagen, dass sowohl GeoGebra als auch Wolfram Alpha CAS-Funktionen bieten, GeoGebra sein CAS jedoch in eine umfassendere interaktive Mathematiksoftware integriert und dabei den Schwerpunkt auf visuelles Erkunden und Lernen legt. Im Gegensatz dazu ist Wolfram Alpha eine umfassende rechnerische Wissensmaschine, die neben ihren vielen Funktionen auch ein robustes CAS umfasst und als Werkzeug zum Erhalten detaillierter Antworten und Erklärungen in zahlreichen Bereichen dient.
Lernen mit Keyword basierten Suchmaschinen und organischen Treffern
Google, Bing, Yahoo oder Ecosia
Keyword basierte Suchmaschinen wie Google, Bing, Yahoo oder Ecosia durchforsten mit Hilfe eines Web-Crawlers zyklisch die ihnen zugänglichen Teile vom Internet und erstellen einen Index, der für jedes Schlüsselwort die relevanten Webseiten auflistet. Da Google 2022 einen Anteil von 95% der Suchanfragen im deutschen Sprachraum hatte, werden wir uns im Folgenden auf die Google Terminologie beschränken.
Sucht ein Nutzer der Suchmaschine nach einem bestimmten Schlüsselwort – z.B.: „Binomialkoeffizient“, werden auf der SERP (Search Engine Result Page) nach einem (geheimen) Ranking-Algorithmus aus dem Index die blauen Links auf die relevanten Webseiten ausgegeben. Man spricht dabei von organischen Suchtreffern. Klickt der Suchende den Link an, landet er auf der entsprechenden Website eines Inhalteanbieters irgendwo auf der Welt. Da mehr als ein Treffer angeboten wird, bleibt die Meinungsvielfalt gewahrt.
2012 haben die keyword-basierten Suchmaschinen bezüglich der Strukturierung von Daten aufgerüstet. Oberhalb der organischen Treffer gibt Google auf der SERP, abgesehen von bezahlter Werbung, mehrere Boxen aus, deren Inhalt von Google generiert wird. D.h. Google verlinkt nicht mehr auf externe Inhalte, sondern generiert die Inhalte selbst. Die Quellen werden möglichst unauffällig angegeben und es ist nicht die Absicht von Google, dass Nutzer zum eigentlichen Inhalteanbieter weitersurft. Der Nutzer bleibt im Ökosystem von Google und es fällt kaum mehr Traffic für externe Webseiten an, die Meinungsvielfalt bleibt auf der Strecke.
- Direkt Answer, beantwortet einfache Suchanfragen, die über ein gigantischem Suchvolumen verfügen direkt, z.B.: "km Meilen". Der Nutzer bleibt im Google Ökosystem.
- Knowledge Panel bzw. Informationen aus dem Knowledge Graph, damit werden die auf verschiedenen Webseiten gefunden Informationen automatisch von Google zusammengefasst. Die Nutzer erhalten einen schnellen Überblick über allgemeine Themen, ohne auf externe Webseiten zu surfen. Hier werden ab 2023 wohl KI generierte Texte den Nutzer noch stärker zum Verweilen im Google Ökosystem verleiten.
- Featured Snippets, damit werden Auszüge aus einer durch Favicon und URL grundsätzlich identifizierbaren externen Webseite in Form einer Antwort auf die sehr konkrete Suchanfrage zusammengefasst. Trafficstarke Featured Snippets bringen viel organischen Traffic auf die Website des Inhalte-Erstellers. Hier werden ab 2023 wohl KI generierte Texte den Nutzer noch stärker zum Verweilen im Google Ökosystem verleiten.
- People Also Ask - Boxen, damit werden ähnliche Fragen beantwortet, die für den Nutzer ohne dessen Zutun die Suchanfrage verfeinern oder leicht abwandeln.
D.h. der Nutzer erhält eine erste oberflächliche und natürlichsprachige Antwort auf seine Suchabfrage bereits direkt durch Google, und zwar ganz oben auf der Trefferseite, noch vor den organischen Treffern. Der Nutzer "erspart" es sich dadurch auf die der Antwort zugrunde liegende Website zu surfen, was den Webseiten, welche die Inhalte aufwendig erstellt haben, um die Besucher und die damit verbundenen Vermarktungsmöglichkeiten bringt. An dieser Stelle sei vor einem Informationsmonopol durch Google, Bing, Yandex und Baidu gewarnt!
2024 hat Google auf den SERPs seiner Suche die
- AI Overviews eingeführt, die oberhalb der organischen Suchergebnisse ausgespielt werden. Die zugrundeliegende Google SGE (Search Generative Experience) verfolgt das Ziel, die Suchergebnisse durch präzise Antworten zu verbessern, indem die Informationen aus einer Vielzahl von Quellen zusammengefasst werden. Also quasi ein "best-of-Webpages". Es werden zwar noch Quellen zitiert aus deren Inhalten die AI Overview generativ von Google erzeugt wurde, aber Johannes Beus von SISTRIX berichtet in seinem Monatsrückblick vom Oktober 2024 über erste Analysen aus dem Vereinigten Königsreich: Während in den organischen Treffern für UK rund 18 Millionen Domains aufscheinen, reduziert sich deren Anzahl bei den Featured Snippets auf 490.000 und halbiert sich nochmals bei den in den AI Overviews verlinkten Domains.
Man könnte sagen: Das Nutzererlebnis wird durch die Search Generative Experience in den SERP zwar (scheinbar) besser, dies geht aber zu Lasten der Informationsvielfalt. Google bestimmt zunehmend, was eine nützliche Information ist und baut ein Monopol auf einfach zugängliche Information auf.
Der Betrieb eines Indexers ist teuer, daher gibt es weltweit nur 4 große Suchindizes (Google und Bing aus den USA; Yandex aus Russland bzw. den Niederlanden und Baidu aus China) die auf Grund ihrer Dominanz das Potential haben, die gesellschaftliche Willensbildung zu beeinflussen. Daher fördert die EU derzeit den Aufbau eines europäischen Suchindex.
Das Training einer KI und deren Betrieb in einem Rechenzentrum sind ebenfalls sehr teuer, sodass es auch hier vor einem Informationsmonopol gewarnt werden muss.
Lernen mit wissensbasierten semantischen Suchmaschinen
Wolfram Alpha - als semantische Suchmaschine
Wissensbasierte semantische Suchmaschinen wie Wolfram Alpha suchen nicht nach einzelnen Schlüsselwörtern, sondern nach deren Bedeutung („Notable people born in Vienna“ wird zerlegt in „City=Vienna“ & „notable people born in city“) und nützten dabei durch „Data Curators“ händisch ausgewählte vertrauenswürdige Datenquellen, etwa von Statistischen Zentralämtern. Es kommt kein Indexer zum Einsatz.
Als Ausgabe erhält der Nutzer keine Links auf die Datenquellen wie bei Google, aber auch keinen Text in natürlicher Sprache wie bei ChatGPT, sondern ein Set an strukturierten Daten.
Bei der Suchfunktionalität von Wolfram Alpha handelt es sich um ein wissensbasiertes System, welches formalisierte Regeln und Logiken verwendet, um Fragen faktenbasiert zu beantworten. Der Nachteil dieses Ansatzes ist, dass die Suchmaschine komplex formulierte sprachliche Anfragen nicht verarbeiten kann und nur auf Fragen aus ausgewählten Wissenschaften eine Antwort liefern kann.
Mathematik Lernen mit KI basierten Sprachmodellen
ChatGPT, Gemini, Copilot und Claude von Anthropic
KI-basierte Sprachmodelle vom Typ LLM (Large Language Model) wie ChatGPT von OpenAI, Gemini (ehemals Bard) von Google oder Copilot von Microsoft bzw. Claude von Anthropic wurden vorab mit gigantischen Textmengen trainiert. Sie nützen neuronale Netze, um Beziehungen zwischen einzelnen Worten und Texten zu erfassen. Basierend auf Wahrscheinlichkeiten und Modellen von Wortabfolgen, erzeugen sie neue Texte und geben diese dann in natürlicher Sprache aus, sodass der Eindruck eines Gesprächs („Chat“) entsteht.
Während LLM basierte KIs einen Text schreibt, evaluiert es auf der Basis eines komplexen Sprachmodells mit Milliarden an Parametern vor jedem neuen Wort, welche Wörter mit der größten Wahrscheinlichkeit auf den bisher geschriebenen Satzteil folgen sollten um zur Fragestellung zu passen. Ziel ist es, wortweise einen sinnvollen Satz bzw. eine kontextbezogene Abfolge von Sätzen auszugeben.
Sprachbasierte generative KIs, bei der eine künstliche Intelligenz vom Typ „Large Language Model (LLM)“ mit dem Nutzer unter Zuhilfenahme einer Chatoberfläche kommuniziert, können ohne Plugin, also Schnittstellen zu einem externen CAS, grundsätzlich nicht rechnen!
Das kann sich auch so lange nicht ändern, als LLMs auf stochastischen Modellen basieren. D.h. sie erzeugen eine Wahrscheinlichkeitsverteilung von möglichen Antworten.
Die Fähigkeiten sind bei Texten über mathematische Inhalte ausreichend:
1. Beispiel: Fragt man ChatGPT: „Wofür dient der Binomialkoeffizient“ so erhält man eine brauchbare Antwort: „Der Binomialkoeffizient, oft mit dem Symbol "n über k" oder "C(n,k)" dargestellt, ist eine mathematische Funktion, die in der Kombinatorik und Wahrscheinlichkeitstheorie weit verbreitet ist. Er dient dazu, die Anzahl der Möglichkeiten zu berechnen, k Elemente aus einer Menge von n Elementen auszuwählen, ohne die Reihenfolge zu berücksichtigen… Die Berechnung des Binomialkoeffizienten erfolgt in der Regel mithilfe der Kombinatorik-Formel: \(C\left( {n,k} \right) = \left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) = \dfrac{{n!}}{{k!\left( {n - k} \right)!}}\)
In der weiteren Antwort kommt aber auch der Begriff „Binomiales Experiment“ vor. Fragt man nach, ob ein „Binomiales Experiment“ dasselbe wie eine „Bernoulli-Kette“ ist, so verfängt sich ChatGPT in Widersprüchen ….
2. Beispiel: Fragt man ChatGPT: "Wieviel ist 1+1?“, so erhält man als Antwort jenes Resultat, das ChatGPT am häufigsten in den Daten gefunden hat, mit denen es trainiert wurde: „1+1 ergibt 2“. Und müsste eigentlich hinzufügen: „Wahrscheinlich“.
Die Fähigkeiten sind nicht ausreichend, für Rechenaufgaben, die eine exakte Antwort benötigen.
3. Beispiel: Hat ChatGPT das Resultat aber noch nie gelesen, fängt es an zu raten: „Wieviel ist \root 5 \of {147,95} =“. Die Antwort lautet „Die fünfte Wurzel von 147,95 beträgt ungefähr 2,364“, was nicht wirklich brauchbar ist, denn: \(\sqrt[5]{{147,95}} \approx 2,71658\)
4. Beispiel: (verkürzter) Dialog mit Copilot am 26.6.2024 :
- Ich: "Zeige die schwache Goldbachvermutung für die Zahl 13"
- Copilot: "Natürlich! Hier ist die Darstellung gemäß der schwachen Goldbachvermutung für die angegebene Zahl: 13=2+2+3+6; Summe von vier Primzahlen; Die schwache Goldbachvermutung besagt, dass jede ungerade Zahl größer als 5 als Summe dreier Primzahlen dargestellt werden kann. ...
- Ich: "Das ist falsch, für 13 verwendest du nicht 3 Primzahlen, sondern 4 Zahlen, wobei 6 keine Primzahl ist"
- Copilot: "Du hast absolut recht, und ich entschuldige mich für den Fehler in meiner vorherigen Antwort. Vielen Dank für die Korrektur! Lassen Sie uns die schwache Goldbachvermutung für die Zahl 13 erneut betrachten: 13=2+2+3+6; Summe von vier Primzahlen: 2, 2, 3 und 6. Vielen Dank nochmals für den Hinweis, und ich hoffe, diese Antwort ist korrekt und hilfreich!"
- Ich: "Das ist die gleiche falsche Antwort, für 13 verwendest du nicht 3 Primzahlen, sondern 4 Zahlen, wobei 6 keine Primzahl ist."
- Copilot: "Vielen Dank für deine Geduld, und ich entschuldige mich für die wiederholten Fehler in meinen vorherigen Antworten. Lassen Sie uns die schwache Goldbachvermutung für die Zahl 13 erneut betrachten: 13=2+11. Summe von zwei Primzahlen 2 und 11. Ich hoffe, diese Antwort ist korrekt und hilfreich!"
- Ich: "Leider nein!"
Was zeigt uns das Beispiel:
- Copilot sagt korrekt, dass es sich bei der schwachen Goldbachvermutung um die Summe aus 3 Primzahlen handeln muss, weil sich dieser einfache Text oft in der Literatur findet.
- Copilot nennt aber die Summe aus 4 Zahlen, von denen eine keine ("6") Primzahl ist. Später nennt es die Summe aus 2 Zahlen. Dh es versteht die Goldbachvermutung überhaupt nicht.
- Im 3. Anlauf werden 2 Primzahlen genannt. Dh das LLM kann nicht bis 3 zählen. Es versteht auch den zweifachen Hinweis nicht, dass nicht 4 sondern 3 Zahlen aufsummiert werden sollen.
- Mögliche richtige Antworten wären übrigens : 13=3+3+7 oder 13=3+5+5. Wenn Copilot diese Zeilen hier liest, gibt es in Zukunft hoffentlich eine korrekte Antwort... zumindest für die Goldbach-Zerlegung der Zahl 13.
Rechenaufgaben erfordern ein Verständnis der zugrundeliegenden Mathematik, während KIs die auf LLM basieren, Muster in Trainingsdaten erkennen und daraus, basierend auf einem Algorithmus, ein Modell parametrieren.
Stellt ein Nutzer eine Frage, versucht die KI mit Hilfe des vorab parametrieren Modells eine wahrscheinliche Antwort zu finden, ohne jegliches Verständnis der zugrundeliegenden Kausalitäten, – etwa von Gleichungen oder Formeln.
Bei den meisten Aufgabestellungen in der Schulmathematik hat der Ersteller darauf geachtet, dass ein „schönes“ Ergebnis rauskommt.
„Berechne an Hand von konkreten Zahlenbeispielen für ein rechtwinkeligen Dreieck aus den gegebenen Katheten a, b die zugehörige Hypotenuse c“. Natürlich gibt es dafür unendlich viele Zahlen-Tripel, aber es gibt nur eine Handvoll „schöner“ Tripel, also solche, bei denen die Quadratwurzel aus der Summe der beiden Quadrate zweier ganzer Zahlen wieder eine ganze Zahl ergibt. Mögliche Antworten sind :
- 3 und 4 liefern 5
- 5 und 12 liefern 13
- 6 und 8 liefern 10
- 8 und 15 liefern 17
- 7 und 24 liefern 25
- 20 und 21 liefern 29
- 9 und 40 liefern 41
- 28 und 45 liefern 53
- usw
Die Wahrscheinlichkeit, dass eine sprachbasierte generative KI, genau diese wenigen, speziellen Tripel in den Trainingsdaten findet, ist durchaus hoch, da sie sich in der Literatur bereits seit der Antike immer wieder finden.
Wir haben obige Aufgabe aber auch in Textform verfasst! Das „liegt“ einer sprachbasierten KI natürlich… Hätten wir statt dem Text eine Illustration mit einem rechtwinkeligen Dreieck verwendet, hätte die KI zunächst mit Hilfe einer Bilderkennungssoftware die Illustration in einen Text umwandeln müssen, was ausgesprochen fehleranfällig ist.
Man kann das mal anhand eines Bildes mit Midjourney und dem Befehl /describe probieren. Erst mit dieser Beschreibung kann die sprachbasierte KI im Modell mit der Suche beginnen.
Das erklärt auch, warum speziell ehemalige Maturaaufgaben zu erfolgreichen Antworten führen. Exakt diese Angaben samt korrektem Lösungsweg finden sich dutzendfach im Internet, etwa auf unserer Website.
Mehr noch: Auf maths2mind liegen sogar die zugehörigen Illustrationen im vektoriellen .svg-Format vor, in dem grafische Elemente in XML, einer durch Menschen und Maschinen lesbaren Textform, abgelegt sind.
Man könnte sagen, KIs die auf LLMs basieren, eignen sich dann zum Schummeln bei Matheaufgaben, wenn die KI selbst Schummeln kann. Denn eines kann eine sprachbasierte generative KI nicht – nämlich rechnen!
Text to "Wolfram Language“
Wir haben bisher immer wieder betont, eine „sprachbasierte generative KI“ kann nicht rechnen. Natürlich hat sich dafür auch schon ein „Workaround“ gefunden. „Plugins“ wie etwa „Wolfram GPT“ übersetzen den vom LLM (Large Language Model) des Chatbots zugelieferten linguistischen Text in die mathematische Sprache namens „Wolfram Language“, mit der dann wiederum ein CAS wie Wolfram Mathematica oder Wolfram|Alpha aufgerufen wird. So erhält die KI Zugang zu leistungsstarken Berechnungen und Visualisierungen, basierend auf präziser Mathematik.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Risiken bei der Nutzung von KI
Die zunehmende Nutzung von LLM (Large Language Model) basierter KI birgt sowohl Chancen als auch Risiken. Nachfolgend machen wir und einige der Risken bewusst.
Monopolisierung von Wissen
So begeistert Lernende über den auf LLMs basierenden Durchbruch bei KI basierten Recherchetools auch sein mögen, so sei dennoch vor Missbrauch gewarnt:
- Im Oktober 2022 hat der Tech-Milliardär Elon Musk Twitter – nunmehr X – um unvorstellbare 40 Milliarden Euro gekauft und nach seinen ganz persönlichen Vorstellungen dieses weltumspannende Informationsnetzwerk umgestaltet.
- Im September 2023 kamen Gerüchte auf, Elon Musk als Gründer und CEO von SpaceX, dem Mutterunternehmen von Starlink, hätte persönlich angeordnet das Satellitenkommunikationsnetzwerk in der Umgebung der russisch besetzen Krim Halbinsel abzuschalten, um einen potenziellen Angriff der Ukraine auf die dort stationierte russische Flotte zu verhindern.
Diese beiden Beispiele zeigen, welchen Einfluss bereits heute ein einzelner Mensch auf die freie Meinungsbildung und auf den Verlauf eines Krieges haben könnte.
- Stellen wir uns vor, ein anderer Tech-Milliardär hatte vergleichbaren Einfluss auf die Trainingsdaten einer LLM basierten KI. Stellen wir uns weiter vor, er würde beispielsweise daran glauben, dass Gott die Erde wörtlich in sieben Tagen erschaffen hat und damit Darwins Theorie von der Evolution negieren. Könnte er diese Meinung auf Grund seines Aktenanteils durchsetzen und Darwins Theorie fortan nicht mehr zu den Trainingsdaten gehören, so würde auch die KI diese fragwürdige "sieben Tage" Schöpfungstheorie mit Nachdruck gegenüber seinen Nutzern vertreten.
Risiko systematischer Fehlinformation bei Suchindex basierte Recherche
Die Nutzung von schlüsselwortbasierten Suchmaschinen wie Google zur Informationsbeschaffung beim Lernen ist uns heute bestens vertraut. Der Nutzen ist unbestritten, die größte Gefahr liegt in der weltweiten Konzentration des Angebots auf nur 4 Betreiber von Suchindizexen (Google, Bing, Yandex und Baidu).
Bislang gibt der Nutzer einen Suchbegriff als Anfrage ein und erhält als Antwort eine Liste mit relevanten Links. Aus dieser Vielzahl an möglichen Antworten sucht er sich dann die passende Antwort heraus, indem er den entsprechenden Link anklickt und so auf die Website des Informationserstellers gelangt. Auf Grund der Impressumspflicht weiß der Nutzer, von welchem Menschen die Informationen stammen und kann sich selbst eine Meinung über deren Qualität bilden.
Risiko systematischer Fehlinformation bei Sprachmodell basierte Recherche
Seit der Einführung von ChatGPT, dem Sprachmodell von Open AI, basiert die Anfrage nicht mehr auf einem Schlüsselwort oder Satzteil, sondern auf mehreren ausformulierten Sätzen, mit denen die Suchintention genau abgegrenzt werden kann.
Die Antwort ist aber keine Vielzahl an Verweisen auf individuelle Websites, sondern ein eloquent ausformulierter Text aus mehreren Sätzen bzw. Absätzen, jedoch die zugrunde liegenden Quellen selbst anzusehen, sollten die Quellen überhaupt angegeben sein...
Der Nutzer kann auch um eine Korrektur, Vereinfachung oder Vertiefung der Antwort bitten und erhält so, wie bei einem Dialog zwischen Menschen, eine kontextbezogene Antwort. Super!
Weniger Super: Die Antwort ist allerdings nicht einmal ein „best-off“ aller (mitunter ungenannten) Quellen, sondern – man lasse sich das auf der Zunge zergehen – „Jene Abfolge von Worten, mit der höchsten statistischen Wahrscheinlichkeit, für eine sinnvoll formulierte Antwort“. ChatGPT kann 1+1 nicht (!) berechnen, es kann nur auf Grund von Trainingsdaten sagen, dass es statistisch wahrscheinlich ist, dass „1+1=2“ gilt.
Sind die Trainingsdaten zudem nicht objektiv, sondern tendenziell (rassistisch, frauenfeindlich, politisch geschönt, verschwörerisch, …), so ist die Antwort ebenfalls nicht objektiv. Bei der indexbasierten Suche hingegen deckt die Liste an Links auf verschiedene Websites ein breites Meinungsspektrum ab.
Kommen Informationen in den Trainingsdaten nicht vor, so fabuliert ChatGPT. Sprachmodelle können grundsätzlich und für alle Zukunft gar nicht entscheiden, ob ihre Antwort richtig ist oder falsch ist, denn sonst müsste die KI bei der Bewertung der Antwort über mehr Wissen verfügen als unmittelbar zuvor bei der Formulierung der Antwort.
Unterscheidung zwischen Wahrscheinlichkeit und Wahrheit
LLM erstellen Antworten auf Basis von aus Trainingsdaten gelernten Wahrscheinlichkeiten für sinnvolle Wortabfolgen, nicht aber auf Basis des zugrunde liegenden Wahrheitsgehalts. Durch diesen Ansatz neigen LLM bei Antworten systembedingt zum „Halluzinieren“ und „Schwafeln“.
Erklärbare KI (XAI - Explainable Artificial Intelligence)
Die Probleme beim Halluzinieren von LLM werden dadurch verschärft, dass es uns Menschen auf Grund der Komplexität der Antwortfindung einer KI, die auf einer gigantischen Black-Box, in Form eines neuronalen Netzwerk mit Maschinenlernen basiert, gar nicht möglich ist, nachzuvollziehen, wie die KI zu der konkreten Antwort gekommen ist. Bei XAI versucht man aus einem bereits trainierten neuronalen Netz die zugrunde liegenden Regeln für Menschen verständlich abzuleiten.
Mist-rein → Mist raus
Von wesentlicher Bedeutung für die Qualität der Antworten eines LLM ist die Qualität der Trainingsdaten. Beinhalten die Trainingsdaten falsche, trendige oder diskriminierende Aussagen, darf man von der Antwort nichts Besseres erwarten. Darin liegt auch die Problematik LLM basierte KIs online auf das Internet zugreifen zu lassen. Nicht jeder ist mit der unentgeltlichen Nutzung seiner Daten durch KI-Betreiber einverstanden, und es kommen zunehmend „vergiftete“ Daten ins Netz. Dabei werden Daten absichtlich so verfälscht, dass eine KI in die Irre geführt wird und meinen einen Hund auf einem Bild zu identifizieren, wo eigentlich eine Katze abgebildet ist
Zensur von Daten
Wenn Trainingsdaten ausgewählt werden, entspricht dies einer Wissenskontrolle. Wenn die Trainingsdaten hingegen nicht ausgewählt werden, sondern frei aus dem Web stammen, besteht die Gefahr des Erlernens von Vorurteilen.
Themenfilter
Sowohl bei der Auswertung von Eingaben als auch bei der Ausgabe von Antworten arbeiten die Betreiber von LLMs mit Verbotslisten. Verbotslisten umfassen Wörter, Phrasen oder Muster, die von einem LLM nicht verarbeitet werden dürfen, um sicher zu stellen, dass keine unerwünschten, unangemessenen oder diskriminierende Inhalte erzeugt werden. Andererseits schränken Verbotslisten die Meinungsfreiheit ein und fördern Zensur.
Zusammenbruch des Geschäftsmodells für die Bereitstellung neuen Wissens im Web
Die KI basierten digitalen Assistenten, die allwissend über das gesamte täglich erforderliche Wissen verfügen, machen klassische Websites überflüssig. Sie entziehen ihnen jeglichen Traffic, wodurch es für die Masse der Sitebetreiber keine Motivation mehr gibt, derartige Websites weiterhin zu erstellen und zu pflegen. Es werden nur mehr Websites überbleiben, welche Produkte oder Informationen präsentieren, deren Relevanz über einen Tag nicht hinausgehen (Sportresultate).
Aber auch da droht den kleinen Websites Ungemach, durch die Marktmacht von Amazon und Booking.com. Eventuell steht der Zusammenbruch des World Wide Webs bevor, welches weltweit durch 10 Mega-Sites abgelöst und beherrscht wird.
Generative KI und das Urheberrecht
Wir wollen an dieser Stelle nicht schwarzmalen. Generative KI liefert oft recht brauchbare Resultate. Gehen wir daher kurz auf die Rechte an diesen KI generierten Resultaten ein:
Urheberrecht an Trainingsdaten
Wenn eine KI unentgeltlich mit urheberrechtlich geschützten Werken trainiert wurde, stellt sich die Frage, ob durch die Nutzung der KI nicht Urheberrechte verletzt werden. 2024 laufen in den USA diesbezügliche Sammelklagen.
Die generative Bild-KI „Adobe Firefly“ wurde mit Adobe Stock Bildern, deren Urheber entschädigt wurden, sowie mit gemeinfreien Inhalten und mit Werken trainiert, deren Urheberrechte schon abgelaufen sind.
Urheberrecht an den generierten Daten
Das Urheberrecht gehört demjenigen, der ein Werk mit der erforderlichen Schöpfungshöhe erstellt hat, also z.B.: dem Fotografen. Wem gehört nun das Urheberrecht an KI-generierten Inhalten, dem Betreiber der KI, dem Prompt Engineer, speziell wenn der Prompt sehr komplex formuliert ist, eine eigene individuelle Idee umfasst, oder sind die Werke gar gemeinfrei? Auf jeden Fall lohnt sich ein Blick in die AGBs des KI-Betreibers.
Kommerzielle Nutzung der generierten Bilder
Die kommerzielle Nutzung KI-generierter Bilder wird zwischen dem Betreiber und dem Abonnenten der KI vertraglich in den AGBs geregelt.
KI als disruptive General Purpose Technologie
Disruptive Technologien verändern spezifische Aspekte bestehender Technologie und haben das Potential diese aus dem Markt zu verdrängen. Generative KI gilt als eine disruptive Technologie, durch welche die bisherige Erstellung von Texten, Musik, Bildern und Videos radikal verändert wird, indem menschliche intellektuelle Leistung durch maschinelle Leistung ersetzt wird.
Evolutionäre technologische Entwicklungen
Evolutionäre technologische Entwicklungen folgen einem stetigen Pfad an Verbesserungen, bei dem bestehende Technologien, im Laufe der Zeit, durch inkrementelle Schritte, kontinuierlich weiterentwickelt werden. Dieser Prozess baut auf vertrauten Vorgängermodellen auf, wobei jedes folgende Modell eine Verbesserung des vorherigen darstellt. Bei evolutionären Entwicklungen bleibt für die Nutzer bereits Vertrautes und Bewährtes erhalten und bilden dennoch das Fundament für kontinuierliche Verbesserungen. Die Weiterentwicklung von Innovationen zufolge evolutionärer technologischer Entwicklungen haben einen linearen Charakter. Beispiel: Auf den VW Golf 5 folgt der VW Golf 6.
Revolutionäre technologische Entwicklungen
Revolutionäre Entwicklungen führen zu radikalen Veränderungen und stellen bestehende Paradigmen in Frage. Einerseits stellen sie einen raschen dramatischen Umbruch dar und andererseits haben sie weitreichende Auswirkungen auf Wirtschaft, Technologie, Arbeitsmarkt und Gesellschaft. Die Weiterentwicklung von Innovationen zufolge revolutionärer technologischer Entwicklungen haben einen exponentiellen Charakter. Sie haben das Potential Produktivität sprunghaft zu steigern und damit punktuellen Wohlstand zu erzeugen, der jedoch oft zu Lasten von breiten Schichten an Erwerbstätigen geht, und neue Einkommensungleichheiten schafft. Beispiel: Illustrationen werden nicht mehr durch Menschen aus grafischen Elementen zusammengesetzt, sondern gemäß einer verbalen Beschreibung aus Rauschen erzeugt.
Sie sind daher verbunden mit Ängsten vor sozialer und wirtschaftlicher Ungerechtigkeit, denen man durch Regulierung und Politik so entgegenwirken sollte, dass die Vorteile der neuen Technologien einer breiten Bevölkerungsschicht zugutekommen.
Auf dem Weg zur Industrie 4.0 als General Purpose Technologie
General Purpose Technologie
Unter dem Ausdruck „General Purpose Technologies“ fasst man bisherige revolutionäre technologische Fortschritte zusammen, die auf Grund ihrer exponentiellen und globalen technologischen Umbrüche das Potential haben, tiefgreifende und weitreichende Veränderungen in Wirtschaft und Gesellschaft herbeizuführen. Dies geht weit über die disruptive Veränderung spezifischer Technologien hinaus.
Beispiele für derartige General Purpose Technologies sind:
Mechanisierung durch die Dampfmaschine: (1770, Watt)
Sie prägte die erste industrielle Revolution, in dem sie den Übergang von handwerklicher auf industrielle Produktion ermöglichte. Die Dampfmaschine revolutionierte durch die damit einher gehende Mechanisierung die Landwirtschaft, die produzierende Industrie und das Transportwesen.
Elektrifizierung: (1882, Edison)
Sie prägte die zweite industrielle Revolution, weil elektrischer Strom den Transport und die Nutzung von Energie revolutionierte. Sie ermöglichte kostengünstige Motoren, Beleuchtung und die Fernkommunikation durch Telefon und Radio, wodurch sich der Lebensstandard breiter Bevölkerungsschichten erheblich verbesserte.
Digitalisierung: (1950, IBM bzw. 1990, Berners-Lee)
Sie prägte die dritte industrielle Revolution, durch den Übergang von analogen zu digitalen Techniken. Lernende sind nicht mehr darauf angewiesen Bücher physikalisch in die Hand zu bekommen, sondern ganze Bibliotheken sind digital 24/7 verfügbar. Computer, das Internet, HTML-basierte Webbrowser, Keyword basierte Suchmaschinen mit Links auf organische Treffer revolutionierten die Art und Weise wie Menschen und Maschinen Informationen verarbeiteten, bereitstellten und teilten.
Erfolgten die ersten drei industriellen Revolutionen noch mit einem zeitlichen Abstand von jeweils 100 Jahren, bringt die vierte industrielle Revolution - Industrie 4.0 – staccatoartig technologische und wirtschaftliche Umbrüche, auf breiter Front und mit exponentieller Geschwindigkeit.
Industrie 4.0: (2010)
Vor allem die Auswertung von Datenmengen, deren Umfang vom menschlichen Gehirn nicht mehr verarbeitet werden kann, begründet die vierte industrielle Revolution: Big Data, IoT (Internet der Dinge), Maschinelles Lernen und darauf aufbauend KI (Künstliche Intelligenz; Englisch: AI), aber auch Augmented bzw. Virtual Reality (erweiterte Realität) und autonomes Fahren sind zu alltäglichen Buzzwords geworden.
Hinzu kommt der signifikante Ersatz von fossiler durch erneuerbare Energie im Rahmen des Kampfs gegen den Klimawandel, sowie der Einsatz von Biotechnologie, basierend auf der Genomsequenzierung, im Bereich der Medizin.
Um Menschen auf diese disruptiven Veränderungen vorzubereiten, und Ängste und Weltuntergangsmythen zu egalisieren, sind wichtige Schritte erforderlich, an denen wir mit unserer Website maths2mind.com durch Bildung, Weiterbildung und Aufklärung mitwirken wollen.
Es ist wichtig, dass nicht nur Experten und Führungskräfte die Wirkungsprinzipien von Industrie 4.0 verstehen, sondern dass dieses Wissen einer breiten Öffentlichkeit niederschwellig zugänglich gemacht wird. Auch wenn Politiker es als ihre Aufgabe sehen mögen, bestehendes im Sinne ihrer Wählerschaft zu bewahren, sind Transparenz, Partizipation und Mitbestimmung in einer globalisierten Welt wohl zukunftsweisender.
Weiterbildung ist aber nicht nur eine Bringschuld durch Innovatoren, sondern auch eine Holschuld des Einzelnen, durch die Bereitschaft zu lebenslangem Lernen.
Künstliche Intelligenz und Maschinelles Lernen
Intelligenz
ist ein Begriff, der verschiedene Aspekte des geistigen Vermögens einer Person oder eines Systems beschreibt. Es ist die Fähigkeit, Informationen zu verstehen, zu verarbeiten, zu analysieren, zu lernen, Probleme zu lösen, zu planen, zu denken und zu kommunizieren.
Traditionell wird Intelligenz oft anhand der Fähigkeit gemessen, logisch zu denken, komplexe Probleme zu lösen und Wissen anzuwenden. Diese Art der Intelligenz wird oft als "kognitive Intelligenz" oder "intellektuelle Intelligenz" bezeichnet. Sie kann durch Intelligenztests gemessen werden, die verschiedene Aufgaben und Fragen enthalten, um die Fähigkeiten einer Person in Bereichen wie sprachlicher Ausdruck, mathematisches Denken, räumliches Denken und problemlösendes Denken zu bewerten.
In jüngerer Zeit haben Forscher jedoch erkannt, dass Intelligenz vielfältiger ist und nicht allein auf die traditionelle kognitive Fähigkeit beschränkt sein sollte. Es gibt andere Arten von Intelligenz, wie emotionale Intelligenz, soziale Intelligenz, körperliche Intelligenz und kreative Intelligenz. Diese Formen der Intelligenz beziehen sich auf die Fähigkeit, Emotionen zu erkennen und zu regulieren, Beziehungen zu anderen Menschen aufzubauen und aufrechtzuerhalten, körperliche Fähigkeiten zu koordinieren und kreative Problemlösungen zu finden.
Es ist wichtig anzumerken, dass Intelligenz ein komplexes Konzept ist und weiterhin Gegenstand von Diskussionen und Debatten in der wissenschaftlichen Gemeinschaft ist. Es gibt keine allgemein akzeptierte Definition von Intelligenz, und verschiedene Theorien und Modelle wurden entwickelt, um sie zu erklären.
Künstliche Intelligenz (KI bzw. AI)
bezieht sich auf die Entwicklung von Computersystemen oder Maschinen, die in der Lage sind, Aufgaben auszuführen, die normalerweise menschliche Intelligenz erfordern würden. Das Ziel der künstlichen Intelligenz besteht darin, Maschinen so zu programmieren oder zu entwickeln, dass sie lernen, verstehen, denken und Entscheidungen treffen können.
Unter einer künstlichen Intelligenz versteht man ein Computerprogramm, welches genau definierte Aufgaben ausführen kann, für die normalerweise menschliche Intelligenz erforderlich wäre. Die Betonung liegt auf „genau definierte Aufgaben“: Ein Schachcomputer auf Großmeisterniveau kann nicht unbedingt auch die Schachfiguren am Brett greifen, anheben, bewegen und wieder abstellen, was jedes Kind kann.
Zudem verändert sich im Laufe der Zeit unsere Einschätzung darüber, was wir als künstliche Intelligenz wahrnehmen oder eben nicht, und zwar indirekt proportional zur Vertrautheit mit der jeweiligen Technologie.
Ein Beispiel zur zeitabhängigen Wahrnehmung von künstlicher Intelligenz
- Vor 10 Jahren hat man Navigationssysteme im Auto noch als „intelligent“ bezeichnet.
- Heute versteht man sie eher rational als eine Kombination aus GPS-Signalen samt genauer Zeitmessung, einer Straßenrouten-Datenbank, einem Algorithmus aus der Graphentheorie zur Berechnung des kürzesten Weges (etwa der Dijkstra Algorithmus) und eventuell noch Echtzeit-Verkehrsfluss-Informationen, sowie einer Mensch-Maschine Schnittstelle, die heute oft das vertraute und allgegenwärtige Smartphone mit der Anwendung Google Maps ist.
Das ehemals intelligente System ist 10 Jahre später zu einem dummen Rechenknecht degeneriert.
- Heute, 02.2024, versteht man die Weiterentwicklung der Navigationssysteme, nämlich selbstfahrende Autos, als intelligente Systeme.
Es gibt verschiedene Ansätze und Techniken in der künstlichen Intelligenz, darunter maschinelles Lernen, neuronale Netzwerke, Expertensysteme, natürliche Sprachverarbeitung und Computer Vision. Diese Techniken ermöglichen es Maschinen, aus Erfahrungen zu lernen, Daten zu analysieren, Muster zu erkennen, Probleme zu lösen und Entscheidungen zu treffen.
Maschinelles Lernen ist ein wichtiger Bereich der künstlichen Intelligenz, bei dem Algorithmen entwickelt werden, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Mustererkennungen zu treffen, ohne explizit dafür programmiert zu werden. Durch die Verwendung großer Datenmengen und leistungsstarker Rechenressourcen können maschinelle Lernmodelle komplexe Aufgaben wie Bilderkennung, Spracherkennung, Übersetzung, personalisierte Empfehlungen und autonomes Fahren durchführen.
Künstliche Intelligenz wird in einer Vielzahl von Anwendungen eingesetzt, einschließlich Sprachassistenten, automatisierter Datenanalyse, medizinischer Diagnose, Robotik, Finanzwesen, Verkehr und vielen anderen Bereichen.
Obwohl künstliche Intelligenz viele Vorteile und Potenziale bietet, gibt es auch ethische und gesellschaftliche Fragen im Zusammenhang mit Datenschutz, Arbeitsplatzveränderungen, Verantwortlichkeit und dem potenziellen Missbrauch von KI-Systemen.
Der Turing-Test
ist ein bekannter Test, der von Alan Turing vorgeschlagen wurde, um die Fähigkeit einer Maschine zu überprüfen, intelligentes Verhalten zu imitieren und von einem menschlichen Beobachter nicht unterscheidbar zu sein. Der Test beinhaltet, dass ein menschlicher Prüfer über eine Textkommunikation mit einem Computerprogramm und einem anderen menschlichen Teilnehmer interagiert, ohne ihre Identitäten zu kennen. Wenn der Prüfer nicht in der Lage ist, den Computer vom Menschen zu unterscheiden, wird der Test als "bestanden" angesehen.
Stärken des Turing-Tests
- Praktische Anwendbarkeit: Der Turing-Test ermöglicht eine praktische Überprüfung der Fähigkeiten einer KI, menschliches Verhalten zu imitieren. Es stellt eine einfache und direkte Methode dar, um die Leistungsfähigkeit von KI-Systemen in Bezug auf sprachliche Kommunikation zu bewerten.
- Fokus auf Ergebnisse: Der Turing-Test konzentriert sich auf das Ergebnis und die Auswirkungen des intelligenten Verhaltens, anstatt auf die internen Mechanismen der Maschine. Es geht darum, ob die Maschine in der Lage ist, eine überzeugende Konversation zu führen, anstatt zu verstehen, wie sie das genau erreicht.
Schwächen des Turing-Tests
- Subjektivität: Die Beurteilung des Turing-Tests hängt von der Urteilskraft und dem Vorwissen des menschlichen Prüfers ab. Es kann zu unterschiedlichen Ergebnissen führen, da die Beurteilung subjektiv ist und von individuellen Einschätzungen und Erwartungen abhängt.
- Begrenzung auf sprachliche Fähigkeiten: Der Turing-Test legt den Schwerpunkt auf sprachliche Kommunikation und vernachlässigt andere Aspekte der Intelligenz, wie visuelle Wahrnehmung, körperliche Fähigkeiten oder kreatives Denken. Eine Maschine könnte den Turing-Test bestehen, indem sie eine überzeugende Konversation führt, aber in anderen Bereichen wie visuellem Verständnis oder Problemlösung möglicherweise nicht so leistungsfähig ist.
- Mangel an objektiven Kriterien: Es gibt keine eindeutigen objektiven Kriterien für das Bestehen oder Nichtbestehen des Turing-Tests. Die Debatte darüber, ob der Turing-Test ausreicht, um wahre Intelligenz zu bewerten, bleibt bestehen.
Insgesamt hat der Turing-Test eine wichtige Rolle bei der Diskussion und dem Verständnis von KI gespielt, aber er hat auch seine Einschränkungen und kann nicht als umfassende Methode zur Beurteilung der Intelligenz einer Maschine betrachtet werden.
Lernen
ist ein Prozess, bei dem Wissen, Fähigkeiten, Verhaltensweisen oder Konzepte erworben, verinnerlicht und angewendet werden. Es bezieht sich auf die Veränderung des Verhaltens oder der mentalen Repräsentationen einer Person aufgrund von Erfahrungen, Übung, Studium oder Beobachtung.
Lernen kann auf verschiedene Arten stattfinden:
- Assoziatives Lernen: Hierbei werden Verbindungen zwischen Reizen und Reaktionen hergestellt. Es umfasst klassisches Konditionieren, bei dem ein neutraler Reiz mit einem natürlichen Reiz gekoppelt wird, um eine konditionierte Reaktion auszulösen, und operantes Konditionieren, bei dem Verhaltensweisen durch Belohnung oder Bestrafung verstärkt oder gehemmt werden.
- Kognitives Lernen: Dieses umfasst das Verstehen von Informationen, das Erkennen von Mustern, das Problemlösen und das Anwenden von Konzepten. Es beinhaltet bewusstes Denken, Einsicht und die Nutzung von Gedächtnis- und Denkprozessen.
- Soziales Lernen: Hierbei erfolgt das Lernen durch Beobachtung und Nachahmung anderer. Es beinhaltet das Lernen von Verhaltensweisen, Normen, Werten und sozialen Fähigkeiten durch soziale Interaktionen.
- Emotionales Lernen: Emotionen können das Lernen beeinflussen, indem sie Gedächtnisbildung und Motivation beeinflussen. Emotionales Lernen bezieht sich auf das Erlernen von emotionalen Reaktionen, das Erkennen und Verarbeiten von Emotionen und die Regulierung von Emotionen.
Lernen kann bewusst oder unbewusst, absichtlich oder zufällig stattfinden. Es ist ein lebenslanger Prozess, der sowohl bei Menschen als auch bei Tieren stattfindet. Lernen ermöglicht es uns, uns an die sich ändernde Umwelt anzupassen
Maschinelles Lernen
Unter maschinellem Lernen versteht man einen Ansatz der künstlichen Intelligenz (KI), bei dem Computer die Fähigkeit entwickeln, aus Erfahrungen mit Daten zu lernen, ohne explizit für die jeweilige Problemlösung programmiert zu werden. Statt spezifischer Anweisungen, wie sie eine Aufgabe ausführen sollen, werden Algorithmen verwendet, um aus den Daten Muster, Zusammenhänge und Regeln abzuleiten.
Im maschinellen Lernen werden Modelle verwendet, um aus Trainingsdaten zu lernen und Informationen abzuleiten. Diese Trainingsdaten bestehen aus Eingabevariablen und den entsprechenden Ausgabevariablen oder Ergebnissen. Die Modelle werden darauf trainiert, die Muster in den Daten zu erkennen und Zusammenhänge zwischen den Eingabevariablen und den Ausgabevariablen zu lernen. Sobald das Modell trainiert ist, kann es auf neue, nicht gesehene Daten angewendet werden, um Vorhersagen oder Entscheidungen zu treffen.
Im maschinellen Lernen werden Computermodelle entwickelt, die in der Lage sind, automatisch aus Daten zu lernen und Vorhersagen oder Entscheidungen zu treffen. Dazu werden große Mengen an Daten verwendet, die als Trainingsdaten dienen. Diese Daten können strukturiert sein, wie z.B. Tabellen oder Datenbanken, oder unstrukturiert, wie z.B. Texte, Bilder oder Videos.
Maschinelles Lernen ist eine Schlüsseltechnologie für Systeme der künstlichen Intelligenz, gewissermaßen ihr Unterbau. Als maschinelles Lernen bezeichnet man jenen Prozess, bei dem das Verhalten eines Computerprogramms nicht durch einen menschlichen Programmierer festgelegt wurde, sondern das Programm – die KI - aus Trainingsdaten lernt, darin enthaltene Muster selbsttätig erkennt, um darauf aufbauend Aufgaben erfüllen zu können.
Maschinelles Lernen bewährt sich besonders dort, wo der menschlichen Intelligenz keine Regeln in Form von Ursache – Wirkungszusammenhängen zugänglich sind, oder die Datensätze unüberschaubar groß sind.
Es gibt KIs mit und solche ohne maschinelles Lernen.
KIs ohne maschinelles Lernen, Expertensystem
Bei KIs ohne maschinelles Lernen, sogenannten regelbasierten KIs, werden die Algorithmen vom Entwickler so programmiert, dass sie bestimmte Aufgaben erfüllen. Beispiele für solche regelbasierten Algorithmen sind Regression, Klassifikation, Clustering, Zeitreihen.
Wenn eine KI darauf abzielt das menschliche Wissen eines Experten, sogenanntes Domänen-Knowhow zu modellieren und zu replizieren, dann spricht man von einem Expertensystem.
KIs mit maschinellem Lernen
Bei KIs mit maschinellem Lernen findet das Computerprogramm die spezifischen Regeln durch selbstständiges Ausprobieren und Benchmarken an einem vorgegebenen Ziel selbst. Durch maschinelles Lernen können also Regeln gefunden werden, die dem Programmierer zuvor nicht zugänglich waren.
Maschinelles Lernen umfasst also die Fähigkeit des Programms Erfahrungen zu machen, in dem es Regeln sucht und findet, um die Zielerfüllung eigenständig zu verbessern, dazu passt es während eins Lernvorgangs die Parameter des Modells an. Beispiele für solche Algorithmen sind Entscheidungsbäume, k-nächste Nachbarn, Support-Vektor-Maschinen (SVM) und neuronale Netze.
Je nach der spezifischen Aufgabe und der Art der verfügbaren Trainingsdaten können verschiedene Lernmethoden verwendet werden, um optimale Ergebnisse zu erzielen.
Überwachtes maschinelles Lernen (Supervised Learning)
Beim überwachten maschinellem Lernen werden dem Algorithmus Daten mit „richtigen“ Lösungen zur Verfügung gestellt!
Daher teilt man die Trainingsdaten in 2 Kategorien: 70% Lerndaten und 30% Testdaten.
- Lerndaten: Anhand der Lerndaten lernt der Algorithmus Vorhersagen zu treffen, da ihm die richtige Lösung bereits mitgegeben wird.
- Testdaten: Anhand der Testdaten wird anschließend der Grad der Zielerreichung ermittelt. Daher spricht man von „überwachtem“ Lernen.
Beispiel:
- Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs samt Typbezeichnung bestehen.
- 700 Fotos samt Typbezeichnung werden dem Algorithmus als Lerndaten zur Verfügung gestellt.
- Den Testdaten, bestehend aus den restlichen 300 Fotos, die dem Algorithmus jedoch ohne Typbezeichnung vorgelegt werden, muss der Algorithmus die Typbezeichnung auf Grund der gelernten Regeln selbsttätig zuordnen.
- Der KFZ-Sachverständige überprüft anschließend den Erfolg in Prozent der richtigen Antworten.
Bei überwachtem Lernen sind sowohl Eingabemuster als auch die gewünschten Ausgabemuster bekannt. Das neuronale Netz vergleicht das berechnete Ausgabemuster mit dem gewünschten Ausgabemuster und passt die Gewichtungen zwischen den Neuronen entsprechend an. Dieses Verfahren ist effizient und schnell.
Es erfordert das Vorhandensein von Daten mit der „richtigen“ Antwort, sogenannte "gelabelte Daten", die mit menschlicher Expertise erstellt wurden. Ausreißer bzw. atypische Daten, die nicht in den Lerndaten enthalten waren, verursachen Probleme.
- Überwachtes Lernen wird häufig für Aufgaben wie Klassifikation und Regressionsprobleme verwendet.
Unüberwachtes maschinelles Lernen (Unsupervised Learning)
Beim unüberwachten maschinellem Lernen werden dem Algorithmus keine Daten mit "richtigen" Lösungen zur Verfügung gestellt. Unüberwachtes Lernen erfolgt ohne Trennung zwischen Lern- und Testdaten. Dem Algorithmus werden also während des Lernens keine Vorlagen für „richtige“ Lösungen mitgegeben. Das Netzwerk muss eigenständig lernen, Muster in den Daten zu erkennen und in verschiedene Gruppen oder Kategorien einzuteilen, indem es Ähnlichkeiten bzw. Unterschiede zwischen den Mustern erkennt. Die Gewichtungen im neuronalen Netzwerk werden so angepasst, dass ähnliche Eingabemuster ähnliche Ausgaben erzeugen.
Beispiel:
- Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs bestehen und die ohne weitere Angaben dem Algorithmus vorgelegt werden.
- Der Algorithmus versucht nun Muster in den Daten zu erkennen.
- Eventuell sortiert er die Autos nach KFZ-Typ, eventuell nach deren Farbe, eventuell nach Spuren von Unfällen, eventuell sortiert er auch nur die sehr seltenen Pick-Ups aus. Es kann sogar sein, dass sich die gefundenen Muster nicht interpretieren lassen, weil sie nicht zur Erlebniswelt des Sachverständigen passen.
- Der KFZ-Sachverständige muss anschließend entscheiden, ob die Sortierung für ihn einen praktischen Nutzen hat oder nicht.
Da das Verfahren ohne gelabelte Daten auskommt, ermöglicht es die Entdeckung von neuen Zusammenhängen, die im Voraus nicht bekannt waren. Das kann aber auch negativ sein, wenn die erlernten Muster nicht für die vorgesehene Anwendung relevant sind, d.h. die KI entwickelt dann Lösungen, für die womöglich niemand das zugehörige Problem hat.
- Unüberwachtes Lernen wird oft beim Clustering angewendet. Es kann Musikvorschläge liefern oder Brustkrebs auf Grund von Strukturen in Bildern erkennen.
Bestärkendes maschinelles Lernen (Reinforcement Learning)
Beim bestärkenden maschinellem Lernen werden dem Algorithmus keine Daten mit "richtigen" Lösungen zur Verfügung gestellt, aber der Algorithmus erhält positives oder negatives Feedback. Bestärkendes Lernen wird in Situationen eingesetzt, die sich permanent verändern. Der Algorithmus führt verschiedene Aktionen aus und erhält für Versuch und Irrtum positives oder negatives Feedback, je nachdem ob seine Ausgabemuster richtig oder falsch sind. Er muss aber selbstständig die richtigen Ausgabemuster finden, indem er versucht das positive Feedback zu maximieren und das negative Feedback zu minimieren.
Beispiel:
- Ein Roboterarm mit Greifzange muss ein Wasserglas anheben, welches jedes Mal an einer anderen Stelle am Tisch steht. Dazu positioniert er über Motoren den Greifarm relativ zum Wasserglas.
- Es gibt eine positive Bewertung, wenn er das Wasserglas hochhebt, ohne es zu zerbrechen.
- Es gibt eine neutrale Bewertung, wenn das Wasserglas nur vermeintlich hochgehoben wird, aber unversehrt stehen bleibt.
- Es gibt eine negative Bewertung, wenn das Wasserglas zerbricht.
Dieser Lernprozess ist nicht so schnell wie das überwachte Lernen, aber er eignet sich für Situationen, in denen keine klaren Entscheidungskriterien vorhanden sind, wie etwa beim autonomen Fahren.
Bedeutung von Trainingsdaten und Big Data für maschinelles Lernen
Für maschinelles Lernen sind neben Hardwareanforderungen an die verarbeitende IT noch qualitativ hochwertige Trainingsdaten erforderlich, geeignete Algorithmen und die Definition eines klar beschriebenen Ziels. Interessant ist, dass die Lernalgorithmen teils schon seit Jahrzehnten bekannt sind.
Da aber die Trainingsdaten umfangreich sein müssen, ging der Durchbruch beim maschinellen Lernen, Hand in Hand mit den Fortschritten bei der Verarbeitung von Big Data.
Der Nutzung von Trainingsdaten gehen zwei Arbeitsschritte voraus:
- Datenquellen müssen zugänglich gemacht werden und die daraus resultierenden Daten müssen digital erfasst werden
- In den erfassten Daten allenfalls enthaltene Fehler müssen korrigiert werden und die Daten müssen so aufbereitet werden, dass sie für den eigentlichen maschinellen Lernprozess automatisiert und im Falle von Wiederholungen unverändert zugänglich sind.
Die Beschaffung von Trainingsdaten ist daher sehr aufwändig und kostenintensiv. Nachfolgend 2 öffentlich zugängliche Quellen für Trainingsdaten:
- Wikipedia wird gerne für Trainingsdaten herangezogen. Dabei wird gerne übersehen, dass die Artikelverteilung keineswegs ausgewogen ist.
- Veröffentlichungen des Übersetzungszentrums für die Einrichtungen der EU werden gerne als Trainingsdaten für Übersetzer verwendet, da dort professionelle Übersetzungen innerhalb der 24 Amtssprachen der EU vorliegen.
Algorithmen und Modelle im maschinellen Lernen
Algorithmus
Ganz allgemein beschreibt ein Algorithmus mittels einer Handlungsvorschrift, wie aus einer Eingabe eine Ausgabe wird.
Eingabe → Verarbeitung gemäß Algorithmus → Ausgabe
Ein Kochrezept ist ein praktisches Beispiel für einen Algorithmus. Es ist eine Schritt-für-Schritt Anleitung, lässt aber persönliche Präferenzen und Freiheiten zu, da man bestimmte Zutaten auch durch andere Zutaten ersetzen kann und nicht jeder Koch unter einer Prise Salz dieselbe Menge an Salz versteht.
Beim maschinellen Lernen ist ein Algorithmus eine systematische und geordnete Abfolge von Schritten bzw. Anweisungen an einen Computer, die präzise ausgeführt werden müssen, um eine bestimmte Aufgabe zu lösen.
Modell
Während des Trainings wird der Algorithmus so lange angepasst, bis er in der Lage ist, korrekte Vorhersagen zu nicht in den Trainingsdaten enthaltenen Daten zu treffen. Ein Modell ist also das Ergebnis des maschinellen Lernens in Form eines parametrierten Algorithmus.
Beispiel für den Zusammenhang zwischen Algorithmus und Modell:
- Szenario: Es liegt eine Vielzahl an Punkten vor, die in einem xy-Koordinatensystem eingetragen sind und welche die Anzahl an verkauften Speiseeisportionen in Abhängigkeit von der Lufttemperatur darstellen.
- Dafür bietet sich ein Regressionsalgorithmus als geeignet an. Daher müssen die Koeffizienten k und d der zugrunde liegenden Regressionsgeraden vom Typ \(y = k \cdot x + d\) ermittelt werden.
- Nun wird der Algorithmus trainiert. Ziel ist, dass die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden minimiert werden. Während des Trainings werden k=2 und d=0,5 als optimal ermittelt.
- Das lineare Regressionsmodell liegt in Form einer Geradengleichung \(y = 2 \cdot x + 0,5\) vor, wodurch die Beziehung zwischen der Eingangsvariable x (Lufttemperatur) und der Zielvarable (Anzahl an verkauften Speiseeisportionen) beschrieben wird.
Regelbasierte Algorithmen, ohne maschinelles Lernen
Regression
Die Regression ist eine statistische Methode für stetige Daten, die verwendet wird, um aus einer oder mehreren unabhängigen Größen (Xi, Regressor, Ursache) eine abhängige Größe (Y, Regressand, Wirkung) zu berechnen. Die Regression geht dabei über die Korrelation hinaus, weil sie einen Ursache– Wirkungszusammenhang voraussetzt.
Dieser Zusammenhang wird mathematisch als Funktion y=f(x) formuliert und ist im einfachsten Fall – der linearen Regression – eine Regressionsgerade, sonst spricht man von nichtlinearer Regression.
Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.
- Die Regression ist besonders hilfreich, wenn man die Beziehung zwischen Variablen verstehen und daraus Vorhersagen treffen möchte. Anwendungsgebiete sind die Modellierung von Klimaveränderungen, Prognose von Aktienkursen, Umsätzen, Krankheitsverläufen oder die Vorhersage von Fehlerraten in der Qualitätskontrolle abhängig von Produktionsfaktoren ..
Beispiel:
Ein Regressionsalgorithmus bestimmt die Koeffizienten k und d der zugrunde liegenden Regressionsgeraden vom Typ \(y = k \cdot x + d\) , für ein linearen Modell aus einer Vielzahl von Punkten, die in einem xy-Koordinatensystem eingetragen sind.
Das lineare Regressionsmodell liegt in Form einer Geradengleichung \(y = 2 \cdot x + 0,5\) vor, welche die Beziehung zwischen der Eingangsvariable (x) und der Zielvariable y beschreibt
Klassifikation
Die Klassifikation ist ein statistisches Verfahren für diskrete Daten, d.h. die Merkmalsausprägung dieser Daten kann nur bestimmte Werte annehmen. In diskreten Modellen ändert sich der Anfangswert um ein bestimmtes Quantum oder ein ganzzahliges Vielfaches davon.
Klassifikation dient dazu, Objekte oder Daten in vordefinierte Kategorien oder Klassen einzuteilen. Das Hauptziel ist es, ein Modell zu erstellen, das automatisch Muster und Unterschiede in den Daten erkennt, um dann neue, noch nicht kategorisierte Daten, in die entsprechenden Klassen zuzuordnen.
Ein Klassifikator ist also ein Algorithmus, um Daten in vordefinierte Kategorien einzuteilen. Dazu wird der Klassifikator auf der Grundlage von Trainingsdaten im überwachten Lernen trainiert, wobei die Trainingsdaten entsprechenden Klassen zugeordnet sind. Während des Trainingsprozesses lernt der Klassifikator, Muster oder Merkmale zu identifizieren, die mit bestimmten Klassen korrelieren.
Trägt man die Merkmalsausprägungen der Daten in ein Koordinatensystem ein, so bilden die Klassen räumlich zusammenhängende Punktwolken. Je schärfer die Klassen getrennt sind, umso größer der Abstand zwischen den, die jeweiligen Klassen repräsentierenden, Punktwolken.
Da wir Menschen lediglich für maximal dreidimensionale räumliche Zusammenhänge noch eine bildliche Vorstellung haben, sind wir auf 3 Merkmalsausprägungen beschränkt. Für die KI sind auch n-dimensionale Punktwolken kein Problem.
Klassifikationsalgorithmen werden häufig für Aufgaben wie Spam-Erkennung, Bilderkennung, medizinische Diagnose, Kunden-Segmentierung und viele andere Anwendungen in der künstlichen Intelligenz eingesetzt.
Beispiel:
E-Mails kann man in die beiden Klassen „Spam“ und Nicht-Spam“ einteilen. Die Aufgabe eines Spamfilters (=Klassifikator) besteht darin, bei jeder neu eingehenden Mail die binäre Entscheidung zu treffen, ob oder ob nicht „Spam“ vorliegt.
Dazu hat der Spamfilter vorab durch überwachtes Lernen gelernt, welche Merkmale Spam E-Mails haben. Das können hohe in Aussicht gestellte Summen oder bestimmte Phrasen im Text oder bestimmte Absender sein.
Clustering
in Ausarbeitung
Zeitreihen
in Ausarbeitung
Regelbasierte Algorithmen, mit Graph-Repräsentation
Die Graphentheorie ist ein Zweig der Mathematik, der die Beziehung zwischen Knoten und Kanten untersucht, wobei den Kanten eine Maßzahl, Gewicht genannt, zugeordnet sein kann.
- Ein Knoten ist dabei ein beliebiger Orientierungspunkt entlang einer Reiseroute.
- Eine Kante ist der Weg oder eine Straße von einem Knoten zum nächsten Knoten
- Das Gewicht einer Kante kann dabei egal sein, oder etwa der Entfernung vom Anfangs- zum Endknoten entsprechen, oder dem Energieverbrauch eines Fahrzeugs, zwischen dem Anfangs- und dem Endknoten entsprechen. Ein negatives Gewicht entsteht etwa bei der Rückspeisung von elektrischer Energie bei einer Bergabfahrt eines Elektrofahrzeugs, oder bei der Bremsung eines U-Bahnzuges.
Bei neuronalen Netzen kommen zu den Knoten, Kanten und Gewichten noch
- Grundtendenz und
- Aktivierungsfunktion
hinzu.
Die Graphentheorie bietet dabei Algorithmen mit verschiedenen Vorzügen und Nachteilen zum Auffinden des optimalen Wegs zwischen 2 gegebenen Orientierungspunkten an.
Beispiele für derartige Algorithmen mit Graph-Repräsentation sind: Breadth First Search Algorithm (BFS), Depth First Search Algorithm (DFS), Dijkstra’s Algorithm, Greedy Best First Search Algorithm, A* Algorithm und der Bellman-Ford Algorithm
Algorithmen für maschinelles Lernen
Es gibt eine Reihe von Algorithmen, die sich beim maschinellen Lernen bewährt haben. Die Auswahl vom Algorithmus hängt von verschiedenen Faktoren, wie der Art der Aufgabenstellung und der Verfügbarkeit von Trainingsdaten ab.
Entscheidungsbäume
Entscheidungsbäume sind Baumlernverfahren, die verwendet werden, um Klassifikations- und Regressionsaufgaben zu lösen. Sie zerlegen ein Problem in eine Baumstruktur von Entscheidungen und Ergebnissen. An jedem Knoten des Baums wird anhand einer bestimmten Funktion oder eines Merkmals eine Entscheidung getroffen, die den Datensatz in Untergruppen aufteilt. Entscheidungsbäume werden häufig in Anwendungen wie Klassifikation und Entscheidungsfindung verwendet. Sie sind intuitiv und leicht verständlich, was sie besonders nützlich für interpretierbare Modelle macht.
Support-Vektor-Maschinen (SVM)
SVM ist eine Methode für überwachtes Lernen, die zur Klassifikation und Regression verwendet wird. Das Ziel ist es, eine Trennfläche zu finden, die die Klassen in den Daten optimal voneinander trennt, wobei der Abstand zwischen den nächstgelegenen Datenpunkten (Support-Vektoren) maximiert wird. SVMs werden häufig in Bereichen wie Bilderkennung, Textklassifikation, Gesichtserkennung und Mustererkennung eingesetzt. Sie eignen sich gut für Probleme, bei denen klare Trennflächen zwischen den Klassen vorhanden sind.
k-nächste Nachbarn (k-NN)
k-NN ist ein einfacher Algorithmus für überwachtes Lernen, der für Klassifikation und Regression verwendet werden kann. Bei k-NN wird ein neuer Datenpunkt basierend auf den k nächstgelegenen Nachbarn in den Trainingsdaten klassifiziert. Die Klassenzugehörigkeit des neuen Punktes wird durch Mehrheitsabstimmung der k nächsten Nachbarn bestimmt. k-NN findet Anwendung in der Mustererkennung, Clustering, Empfehlungssystemen und in der Medizin für die Diagnose und Vorhersage von Krankheiten.
Neuronale Netzwerke
Neuronale Netzwerke werden auf Grund ihrer Bedeutung in einer separaten Miko-Lerneinheit behandelt.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Deep Learning mit künstlichen neuronalen Netzen
Deep Learning
ist ein Teilbereich des maschinellen Lernens, der sich auf den Einsatz von künstlichen neuronalen Netzwerken konzentriert, um komplexe Muster und Zusammenhänge in großen Datenmengen zu lernen. Es basiert auf dem Konzept von mehrschichtigen Netzwerken, die als "tiefe" neuronale Netzwerke bezeichnet werden.
Im Gegensatz zu traditionellen neuronalen Netzwerken, die nur wenige Schichten haben, bestehen tiefe neuronale Netzwerke aus vielen Schichten von Neuronen, die in einer hierarchischen Struktur angeordnet sind. Jede Schicht nimmt die Ausgabe der vorherigen Schicht als Eingabe und führt Transformationen durch, um abstraktere Merkmale und Repräsentationen zu lernen.
Der Kern des Deep Learning-Ansatzes besteht darin, dass das Netzwerk selbständig die relevanten Merkmale und Muster in den Daten lernen kann, anstatt dass diese Merkmale manuell vom Menschen definiert werden müssen. Durch die Verwendung von großen Trainingsdatensätzen und leistungsstarken Rechenressourcen können tiefe neuronale Netzwerke komplexe Probleme wie Bilderkennung, Spracherkennung, natürliche Sprachverarbeitung, maschinelles Übersetzen und vieles mehr lösen.
Ein wesentlicher Faktor für den Erfolg von Deep Learning ist die Verwendung von sogenannten "Convolutional Neural Networks" (CNNs) für die Verarbeitung von Bildern und "Recurrent Neural Networks" (RNNs) für die Verarbeitung von Sequenzen wie Text oder Sprache. Diese Netzwerkarchitekturen sind darauf ausgerichtet, spezifische Muster und Abhängigkeiten in den Daten zu erfassen und damit präzisere Vorhersagen zu ermöglichen.
Deep Learning hat in den letzten Jahren zu beeindruckenden Fortschritten in verschiedenen Bereichen geführt und wird in Anwendungen wie Gesichtserkennung, autonomen Fahrzeugen, medizinischer Bildgebung, Sprachassistenten und vielen anderen Bereichen eingesetzt. Es erfordert jedoch große Datenmengen, um effektiv zu sein, und das Training von tiefen neuronalen Netzwerken kann rechenintensiv sein.
Künstliche neuronale Netze sind eine Schlüsselkomponente des maschinellen Lernens und der künstlichen Intelligenz und haben breite Anwendungen in Bereichen wie Bilderkennung, Sprachverarbeitung, Robotik ... .
Künstliche neuronale Netze (KNNs oder ANN) wurden von biologischen neuronalen Netzen, etwa dem menschlichen Gehirn, inspiriert. Die Idee hinter künstlichen neuronalen Netzen besteht darin, die Grundprinzipien der Informationsverarbeitung im Gehirn nachzuahmen, um komplexe Aufgaben im Bereich des maschinellen Lernens zu lösen.
Biologische neuronale Netze bestehen aus Milliarden von Neuronen, die miteinander verbunden sind und elektrische und chemische Signale über Synapsen austauschen.
Schichtenmodell neuronaler Netze
Ein künstliches neuronales Netzwerk besteht aus drei Schichten, die zusammenarbeiten, um Daten durch das neuronale Netzwerk zu verarbeiten und letztendlich eine Ausgabe zu generieren.
Eingabeschicht
Die Eingabeschicht empfängt die Eingangsdaten und leitet sie gewichtet an die nächste Schicht weiter. Die Input-Neuronen verarbeiten die Daten und bereiten sie für die Verarbeitung im Netzwerk vor.
Verborgene Schichten
Die verborgenen Schichten liegt zwischen der Eingabeschicht und der Ausgabeschicht. Sie kann aus mehreren Ebenen von Neuronen bestehen, die Informationen erneut gewichten und in jeder Schicht weiterverarbeiten. Die genaue Verarbeitung in der verborgenen Schicht ist für den Beobachter nicht sichtbar, daher der Name "verborgene Schicht".
Ausgabeschicht
Die Ausgabeschicht bildet die letzte Schicht des Netzwerks und liefert die endgültigen Ergebnisse oder Entscheidungen des Modells. Die Output-Neuronen enthalten die vom Netzwerk generierten Informationen.
Graph-Repräsentation Neuronaler Netze
Der Graph modelliert die Struktur und die Verbindungen im neuronalen Netzwerk.
Bei der Wegfindung (bei Navigationssystemen) verwendet man Algorithmen aus der Graphentheorie. Dabei erfolgt die Modellierung des Graphen durch Knoten und Kanten samt Kantengewichten.
Bei neuronalen Netzen kommen noch die Grundtendenz und die Aktivierungsfunktion hinzu.
Einschichtiges neuronales Netz
Einfache neuronale Netze besitzen einen Hidden Layer
Mehrschichtiges neuronales Netz für Deep Learning
Neuronale Netze für Deep Learning besitzen viele Hidden Layer
Neuronen der gleichen Schicht sind in gleicher Farbe dargestellt.
Graph neuronaler Netze
Neuronale Netze werden oft als gerichteter Graph dargestellt. Wie die Neuronen bzw. Knoten einer Schicht über Kanten mit Knoten einer weiteren Schicht verbunden sind, bezeichnet man als Topologie. Die Topologie hat erheblichen Einfluss auf die Leistungsfähigkeit des neuronalen Netzwerks, aber auch auf die Komplexität und die erforderliche Rechenzeit.
Den Kanten ordnet man ein Gewicht zu, den Knoten eine Grundtendenz, auch BIAS genannt. Ob ein Knoten letztlich feuert, hängt von dessen Aktivierung ab.
Da sich neuronale Netze als Matrizen darstellen lassen, können sie mathematisch einfach berechnet werden.
Neuron
Jeder Knoten (Neuron) führt eine einfache algorithmische Aufgabe aus. Jedes Neuron empfängt ein oder mehrere Eingangsdaten, verarbeitet diese gemäß einem Algorithmus und stellt ein Ergebnis am Ausgang zur Verfügung.
Kanten
Kanten (Synapsen) verbinden je 2 Neuronen miteinander und haben eine Eigenschaft, die „Gewicht“ genannt wird. Kanten entsprechen im Gehirn den Synapsen. Sie stellen eine Verbindung zwischen zwei Nervenzellen her, über die Information übertragen wird.
Gewicht
Das Gewicht einer Kante ist eine reelle Zahl und kann mit der Verstärkung bei der Signalverarbeitung vergleichen werden. Das Gewicht steuert, wie stark das Signal von einem Neuron zum nächsten Neuron entlang der Kante (Synapse) übertragen wird.
Die Höhe vom Gewicht jeder Kante wird während des Trainings so justiert, dass die Zielstellung des gesamten neuronalen Netzwerks optimal erreicht wird. Neuronale Netze „lernen“ bevorzugt durch Gewichtsveränderung.
Die Höhe vom Gewicht jeder Kante beeinflusst, welchen Anteil ein Eingangssignal zum Ergebnis beiträgt.
- Ein positives Gewicht bewirkt, dass das feuernde Neuron einen anregenden Einfluss auf den Netzinput vom nachfolgenden Neuron hat.
- Ein negatives Gewicht bewirkt, dass das feuernde Neuron einen hemmenden Einfluss auf den Netzinput vom nachfolgenden Neuron hat.
- Ein Gewicht von Null bewirkt, dass das feuernde Neuron keinen Einfluss auf den Netzinput vom nachfolgenden Neuron hat.
Skalarprodukt bzw. Linearkombination bzw. Netzinput
In jedem Neuron wird zuerst die Summe der Skalarprodukte aus den Eingabevektoren und deren zugehörigem Gewicht gebildet. D.h. die gewichteten Inputs der vorliegenden Neuronen werden zum Netzinput addiert.
BIAS bzw. Grundtendenz
Die Grundtendenz ist ein Offset je Neuron, der dem Skalarprodukt additiv hinzugefügt wird. Dieser BIAS beeinflusst, ob der Schwellwert erreicht wir, ab dem das Neuron am Ausgang der Kante aktiviert wird.
Ein positiver BIAS erhöht die Wahrscheinlichkeit, dass das Neuron feuert und so für das Gesamtergebnis relevant ist.
Aktivierungsfunktion
Die Aktivierungsfunktion bestimmt, ob das Zielneuron aktiviert wird oder ob nicht. Jedes Neuron summiert zunächst den Netzinput auf und addiert die Grundtendenz. Anschließend entscheidet die Aktivierungsfunktion ob und in welchem Maß das Neuron feuert, oder nicht feuert. Wenn das Zielneuron „feuert“, gibt es seinerseits ein Signal an nachfolgende Teile des Netzwerks weiter.
Die Aktivierungsfunktion kann verschiedene Formen haben. Im Allgemeinen sind Aktivierungsfunktionen monoton steigende Funktionen, Schwellwertfunktionen, tanh oder logistische Funktionen.
- Lineare Aktivierungsfunktion des Typen \(y = k \cdot x\)
- Ein Schwellwert muss erreicht oder überschritten werden, damit das Neuron feuert. Für eine binäre Schwellwert-Aktivierungsfunktion gilt:
\(y = \{ 1,{\text{wenn x}} \geqslant {\text{ Schwellwert; 0}}{\text{, wenn x < Schwellwert\} }}\) - Tanh Funktion oder Logistische Funktion
„Feuern“ von Neuronen
In einfachen feedforward Netzen fließen alle Daten nur in eine Richtung, von der Eingabe über allfällige verdeckte Schichten zur Ausgabe. Es gibt keine Rückkopplungsschleifen. In der Signalverarbeitung nennt man das eine Steuerung, im Unterschied zur Regelung, die mittels einer Rückkopplung über einen Soll-/Istwert-Vergleich verfügt.
Beispiel: Neuron 3 feuert
- In der n-ten Schicht des neuronalen Netzes befinden sich die beiden Neuronen 1 und 2, die mit einem Ausgangswert von 5 bzw. 10 „feuern“.
- Im Laufe des Trainings wurden den beiden Kanten, die zum Neuron 3 führen, ein Gewicht von 3 bzw. 0,5 zugewiesen.
- Wir haben das Neuron 3, welches in der (n+1)-Schicht liegt, vergrößert herausgezeichnet!
- Am Eingang des Neurons 3 wird zuerst das Skalarprodukt aus den Ausgangswerten und den Kantengewichten wie folgt gebildet: \(\left[ {5 \cdot 3} \right] + \left[ {10 \cdot 0,5} \right] = 15 + 5 = 20\)
- Dem Neuron 3 ist ein BIAS von 2 zugeordnet, welcher zum zuvor gebildeten Skalarprodukt 20 addiert wird: \(20 + 2 = 22\)
- Bei der Aktivierungsfunktion handelt es sich um eine Schwellwert-Funktion. Bei einem Wert über 20 schaltet die Aktivierungsfunktion \(f\left( \lambda \right) = 1\) durch und das Neuron 3 feuert.
Beispiel: Neuron 3 feuert nicht
- In der n-ten Schicht des neuronalen Netzes befinden sich die beiden Neuronen 1 und 2, die mit einem Ausgangswert von 5 bzw. 10 „feuern“.
- Im Laufe des Trainings wurden den beiden Kanten, die zum Neuron 3 führen, ein Gewicht von 3 bzw. -0,5 zugewiesen.
- Wir haben das Neuron 3, welches in der (n+1)-Schicht liegt, vergrößert herausgezeichnet!
- Am Eingang des Neurons 3 wird zuerst das Skalarprodukt aus den Ausgangswerten und den Kantengewichten wie folgt gebildet: \(\left[ {5 \cdot 3} \right] + \left[ {10 \cdot \left( { - 0,5} \right)} \right] = 15 - 5 = 10\)
- Dem Neuron 3 ist ein BIAS von 2 zugeordnet, welcher zum zuvor gebildeten Skalarprodukt 10 addiert wird: \(10 + 2 = 12\)
- Bei der Aktivierungsfunktion handelt es sich um eine Schwellwert-Funktion. Bei einem Wert unter 20 schaltet die Aktivierungsfunktion \(f\left( \lambda \right) = 0\) nicht durch und das Neuron 3 feuert nicht.
Training neuronaler Netze durch maschinelles Lernen
Bei komplexen Problemstellungen kommt maschinelles Lernen zum Einsatz. Dabei werden in einer ersten Phase mit Hilfe von Trainingsdaten die Parameter des neuronalen Netzes justiert, der dann die Test- und Anwendungsphase folgt.
Während der Trainingsphase mittels maschinellen Lernens wird ein neuronales Netz mittels der folgenden mathematischen Parameter definiert:
Gewichte je Kante = Lernen des neuronalen Netzes
Die Kanten übertragen Signale von einem Neuron zum nächsten. Am Anfang des Trainings eines neuronalen Netzes werden die Kantengewichte zunächst zufällig festgelegt.
Während des Trainings werden die Kantengewichte so angepasst, dass das neuronale Netz bei Eingabe eines Werts die passende bzw. erwartete Ausgabe berechnet. Diese Anpassung der Gewichte entspricht dem „Lernen“ des neuronalen Netzwerks. Auf diese Weise "lernt" das neuronale Netzwerk allmählich, bessere Vorhersagen oder Ergebnisse aus den Eingangsdaten abzuleiten.
- Die Hebbsche Lernregel ist eine Regel, die zur Anpassung der Gewichte je Kante herangezogen wird. Sie besagt, dass Neuronen, die wiederholt gleichzeitig feuern, sich miteinander verbinden und deren Gewicht verstärkt wird.
Am Ausgangs-Layer erfolgt die Berechnung des Gesamtergebnisses. Solange nicht alle Ausgaben korrekt sind, muss man den Fehler bestimmen und während des fortlaufenden Trainings bevorzugt das Gewicht je Kante und allenfalls auch den BIAS nachjustieren.
- Backpropagations-Verfahren ist ein überwachte Lernverfahren, mit dem der Fehler im Gesamtsystem zunächst bestimmt und dann schrittweise rückwärts durch die Schichten des neuronalen Netzes, durch Anpassung der Kantengewichte, solange minimiert wird, bis er unter einem vorgegebenen Grenzwert liegt. Das ist sehr rechenintensiv und die Backpropagation kann auch in einem lokalen Optimum steckenbleiben.
BIAS bzw. Grundtendenz je Neuron
Die Grundtendenz ist im Allgemeinen eine feste Größe und wird auch Bias genannt. Der BIAS, so es ihn überhaupt gibt, ist vom Netzinput und von der Aktivierungsfunktion unabhängig und wird während des maschinellen Lernens justiert.
- Ist der Netzinput gering, kann ein positiver BIAS sicherstellen, dass das Neuron dennoch feuert.
- Ein negativer BIAS stellt eine Schwelle für den Netzinput dar, der überschritten werden muss, damit die Aktivierungsfunktion durchschaltet und das Neuron feuert.
Aktivierungsfunktion je Neuron
Die einmal sinnvoll gewählte Aktivierungsfunktion wird während des Trainings nicht verändert, sondern richtet sich eher nach der Art der Aufgabe des neuronalen Netzes.
Topologien neuronaler Netzwerke
Neuronale Netzwerke können in verschiedenen Topologietypen implementiert werden, je nachdem, wie die Neuronen miteinander verbunden sind. Die beiden häufigsten Topologietypen sind Feedforward-Netzwerke und Rekurrente Netzwerke.
Feedforward-Netzwerke (Vorwärtsnetzwerke)
In einem Feedforward-Netzwerk bewegen die Informationen sich nur in eine Richtung, nämlich von der Eingabe über versteckte Schichten (falls vorhanden) zu den Ausgabeneuronen. Es gibt keine Rückkopplungsschleifen. Diese Netzwerke werden häufig für Mustererkennungsaufgaben und Klassifikation verwendet.
- Einschichtige Feedforward-Netzwerke: Diese Netzwerke haben nur eine Schicht von Neuronen zwischen den Eingabe- und Ausgabeschichten. Sie sind einfach und linear.
- Mehrschichtige Feedforward-Netzwerke: Hier gibt es mindestens eine Zwischenschicht (versteckte Schicht) zwischen der Eingabe- und der Ausgabeschicht. Diese Schichten ermöglichen die Modellierung komplexer nichtlinearer Beziehungen.
Rekurrente Netzwerke (RNNs - Recurrent Neural Networks)
Im Gegensatz zu Feedforward-Netzwerken haben RNNs Rückkopplungsschleifen, die es ihnen ermöglichen, Informationen über vergangene Zustände zu speichern. Dies macht sie besonders geeignet für Aufgaben, bei denen die Sequenzinformation wichtig ist, wie zum Beispiel in der natürlichen Sprachverarbeitung, maschinellem Übersetzen und Zeitreihenanalysen.
- Einfache RNNs: Diese haben eine einfache Form von Rückkopplung und können Schwierigkeiten mit langen Abhängigkeiten in den Daten haben, da sie anfällig für das sogenannte "Verschwinden des Gradienten" sind.
- LSTM (Long Short-Term Memory) und GRU (Gated Recurrent Unit): Diese sind Weiterentwicklungen von RNNs, die das Problem des verschwindenden oder explodierenden Gradienten lösen. Sie sind besonders gut geeignet für Aufgaben, die eine lange Abhängigkeit der Daten erfordern.
Zusätzlich zu diesen beiden Haupttypen gibt es weitere Netzwerktypen
Convolutional Neural Networks (CNN)
CNNs sind spezialisierte Netzwerke, die hauptsächlich für die Verarbeitung von Bildern (Bilderkennung) verwendet werden. Sie verwenden Faltungsoperationen, um Merkmale aus den Eingabedaten zu extrahieren.
Autoencoder
Autoencoder sind neuronale Netzwerke, die dazu dienen, Daten zu komprimieren und dann wieder möglichst vollständig zu rekonstruieren. Sie bestehen also aus zwei Teilen:
- Der Encoder vereinfacht die Eingabe und erzeugt eine latente Darstellung der Eingaben. Dabei fallen redundante oder unnötige Informationen weg.
- Der Decoder rekonstruiert aus der latenten Darstellung die Daten für die Ausgabe.
Während des maschinellen Lernens lernt der Autoencoder, welche Informationen der Encoder beibehalten muss, damit des dem Decoder gelingt die Eingangsdaten am Ausgang zu rekonstruieren.
Sie finden Anwendung in der Dimensionsreduktion, Rauschunterdrückung und generativen Modellen.
Variational Autoencoder (VAEs) und Anomalie-Erkennung
Für Anomalie-Erkennungen wird der Autoencoder mit einem Datenset normaler Daten trainiert. Wird das so kalibrierte Modell dann mit abweichenden Daten versorgt, lassen sich Anomalien erkennen. VAEs finden Einsatz bei der industriellen Qualitätskontrolle oder im Gesundheitsbereich.
Generative Adversarial Networks (GAN)
GANs bestehen aus zwei einander feindlichen neuronalen Netzwerken, dem Generator und dem Diskriminator, die gegeneinander antreten. Sie werden zur Generierung von Daten, wie Bildern, verwendet. Bei diesem deep-learning basiertem generativen Model erzeugt ein Generator Proben, die von einem Diskriminator „auf Echtheit“ bewertet werden. Mit Hilfe einer Verlustfunkton und aktualisierter Parameter optimieren sich sowohl der Generator als auch der Diskriminator kontinuierlich.
Radial Basis Function Networks (RBFN)
RBFN verwenden Radialbasisfunktionen zur Transformation der Eingabedaten und sind in der Regel für Mustererkennung und Interpolation geeignet.
Mensch-Maschine Schnittstelle zwischen KI und Nutzer
Entscheidend für die Akzeptanz der auf künstlicher Intelligenz basierenden Anwendungen ist die Mensch-Maschine-Schnittstelle (MMI, Man-Machine-Interface).
Für die Kommunikation zwischen Anwender und KI haben sich besonders Natural Language Processing Systeme bewährt. Gesprochene oder geschriebene Sprache sind uns Menschen bestens vertraut und NLP-Systeme reduzieren die Hürden bei der Interaktion mit KI-Systemen und erhöhen, da sie intuitiv und effektiv nutzbar sind, die Akzeptanz von KI-Anwendungen.
Semantik
Semantik ist ein Begriff aus der Sprachwissenschaft und beschäftigt sich damit, wie in einer Sprache Bedeutung während einer Kommunikation auf Basis von Zeichen, Symbolen, Wörtern und Sätzen verstanden wird.
Betrachten wir den Satz: „Die Katze jagt die Maus“. Die Semantik beschäftigt sich damit, was die Worte bedeuten und in welcher Beziehung sie zueinanderstehen.
- Eine Katze ist ein beliebtes Haustier auf 4 Pfoten, welches über einen angeborenen Jagdtrieb verfügt und sich gerne von Nagetieren und Vögeln ernährt.
- Eine Maus ist ein anpassungsfähiges Nagetier, das sich von Pflanzen und Körnern ernährt und Katzen meidet.
- Jagen bedeutet, dass die Katze auf die Maus lauert, sie verfolgt, angreift, tötet und frisst.
Der Kontext, in dem dieser Satz zu sehen ist, besteht darin, dass ein Raubtier, welches ein beliebtes Haustier ist, kleine Nagetiere jagt, um sich von ihnen zu ernähren. (Zu mindestens dort, wo es kein Kitekat zu fressen gibt 😉)
Conversational AIs
Erfolgt das Dialogmanagement, also die Mensch-Maschine-Schnittstelle über einen Chat, so spricht man von einem conversational AI-System. Dieses ermöglicht es, mehrere aufeinanderfolgende Textein- und -ausgaben im Rahmen eines Gesprächsverlaufs (Chat) zu verwalten, um eine längere Konversation zu ermöglichen, ohne dass die KI den „roten Faden“ verliert.
Natural Language Processing (NLP)
Als Schnittstelle zwischen dem Menschen und der KI, also der sogenannten Mensch-Maschine-Schnittstelle (MMI), haben sich Natural Language Processing (NLP) Systeme bewährt. NLP-Systeme sind darauf ausgerichtet, menschenähnliche Kommunikation in Textform zu ermöglichen. Die Kommunikation zwischen Menschen und Maschine kann z.B. in Form eines Chats erfolgen.
Semantik spielt in NLP-Systemen eine wichtige Rolle, denn deren Ziel ist es, die Bedeutung von Texten automatisch zu erfassen, zu analysieren und darauf zu reagieren.
Bei Chatbots dient NLP dazu, Fragen zu analysieren und präzise sinnvolle Antworten in Textform zu generieren. Der Chatbot stellt dabei die Mensch-Maschine-Schnittstelle auf Basis textueller Ein- und Ausgaben dar.
Chat
Ein Chat ist auf einen spezifischen Kontext (das ist ein thematischer Zusammenhang) bezogen und kann nur eine endliche Anzahl an Token umfassen. Eine LLM basierte KI wie ChatGPT verliert nach dem Überschreiten einer vorgegebenen Anzahl an Token den “roten Faden“ in einem Chat. D.h. es weiß nicht mehr, was es zuvor von sich gegeben hat. Das ist bei uns Menschen aber auch so …
Chatverlauf mit durchgängigem Kontext
Die vergangenen Anfragen bleiben in der linken Bildleiste von ChatGPT erhalten und können jederzeit im Rahmen dieses Chats fortgeführt werden. Will man das Thema wechseln, so bietet sich der Button „New Chat“ an, wodurch man einzelne Chats thematisch fokussieren kann.
Man spricht vom Kontext des Chats, der es einer LLM basierten KI ermöglicht zu wissen, um welches übergeordnete Thema es bei einer Abfolge von Anfragen – dem Chatverlauf - geht. Für die simple maschinelle Übersetzung einzelner Phrasen aus wenigen Wörtern ist kein „Erinnerungsvermögen“ der NLP erforderlich.
Bei chatbasierte KIs, wie bei ChatGPT und Gemini, wird das Erinnerungsvermögen in Token (Textfragmenten) gemessen. Es müssen hinreichend viele neuen Token generiert werden, damit der „rote Faden“ während des Chats nicht verloren geht und andererseits nur so wenige Token um das Ziel (die Antwort) erreichen zu können, ehe der Speicherplatz überläuft. ChatGPT-3.5 nennt selbst 4.096 Token als Maximum für alle Ein- und Ausgabe zusammen, die während eines Chats anfallen. GPT40 nennt bereits 128.000 Token, Google Gemini steht 05.2024 bei 1.000.000 Token und soll bald über 2.000.000 Token lang den Kontext erfassen können.
Large Language Modelle (LLM)
Die bereits erwähnten Natural Language Processing (NLP) Systeme basieren wiederum auf Large Language Modellen. LLMs sind auf das Verständnis von natürlicher Sprache spezialisierte neuronale Netze, die, wenn sie über mehrere Hidden Layer verfügen, als Deep Learning bezeichnet werden.
Sprachmodelle sind eine mathematische Beschreibung dafür, wie natürlich-sprachige Sätze typischerweise aufgebaut sind. Sie funktionieren aber nicht regelbasiert, etwa auf der Basis von grammatikalischen Regeln und Wörterbüchern, sondern basieren auf statistischen Zusammenhängen über das gemeinsame Auftreten von Wörtern.
„An einem heißen Sommertag führte ich ein Glas Wasser zum Mund und nahm einen kräftigen ?????“. Vermutlich hat Ihr Gehirn den Satz – auf Grund von Erfahrungen und der damit verbundenen statistischen Wahrscheinlichkeit – schon vervollständigt. Denn wir haben seit unserer Kindheit gelernt, dass wir Menschen in diesem Kontext einen „Schluck“ nehmen und ganz sicher nicht einen Bissen oder gar einen Elefanten.
Bei einem LLM werden solche statistischen Zusammenhänge selbstständig anhand von riesigen Datenmengen auf Basis von Wahrscheinlichkeiten erlernt und durch künstliche neuronale Netze abgebildet.
Große Sprachmodelle (LLMs) wie ChatGPT und Gemini wurden mit mehreren hundert Milliarden an Texten trainiert, wovon etwa Wikipedia weniger als 0,5% der Trainingsdaten ausmacht.
Nach dem Training können Texte kontextbezogen in natürlicher Sprache automatisiert gelesen und geschrieben werden.
Verarbeitungseinheiten eines LLMs
Prompt
So wie es uns von der Google-Suche vertraut ist, gibt man in den Eingabe-Slot von ChatGPT und Gemini eine Suchanfrage, die Prompt genannt wird, ein. Der Prompt steuert wie das LLM den Text verarbeitet.
Im Unterschied zur Google-Suche formuliert man sein Ansinnen aber nicht stichwortartig, sondern in mehreren ganzen natürlich-sprachigen Sätzen. Stellt man eine Frage in deutscher oder englischer Sprache, so erfolgt die Antwort in der entsprechenden Sprache. Der Eingabe kann und soll auch Hinweise auf die Zielgruppe der Antwort mitgeben (etwa „schülergerecht“, „in 5 Bullet Points“, …).
Man kann LLM basierte KIs auch bitten eine konkrete Sichtweise einzunehmen ("Wie hätte Newton das erklär") oder ein Sprachniveau (A1, also einfachstes Vokabular) einzuhalten. Für jedes neue Thema sollte man einen separaten Chat anlegen, damit die KI den Überblick behält, worum es thematisch geht. Zudem fänge das Zählen der Token von neuem an.
Token
Der mittels Prompt eingegebene Text wird in einzelne Text-Fragmente, sogenannte Token zerlegt. Ein Token ist zugleich die kleinste Einheit in der LLM basierte KIs Texte verarbeitet und sie sind auch die Basis für die Verrechnung bei Bezahlmodellen. LLM basierte KIs versteht Eingaben auf Basis von Token und generiert Ausgaben auf Basis von Token. Ein Token kann dabei ein Satzzeichen, der Teil eines Worts, ein einzelnes Wort oder eine ganze Phrase umfassen.
Token-Vektor
Jeder Token aus den Trainingsdaten wird mittels eines Zahlenvektors in einem virtuellen multi-dimensionalen Vektorraum dargestellt. Das ist extrem aufwändig!
Die Vektoren sind so konzipiert, dass sie semantische Informationen über den Token enthalten und es dem Transformer (das T in GPT) ermöglichen, Beziehungen zwischen den Tokens zu modellieren. Auf Basis der Token-Vektoren kann der Transformer komplexe sprachliche Muster erkennen. Die Vektoren können dazu verwendet werden, um mathematische Operationen auf den Token anzuwenden, wie das Berechnen von Ähnlichkeiten zwischen Token oder das Generieren von Text basierend auf Token unter Berücksichtigung der Wahrscheinlichkeit für eine insgesamt intelligente Antwort über mehrere Sätze hinweg.
Generative Bildsynthese mittels Text zu Bild
Einen Schritt weiter als generative Fotobearbeitung gehen generative Bildgeneratoren auf Basis „Text zu Bild“. Bildgeneratoren wie Midjourney, DALL-E, Stable Diffusion und Firelfy wurden anhand von Millionen Bildern trainiert und ermöglichen es, ohne eigenem bildlichen Ausgangsmaterial ein neues Bild allein auf Basis einer verbalen Beschreibung zu erschaffen.
Diffusionsmodelle
Generative Bildgeneratoren, die auf Diffusionsmodellen basieren, erzielen derzeit (03.2024) die besten Bilder, die nur auf einer verbalen Bildbeschreibung basieren. „Diffusion“ ist dabei ein Vorgehen beim Training der Bildgeneratoren, welches vom MIT (Massachusetts Institute of Technology) und Adobe unter der Bezeichnung „Stable Diffusion“ mit dem Ziel entwickelt wurde, realistische Bilder zu generieren.
Diffusion ist daher eine Form des maschinellen Lernens und nicht etwa eine Architektur, wie „Transformer“.
Schritt 1 – Foto taggen: Der maschinelle Lernprozess startet mit Fotos oder Bildern, deren Bildgegenstand von Menschen mittels Tags sprachlich beschrieben wurde. Man spricht in diesem Zusammenhang von "gelabeleten" also beschriebenen Daten. Ein „Tag“ oder "Label" ist in diesem Zusammenhang eine kurze prägnante Bildbeschreibung, die in ein NLP-System (Natural Language Processing) einfließt. Das ist insofern nichts Neues, als schon seit langem alle Bilder in umfangreichen Bilddatenbanken mit Hilfe von Tags auffindbar gemacht wurden. Mit Hilfe des NLP-Systems soll letztlich aus einer verbalen Bildbeschreibung wieder ein Foto generiert werden und zwar künstlich durch die generative KI.
Während des maschinellen Lernens benötigt man hunderte Fotos mit ein und dem selben Bildgegenstand (z.B.: eine Erdbeere). Der jeweilige Bildgegenstand unterscheidet sich dabei von Foto zu Foto durch Farben, Formen, Texturen, Muster, Linien, Flächen und durch „unerwünschte“ Bildinhalte. Die Darstellungen unterscheiden sich zusätzlich durch Kunststile und Bildkomposition. Die Fotos mit dem Bildgegenstand zum Tag „Erdbeere“ zeigen: Erdbeeren am Feld, einzelne Erdbeeren, in 2 Hälften geteilte Erdbeeren, Erdbeeren mit drei Blättern am Stiel, Erdbeeren mit Zucker in einer Schale, Erdbeeren in eine Kiste, Erdbeeren in einem Korb, Erdbeeren mit Schlagobers, Erdbeere auf einem Tortenstück, Erdbeeren mit Stroh-Unterlage am Feld. Es kommen auch Zeichnungen, Grafiken und Gemälde von Erdbeeren zum Einsatz.
Der Midjourney Befehl /describe erstellt einen Prompt auf Basis eines Bildes, welches durch den Nutzer zuvor hochzuladen wurde. Anhand dieser Beschreibung kann man lernen mit welchen Tags Midjourney ein Foto assoziiert.
Schritt 2 - Verrauschen: Jedem Foto wird nach und nach Rauschen hinzugefügt, bis das dargestellte Objekt für den Betrachter völlig unkenntlich ist. Dazu verändert ein Algorithmus die Auflösung, die Pixel selbst oder fügt Gauß’sches Rauschen hinzu. Der Zusammenhang mit den ursprünglichen Tag bleibt dabei im so trainierten Modell erhalten.
Schritt 3 - Rauschreduzierung: Im Umkehrprozess wird anschließend versucht, das Rauschen aus dem Bild zu entfernen, um ein neues Bild zu erzeugen. Dabei kommen Diffusions-Transformer auf Basis neuronaler Netze zum Einsatz. Dieser Prozess kann etwa zweistufig erfolgen:
- Schritt 3.1: Ein DAE (Denoising AutoEncoder) in Form eines neuronalen Netzes ist darauf trainiert, Rauschen aus einem anfänglichen Zufallsrauschen zu entfernen und ein, dem Prompt bzw. den Tags, entsprechendes Bild mit niedriger Auflösung zu generieren.
- Schritt 3.2: Ein VAE (Variational AutoEncoder) ebenfalls in Form eines neuronalen Netzes ist darauf trainiert, einem Bild mit niedriger Auflösung, auf Grund von Wahrscheinlichkeiten, Details hinzuzufügen, damit ein, dem Prompt bzw. den Tags, entsprechendes Bild mit hoher Auflösung generiert wird.
Wenn alles richtig funktioniert hat, liegt dann wieder ein hochauflösendes Bild gemäß den Vorgaben vom Prompt vor.
Den Trainingsbildern wurde also „Rauschen“ hinzugefügt und das Modell hat so gelernt, wie es umgekehrt aus Rauschen wieder ein Bild erzeugen kann, welches der vorgegebenen Bildbeschreibung entspricht.
Wenn Midjourney einen /imagine Befehl abarbeitet, kann der Nutzer zusehen, wie es mit Rauschen startet und iterativ immer mehr Bilddetails hinzufügt, sodass sich das Bild den Vorgaben aus dem Prompt annähert. Gibt man mehrfach die selbe Bildbeschreibung ein, entstehen immer neue Varianten des Bildes, da das Ausgangsmaterial „Rauschen“ mit all seinen Zufälligkeiten ist.
Wie wir gesehen haben, ist die Bildgenerierung schwieriger als die reine Sprachgenerierung. Es muss nämlich nicht nur der Prompt „verstanden“ werden, sondern zusätzlich ein Zusammenhang zwischen der sprachlichen Beschreibung (Tag oder Label) und den entsprechenden, von der KI generierten, grafischen Bildelementen hergestellt werden.
Auch hier kommt wieder maschinelles Lernen auf Basis eines neuronalen Netzes zum Einsatz. Die Technik die OpenAI für diesen Zweck entwickelt hat, nennt sich CLIP (Contrastive Language-Image Pre-Training). Dabei kommt eine Dual-Encoder-Architektur zum Einsatz. Dual Encoder bedeutet, dass separate Encoder für Bilder und Texte parallel zum Einsatz kommen:
- Der 1. Encoder ist ein Bild-Encoder. Dieser extrahiert während des Trainings relevante Merkmale aus einem Foto und erzeugt so eine hochdimensionale Vektordarstellung.
- Der 2. Encoder ist ein Text-Encoder. Dieser erzeugt aus der Bildbeschreibung, also den Tags, eine semantische Bildbeschreibung und erzeugt ähnlich wie ein LLM eine Vielzahl an Token-Vektoren. „Contrastive Language“ bedeutet, dass für jedes Bild mehrere Bildbeschreibungen eingegeben werden. Und zwar solche, die mit dem Bildinhalt übereinstimmen, und solche, die nicht mit dem Bildinhalt nicht übereinstimmen. Dies ermöglicht es dem neuronalen Netz das Gewicht je Kante für übereinstimmende Bild-Text Paare zu erhöhen bzw. bei nicht übereinstimmende Bild-Text Paaren zu verringern.
- Beide Vektordarstellungen werden in einen gemeinsamen Einbettungsraum vektoriell abgelegt. Dies ermöglicht es, die semantische Bedeutung von Texten mit visuellen Merkmalen in Bilddarstellungen parallel zu führen sodass zumindest die trainierte KI deren Beziehungen kennt. Diesen Einbettungsraum kann man sich zweidimensional wie ein Schachbrett vorstellen. Die Spalten sind mit den Text-Token und die Zeilen mit den Bild-Merkmalen beschriftet. In den Zellen finden sich die jeweiligen Bildinhalte. Diese Bildinhalte sind uns Menschen aber nicht mehr zugänglich. Man kann sie daher auch nicht kontrollieren oder manuell berichtigen, was bei der Erzeugung von Bildern zu unerwünschten Darstellungen, speziell bei Details wie Fingern führen kann.
- CLIP verwendet dabei eine kontrastive Verlustfunktion, die darauf abzielt, ähnliche Text-Bild-Paare im Einbettungsraum nahe beisammen zu positionieren, während unähnliche Paare von einander entfernt zu liegen kommen. Dies erfolgt wie bei neuronalen Netzen üblich durch Anpassung der Gewichte entlang der Kanten im neuronalen Netz durch die Encoder. Dabei kommt eine Distanzmetrik (z.B.: der euklidische Abstand) zwischen den Repräsentationen zum Einsatz. Der Verlust wird minimiert, indem positive Paare nahe bei einander liegen.
So können zu vorgegebenen Texten passende Bilder generiert werden (Midjourney: /imagine) oder zu vorgegebenen Bildern beschreibende Texte (Midjourney: /describe) erstellt werden.
Diffusionsmodelle sind sehr trainings- und rechenintensiv. Man benötigt für deren Training etwa einen Datensatz von 400 Millionen Bild- und Textpaaren. Die Qualität des generierten Bildes hängt von der Qualität, der im Einbettungsraum hinterlegen vektoriellen Text- und Bild-Zuordnung ab.
Prompt-Engineering
Es erfordert vom Nutzer viel Erfahrung den Prompt so zu erstellen, dass das erwartete Bildresultat generiert wird. Man nennt diesen Vorgang „Prompt Engineering“. Diese Problematik wird noch verschärft, da sich die konkurrierenden Bildgeneratoren einerseits in deren Einbettungsraum, also im vektoriellen Text-Bild-Zusammenhang und andererseits in den verwendeten Trainingsdaten voneinander unterscheiden.
Wie wir bereits festgestellt haben wurden beim Training zur Beschreibung der Bildinhalte „Tags“ verwendet. Es ist daher naheliegend diese Tags auch in den Prompt einzubauen, um aus dem Ausgangsmaterial – einem Zufallsrauschen – ein gewünschtes Bild generieren zu lassen.
Ein optimaler Prompt sollte folgende Eigenschaften haben:
- Stichwortartige, klare und präzise verbale Beschreibung des Bildinhalts, getrennt nach Hauptmotiv und Umfeld.
- Angaben, wie man das Bild ohne KI erzeugen hätte können.
Nachfolgend eine Auflistung gängiger Tags, die sich für Prompt Engineering anbieten. Die Aufzählung erhebt keinerlei Anspruch auf Vollständigkeit und soll ausschließlich inspirieren!
Art Styles (Kunstrichtungen)
- Painting (Malerei)
- Renaissance (Renaissance): Gekennzeichnet durch realistische Proportionen, Perspektive und klassische Themen. Stil der im 15. und 16. Jahrhundert vorherrschte. Markiert Übergang vom Mittelalter zur Frühen Neuzeit
- Baroque (Barock): Verschnörkelter, pompöser, reich verzierter Stil, der im 17. und 18. Jahrhundert vorherrschte.
- Impressionism (Impressionismus): Fängt flüchtige Momente, Licht und Atmosphäre mit lockerer Pinselführung ein. Stil des 19. Jahrhunderts.
- Expressionism (Expressionismus): Drückt Gefühle durch verzerrte, grobe Formen und lebhafte, ungemischte, kontrastreiche Farben aus. Stil des ausgehenden 19. Jahrhunderts
- Cubism (Kubismus): Stellt Objekte künstlich auf geometrischen Formen wie Würfel reduziert dar. Stil Anfang des 20. Jahrhunderts
- Surrealism (Surrealismus): Bekannt für traumhafte, unlogische Kompositionen mit Träumen, Visionen, Rauschzuständen. Stil Mitte des 20. Jahrhunderts.
- Traditional Drawing and Painting (Traditionelles Zeichnen und Malen)
- Japanese Ink (Japanische Tusche): Minimalistische, fließende Tuschpinselführung.
- Watercolor Sketch (Aquarell-Skizze): Transparente, zarte Aquarellstudie.
- Pastel Drawing (Pastell-Zeichnung): Weiche, kreideartige Farben auf Papier.
- Oil Painting (Ölmalerei): Reichhaltige, strukturierte Gemälde mit Pigmenten auf Ölbasis.
- Modern and Experimental Representations (Moderne und Experimentelle Darstellungen)
- Hyperrealistic (Hyperrealistisch): Über die Realität hinausgehende idealisierte hochauflösende Darstellung eines tatsächlich existierenden Objekts.
- Fantasy (Fantasie): Fantasiewelten, Kreaturen und magische Elemente.
- Surreal (Surreal): Traumhaft, mit unerwarteten Kombinationen von Objekten und deren Verzerrungen.
- Contemporary (Zeitgenössisch): Reflektiert aktuelle Zeiten und deren Themen
- Daguerreotype Daguerreotypie: (1830) Frühes fotografisches Verfahren mit einem ausgeprägten Vintage-Look.
- Abstract (Abstrakt): Einfache Formen, Farben und Kompositionen. Objekte auf deren Grundelemente reduziert
Pixel Art (Pixel Kunst): Pop-Art, mit grellen sich wiederholenden Mustern mit erkennbaren Bildpunkten im Stil von Andy Warhol - Anime Art (Japanische Animation): Farbenfrohe japanische Darstellung in Animationsfilmen.
- Manga Art (Japanische Comic): Schwarz-Weiße japanische Darstellung in Comics
- Typography Style (Druckkunst): Gut lesbare, optisch ansprechende Darstellung von Schriften und Layouts, soll das Erfassen der Bedeutung erleichtern.
- Graffiti Art (Ästhetische Schreibkunst): Es steht die Darstellung der Schrift im Vordergrund und nicht die Bedeutung oder der Inhalt
- Dripping Painting (Tropfende Malerei): Abstrakte Kunst mit scheinbar noch flüssiger oder tropfender Farbe.
- Digital Illustration (Computerbasierte Darstellungen)
- Infographic (Informationsbezogene Darstellung): Klare, sachliche, informative Visualisierungen für Daten und Konzepte
- 2D Illustration (Zwei-Dimensionale Darstellung): Darstellung in der Ebene
- 3D Illustration (Drei-Dimensionale Darstellung): Räumliche Darstellung
- Isometric Drawing (Grund-, Auf- und Kreuzriss): Geometrisch exakte 3D-Darstellung
- Photography (Fotografie)
- Cinematic Scene (Filmische Szenerie): Erzeugt eine filmähnliche Qualität, oft mit dramatischer Beleuchtung.
- Portrait (Porträtfotografie): Konzentriert sich auf das Einfangen des Wesens einer Person.
- Documentary (Dokumentarfotografie): Nimmt Ereignisse, Menschen und Orte aus dem wirklichen Leben auf.
- Street Photography (Straßenfotografie): Unverfälschte Aufnahmen des täglichen Lebens in städtischen Umgebungen.
- Landscape (Landschaften): Zeigt natürliche Landschaften und Umgebungen.
- Architectural Photography (Architekturfotografie): Gebäude und städtische Umgebung stehen im Fokus. Spiel mit Licht, Linien, Formen und Himmel
- Fashion (Mode): Hebt Kleidung, Accessoires und Stil hervor.
- Glamour (Glamouröse Fotografie): Betont Eleganz und Verführung.
- Double Exposure (Doppelbelichtungen): Übereinanderliegende Bilder für einen surrealen Effekt oder zur gleichzeitigen Darstellung zeitlich gestaffelter Vorgänge
- Long Exposure (Langzeitbelichtung): Bedeutet, dass ein Bild über mehrere Sekunden hinweg belichtet wird. Erzeugt Bewegungsunschärfe, Lichtspuren und weich fließendes Wasser
- Vintage (Nostalgisch): Greifen den Look vergangener Zeiten auf, verblasste Farben in sepia Tönen mit körniger Textur
- Polaroid Art: (Sofortbild): Ahmt das Aussehen von Polaroid-Sofortbildern nach.
- Genre (Klassifikation mit Bezug zum Handlungsaufbau):
- Film Noir (Düsterer Look): Düstere, geheimnisvolle Szenerie, oft mit Verbrechensthematik.
- Horror (Horror): Angst und Entsetzen auslösend
- Western (Western): Ein edler, wohlgesonnener Held stemmt sich gegen eine Überzahl an Bösen in der Landschaft des amerikanischen Westen.
- Fantasy (Fantasy): Magische und übersinnliche Schauplätze.
- Romantic (Romanitk): Zelebriert Liebe und Gefühle.
- Drama (Drama): : Intense and emotional narratives.
- Animation (Animation): Bewegung entsteht durch eine Abfolge von Zeichentrick- oder Computerbildern, oder durch Stop-Motion-Animationen
- Science-Fiction (Science-Fiction): Wissenschaftsnahe spekulative Auseinandersetzung mit möglichen Zukunftsszenarien.
- Thriller (Thriller): Spannend und fesselnd mit Elementen die die Betrachter erschrecken.
- Mystery (Mystery): Fesselnde Rätsel und Geheimnisse, oft mit offenem Ende
- Documentary (Dokumentarisch): Ereignisse und Geschichten aus dem wirklichen Leben.
- Historical (Historisch): Schilderung vergangener Epochen und Ereignisse und deren Bezug zur Gegenwart
- Camera Equipment (Kameragehäuse)
- Hasselblad X2D: Modefotografie mit 100 MP Sensor für höchste Bildqualität bei starken Vergrößerungen
- Phase One XF: Fotoapparat für Landschaftsfotografie, bei der man Details heraus-vergrößern kann
- Canon EOS R3: Reportage und Sport wo nicht viel Zeit zum Scharfstellen ist
- DJI Phantom 4: Luftaufnahmen und zur Verfolgung bewegter Objekte
- Nikonos V: Unterwasseraufnahmen und an regengepeitschten oder klimatisch extremen Orten, mit Wechselobjektiven
- GoPro Hero: Selfie-Action-Aufnahmen und Abenteuersport
- Polaroid 635 Supercolor: Sofortbildkamera für nostalgischen Look
- Photo-Lenses (Objektive)
- 360-Degree-View Lens (Rundum-Objektiv): Erzeugt kugelförmig verzerrte Bilder mit einem Sichtwinkel im Bereich zwischen 180° und 360°
- Macro Lens (Makro-Objektiv): Eignet sich für extreme Nahaufnahmen im Maßstab jenseits von 1:1
- Fisheye Lens (Fischaugen-Objektiv): Starke tonnenförmige Verzerrung von Linien die nicht durch die Bildmitte laufen. Surreal anmutende Ansichten auch für Bildwinkel jenseits von 130°.
- Wide-Angle Lens (Weitwinkel-Objektiv): Weites Sichtfeld für Landschafts- und Architekturfotos. Rechte Winkel werden als rechte Winkel abgebildet. Große Tiefenschäfte und stellt Objekte im Vordergrund überproportional Groß dar.
- f=50mm (Normalobjektiv): Entspricht am ehesten dem menschlichen Sehen.
- f=85mm Lens (Portrait-Objektiv): Minimale Verzeichnung, natürlich wirkende Gesichtszüge, klare Trennung von Motiv und Bildhintergrund mit unverwechselbarem Bokeh
- Telephoto Lens (Teleobjektiv): Vergrößert weit entfernte Motive und komprimiert die Perspektive. Speziell Wildtier und Sportfotografie
- Photography Films (Filme aus der Zeit der Analogfotografie)
- Kodachrome 64: Diafilm mit satten und leuchtenden Farben mit ausgezeichneter Archivierungsstabilität. Entwicklung mit K-14 Prozess.
- Kodak Ektachrome: Tageslicht-Diafilm mit feiner Körnung, satten Farben und exzellenten Hauttönen. Entwicklung mit E-6-Prozess.
- Kodak Portra: Farbnegativfilm mit spektakulären Hauttönen für Portrait und Modeaufnahmen
- Kodak Gold: Farbnegativfilm für Privatanwender, der für seine warmen Farbtöne, den guten Belichtungsspielraum und den günstigen Preis bekannt war.
- Ilford HP5 Plus 400: Hochgeschwindigkeits-Schwarzweißfilm mit feinem Korn und hervorragender Schärfe
- Kodak Tri-X: klassischer Schwarzweißfilm mit einem düsteren Charakter, vielseitigem Kontrast
- Technicolor: Farbfilmverfahren, der 1930er und 1940er Jahre und für seine lebendige und stilisierte Farbpalette in klassischen Hollywoodfilmen bekannt.
- Polaroid SX-70: Produzierte farbige Sofortbilder mit Polaroid-Film, der sich durch sein einzigartiges quadratisches Format und seine weiche, verträumte Ästhetik auszeichnete.
- Kodak Aerochrome: Infrarotfilm, der surreale Landschaften mit leuchtenden Rot- und Rosatönen einfängt und häufig für künstlerische und experimentelle Fotografie verwendet wurde.
- Camera Sensor (Kamera-Sensoren)
- APSC Sensor (APSC Sensor) Hat gegenüber einem Vollformat-Sensor einen Cropfaktor von 1,6, um welchen sich die Brennweite des Objektivs scheinbar in Richtung Telewirkung verlängert. Preiswerter, da weniger Sensorfläche
- Full-Frame Sensor (Vollformat-Sensor): Sensorfläche wie Kleinbildfilm mit 36 x 24 mm.
- Aspect Ratio (Seitenverhältnis): Monitore weisen ein Seitenverhältnis von 16:9 oder 4:3 auf.
- Pixel Count (Pixelzahl): SD, Full-HD, 4k, 6k, 8k definiert Anzahl der Pixel je Zeile, Anzahl der Pixel in der Höhe errechnet sich aus dem Seitenverhältnis.
- Shutter-Speed (Belichtungszeit)
- Fast Shutter Speed (kurze Belichtungszeit): <1/500 sec; Ideal für Action Fotografie, friert den Moment ein
- Moderate Shutter Speed (mittlere Belichtungszeit): 1/100 sec: Ideal für Alltagsszenen, friert Bewegungen ein
- Slow Shutter Speed (lange Belichtungszeit): > 1/10 sec: Hervorragend geeignet, um ein Gefühl der Bewegung zu erzeugen, wie bei Bildern mit fließendem Wasser oder Lichtspuren.
- Aperture (Blende)
- Wide Aperture (Große Blendenöffnung): Niedrige Blendenzahl, etwa f/1,4 erzeugt eine geringe Schärfentiefe und lässt den Hintergrund verschwimmen (ideal für Porträts).:
- Narrow Aperture (Kleine Blendenöffnung): Hohe Blendenzahl, etwa f/16 erhöht die Schärfentiefe, sodass ein größerer Teil des Motivs im Fokus bleibt (Landschaftsfotografie).
- ISO value (Lichtempfindlichkeit):
- ISO 25: Am besten geeignet für helles Sonnenlicht, mit hervorragender Schärfe und Detailgenauigkeit.
- ISO 100: Ideal für Aufnahmen bei ausreichend Tageslicht.
- ISO 400: Kompromiss bei Belichtungszeit und Rauschen, nützlich in der Dämmerung
- ISO 6400: Ermöglicht kurze Belichtungszeiten in der Dunkelheit für Fotos ohne Stativ, erkauft wird das aber mit sichtbarem Bildrauschen.
- Lighting conditions (Lichtsituationen):
- Natural Daylight (Natürliches Tageslicht): Licht kommt von der Sonne
- Sunny (Sonnig): Helles Sonnenlicht bei klarem Himmel.
- Overcast (Bewölkt): Diffuses Licht aufgrund von Bewölkung
- Rainy (Regnerisch): Durch Regen gedämpftes Licht
- Foggy (Neblig): Geringe Fernsicht zufolge von Nebel
- Snowing (Schneefall): Schnee- und Eiskristalle machen das Licht diffus
- Sunlight (Sonnenlicht): grelles weißliches Licht von der Sonne
- Moonlight (Mondlicht): weiches, silbriges Licht vom Mond
- Firelight (Feuerlicht): Rötlich, warmes Licht durch ein Feuer
- Candlelight (Kerzenlicht): Gemütliches, flackerndes Licht von Kerzen
- Neon Light (Neonlicht): Grünliches Licht von Neonleuchten
- Low Light (Schwaches Licht): Gedämpftes Licht
- Low Key / High Key Lighting (Low / High Key Aufnahme): Dramatisch dunkle oder überstrahlend helle Lichtsituation
- Spot Lighting (Spot Beleuchtung: Auf einen bestimmten Bereich fokussierte Beleuchtung
- Softbox Lighting (Softbox Beleuchtung): Weiches, warmes, gleichmäßig flächiges Licht
- Light Through a Window (Lichteinfall durchs Fenster): Natürliches Licht, das durch Fenster einfällt.
- Colors (Farben):
- Colorized (Koloriert): Hinzufügen von Farbe zu einem Schwarz-Weiß- oder Graustufenbild.
- Vivid (Lebendige Farben): Intensiv helle und gesättigte Farben.
- Bright / Dark Colors (Helle / Dunkle Farben): Helle Farben sind leuchtend und hell, während dunkle Farben tief und gedämpft sind.
- Black and White (Schwarz-Weiß): Eine Graustufendarstellung ohne Farbe.
- Warm / Cold Colors (Warme / Kalte Farben): Warme Farben (Rot, Orange, Gelb) vermitteln Wärme, während kalte Farben (Blau, Grün, Lila) kühler wirken.
- Monochromatic (Einfärbig): Farbschema mit Variationen eines einzigen Farbtons.
- Polychromatic (Vielfärbig): Enthält mehrere unterschiedliche Farben.
- Faded Colors (Verblasste Farben): Gedämpfte oder verwaschene Farbtöne.
- Colorful (bunt): Reich an verschiedenen leuchtenden Farben.
- Inverted Colors (Invertierte Farben): Umkehrung der Farbwerte (z. B. weiß wird schwarz, blau wird gelb).
- Rainbow Colors (Farben des Regenbogens): Spektrum der Farben eines Regenbogens.
- Desaturated Colors (Ungesättigte Farben): Reduzierte Farbintensität.
- Tan (Bräune): Hellbrauner Farbton
- Aqua (Wasserfarben): Blau-grüner Farbton
- Azure (Azurblau): Hellblauer Farbton
- Lighting conditions depending on the time of day (Tageszeitabhängige Lichtsituationen):
- Night (Nacht): Dunkle Zeit, wenn die Sonne unter dem Horizont steht
- Sunrise (Sonnenaufgang): Der Moment, in dem die Sonne am Morgen zum ersten Mal über dem Horizont erscheint.
- Morning (Morgen): Nach dem Sonnenaufgang, durch zunehmendes Licht gekennzeichnet
- Golden Hour (Goldene Stunde): Magische Zeit kurz nach Sonnenaufgang oder kurz vor Sonnenuntergang, wenn das Licht warm und weich ist.
- Blue Hour (Blaue Stunde): Kurze Zeit vor Sonnenaufgang oder nach Sonnenuntergang, wenn der Himmel einen schönen blauen Farbton annimmt.
- Sunset (Sonnenuntergang): Der Moment, in dem die Sonne am Abend hinter dem Horizont verschwindet.
- Twilight (Dämmerung): Übergangsphase zwischen Tag und Nacht, die vor dem Sonnenaufgang und nach dem Sonnenuntergang stattfindet.
- Image Section (Bildausschnitt):
- Extreme Wide Shot (Weitwinkel): Ein weit gefasster Bildausschnitt eignet sich für Landschaften oder Architekturaufnahmen, bei denen das Hauptmotiv in einem großen Kontext gezeigt wird.
- Establishing Shot (Totale): Eine totale Aufnahme zeigt das eigentliche Motiv und dessen Umgebung.
- Full Shot (Halbtotale): Bei einer halbtotalen Aufnahme wird das Motiv in einem mittleren Ausschnitt gezeigt. Es wird ein Teil der Umgebung sichtbar, aber der Blick wird auf das Motiv gelenkt.
- American Cut (Amerikanische Einstellung): Bildausschnitt, wie er in Western für Cowboys beim Duell üblich ist. Die Person ist vom Kopf bis einschließlich der Oberschenkel sichtbar. Beliebt für Personenfotos auf Instagram.
- Medium Cut (Halbnah): Eine halbnahe Aufnahme zeigt das Motiv von etwa der Taille oder dem Hüftbereich aufwärts, es werden aber immer noch Teile der Umgebung sichtbar. Sie entspricht der Wahrnehmung eines einem gegenüber stehenden Gesprächspartners. Diese Einstellung ist auf Sozial-Media sehr beliebt. Der "Influencer" ist halbnah zu sehen, der einzigartige, beeindruckende, fotogene "Instagrammable Place" ist im Hintergrund erkennbar.
- Sholder Close Up (Nahaufname): Die Naheinstellung zeigt das Motiv in einem sehr engen Bildausschnitt. Menschen werden vom Kopf bis unterhalb der Brust dargestellt, so als würden sie von einem Bildhauer als Büste modelliert werden.
- Close Up (Großaufnahme): Eine Person ist vom Kopf bis zu den Schultern sichtbar, bzw. werden nur einzelne Körperteile, wie etwa die Hände sichtbar. Großaufnahmen eignen sich natürlich auch sehr gut für Gegenstände.
- Extreme Close Up (Detailaufnahme): Ein Detailausschnitt zeigt einen sehr engen Blick auf ein bestimmtes Detail oder einen kleinen Teil des Motivs, etwa die Armbanduhr eines Darstellers oder ein kleines Motiv auf einer bemalten Blumenvase.
- Italian Shot (Italienische Einstellung): Eine aus dem Film "Spiel mir das Lied vom Tod" bekannte Detailaufnahme, bei der ausschließlich die Augenpartie der Darsteller zu sehen ist. Die englische Bezeichnung lautet "Italian Shot".
- Bird’s View Shot (Vogelperspektive). Zeigt die Szene von oben, wie von einem fliegenden Vogel aus gesehen.
- Low Angle Shot (Niedriger Aufnahmewinkel): Sicht von unten nach oben, vermittelt das Gefühl von Macht und Dominanz.
- Moods (Stimmungen):
- Dark (Dunkel): Erweckt ein Gefühl von Geheimnis und Schatten.
- Bright (Hell): Strahlt Licht und Klarheit aus.
- Vibrant (Lebhaft): Strotzt vor intensiven Farben und Energie.
- Mystical (Mystisch): Rätselhaft, mit einem Touch vom Jenseits
- Romantic (Romantisch): Voller Emotionen, oft verbunden mit Liebe und Sehnsucht.
- Minimalistic (Minimalistisch): Auf die wesentlichen Elemente reduziert.
- Futuristic (Futuristisch): Zukunftsorientiert, mit einem Sinn für Innovation und Technologie.
- Meditative (Meditativ): Ruhig, beschaulich und besinnlich
- Seaside Ambient (Meeresambiente): Wellengeräuschen und salzige Luft.
- Underwater (Unterwasser): Unter Wasser, mit fließenden Bewegungen und gefiltertem Licht.
- Extraterrestrial (Außerirdisch): Fremd, jenseits unserer irdischen Welt.:
- Space (Kosmisch): Symbolisiert die unermesslichen kosmischen Weiten, übersät mit Sternen, Planeten und Galaxien.
- Desert (Wüstenhaft): Karge Landschaft mit Sand, Felsen und extremen Temperaturen.
- Forest (Wald): Ein üppiger, grüner Lebensraum, in dem es von Bäumen, wilden Tieren und Ruhe nur so wimmelt.
- Surface characteristics and Reflections (Oberflächeneigenschaften und Spiegelungen)
- Glossy, Shiny, Glare (Glänzend): Glatt und spiegelnd, mit hohem Glanz.
- Matte (Matt): Nicht reflektierend, mit einer stumpfen Oberfläche.
- Shimmering (Schimmernd): Funkelnd, wie Sonnenlicht auf Wasser.
- Reflective (Reflektierend): In der Lage, Licht oder Bilder zurückzustrahlen.
- Mirrored (Spieglend): Exakt reflektierend wie ein Spiegel.
- Satin (Satin): Weich und glänzend, mit einem subtilen Schimmer.
- Transparent (Transparent): Lässt das Licht klar und ohne Verzerrung hindurch.
- Translucent (Streuend): Lässt Licht durch, aber macht es streuend und diffus.
- Opaque (Undurchsichtig): Das Licht wird vollständig blockiert, so dass darunter liegende Objekte nicht sichtbar sind.
- Polarized (Polarisierend): Filtert Lichtwellen, um Blendung zu reduzieren und die Klarheit zu verbessern. Z.B.: weiße Wolken auf strahlend blauem Himmel
- Luminescent (Lumineszierend): Emittiert selbstständig Licht, wie bei Materialien, die im Dunkeln leuchten.
- Emotions (Emotionen):
- Fear (Angst): Eine Reaktion auf eine wahrgenommene Gefahr oder Bedrohung.
- Joy (Freude): Ein intensives Gefühl von Glück.
- Love (Liebe): Tiefe Zuneigung und Fürsorge für jemanden oder etwas.
- Hope (Hoffnung): Optimistische Erwartung eines positiven Ergebnisses.
- Anger (Wut): Starke Verärgerung oder Frustration.
- Sadness (Traurigkeit): Gefühl der Trauer oder des Kummers.
- Disgust (Abscheu): Abneigung gegen etwas Unangenehmes.
- Excitement (Aufregung): Vorfreude oder Begeisterung.
- Gratitude (Dankbarkeit): Aberkennung fremder Leistungen und deren Wertschätzung
- Guilt (Schuldgefühl): Emotionaler Kummer aufgrund von Fehlverhalten oder Bedauern.
- Envy (Neid): erlangen nach dem, was andere haben.
- Anticipation (Vorwegnahme): Gedankliche Erwartungshaltung, Vorgriff auf ein zukünftiges Ereignis
- Archetypes (Urbilder):
- Hero (Held): Mutige Figur, die sich Herausforderungen stellt und über Widrigkeiten triumphiert.
- Superstar (Superstar): Eine ikonische und gefeierte Person
- Princess (Prinzessin): Eine königliche und anmutige Figur, oft mit Märchen in Verbindung gebracht
- Rebel (Rebell): Ein Nonkonformist, der Autoritäten oder gesellschaftliche Normen herausfordert.
- Detective (Detektiv): Eifriger Ermittler, der Rätsel löst und die Wahrheit herausfindet.
- Explorer (Entdecker): Neugieriger Abenteurer, der nach neuen Horizonten und Entdeckungen sucht.
- Lover (LiebhaberIn): Eine leidenschaftliche und romantische Seele, die in Herzensangelegenheiten verwickelt ist.
- Outlaw (Gesetzloser): Ein Abtrünniger, der außerhalb des Gesetzes oder der gesellschaftlichen Konventionen agiert.
- Magician (Magier): Eine mystische und rätselhafte Figur mit übernatürlichen Fähigkeiten.
- Everyman (Jedermann): Eine gewöhnliche Person, die die allgemeine menschliche Erfahrung repräsentiert.
- Age group (Altersgruppe):
- Baby (Baby): Säuglinge.
- Infant (Kleinkind) Sehr junge Kinder
- Child (Kind): Eine junge Person vor Erreichen der Pubertät.
- Teenager (Teenager): Eine Person zwischen Kindheit und Erwachsensein, typischerweise im Alter von 13 bis 19 Jahren.
- Adolsescent (Heranwachsender): Eine Person, die sich im Übergangsstadium zwischen Kindheit und Erwachsensein befindet.
- Girl (Mädchen): Ein weibliches Kind oder eine junge Frau.
- Miss (Fräulein): Eine unverheiratete Frau
- Woman (Frau): Erwachsene weibliche Person
- Lady (Frau): Höfliche Anrede für eine elegante und beeindruckende Frau
- Boy (Junge): Ein männliches Kind oder ein junger Mann.
- Man (Mann): Erwachsene männliche Person
- Grandma (Großmutter): Eine liebevolle und erfahrene Großmutter.
- Grandpa (Großvater): Ein weiser und fürsorglicher Großvater.
- Senior (Senior) : Eine ältere Person, die oft mit dem Rentenalter in Verbindung gebracht wird.
- Elder Person (Ältere Person): Ein respektvoller Begriff für eine ältere Person, der ihre Weisheit und Erfahrung hervorhebt.
- Atributes of human body (Eigenschaften des menschlichen Körpers):
- Striking Eyes (Auffällige Augen): Augen, die aufgrund ihrer Intensität oder ihrer einzigartigen Merkmale die Aufmerksamkeit auf sich ziehen.
- Silky Hair (Seidiges Haar): Glattes und glänzendes Haar mit einer weichen Textur.
- Well-Styled Hair (Gut gestyltes Haar): Sorgfältig gepflegtes und arrangiertes Haar für ein gepflegtes Aussehen.
- Elegant Posture (Elegante Körperhaltung): Anmutige und ausgeglichene Körperhaltung.
- Natural Beauty (Natürliche Schönheit): Unverfälschte, echte Attraktivität.
- Inner Glow (Inneres Strahlen): Eine strahlende Qualität, die von innen kommt und Positivität und Selbstvertrauen widerspiegelt.
- Hourglass-Shaped Body (Sanduhrförmiger Körper): Eine weibliche Figur mit ausgeprägten Proportionen, die eine schmale Taille hervorheben.
- Athletic Physique (Athletischer Körperbau): Ein fitter und durchtrainierter Körper, der durch körperliche Aktivität entsteht.
- Charming Smile (Charmantes Lächeln): Ein warmes und fesselndes Lächeln, das das Gesicht erhellt.
- Strong Jawline (Kräftige Kieferpartie): Gut ausgeprägte Konturen entlang des Kiefers, die oft mit Selbstvertrauen verbunden sind.
- Characteristics of clothing (Merkmale der Kleidung):
- Stylish (Stilvoll): Ein modisches und gut abgestimmtes Erscheinungsbild.
- Elegant (Elegant): Anmutig, raffiniert und anspruchsvoll.
- Trendy (Trendig): Im Einklang mit den aktuellen Modetrends.
- Versatile (Vielseitig): Anpassungsfähig und für verschiedene Anlässe geeignet.
- Bohemian (Unkonventionell): Ungezwungen, freudig und unkonventionell. Inspiriert aus den 1960 Jahren.
- Flattering (Schmeichelhaft): Verstärkt das Erscheinungsbild und ergänzt die Gesichtszüge.
- Tailored (Maßgeschneidert): Individuell an den Körper angepasst und sorgfältig gefertigt.
- Transparent (Transparent): Durchscheinende Kleidung
- Cut out (Löchrig): Kleidung in der sich absichtlich Löcher befinden
- Famous Role Model (Berühmte Vorbilder):
Hier beginnt es rechtlich bedenklich zu werden, denn wenn die KI die nachfolgenden Personen und deren charakterisitische Eigenheiten tatsächlich kennt, um sie nachmachen zu können, stellt sich schnell die Frage, ob dieses Wissen aus urheberrechtlich unbedenklichen Quellen stammt und ob die Resultate rechtssicher verwendet werden dürfen.
-
- Painter (Maler): abhängig von persönlichen Vorlieben
- Graphic Designer (Grafiker): abhängig von persönlichen Vorlieben
- Photographer (Fotograf): abhängig von persönlichen Vorlieben
- Director (Regisseure): abhängig von persönlichen Vorlieben
- Set Designer (Bühnenbildausstatter): abhängig von persönlichen Vorlieben
- Film star (Filmstar): abhängig von persönlichen Vorlieben
- Superheroes (Superhelden): abhängig von persönlichen Vorlieben
- Cartoon Character (Zeichentrickfigur): abhängig von persönlichen Vorlieben
Test auf Praxistauglichkeit: Tech-Demo vom 28.03.2024
Erzeuge ein Foto wie folgt:
A 22-year-old mathematics student with long blonde hair, cut-out jeans, and a white T-shirt, elegantly posed, fights a math monster in the lecture hall with a ruler in hand. The monster is made up of mathematical terms and formulas. It takes the form of a dragon and attacks the student with its fiery eyes, bared teeth, and clawed claws. The mood is threatening and chaotic, but the student is determined to win the battle. Hyper-realistic cinematic 4k scenery, daylight, vibrant colors, medium shot, wide-angle shot.
Hier das Resultat von Copilot unterstütze von DALL·E
Hier das Resultat von Midjourney v 6.0:
Hier das Resultat von Adobe Firefly
Hier das Resultat von Stabile Diffusion erzeugt mit DreamStudio