KI im Jahre 2023

Was ist das, was kann es, was kann es nicht?

Prof. Oliver Dürr, Prof. Georg Umlauf

Überblick

  • Einordnung

    • Deep Learning vs. Künstliche Intelligenz
  • Prinzipielle Funktionsweise von neuronalen Netzen

    • Einfache NN im Detail
  • Grenzen der KI

    • Fokus auf Transparenz

Vorbemerkung

Der kluge Hans

KI (AI), Machine Learning, Deep Learning

Deep Learning ist der Treiber der jetzigen KI Welle (von 2012 an).

Anwendungen der (schachen) KI

(Künstliche) Neuronale Netze

Alle NN bestehen aus Neuronen…

…Mache haben aber mehr Neuronen als andere.

Beispiele für Neuronale Netze

Wichtig ist was hinten rauskommt (und vorne reingeht)

Beispiel: ChatGPT

  • Architektur: “Language Model”

    • Input: X Sequenz (bis zu 8000 Wörter1)

    • Output: Y Nächstes Wort (W’keiten)

  • Typisches Netz 2020 GPT-3 175’000’000’000 Parameter (Neuronen) Brown et al. (2020)

Beispiel: Alexnet

  • Architektur: Bild Klassifikation

    • Input X Bild z.B. 1024x1024 Pixel

    • Output Y Klasse Label (eines von 1000)

  • Typisches Netz 2012 Alex Net 60’000’000 Parameter Krizhevsky, Sutskever, and Hinton (2012)

Beispiel: GaussNet (Lineare Regression)

  • Architektur Lineare Regresion

    • Input X Zahl (X=alter)

    • Output Y Zahl (Y=Blutdruck)

  • Typisches Lineare Regression, 2 Parameter, Gauss (unpublished ~ 1795), Legendre (1805)

Training von NN

Training von NN (Beispiel Bildklassifikation)

Einfache Netzwerke (im Detail)

NN 1: Vorhersage des Blutdrucks

Trainingsdaten: Blutdruck von 33 Nordamerikanischen Frauen (ersten 10)

    x   y
1  22 131
2  41 139
3  52 128
4  23 128
5  41 171
6  54 105
7  24 116
8  46 137
9  56 145
10 27 106

Aufgabe: Blutdruck für eine 75 jährige Frau (gegeben den Trainingsdaten)?

Data

Blutdruck für eine 75 Jahre, Idee?

Lineare Regression

Modell mit 2 Parametern \(w,b\), welches für jedes gegebenes Alter (\(x\)) den Blutdruck(\(y\)) vorhersagt:

\[ y = w \cdot x + b \]

Lineare Regression as Neuronales Netz

  • Gewichte der Neuronen:
    • Parameter des Modells (hier 2 Werte)
  • Training:
    • Bestimmen der opt. Gewichte für Trainingsdaten
  • Vorhersage:
    • Berechnung von \(y\) aus \(x\) (forwardpass)
  • Transparent Interpretierbar:
    • Pro Jahr steigt Blutdruck um Punkte

Grosse Netzwerke

Training großer Netze

  • Lineare regression hat 2 parameter (slider)

  • Grosse Netze haben Mio/Mrd parameter

  • Training Minimierung einer Verlustfunktion auf den Trainingsdaten

    • Trainingsprinzip: Wie gut sagt das Model die Daten vorher (Maximum Likelihood Prinzip)

    • Algorithmus: Backpropagation (Rummelhard)

    • Training von großen Netzten große technoligische Herausforderung

Vorhersagen nur so gut wie Trainingsbeispiele!

ChatGTP

Principles of ChatGPT

  • Transformer Architecture / self attention

    • Spezielle Art neuronen zu verbinden: Vaswani et al. (2017)
  • “trained with maximum likelihood”

    • “Normales Training”
  • Generative Language Model […] predict next token in a sequence of tokens

    • Sagt nächstes Wort vorraus

Generating Text (You)

Wahrscheinlichkeiten (des Sprachmodels) für das nächste Wort

  • trinken (70%)

  • bieremoji (15%)

  • oder (10%)

  • sonstige kummuliert (5%)

Generating Text (ChatGPT)

  • Steps 1: Describe your technology in one sentence. -> I

  • Steps 2: Describe your technology in one sentence. I -> am

  • Steps 3: Describe your technology in one sentence. I am -> a

  • Steps 4: Describe your technology in one sentence. I am a -> generative

  • Step 36 Describe your technology in one sentence. I am a … new text. -> <END>

Beim Text wird das nächste Wort proportional zur Wahrscheinlichkeit ausgewürfelt.

Zufälliges Auswählen: Beispiel 1

Zufälliges Auswählen: Beispiel 2

Training von ChatGPT

  1. Vorhersage des nächsten Worts

    • Muss keine Daten labeln

    • Trainingsdaten “Internet” (common crawl)

    • CO2 äquivalent 120 Auto für ein Jahr

  2. Finetuning als Chatbot

Zwischen Fazit

  • Deep Learning Modelle sind parametrische Modelle
  • Einfachstes Beispiel lineare Regression

  • Die Parameter werden an Trainingsdaten gefittet

Oder prägnanter…

<<All the impressive achievements of deep learning amount to just curve fitting>>

Juda Pearl, 2018

Transparenz von NN

Transparenz (im nachhinein)

  • Wichtigkeit von bestimmten Eingangsdaten für die Entscheidungen.

Transparenz (Design der Netze)

  • Vorhersage vs. Interpretation

    • Einfach Modelle, wie lineare Regression können interpretiert werden.

    • Komplexe Modelle oft in den Vorhersagen besser.

    • Kombination von einfachen interpretierbaren mit komplexen Modellen

  • BMBF Projekts “DeepDoubt

  • Bild Daten (hier Hautkrebs) mit tiefen NN
  • Alter mit linearer Regression

Statistische Natur von KI

Statistik

Fussvergrößerung ==> mehr Gehalt?

Statistik vs. Kausalität

KI ist nicht kausal (2023)

Fazit

KI ist ein hilfreiches Werkzeug:

  • Code für Animationen wurde mit ChatGPT entwickelt

  • Viele Nüzliche Anwendungen Medizin, Stromvorhersage1,…

Allerdings:

  • Auch wenn es schwerfällt zu glauben: kein inneres Verständniss
  • Biased
    • Nur so gut wie Trainingsdaten
  • Transparent
    • Maximal im statistischen Sinne

Danke für Ihre Aufmerksamkeit

Literature

Arpogaus, Marcel, Marcus Voß, Beate Sick, Mark Nigge-Uricher, and Oliver Dürr. 2021. “Probabilistic Short-Term Low-Voltage Load Forecasting Using Bernstein-Polynomial Normalizing Flows.” In ICML 2021, Workshop Tackling Climate Change with Machine Learning, June 26, 2021, Virtual.
Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” arXiv. https://arxiv.org/abs/arXiv:2005.14165.
Dürr, Oliver, Stephan Hörling, Daniel Dold, Ivonne Kovylov, and Beate Sick. 2022. “Bernstein Flows for Flexible Posteriors in Variational Bayes.” arXiv Preprint arXiv:2202.05650. https://arxiv.org/abs/2202.05650.
Dürr, Oliver, Beate Sick, and Elvis Murina. 2020. “Probabilistic Deep Learning: With Python, Keras and TensorFlow Probability.” Manning Publications.
Herzog, Lisa, Lucas Kook, Andrea Götschi, Katrin Petermann, Martin Hänsel, Janne Hamann, Oliver Dürr, Susanne Wegener, and Beate Sick. 2022. “Deep Transformation Models for Functional Outcome Prediction After Acute Ischemic Stroke.” Biometrical Journal, December, bimj.202100379. https://doi.org/10.1002/bimj.202100379.
Kook, Lucas, Philipp FM Baumann, Oliver Dürr, Beate Sick, and David Rügamer. 2022. “Estimating Conditional Distributions with Neural Networks Using R Package Deeptrafo.” arXiv. https://doi.org/10.48550/arXiv.2211.13665.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks.” In Advances in Neural Information Processing Systems, edited by F. Pereira, C. J. Burges, L. Bottou, and K. Q. Weinberger. Vol. 25. Curran Associates, Inc.
Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. 1986. “Learning Representations by Back-Propagating Errors.” Nature 323 (6088): 533–36. https://doi.org/10.1038/323533a0.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv. https://doi.org/10.48550/arXiv.1706.03762.