Rezension: Machine Learning und KI kompakt

Über das Buch

Sebastian Raschka ist der Autor des überaus erfolgreichen „Build a Large Language Model (From Scratch)", das ich an anderer Stelle besprochen habe. An dieses reicht „Machine Learning und KI kompakt" für mich nicht heran.

Das Buch ist die deutsche Übersetzung (von Frank Langenau) des englischen Originals Machine Learning Q and AI (No Starch Press, 2024). Es folgt einem ungewöhnlichen Frage-Antwort-Format: 30 kurze Kapitel, jedes rund um eine zentrale Frage aus maschinellem Lernen, Deep Learning und KI. An jedes Kapitel schließt sich ein Abschnitt mit Übungen und Referenzen an, und der Autor verweist konsequent auf die Originalveröffentlichungen — etwa von Sutskever oder Hinton.

Schnell wird deutlich, für wen das Buch geschrieben ist: für Praktiker und Profis, die tatsächlich maschinelles Lernen betreiben und die zentralen Konzepte bereits kennen.

Aufbau

Das Buch gliedert sich in fünf Teile:

Teil I — Neuronale Netze und Deep Learning
Teil II — Computer Vision
Teil III — Natürliche Sprachverarbeitung
Teil IV — Produktion und Deployment
Teil V — Prädiktive Performance und Modellbewertung

Die Kapitel sind durchweg sehr knapp: Zieht man Übungen und Referenzen ab, bleiben oft nur zwei bis drei Seiten reiner Text; das längste Kapitel umfasst rund zehn Seiten. Sie bauen zudem nur lose aufeinander auf. Jedes Kapitel enthält in der Regel mehrere Grafiken, die den Inhalt veranschaulichen — das finde ich gelungen.

Meine Bewertung

Ich muss gestehen, dass ich nur schwer in das Buch hineingefunden habe. Das erste Kapitel behandelt Einbettungen, den latenten Raum und Repräsentationen — und schon hier las sich der Text in der Übersetzung ziemlich sperrig. Hinzu kommt ein etwas schlampiges Lektorat: An einer verdoppelten Satzpassage und einer falschen Abbildungsreferenz merkt man, dass nicht überall sorgfältig gegengelesen wurde (die Details dazu stehen in der erweiterten Rezension weiter unten).

Hinzu kommt der Zuschnitt: Durch die sehr kurzen, nur lose verbundenen Kapitel wirkt das Buch eher wie eine Sammlung von Notizen als wie ein durchkomponiertes Lehrwerk.

Um die Übersetzung besser einordnen zu können, habe ich Kapitel 2 (Self-Supervised Learning) zusätzlich im englischen Original gelesen. Mein Eindruck: Obwohl Englisch nicht meine Muttersprache ist, konnte ich das Original flüssiger lesen als die Übersetzung.

Ein Einwand zum Untertitel auf dem Cover: „Zentrale Konzepte verstehen und anwenden". Dieser Untertitel ist eine Zutat der deutschen Ausgabe — im Original heißt das Buch „Machine Learning Q and AI: 30 Essential Questions and Answers on Machine Learning and AI". Der englische Untertitel beschreibt den Frage-Antwort-Charakter des Buches ehrlich, statt ein „Verstehen und Anwenden" zu versprechen. Das kann ich so nicht unterschreiben. Die zentralen Konzepte werden zwar kurz erklärt, aber das Buch ist kein Lehrbuch — es wendet sich an Praktiker, die diese Konzepte bereits kennen. Der Teil mit dem „Anwenden" stimmt dagegen sehr wohl: Das Buch richtet sich an Menschen, die konkret Modelle trainieren und maschinelles Lernen betreiben.

Die Übersetzung der Fachbegriffe ist gut gelöst. „Overfitting" etwa wird korrekt als „Überanpassung" übertragen, und der englische Fachbegriff steht in Klammern dahinter.

Einige Punkte finde ich wirklich informativ. In Kapitel 8 wird die Frage beantwortet, warum sich Self-Attention leicht parallelisieren lässt und Transformer zugleich sehr rechenintensiv werden. Ebenso hilfreich fand ich, dass Kapitel 17 Encoder- und Decoder-basierte Transformer eigens gegenüberstellt.

Andere Stimmen

Das englische Original wird breit und sehr positiv aufgenommen — auf Goodreads liegt es im Schnitt um 4,5 Sterne. Mein durchwachsener Eindruck bezieht sich also ausdrücklich auf die deutsche Ausgabe samt Übersetzung — und darauf, dass ich nicht die Zielgruppe bin.

Gesamteindruck

Ich bin wohl nicht die Zielgruppe dieses Buches. Ich bin weder Wissenschaftler, noch arbeite ich in der KI-Industrie — entsprechend sind viele der sehr spezifischen Informationen für mich weniger relevant. Dazu kommt die mitunter sperrige Übersetzung: Die Fachbegriffe sind korrekt übertragen, dennoch liest es sich für mich zäh. Für mich persönlich wäre die englische Originalausgabe die bessere Wahl gewesen.

Bewertung im Detail

Substanz: 4 / 5
Aktualität: 3,5 / 5
Didaktik: 3 / 5
Praxisbezug: 3,5 / 5
Verständlichkeit: 2,5 / 5
Gesamt: 3 / 5

Kapitel für Kapitel

Kapitel 1: Einbettungen, latenter Raum und Repräsentationen (S. 3)

Klärt die feinen Unterschiede zwischen drei oft synonym gebrauchten Begriffen — Einbettungsvektoren, latente Vektoren und Repräsentationen — und wie jeder davon Information im maschinellen Lernen codiert.

Kapitel 2: Selbstüberwachtes Lernen (S. 9)

Erklärt selbstüberwachtes Lernen als Vortrainingsverfahren, das große unannotierte Datensätze nutzbar macht, grenzt es vom Transfer Learning ab und stellt die Hauptkategorien (selbst-prädiktiv und kontrastiv) vor.

Kapitel 3: Few-Shot-Lernen (S. 17)

Führt das Few-Shot-Lernen ein, bei dem ein Modell aus sehr wenigen Beispielen pro Klasse lernt, samt der zugehörigen Terminologie (Support- und Query-Set, N-Way-K-Shot).

Kapitel 4: Die Lotterie-Ticket-Hypothese (S. 21)

Stellt die Lottery-Ticket-Hypothese vor — dass ein großes Netz ein kleines, trainierbares Teilnetz enthält, das allein vergleichbare Genauigkeit erreicht — und diskutiert das iterative Pruning-Verfahren samt praktischer Grenzen.

Kapitel 5: Überanpassung mit Daten verringern (S. 25)

Behandelt die datenseitigen Mittel gegen Überanpassung: mehr Daten sammeln, Datenaugmentierung und Vortraining.

Kapitel 6: Überanpassung durch Modellmodifikationen reduzieren (S. 31)

Ergänzt die modellseitigen Gegenmaßnahmen zur Überanpassung — Regularisierung, kleinere Modelle und Ensembles — und wie man die passende Technik auswählt.

Kapitel 7: Multi-GPU-Trainingsparadigmen (S. 39)

Vergleicht die Strategien, ein Training über mehrere GPUs zu verteilen (Modell-, Daten-, Tensor-, Pipeline- und Sequenz-Parallelität), mit ihren jeweiligen Vor- und Nachteilen.

Kapitel 8: Der Erfolg der Transformer (S. 45)

Benennt die Faktoren hinter dem Erfolg der Transformer: den Attention-Mechanismus, das Vortraining per Self-Supervised Learning, die große Parameterzahl und die einfache Parallelisierbarkeit.

Kapitel 9: Generative KI-Modelle (S. 51)

Gibt einen Überblick über die Familien tiefer generativer Modelle (u. a. energiebasierte Modelle, VAEs, GANs, Flow- und Diffusionsmodelle, autoregressive Modelle) und ihre jeweiligen Schwächen.

Kapitel 10: Quellen der Zufälligkeit (S. 61)

Listet die Quellen von Zufälligkeit beim Training auf (Gewichtsinitialisierung, Dropout, Daten-Shuffling, Augmentierung, nichtdeterministische Operationen) und zeigt, wie man reproduzierbare Ergebnisse erreicht.

Kapitel 11: Die Anzahl der Parameter berechnen (S. 71)

Zeigt, wie man die Parameterzahl eines neuronalen Netzes — speziell der Faltungs- und der vollständig verbundenen Schichten — berechnet und wozu das nützlich ist.

Kapitel 12: Vollständig verbundene und konvolutionale Schichten (S. 77)

Erklärt, unter welchen Bedingungen sich eine vollständig verbundene Schicht durch eine konvolutionale Schicht ersetzen lässt, die dieselbe Berechnung leistet.

Kapitel 13: Große Trainingsmengen für Vision Transformer (S. 81)

Begründet, warum Vision Transformer in der Regel größere Trainingsmengen brauchen als CNNs — ihnen fehlen die baulichen Vorannahmen (induktiven Biases) der Faltungsnetze.

Kapitel 14: Die Verteilungshypothese (S. 91)

Erläutert die Verteilungshypothese: Wörter, die in ähnlichen Kontexten vorkommen, haben ähnliche Bedeutungen — die Grundlage für Worteinbettungen.

Kapitel 15: Datenvermehrung für Text (S. 95)

Stellt die gängigen Techniken zur Datenvermehrung für Text vor: Synonymersetzung, Wortlöschung, Wortvertauschung, Satzmischen, Rauschinjektion, Rückübersetzung und LLM-generierte Daten.

Kapitel 16: Selbstaufmerksamkeit (S. 101)

Erklärt, woher die Selbstaufmerksamkeit ihren Namen hat und wie sie sich von den früher entwickelten Attention-Mechanismen unterscheidet.

Kapitel 17: Encoder- und Decoder-Transformer (S. 107)

Stellt encoder-, decoder- und encoder-decoder-basierte Transformer gegenüber und ordnet ihre typischen Einsatzgebiete ein.

Kapitel 18: Transformer verwenden und feinabstimmen (S. 117)

Beschreibt die Wege, vortrainierte Sprachmodelle zu nutzen und anzupassen: den merkmalsbasierten Ansatz, das Finetuning, In-Context-Learning sowie parametereffiziente Methoden.

Kapitel 19: Generative LLMs evaluieren (S. 131)

Behandelt die Standardmetriken zur Bewertung generierter Texte (Perplexität, BLEU, ROUGE, BERTScore) und erklärt, was sie aussagen.

Kapitel 20: Zustandsloses und zustandsbehaftetes Training (S. 143)

Unterscheidet zustandsloses (Neutraining von Grund auf) und zustandsbehaftetes (fortgesetztes) Training im Produktionsbetrieb.

Kapitel 21: Datenzentrierte KI (S. 147)

Erklärt datenzentrierte KI — die Modellgüte über bessere Daten statt über Modelländerungen zu steigern — und wann sich dieser Ansatz lohnt.

Kapitel 22: Inferenz beschleunigen (S. 151)

Sammelt Techniken, um die Inferenz zu beschleunigen, ohne Architektur oder Genauigkeit zu opfern (u. a. Parallelisierung, Quantisierung, Pruning, Knowledge Distillation).

Kapitel 23: Datenverteilungsverschiebungen (S. 157)

Benennt die wichtigsten Arten von Verteilungsverschiebungen nach dem Deployment (Kovariaten-Shift, Label-Shift, Konzept-Drift) und wie man sie erkennt.

Kapitel 24: Poisson- und ordinale Regression (S. 165)

Klärt, wann die Poisson-Regression (Zähldaten) und wann die ordinale Regression (geordnete Kategorien) das geeignete Verfahren ist.

Kapitel 25: Konfidenzintervalle (S. 167)

Stellt verschiedene Wege vor, Konfidenzintervalle für die Leistung von ML-Klassifikatoren zu konstruieren (Normalapproximation, Bootstrap, Mehrfachtraining mit verschiedenen Seeds).

Kapitel 26: Konfidenzintervalle vs. konforme Vorhersagen (S. 177)

Grenzt Konfidenzintervalle (für Kennzahlen und Parameter) von konformen Vorhersagen (Vorhersagemengen für einzelne Datenpunkte) ab und sagt, wann man was nutzt.

Kapitel 27: Geeignete Metriken (S. 185)

Erklärt die drei Eigenschaften einer Distanzfunktion, die sie zu einer echten Metrik machen.

Kapitel 28: Das k in der k-fachen Kreuzvalidierung (S. 191)

Wägt die Vor- und Nachteile eines großen k bei der k-fachen Kreuzvalidierung ab (Bias-Varianz-Abwägung, Rechenaufwand).

Kapitel 29: Diskordanz zwischen Trainings- und Testdatensatz (S. 197)

Zeigt Verfahren, um Diskrepanzen zwischen Trainings- und Testverteilung aufzudecken (etwa adversariale Validierung) und gegenzusteuern.

Kapitel 30: Begrenzte gelabelte Daten (S. 201)

Sammelt Strategien für den Umgang mit wenig annotierten Daten: unter anderem mehr labeln, halbüberwachtes Lernen, Active Learning sowie Transfer- und selbstüberwachtes Lernen.

Fazit zur Übersetzung

Die Übersetzung trifft die Fachterminologie meist gut, leidet aber an Lektoratsmängeln: zwei verdoppelte Sätze und ein falscher Abbildungsverweis im ersten Kapitel, dazu eine stellenweise schwankende Begriffswahl. In einem ohnehin dichten Buch bauen solche Patzer unnötig zusätzliche Hürden auf — über das ganze Buch verteilt bleiben sie aber die Ausnahme und ballen sich im ersten Kapitel.