Rezension: Hands-On Large Language Models

Über das Buch

Das Buch stammt von zwei Autoren, die in der LLM-Szene keine Unbekannten sind: Jay Alammar, Director und Engineering Fellow beim KI-Unternehmen Cohere, wurde durch seinen Blog-Klassiker The Illustrated Transformer bekannt; Maarten Grootendorst, Senior Clinical Data Scientist beim niederländischen Krebsregister IKNL, ist Schöpfer der Open-Source- Bibliotheken BERTopic und KeyBERT.

Die Leitfrage des Buchs: Wie funktionieren große Sprachmodelle von innen, und wie setzt man sie praktisch ein — von der Textklassifikation über semantische Suche und RAG bis zum eigenen Fine-Tuning? Das erklärte Programm ist eine intuition-first-Philosophie: Statt mathematischer Herleitungen arbeiten die Autoren mit durchgängig illustrierten Erklärungen und lauffähigen Code-Beispielen.

Zielgruppe laut Vorwort: Leser mit Python-Erfahrung und Grundkenntnissen im maschinellen Lernen; Vorwissen zu PyTorch, TensorFlow oder generativer Modellierung wird ausdrücklich nicht vorausgesetzt. Alle Beispiele laufen auf Google Colab mit kostenloser NVIDIA-GPU — eine eigene GPU ist nicht nötig; wer lokal arbeiten will, braucht eine NVIDIA-Karte mit 16 GB VRAM. Sämtliche Codebeispiele stehen zudem als Jupyter-Notebooks in einem offiziellen GitHub-Repository bereit.

Aufbau

Das Buch gliedert sich in drei Teile mit zwölf Kapiteln.

Teil I — Understanding Language Models (Kap. 1–3) legt die Grundlagen: die jüngere Geschichte der Sprach-KI von Bag-of-Words bis zur Transformer-Architektur, Tokenizer und Embeddings, und ein Blick in das Innere generativer Transformer — eine aktualisierte und erweiterte Fassung von Alammars bekanntem Illustrated Transformer.

Teil II — Using Pretrained Language Models (Kap. 4–9) zeigt Anwendungsfälle mit vortrainierten Modellen ohne eigenes Training: Textklassifikation, Text-Clustering und Topic Modeling, Prompt Engineering, LangChain-Pipelines mit Gedächtnis und Agenten, semantische Suche und Retrieval-Augmented Generation sowie multimodale Modelle.

Teil III — Training and Fine-Tuning Language Models (Kap. 10–12) behandelt das Training eigener Embedding-Modelle, das Fine-Tuning von BERT für Klassifikation und das Fine-Tuning generativer Modelle mit Instruction Tuning, (Q)LoRA und Preference Tuning (RLHF, DPO).

Meine Bewertung

Das Vorwort kündigt eine intuition-first-Philosophie an. Dahinter stecken zwei Dinge: zum einen die visuelle Orientierung des Buchs — ganz nach dem Motto „Ein Bild sagt mehr als tausend Worte" —, zum anderen intuitive Erklärungen statt eines strengen Formalismus:

„To achieve this intuition-first philosophy we liberally make use of visual language. Illustrations will help give a visual identity to major concepts and processes involved." (S. xi f.)

Genau das ist dem Buch sehr gut gelungen. Didaktisch und visuell überzeugt es durchgehend; die vielen Diagramme erleichtern das Lesen erheblich.

Das zeigt sich von Beginn an: Das erste Kapitel führt die Grundbegriffe ein — Neuronales Netz, Embedding, Attention, Encoder, Decoder — und veranschaulicht sie durchweg gut. Ab dem zweiten Kapitel kommt funktionierender Python-Code dazu: Ein kleines Sprachmodell und ein Tokenizer werden geladen, die Tokenisierung wird anhand bunt eingefärbten Texts dargestellt. Dass man durchgehend kleine, lauffähige Programme an der Hand hat, mit denen man selbst experimentieren kann, gefällt mir gut. Das Niveau bleibt über alle zwölf Kapitel gleich hoch — an meinem Urteil hat sich im Verlauf der Lektüre nichts mehr geändert.

Positiv überrascht hat mich, dass das Buch über seinen Titel hinausgeht: Es behandelt auch Agenten, konkret mit der Bibliothek LangChain. Und es löst ein, was der Klappentext verspricht — fortgeschrittene LLM-Pipelines etwa zum Clustern von Textdokumenten oder eine semantische Suchmaschine lassen sich nach der Lektüre tatsächlich bauen.

Zur Einordnung: Das Buch ist eine Einführung, um zu verstehen, wie große Sprachmodelle funktionieren, und um sie mit Python zu nutzen. Es ist keine Anleitung, ein eigenes Sprachmodell von Grund auf zu trainieren — dazu gibt es ein anderes Buch, das ich noch besprechen werde. Programmieren können sollte man: Das Buch richtet sich an interessierte Leser, die wissen wollen, wie ein großes Sprachmodell funktioniert. Wer völlig fachfremd ist und noch nie programmiert hat, wird damit Schwierigkeiten haben.

Andere Stimmen

Auf Amazon wird das Buch überwiegend positiv besprochen — die Resonanz deckt sich mit meinem Eindruck.

Gesamteindruck

Ein gelungenes Buch: didaktisch wie visuell auf durchgehend hohem Niveau, mit lauffähigem Code zum Ausprobieren. Wer verstehen will, wie große Sprachmodelle funktionieren, und sie mit Python einsetzen möchte, ist hier richtig — wer ein eigenes Modell von Grund auf bauen will, braucht ein anderes Buch.

Bewertung im Detail

Substanz: 4 / 5
Aktualität: 4 / 5
Didaktik: 4,5 / 5
Praxisbezug: 4,5 / 5
Verständlichkeit: 5 / 5
Gesamt: 4 / 5

Kapitel für Kapitel

Kapitel 1: An Introduction to Large Language Models (S. 3)

Die jüngere Geschichte der Sprach-KI von Bag-of-Words über word2vec und rekurrente Netze bis zur Transformer-Architektur mit ihren zwei Zweigen: Encoder-only-Repräsentationsmodelle (BERT) und Decoder-only- Generierungsmodelle (GPT-Familie). Definiert die Grundbegriffe des Buchs und generiert mit Phi-3-mini einen ersten Text.

Mein Kommentar: Das Kapitel führt die Grundbegriffe ein — neuronales Netz, Embeddings, Attention, Encoder, Decoder — und veranschaulicht sie durchweg sehr gut. Genau das war der Anspruch des Buchs, und hier löst es ihn direkt ein.

Kapitel 2: Tokens and Embeddings (S. 37)

Wie Tokenizer Text in Token-IDs zerlegen — mit einem Vergleich der trainierten Tokenizer mehrerer Modelle — und was Embeddings auf Token-, Wort- und Dokumentebene sind. Abschließend word2vec, übertragen auf ein Musik-Empfehlungssystem aus Playlists.

Mein Kommentar: Hier steht gleich funktionierender Python-Code: Ein kleines Sprachmodell und ein Tokenizer werden geladen. Das gefällt mir gut — und die Tokenisierung wird anhand bunt eingefärbten Texts visuell sehr schön dargestellt.

Kapitel 3: Looking Inside Large Language Models (S. 73)

Blick in das Innere generativer Transformer: Forward Pass, autoregressive Generierung, KV-Cache und der schrittweise hergeleitete Attention-Mechanismus, dazu neuere Architekturverbesserungen wie Grouped-Query-Attention und Rotary Positional Embeddings.

Mein Kommentar: Ich wiederhole mich, aber es stimmt auch hier: visuell sehr ansprechend gestaltet.

Kapitel 4: Text Classification (S. 111)

Textklassifikation ohne eigenes Training, durchgängig am Beispiel von Filmkritiken: aufgabenspezifische Repräsentationsmodelle, Embedding-Modelle und generative Modelle (Flan-T5, GPT-3.5) im Vergleich über Klassifikationsmetriken.

Mein Kommentar: Wie immer schön dargestellt — und schön, dass man kleine Programme an der Hand hat, mit denen man herumspielen und die Dinge ausprobieren kann.

Kapitel 5: Text Clustering and Topic Modeling (S. 137)

Unüberwachtes Clustering von rund 45.000 ArXiv-Abstracts (Embeddings, UMAP, HDBSCAN) und der Übergang zum Topic Modeling mit BERTopic samt LLM-generierten Themen-Labels.

Kapitel 6: Prompt Engineering (S. 167)

Steuerung generativer Modelle über Sampling-Parameter, die Bausteine eines Prompts und Techniken wie In-Context Learning, Chain-of-Thought und Tree-of-Thought; abschließend Grammar-Constrained Sampling für valide strukturierte Ausgaben.

Kapitel 7: Advanced Text Generation Techniques and Tools (S. 199)

Erweiterung von LLMs mit LangChain: Chains mit Prompt-Templates, drei Gedächtnis-Varianten für Konversationen und ein erster Agent nach dem ReAct-Muster mit Websuche und Taschenrechner als Werkzeugen.

Kapitel 8: Semantic Search and Retrieval-Augmented Generation (S. 225)

Semantische Suche in drei Stufen — Dense Retrieval, Reranking, RAG — mit einem durchgängigen Beispiel, dazu Such-Evaluationsmetriken und fortgeschrittene RAG-Techniken bis zur RAG-Evaluation.

Kapitel 9: Multimodal Large Language Models (S. 259)

Multimodale LLMs: der Vision Transformer, CLIP als multimodales Embedding-Modell und BLIP-2 als Brücke zwischen Bild-Encoder und LLM, mit den Use Cases Image Captioning und chatbasiertem Visual Question Answering.

Kapitel 10: Creating Text Embedding Models (S. 289)

Eigene Text-Embedding-Modelle mit sentence-transformers: Contrastive Learning, die SBERT-Architektur, ein Vergleich der Loss-Funktionen sowie Fine-Tuning und unsupervisiertes Training mit TSDAE.

Kapitel 11: Fine-Tuning Representation Models for Classification (S. 323)

Fine-Tuning von BERT für Klassifikation: Klassifikationskopf, selektives Einfrieren von Schichten, Few-Shot-Klassifikation mit SetFit, fortgesetztes Pretraining per Masked Language Modeling und Named-Entity Recognition.

Kapitel 12: Fine-Tuning Generation Models (S. 355)

Fine-Tuning generativer Modelle in zwei Stufen: Instruction Tuning mit (Q)LoRA an TinyLlama und Preference Tuning mit Reward-Modellen, PPO und DPO; dazwischen die Evaluation generativer Modelle über Perplexity, Benchmarks und LLM-as-a-Judge.