Lokale KI-Modelle unter Windows und Linux einrichten

Wer Sprachmodelle und Bildgeneratoren auf eigener Hardware betreibt, behält die Kontrolle über seine Daten und ist nicht auf Cloud-Dienste angewiesen. Seit Anfang 2026 ist der Einstieg deutlich einfacher geworden — insbesondere für Besitzer von AMD-Grafikkarten. Diese Anleitung erklärt die nötigen Grundlagen, die Installation unter Windows und Linux sowie die drei wichtigsten Werkzeuge: Ollama, LM Studio und Amuse.

Grundlagen: Modellgröße, Speicher, Quantisierung

Bevor Sie ein Modell herunterladen, sollten Sie drei Konzepte kennen.

Parameterzahl. Modelle werden nach ihrer Parameterzahl benannt: Das „B" in Bezeichnungen wie Gemma 3 4B oder GPT-OSS-120B steht für „Billion", also Milliarde. Mehr Parameter bedeuten in der Regel bessere Antworten — allerdings nur innerhalb derselben Modellgeneration. Ein Llama 3.1 mit 8 Milliarden Parametern kann ein älteres Llama 2 mit 13 Milliarden durchaus übertreffen.

Speicherbedarf. Als Faustformel für die üblichen 4-Bit-quantisierten Modellversionen gilt: Parameterzahl geteilt durch zwei ergibt den ungefähren Speicherbedarf in Gigabyte. Ein 120B-Modell benötigt demnach rund 60 GB — weit mehr, als Consumer-Grafikkarten mit ihren typischen 16 bis 32 GB bieten. Entscheidend für die Geschwindigkeit ist, ob das Modell vollständig in den Grafikspeicher (VRAM) passt. Läuft es über, lagert das System in den Arbeitsspeicher aus; die Ausgabe wird dann deutlich langsamer, weil RAM und CPU erheblich langsamer arbeiten als die GPU.

Quantisierung. Um Speicher zu sparen, werden die Gewichte eines Modells statt mit 16 Bit mit 8 oder 4 Bit gespeichert. Der Qualitätsverlust fällt dabei wesentlich geringer aus, als die Zahlen vermuten lassen: Neuronale Netze verkraften grobe Rundung gut, die Werte werden blockweise mit eigenen Skalierungsfaktoren abgelegt, und besonders empfindliche Teile des Modells bleiben bei vielen Verfahren in höherer Genauigkeit erhalten. Ob ein quantisiertes Modell für den eigenen Anwendungsfall ausreicht, lässt sich letztlich nur durch Ausprobieren feststellen.

Voraussetzungen

Plattform	Empfohlene Hardware
Windows + AMD (AI Bundle)	Radeon RX 7700 oder neuer, RX 9000, Ryzen AI 300/400/Max; Treiber Adrenalin 26.1.1 oder neuer
Windows + AMD (ältere Karten)	RX 6000/7600: kein AI Bundle, aber Vulkan-Backend nutzbar
Windows + Nvidia	Aktuelle GeForce-Karte mit ausreichend VRAM, CUDA-Unterstützung ist in den Tools enthalten
Linux	AMD: ROCm-fähige Karte (RX 7000/9000 empfohlen), z. B. unter Ubuntu 24.04 LTS; Nvidia: proprietärer Treiber

Für flüssiges Arbeiten mit Sprachmodellen sind 16 GB VRAM eine sinnvolle Untergrenze; kleinere Modelle (4B–8B) laufen auch mit 8 GB. Welche Hardware sich dafür lohnt, behandeln die Beiträge RTX 3090 als P/L-König: Qwen 3.6 27B im Hardware-Vergleich und Unified-Memory-Workstations: 128 GB Speicher für lokale KI.

Installation unter Windows

AMD: Das AI Bundle

Seit der Treiberversion Adrenalin 26.1.1 (Januar 2026) liefert AMD den ROCm-7.2-Stack für Windows als Teil des Treiberpakets aus und bietet eine automatische Installation der gängigen KI-Werkzeuge an. Zur Einordnung: Tools wie LM Studio und Ollama liefen auch vorher schon auf AMD-Karten — LM Studio brachte die nötigen ROCm-Bibliotheken über ein Extension-Pack selbst mit und unterstützt daneben den herstellerunabhängigen Vulkan-Backend. Neu ist, dass die manuelle Einrichtung von SDK und Abhängigkeiten entfällt und ROCm zur System-Infrastruktur wird.

So gehen Sie vor:

Installieren Sie den Adrenalin-Treiber in Version 26.1.1 oder neuer vollständig.
Öffnen Sie über das Startmenü den AMD Install Manager.
Klicken Sie auf AI Bundle.
Wählen Sie die gewünschten Komponenten aus: das Framework PyTorch (empfohlen) sowie die Programme Ollama, LM Studio, Amuse und ComfyUI. Das vollständige Bundle belegt rund 34 GB Festplattenspeicher.
Starten Sie die Installation. Alle Komponenten werden vorkonfiguriert eingerichtet.

Nvidia

Für Nvidia-Karten laden Sie die Programme einzeln von den Herstellerseiten (ollama.com, lmstudio.ai) herunter. Die Installation verläuft unkompliziert; CUDA-Unterstützung bringen die Tools mit. Amuse ist auf AMD-Hardware optimiert und für Nvidia-Systeme weniger relevant — hier bieten sich ComfyUI oder Stable Diffusion WebUI an.

Ollama: Textgenerierung, minimalistisch

Ollama richtet sich an Einsteiger und erinnert in der Bedienung an ChatGPT oder Claude. Das Programm generiert ausschließlich Text, akzeptiert aber Bilder und Dokumente als Eingabe — etwa um Alt-Texte für Webseiten zu erstellen oder Dokumente zusammenzufassen.

Starten Sie Ollama über das Startmenü.
Öffnen Sie die Modellauswahl über die Schaltfläche unterhalb des Eingabefelds.
Wichtig: Modelle mit dem Zusatz „Cloud" laufen nicht lokal, sondern auf Ollama-Servern und erfordern ein Konto. Alle anderen Modelle werden lokal ausgeführt.
Wählen Sie ein Modell passend zu Ihrem Grafikspeicher — für 16 GB VRAM eignet sich beispielsweise Gemma 3 4B. Beim ersten Prompt lädt Ollama das Modell herunter.

Ob das Modell vollständig auf der GPU läuft, lässt sich im Task-Manager nachvollziehen: Bei einem zu großen Modell (etwa Gemma 3 27B auf einer 16-GB-Karte) füllt sich der Grafikspeicher vollständig, der Rest wandert in den Arbeitsspeicher — die Textausgabe verlangsamt sich dann deutlich sichtbar.

LM Studio: Textgenerierung mit erweiterten Funktionen

LM Studio bietet mehr Einstellmöglichkeiten als Ollama und zusätzlich einen lokalen API-Server für Entwickler. Die linke Seitenleiste gliedert das Programm in Chat, Entwicklerbereich, Modellverwaltung und Modellsuche.

Beginnen Sie mit der Modellsuche (unterstes Symbol). Die Symbole neben den Modellen zeigen deren Fähigkeiten:

Auge — das Modell verarbeitet Bilder und Dokumente als Eingabe.
Hammer — das Modell beherrscht Tool-Nutzung, kann also definierte Schnittstellen ansprechen (etwa eine Wetter-API).
Gehirn — das Modell unterstützt Reasoning, zeichnet also eine Gedankenkette auf und überprüft sie. Das verbessert tendenziell die Antwortqualität, verhindert Halluzinationen aber nicht.

LM Studio zeigt außerdem an, ob ein Modell vollständig in den Grafikspeicher passt („Vollständiges GPU-Offloading möglich") oder ob der Speicher des Rechners nicht ausreicht. Die aktuellen Gemma- und Qwen-Modelle liefern derzeit besonders gute Ergebnisse.

Im Chatfenster wählen Sie links oben („Pick a model") eines Ihrer heruntergeladenen Modelle aus; unten werden Prompt, Anhänge und Tools eingegeben. Die Voreinstellungen für GPU-Offload und Kontextlänge müssen in der Regel nicht verändert werden. Nur bei sehr langen Eingaben — etwa der Übersetzung umfangreicher Texte — empfiehlt es sich, die Token-Anzahl zu erhöhen.

Amuse: Bild- und Videogenerierung (nur Windows)

Amuse generiert Bilder und kurze Videoclips und ist in einen einfachen und einen Expertenmodus unterteilt.

Easy Mode: Links den Prompt eingeben, darunter zwischen Bild und Video wählen, anschließend Anzahl der Bilder und Performance über Regler einstellen. Ein Klick auf „Generate Images" lädt das passende Modell (etwa Stable Diffusion XL Turbo) automatisch herunter. Das Modell selbst lässt sich in diesem Modus nicht wechseln.

Expert Mode (Schaltfläche unten links): Hier stehen mehrere Arbeitsmodi zur Verfügung — Bildgenerierung per Prompt, Umwandlung eigener Bilder, Skizze-zu-Bild sowie ein Upscaler; ein eigener Tab dient der Videogenerierung. Fehlen in der Modellauswahl Einträge, müssen diese zunächst über den Model Manager heruntergeladen werden. Dort sind die Modelle nach Kategorien gegliedert: Stable Diffusion (Bildgenerierung), ControlNet (Umwandlung vorhandener Bilder), Upscaler (Hochrechnen) und Extractors (Kanten- und Tiefenerkennung).

Praxistipp: Formulieren Sie Prompts auf Englisch — das führt erfahrungsgemäß zu besseren Ergebnissen.

Installation unter Linux

Das AI Bundle existiert nur für Windows, und Amuse ist unter Linux nicht verfügbar. Dafür ist ROCm unter Linux seit Jahren am ausgereiftesten. Die Komponenten werden einzeln installiert.

Schritt 1: GPU-Unterbau

AMD-Nutzer installieren den ROCm-Stack über AMDs amdgpu-install-Utility (offiziell unterstützt unter anderem Ubuntu 24.04 LTS, Anleitung in der ROCm-Dokumentation). Anschließend den eigenen Benutzer in die Gruppen video und render aufnehmen:

sudo usermod -aG video,render $USER

Nach einem Neustart der Sitzung ist die GPU für Compute-Aufgaben nutzbar. Nvidia-Nutzer benötigen lediglich den proprietären Treiber.

Schritt 2: Ollama

curl -fsSL https://ollama.com/install.sh | sh

Der Installer erkennt AMD- (ROCm) und Nvidia-GPUs automatisch; ohne unterstützte GPU rechnet Ollama auf der CPU. Modelle starten Sie per Terminal, zum Beispiel:

ollama run gemma3:4b

Schritt 3: LM Studio

LM Studio wird als AppImage von lmstudio.ai angeboten:

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

Als Inferenz-Backend stehen Vulkan (breiteste Kompatibilität, auch ältere Karten) und ROCm (rund 10–20 % schneller, für RX 7000/9000 mit installiertem ROCm-Stack) zur Wahl; umschaltbar in den Runtime-Einstellungen. Bedienung und Oberfläche entsprechen der Windows-Version.

Schritt 4: Bildgenerierung

Als Ersatz für Amuse dient unter Linux ComfyUI in Verbindung mit PyTorch-ROCm — funktional deutlich mächtiger, allerdings mit steilerer Lernkurve durch die node-basierte Oberfläche. Einfachere Alternativen sind SD.Next und die Stable Diffusion WebUI (Automatic1111), beide mit ROCm-Unterstützung.

Fazit

Der Einstieg in lokale KI ist 2026 keine Bastelei mehr: Unter Windows nimmt das AMD AI Bundle die gesamte Einrichtung ab, Nvidia-Nutzer installieren die Tools direkt von den Herstellerseiten, und unter Linux genügen wenige Terminal-Befehle. Wer die Faustformel zum Speicherbedarf beachtet und mit kleineren quantisierten Modellen beginnt, erhält auf gewöhnlicher Consumer-Hardware brauchbare Ergebnisse — ohne dass die eigenen Eingaben jemals den Rechner verlassen.

Dieser Beitrag basiert in Teilen auf dem Video „Lokale KI Modelle installieren & nutzen" von heise & c't; die Einordnung zur ROCm-Historie und der Linux-Teil wurden ergänzt.