-
KI-Woche: Interaction Models, Colossus 1 als Anthropic-Anbau, Refactoring-Benchmarks
News-Wiki
· 15.05.2026
Interaction Models von Thinking Machines brechen mit der Turn-Logik. Anthropic mietet xAIs Colossus-1-Rechenzentrum komplett. Plus: METR-Benchmark stoesst bei 16 Stunden an seine Grenzen, neuer Refactoring-Benchmark misst innere Code-Qualitaet, OpenAI veroeffentlicht Security-Tools im Wochentakt.
-
KI News der Woche: Benchmarks, Pannen und gefundene Lücken (developers club YT channel)
Blog
· 08.05.2026
Zusammenfassung der developers-club-Sendung „KI News“ mit Steve Haupt: eine ruhigere Woche ohne große Releases, dafür mit Lehrstücken zu Benchmark-Pannen und gefundenen Lücken.
-
SubQ: 12 Millionen Token Kontext – echter Durchbruch oder gut verpacktes Marketing?
Blog
· 07.05.2026
Ein X-Post bringt ein neues Modell SubQ mit 12 Millionen Token Kontext, 150 Token/s und 300-fach niedrigeren Kosten ins Gespräch. Lohnt sich genaueres Hinschauen — oder ist das vor allem Marketing?
-
SubQ: Architektursprung oder Marketing? Eine Analyse
Blog
· 07.05.2026
Ein Startup behauptet, mit dem Modell SubQ den Long-Context-Engpass geknackt zu haben: 12 Millionen Token Kontext, 300-fach billiger als Claude, 52-fach schneller. Eine Analyse der Technical Reports und der Community-Reaktionen — ein Hands-on-Test steht noch …
-
RTX 3090 als P/L-Koenig: Qwen 3.6 27B im Hardware-Vergleich
Blog
· 03.05.2026
Eine gebrauchte RTX 3090 fuer ~600€ generiert Qwen 3.6 27B mit 40 Tokens pro Sekunde. Eine neue 5090 schafft 73 — kostet aber das Vierfache. Und der M5 Max liegt schlechter als die 3090. Die …
-
Attention Is All You Need (paper)
Glossar
· 02.05.2026
# "Attention Is All You Need" – Erklärung ## Überblick Das Paper *"Attention Is All You Need"* (Vaswani et al., 2017) führt den **Transformer** ein – eine Architektur für Sequenz-zu-Sequenz-Aufgaben (ursprünglich maschinelle Übersetzung), die komplett …
-
Lokale Model-Setups und Hardware-Guides
News-Wiki
· 30.04.2026
## Überblick Guides und Dokumentationen zum Setup lokaler LLM-Inferenz auf eigener Hardware. Fokus auf Self-Hosted-Szenarien, Hardware-Kombinationen und praktische Konfiguration mit gängigen Frameworks. ## Frameworks und Tools - **[OpenWebUI](/wiki/tutorial/openwebui/)**: Web-Interface für lokale Modelle, oft in Kombination …
-
Interpretierbarkeit und Transformer-Architektur
News-Wiki
· 30.04.2026
## Überblick Interpretierbarkeit von Transformer-Modellen beschreibt die Fähigkeit, Entscheidungen und interne Repräsentationen nachvollziehbar zu machen. Dies umfasst die Analyse von Aktivierungsmustern, die Verfolgung von Fehlerquellen und das Verständnis, wie Architektur-Entscheidungen die Lesbarkeit von Modell-Behavior beeinflussen. …
-
Lokale Inference & Hardware-Setup
News-Wiki
· 30.04.2026
## Überblick Lokale KI-Inferenz auf eigener Hardware wird zunehmend praktikabel und wirtschaftlich. Für Entwickler:innen bietet sich ein vielfältiges Spektrum: von Consumer-Laptops mit Apple Silicon über DIY-Homelab-Server bis zu spezialisierter Enterprise-Hardware. Die Kostenrechnung gegen Cloud-APIs wird …
-
Agenten-Evaluation und reale Leistung
News-Wiki
· 30.04.2026
## Überblick Agenten-Evaluation beschäftigt sich mit der systematischen Messung und Bewertung von autonomen KI-Agenten in praktischen Szenarien. Im Gegensatz zu reinen Sprachmodell-Benchmarks müssen Agenten-Tests interaktive Fähigkeiten, Fehlerbehandlung und Entscheidungsprozesse unter Unsicherheit prüfen. Die Kluft zwischen …
-
Spezialisierte Agent-Anwendungen
News-Wiki
· 30.04.2026
## Überblick Spezialisierte Agent-Anwendungen nutzen [KI-Agenten](/wiki/agents/grundlagen/) für domänenspezifische Aufgaben: Produktentwicklung, Marktforschung, wissenschaftliche Forschung, persönliches Wissensmanagement und Enterprise-Automation. Diese Anwendungen gehen über generische Chatbots hinaus und adressieren konkrete Business- oder Forschungsprobleme. ## Persönliches Wissensmanagement **KI-Second-Brain mit …
-
Agent-Modelle und Frontier-Leistung
News-Wiki
· 30.04.2026
## Überblick Agent-Modelle sind Sprachmodelle, die speziell für autonome, mehrstufige Aufgaben durch Tool-Use und Selbstüberwachung optimiert sind. Die Frontier-Entwicklung bewegt sich hin zu agentenbasierten Architekturen als Mainstream-Feature, nicht als Spezialisierung. ## Aktuelle Frontier-Modelle ### OpenAI …
-
Mehrsprachige NLP & Non-Englische Modelle
News-Wiki
· 29.04.2026
## Überblick Mehrsprachige NLP-Modelle und nicht-englische Large Language Models (LLMs) schließen eine wichtige Lücke in der KI-Landschaft. Während englischsprachige Modelle dominieren, wächst die Anzahl qualitativ hochwertiger Modelle für andere Sprachen kontinuierlich. ## Evaluation & Benchmarking …
-
Gemma 4: Multimodale Frontier-Modelle für Edge
News-Wiki
· 29.04.2026
## Überblick Gemma 4 ist Googles neue Modellreihe mit Multimodalität und erweiterten Reasoning-Fähigkeiten. Die Modelle kombinieren Frontier-Level-Performance mit Optimierung für lokale Bereitstellung auf ressourcenbegrenzten Geräten. Sie sind als echte Open-Source-Modelle verfügbar und ermöglichen Entwickler:innen, leistungsstarke …
-
Low-Code/No-Code und App-Generierung
News-Wiki
· 29.04.2026
## Übersicht Low-Code/No-Code-Tools automatisieren Anwendungsentwicklung durch visuelle Interfaces oder natürlichsprachige Prompts. Mit Aufkommen großer Sprachmodelle ([LLM](/wiki/foundation-models/large-language-models/)) verschiebt sich das Paradigma: KI-gesteuerte Codegenerierung wird zunehmend praktikabel für Prototyping und Boilerplate-Automation. ## Prompt-basierte Code-Generierung Moderne Ansätze nutzen …
-
Multimodale und Vision-Modelle
News-Wiki
· 29.04.2026
## Überblick Multimodale Modelle verarbeiten mehrere Eingabetypen (Text, Bilder, Audio, Video) gleichzeitig und erzeugen Ausgaben basierend auf der kombinierten Analyse. Vision-Modelle spezialisieren sich auf Bild- und Videoanalyse. Diese Klasse ist zentral für praktische Anwendungen wie …
-
LLM-Fähigkeiten messen
News-Wiki
· 29.04.2026
## Überblick Messung spezifischer LLM-Fähigkeiten ist zentral für Evaluation, Optimierung und Deployment. Standardmetriken wie Token-Genauigkeit oder Agreement mit Referenzen erfassen oft nicht die volle Komplexität realer Anforderungen. Moderne Ansätze differenzieren zwischen Token-Quality, Trainingseffektivität, Inferenz-Robustheit und …
-
Codex Platform & Autonome Systeme
News-Wiki
· 28.04.2026
## Überblick Die Codex Platform umfasst Tools, Frameworks und Infrastruktur-Patterns zur Entwicklung autonomer Systeme – insbesondere Agent-basierte Workflows, Multi-Agent-Systeme und interaktive Trainingsumgebungen. Der Fokus liegt auf Performance-Optimierungen, dezentraler Architektur und Accessibility für Standard-Hardware. ## Agent-Workflows …
-
KI-Narrative und Trends
News-Wiki
· 28.04.2026
## Überblick Die KI-Landschaft wird von widersprechenden Narrativen geprägt: Einerseits werden existenzielle Risiken und Jobverluste diskutiert, andererseits behaupten führende KI-Labore bereits zu wissen, wie AGI skaliert wird. Diese Page fasst aktuelle Narrative, Trends und deren …
-
Spezialisierte Frontier-Modelle und Multimodal
News-Wiki
· 28.04.2026
## Überblick Spezialisierte Frontier-Modelle sind hochperformante Large Language Models und Multimodal-Modelle, die für spezifische Domänen oder Anwendungsbereiche optimiert wurden. Sie bauen auf Frontier-Technologie auf, sind aber nicht universell einsetzbar, sondern für konkrete Problemräume (Wissenschaft, Cybersecurity, …
-
KI-Benchmarks, Modellvergleiche und Trends
News-Wiki
· 28.04.2026
## Überblick KI-Benchmarks sind zentral für die Evaluierung und den Vergleich von Language Models. Sie dienen Entwickler:innen zur Modellauswahl, Leistungsmessung und zum Tracking technologischer Fortschritte. Allerdings geraten traditionelle Benchmark-Methoden zunehmend an ihre Grenzen – insbesondere …
-
Evaluator Bias – LLM-Evaluator-Bias und Bewertungsprobleme
News-Wiki
· 28.04.2026
## Überblick Die Verwendung von LLMs als automatische Evaluatoren für Model-Outputs ist verbreitet, aber anfällig für systematische Verzerrungen. Diese Biases beeinflussen Model-Rankings, Leaderboards und Quality-Control-Systeme und können zu fehlerhaften Schlussfolgerungen über Model-Performance führen. ## Self-Preference …
-
Open-Source AI Frameworks & Libraries
News-Wiki
· 27.04.2026
## Übersicht Open-Source AI Frameworks sind die technologische Grundlage für KI-Entwicklung außerhalb proprietärer Plattformen. Sie decken ein breites Spektrum ab: von Sprachmodellen über Audio-Processing, Robotik-Plattformen bis zu Simulationsumgebungen und spezialisierte NLP-Libraries. ## Audio-Processing & Speech-to-Text …
-
Modell-Benchmarking und Leistungsvergleiche
News-Wiki
· 27.04.2026
## Übersicht Modell-Benchmarking ist zentral für die Evaluierung von Large Language Models (LLMs) – doch die Aussagekraft von Standardbenchmarks wird zunehmend infrage gestellt. Mit schneller iterierenden Modellveröffentlichungen offenbaren sich erhebliche Lücken zwischen Benchmark-Performance und praktischen …
-
gpt-series (GPT-Serie und OpenAI-Modelle)
News-Wiki
· 27.04.2026
Die **GPT-Serie** umfasst die Hauptmodelle und spezialisierten Varianten von OpenAI. Sie repräsentiert die Entwicklungslinie von allgemeinen Large Language Models bis zu domänenspezifischen Frontier-Modellen. ## Hauptmodelle ### GPT-5.5 **GPT-5.5** ist das aktuelle Flagship-Modell mit agentenbasierten Fähigkeiten. …
-
Robotik & Embodied AI
News-Wiki
· 27.04.2026
## Überblick Robotik und Embodied AI beschäftigen sich mit der Integration von KI-Systemen in physische Agenten. Im Open-Source-Bereich liegt der Fokus zunehmend auf praktischen Deployment-Szenarien: Vision-Language-Action-Modelle (VLA) auf Edge-Hardware, systematische Datenerfassung und Skalierung von Trainings-Infrastruktur. …
-
Multimodale Modelle für Edge & On-Device
News-Wiki
· 27.04.2026
## Übersicht Multimodale Modelle (Text + Bilder + Audio + Video) werden zunehmend für Edge-Deployment und On-Device-Szenarien optimiert. Dies ermöglicht datenschutzfreundliche KI-Anwendungen mit niedriger Latenz ohne Cloud-Abhängigkeit. Hauptanwendungsfälle: Robotik, IoT, Offline-Szenarien, Enterprise-Dokumente, Bildverarbeitung auf lokalen …
-
Qwen & DeepSeek: Frontier-Modelle mit neuer Architektur
News-Wiki
· 27.04.2026
## Überblick Qwen (Alibaba) und DeepSeek gehören zu den führenden Open-Source-Modell-Anbietern im Frontier-Segment. Beide setzen auf architektonische Innovationen – insbesondere [Mixture of Experts (MoE)](/wiki/open-source/mixture-of-experts/) – um bessere Effizienz und Skalierbarkeit zu erreichen. Die neuesten Generationen …
-
Vision-Language-Training und Embeddings
News-Wiki
· 27.04.2026
## Übersicht Training und Feintuning von Vision-Language-Modellen (VLMs) umfasst Techniken zur Optimierung von Modellen, die Text und visuelle Inhalte gemeinsam verarbeiten. Dies ist zentral für Anwendungen wie [Retrieval-Augmented Generation](/wiki/retrieval/rag/), Bildsuche, visuelle Agenten und spezialisierte Domänen-Applikationen. …
-
Multimodale Frontier-Modelle
News-Wiki
· 27.04.2026
## Überblick Multimodale Frontier-Modelle kombinieren Frontier-Level-Fähigkeiten mit der Verarbeitung mehrerer Datentypen (Text, Bilder, Audio, Video und weitere Modalitäten). Sie bilden die Spitzenkategorie bei Reasoning, Verständnis und Generierung von cross-modalen Inhalten. Der Trend geht zugleich zu …
-
Claude-Entwicklung
News-Wiki
· 27.04.2026
## Übersicht Claude ist die Modell-Familie von [Anthropic](/wiki/labs/anthropic/). Die Seite dokumentiert aktuelle Entwicklungen, Modellversionen, Sicherheitsaspekte und Tooling rund um Claude. ## Modellversionen ### Claude Opus - **Opus 4.6**: Baseline-Version mit dokumentierten System-Prompts - **Opus 4.7** …
-
3D-Simulationsframeworks
News-Wiki
· 27.04.2026
## Überblick 3D-Simulationsumgebungen sind zentral für das Training von [RL-Agenten](/wiki/ml-training/reinforcement-learning/) und [Multi-Agent-Systemen](/wiki/ml-training/multi-agent-systems/). Sie ermöglichen die Evaluation von Verhalten in interaktiven Welten ohne reale Hardware. ## Frameworks ### Waypoint **Waypoint-1.5** ist ein Framework für realistische, interaktive …
-
Edge Deployment & On-Device-Optimierung
News-Wiki
· 27.04.2026
## Überblick Edge Deployment bezeichnet die Ausführung von KI-Modellen direkt auf Grenzgeräten (edge devices) – Robotern, IoT-Hardware, eingebetteten Systemen – statt auf zentralen Servern. Ziele sind Latenzreduktion, Datenschutz durch lokale Verarbeitung, Offline-Betrieb und reduzierte Netzwerkabhängigkeit. …
-
Training-Parallelismus & Skalierungstechniken
News-Wiki
· 27.04.2026
## Überblick Training-Parallelismus umfasst Techniken und Infrastruktur zur effizienten Skalierung von LLM-Training auf große Cluster. Zentrale Herausforderungen: Speicher, Durchsatz, Netzwerk-Bandbreite und Long-Context-Skalierung. ## Parallelisierungstechniken ### Ulysses Sequence Parallelism Trainingstechnik für LLMs mit sehr großen Kontextfenstern …
-
Google Gemma & Gemini Modelle
News-Wiki
· 27.04.2026
## Überblick Gemma ist Googles Familie von leichtgewichtigen, Open-Source-Sprachmodellen. Sie fokussieren auf praktische Deployment-Szenarien mit reduzierten Rechenressourcen – ideal für lokale, datenschutzfreundliche Anwendungen. Der Open-Source-Ansatz mit echter Lizenzfreiheit ermöglicht Entwickler:innen, Modelle anzupassen und zu verfeinern, …
-
Open-Source Frontier-Modelle
News-Wiki
· 27.04.2026
## Überblick Open-Source Frontier-Modelle sind state-of-the-art Large Language Models mit öffentlich verfügbarem Code und/oder Gewichten. Sie ermöglichen lokale Deployments, Fine-Tuning und volle Kontrolle – ohne proprietäre Beschränkungen. Der Markt entwickelt sich rasant: Modelle wie DeepSeek …
-
GPT-5.5 Release und Integration
News-Wiki
· 27.04.2026
## Übersicht GPT-5.5 ist OpenAIs neuestes Flagship-Modell (angekündigt April 2026) und repräsentiert einen qualitativen Sprung zu agentenbasierter KI mit universellen Fähigkeiten. Das Modell integriert spezialisierte Coding-Capabilities und Tool-Use nativ, ohne separate Spezialisierungen zu benötigen. Es …
-
Claude-Modelle (Anthropic Releases)
News-Wiki
· 27.04.2026
## Übersicht Anthropic Claude ist eine Familie von großen Sprachmodellen mit Fokus auf Safety und praktischen Anwendungen. Die aktuellen Top-Modelle sind Claude Opus 4.7, Claude Opus 4.6 und Claude Mythos (Preview), ergänzt durch leichtgewichtige Varianten …
-
Open-Source Coding-Modelle und effiziente Alternativen
News-Wiki
· 27.04.2026
## Überblick Open-Source Coding-Modelle ermöglichen es Entwickler:innen, hochleistungsfähige Code-Generierung und -Analyse lokal oder on-premise einzusetzen – ohne Cloud-Abhängigkeit. Der Trend geht klar zu effizienteren Architekturen: aktuelle Modelle erreichen Flagship-Performance bei deutlich reduzierten Parameterzahlen. Parallel wächst …
-
GPT-Modelle (OpenAI Flagship-Releases)
News-Wiki
· 27.04.2026
## Übersicht OpenAI-Flaggschiff-Modelle für allgemeine und spezialisierte KI-Aufgaben. Die Produktlinie integriert zunehmend Coding-Fähigkeiten direkt in die Hauptmodelle statt separater Spezialisierungen. Mit GPT-5.5 vollzieht OpenAI die strategische Vereinigung: das dedizierte Codex-Modell wird eingestellt, seine Funktionen landen …
-
Benchmark-Kritik und Aussagekraft
News-Wiki
· 27.04.2026
## Überblick Benchmarks sind zentral für die Evaluierung von KI-Modellen, aber ihre Aussagekraft und Zuverlässigkeit werden zunehmend kritisch hinterfragt. Dieser Artikel dokumentiert bekannte Limitationen, methodische Probleme und aktuelle Debatten zum Benchmarking in der KI-Praxis. ## …
-
Domain-spezifische und spezialisierte Benchmarks
News-Wiki
· 27.04.2026
## Überblick Domain-spezifische Benchmarks evaluieren KI-Modelle unter Bedingungen, die realen Anwendungsszenarien entsprechen. Sie unterscheiden sich von allgemeinen Benchmarks durch: - Verwendung von Daten und Metriken aus konkreten Fachbereichen - Integration von Fachexpertise in die Evaluierungsmethodik …
-
Benchmarks für Multi-Agenten-Systeme
News-Wiki
· 27.04.2026
## Übersicht Benchmarks für Multi-Agenten-Systeme (MAS) messen die Fähigkeit von Gruppen autonomer Agenten, komplexe Aufgaben kollaborativ zu lösen. Im Fokus stehen dabei Emergenz-Phänomene, Skalierungseffekte und praktische Koordinationsprobleme in wachsenden Agent-Ökosystemen. ## Kollektive Intelligenz und Emergenz …
-
Sicherheit und Alignment: Benchmarks
News-Wiki
· 27.04.2026
## Überblick Benchmarks für KI-Sicherheit und Alignment konzentrieren sich auf die Messung und Detektion von Fehlverhalten in [Language Models](/wiki/models/llm/), insbesondere auf Risiken durch Misalignment und strategisches Reasoning. Der Schwerpunkt liegt auf systematischen Evaluierungsmethoden für versteckte …
-
Mathematisches Reasoning und Evaluation
News-Wiki
· 27.04.2026
## Überblick Mathematisches Reasoning ist ein Kernbereich zur Evaluierung von [LLM](/wiki/models/)-Fähigkeiten. Aktuelle Benchmarks und empirische Studien untersuchen, ob Modelle echtes konzeptionelles Verständnis oder nur syntaktische Nachbildung von Lösungsmustern demonstrieren. Die Forschung offenbart dabei systematische Schwächen …
-
Evaluierungs-Frameworks
News-Wiki
· 27.04.2026
## Übersicht Evaluierungs-Frameworks und Benchmarks sind zentral für die Bewertung von KI-Systemen. Sie bieten standardisierte Metriken, ermöglichen Vergleichbarkeit und helfen, Stärken und Schwächen von Modellen und [Agenten](/wiki/benchmarks/agents/) objektiv zu erfassen. ## Frameworks für spezielle Anwendungsdomänen …
-
Benchmarks: Coding-Performance und Modelleffizienz
News-Wiki
· 27.04.2026
Benchmark-Fokus auf Coding-Performance und Effizienzmetriken – wie schnell und ressourcenschonend Sprachmodelle Programmieraufgaben lösen. ## Efficiency-Sprünge bei Coding-Modellen Die Coding-Landschaft verschiebt sich stark in Richtung Effizienz: Kleinere Modelle erzielen inzwischen die Performance grösserer Vorgänger, während Inferenzkosten …
-
Frontier-Modelle und Benchmark-Vergleiche
News-Wiki
· 27.04.2026
## Überblick Frontier-Modelle sind die Spitzenklasse von Large Language Models (LLMs), die von führenden Laboren wie OpenAI, Anthropic und Google entwickelt werden. Dieser Artikel dokumentiert aktuelle Vergleiche, Benchmark-Performance und kritische Evaluationen der neuesten Modellreleases. Eine …
-
Open-Source und Frontier-Modelle für Agenten
News-Wiki
· 27.04.2026
## Überblick Open-Source-Frontier-Modelle erweitern die Fähigkeiten autonomer Agenten durch verbesserte Kontextverarbeitung, Tool-Use und effiziente Ressourcennutzung. Der Fokus liegt auf praktischer Skalierbarkeit – sowohl für große Cloud-Szenarien als auch für Edge-Deployments. ## Große Kontextmodelle **DeepSeek-V4** bietet …
-
Claude Agent-Fähigkeiten
News-Wiki
· 27.04.2026
## Überblick Claude (von [Anthropic](/wiki/agents/anthropic-modelle/)) verfügt über eine wachsende Palette von Agent-Fähigkeiten für autonome Aufgabenautomatisierung. Die Kernfähigkeiten umfassen Code-Ausführung, Computer Vision und GUI-Steuerung. Die Implementierung ist dabei mit konkreten Herausforderungen verbunden, die durch transparente Postmortems …