Suche: Benchmarks · PyGround

Mein Benchmark ist eine Kirche

Blog · 25.07.2026

YouTuber bauen sich eigene Benchmarks, weil die öffentlichen ausgereizt sind. Meiner ist die Ludwigskirche: fünf gescheiterte Anläufe, ein Durchbruch und eine Turmposition, an der sich Modelle auseinanderhalten lassen.

Kimi K3: offene Gewichte, trotzdem nicht für zuhause

Blog · 21.07.2026

Kimi K3 verkürzt den Abstand chinesischer Modelle zur US-Spitze auf wenige Monate und legt seine Gewichte offen. Warum „offen“ bei 2,8 Billionen Parametern trotzdem nicht „läuft bei dir“ heißt — mit einem eigenen Blender-Experiment.

Beyond the AI Hype: Pip Klöckners OMR-Vortrag 2026 in 10 Minuten

Blog · 16.07.2026

148 Folien in 56 Minuten: Philipp Klöckners jährlicher KI-Lagebericht auf der OMR — Data-Center-Milliarden, die IPO-Welle Richtung Sparplan, Anthropics B2B-Dominanz und warum die Junior-Jobs-Panik statistisch wackelt.

Open-Source-KI aus China holt auf: GLM 5.2, Kimi K2.7 und Minimax M3 im Test

Blog · 19.06.2026

Drei chinesische Open-Weights-Flaggschiffe vergleichen sich nicht mehr mit anderen freien Modellen, sondern mit der US-Spitze — zum Bruchteil des Preises. Ein YouTube-Praxistest und die Einordnung, was davon stimmt.

Fable 5: Flop im Alltag, Sprung im Benchmark — wie passt das zusammen?

Blog · 12.06.2026

Anthropics neues Spitzenmodell Fable 5 ist doppelt so teuer wie sein Vorgänger. Die c't findet in Stichproben kaum Mehrwert — ein Coding-Benchmark und drei YouTube-Tests sehen einen Sprung. Wer hat recht? Vermutlich alle. Eine Einordnung …

KI-Woche: Interaction Models, Colossus 1 als Anthropic-Anbau, Refactoring-Benchmarks

News-Wiki · 15.05.2026

Interaction Models von Thinking Machines brechen mit der Turn-Logik. Anthropic mietet xAIs Colossus-1-Rechenzentrum komplett. Plus: METR-Benchmark stoesst bei 16 Stunden an seine Grenzen, neuer Refactoring-Benchmark misst innere Code-Qualitaet, OpenAI veroeffentlicht Security-Tools im Wochentakt.

KI News der Woche: Benchmarks, Pannen und gefundene Lücken (developers club YT channel)

Blog · 08.05.2026

Zusammenfassung der developers-club-Sendung „KI News“ mit Steve Haupt: eine ruhigere Woche ohne große Releases, dafür mit Lehrstücken zu Benchmark-Pannen und gefundenen Lücken.

SubQ: 12 Millionen Token Kontext – echter Durchbruch oder gut verpacktes Marketing?

Blog · 07.05.2026

Ein X-Post bringt ein neues Modell SubQ mit 12 Millionen Token Kontext, 150 Token/s und 300-fach niedrigeren Kosten ins Gespräch. Lohnt sich genaueres Hinschauen — oder ist das vor allem Marketing?

SubQ: Architektursprung oder Marketing? Eine Analyse

Blog · 07.05.2026

Ein Startup behauptet, mit dem Modell SubQ den Long-Context-Engpass geknackt zu haben: 12 Millionen Token Kontext, 300-fach billiger als Claude, 52-fach schneller. Eine Analyse der Technical Reports und der Community-Reaktionen — ein Hands-on-Test steht noch …

RTX 3090 als P/L-Koenig: Qwen 3.6 27B im Hardware-Vergleich

Blog · 03.05.2026

Eine gebrauchte RTX 3090 fuer ~600€ generiert Qwen 3.6 27B mit 40 Tokens pro Sekunde. Eine neue 5090 schafft 73 — kostet aber das Vierfache. Und der M5 Max liegt schlechter als die 3090. Die …

Attention Is All You Need (paper)

Glossar · 02.05.2026

# "Attention Is All You Need" – Erklärung ## Überblick Das Paper *"Attention Is All You Need"* (Vaswani et al., 2017) führt den **Transformer** ein – eine Architektur für Sequenz-zu-Sequenz-Aufgaben (ursprünglich maschinelle Übersetzung), die komplett …

Lokale Model-Setups und Hardware-Guides

News-Wiki · 30.04.2026

## Überblick Guides und Dokumentationen zum Setup lokaler LLM-Inferenz auf eigener Hardware. Fokus auf Self-Hosted-Szenarien, Hardware-Kombinationen und praktische Konfiguration mit gängigen Frameworks. ## Frameworks und Tools - **[OpenWebUI](/wiki/tutorial/openwebui/)**: Web-Interface für lokale Modelle, oft in Kombination …

Interpretierbarkeit und Transformer-Architektur

News-Wiki · 30.04.2026

## Überblick Interpretierbarkeit von Transformer-Modellen beschreibt die Fähigkeit, Entscheidungen und interne Repräsentationen nachvollziehbar zu machen. Dies umfasst die Analyse von Aktivierungsmustern, die Verfolgung von Fehlerquellen und das Verständnis, wie Architektur-Entscheidungen die Lesbarkeit von Modell-Behavior beeinflussen. …

Lokale Inference & Hardware-Setup

News-Wiki · 30.04.2026

## Überblick Lokale KI-Inferenz auf eigener Hardware wird zunehmend praktikabel und wirtschaftlich. Für Entwickler:innen bietet sich ein vielfältiges Spektrum: von Consumer-Laptops mit Apple Silicon über DIY-Homelab-Server bis zu spezialisierter Enterprise-Hardware. Die Kostenrechnung gegen Cloud-APIs wird …

Agenten-Evaluation und reale Leistung

News-Wiki · 30.04.2026

## Überblick Agenten-Evaluation beschäftigt sich mit der systematischen Messung und Bewertung von autonomen KI-Agenten in praktischen Szenarien. Im Gegensatz zu reinen Sprachmodell-Benchmarks müssen Agenten-Tests interaktive Fähigkeiten, Fehlerbehandlung und Entscheidungsprozesse unter Unsicherheit prüfen. Die Kluft zwischen …

Spezialisierte Agent-Anwendungen

News-Wiki · 30.04.2026

## Überblick Spezialisierte Agent-Anwendungen nutzen [KI-Agenten](/wiki/agents/grundlagen/) für domänenspezifische Aufgaben: Produktentwicklung, Marktforschung, wissenschaftliche Forschung, persönliches Wissensmanagement und Enterprise-Automation. Diese Anwendungen gehen über generische Chatbots hinaus und adressieren konkrete Business- oder Forschungsprobleme. ## Persönliches Wissensmanagement **KI-Second-Brain mit …

Agent-Modelle und Frontier-Leistung

News-Wiki · 30.04.2026

## Überblick Agent-Modelle sind Sprachmodelle, die speziell für autonome, mehrstufige Aufgaben durch Tool-Use und Selbstüberwachung optimiert sind. Die Frontier-Entwicklung bewegt sich hin zu agentenbasierten Architekturen als Mainstream-Feature, nicht als Spezialisierung. ## Aktuelle Frontier-Modelle ### OpenAI …

Mehrsprachige NLP & Non-Englische Modelle

News-Wiki · 29.04.2026

## Überblick Mehrsprachige NLP-Modelle und nicht-englische Large Language Models (LLMs) schließen eine wichtige Lücke in der KI-Landschaft. Während englischsprachige Modelle dominieren, wächst die Anzahl qualitativ hochwertiger Modelle für andere Sprachen kontinuierlich. ## Evaluation & Benchmarking …

Gemma 4: Multimodale Frontier-Modelle für Edge

News-Wiki · 29.04.2026

## Überblick Gemma 4 ist Googles neue Modellreihe mit Multimodalität und erweiterten Reasoning-Fähigkeiten. Die Modelle kombinieren Frontier-Level-Performance mit Optimierung für lokale Bereitstellung auf ressourcenbegrenzten Geräten. Sie sind als echte Open-Source-Modelle verfügbar und ermöglichen Entwickler:innen, leistungsstarke …

Low-Code/No-Code und App-Generierung

News-Wiki · 29.04.2026

## Übersicht Low-Code/No-Code-Tools automatisieren Anwendungsentwicklung durch visuelle Interfaces oder natürlichsprachige Prompts. Mit Aufkommen großer Sprachmodelle ([LLM](/wiki/foundation-models/large-language-models/)) verschiebt sich das Paradigma: KI-gesteuerte Codegenerierung wird zunehmend praktikabel für Prototyping und Boilerplate-Automation. ## Prompt-basierte Code-Generierung Moderne Ansätze nutzen …

Multimodale und Vision-Modelle

News-Wiki · 29.04.2026

## Überblick Multimodale Modelle verarbeiten mehrere Eingabetypen (Text, Bilder, Audio, Video) gleichzeitig und erzeugen Ausgaben basierend auf der kombinierten Analyse. Vision-Modelle spezialisieren sich auf Bild- und Videoanalyse. Diese Klasse ist zentral für praktische Anwendungen wie …

LLM-Fähigkeiten messen

News-Wiki · 29.04.2026

## Überblick Messung spezifischer LLM-Fähigkeiten ist zentral für Evaluation, Optimierung und Deployment. Standardmetriken wie Token-Genauigkeit oder Agreement mit Referenzen erfassen oft nicht die volle Komplexität realer Anforderungen. Moderne Ansätze differenzieren zwischen Token-Quality, Trainingseffektivität, Inferenz-Robustheit und …

Codex Platform & Autonome Systeme

News-Wiki · 28.04.2026

## Überblick Die Codex Platform umfasst Tools, Frameworks und Infrastruktur-Patterns zur Entwicklung autonomer Systeme – insbesondere Agent-basierte Workflows, Multi-Agent-Systeme und interaktive Trainingsumgebungen. Der Fokus liegt auf Performance-Optimierungen, dezentraler Architektur und Accessibility für Standard-Hardware. ## Agent-Workflows …

KI-Narrative und Trends

News-Wiki · 28.04.2026

## Überblick Die KI-Landschaft wird von widersprechenden Narrativen geprägt: Einerseits werden existenzielle Risiken und Jobverluste diskutiert, andererseits behaupten führende KI-Labore bereits zu wissen, wie AGI skaliert wird. Diese Page fasst aktuelle Narrative, Trends und deren …

Spezialisierte Frontier-Modelle und Multimodal

News-Wiki · 28.04.2026

## Überblick Spezialisierte Frontier-Modelle sind hochperformante Large Language Models und Multimodal-Modelle, die für spezifische Domänen oder Anwendungsbereiche optimiert wurden. Sie bauen auf Frontier-Technologie auf, sind aber nicht universell einsetzbar, sondern für konkrete Problemräume (Wissenschaft, Cybersecurity, …

KI-Benchmarks, Modellvergleiche und Trends

News-Wiki · 28.04.2026

## Überblick KI-Benchmarks sind zentral für die Evaluierung und den Vergleich von Language Models. Sie dienen Entwickler:innen zur Modellauswahl, Leistungsmessung und zum Tracking technologischer Fortschritte. Allerdings geraten traditionelle Benchmark-Methoden zunehmend an ihre Grenzen – insbesondere …

Evaluator Bias – LLM-Evaluator-Bias und Bewertungsprobleme

News-Wiki · 28.04.2026

## Überblick Die Verwendung von LLMs als automatische Evaluatoren für Model-Outputs ist verbreitet, aber anfällig für systematische Verzerrungen. Diese Biases beeinflussen Model-Rankings, Leaderboards und Quality-Control-Systeme und können zu fehlerhaften Schlussfolgerungen über Model-Performance führen. ## Self-Preference …

Open-Source AI Frameworks & Libraries

News-Wiki · 27.04.2026

## Übersicht Open-Source AI Frameworks sind die technologische Grundlage für KI-Entwicklung außerhalb proprietärer Plattformen. Sie decken ein breites Spektrum ab: von Sprachmodellen über Audio-Processing, Robotik-Plattformen bis zu Simulationsumgebungen und spezialisierte NLP-Libraries. ## Audio-Processing & Speech-to-Text …

Modell-Benchmarking und Leistungsvergleiche

News-Wiki · 27.04.2026

## Übersicht Modell-Benchmarking ist zentral für die Evaluierung von Large Language Models (LLMs) – doch die Aussagekraft von Standardbenchmarks wird zunehmend infrage gestellt. Mit schneller iterierenden Modellveröffentlichungen offenbaren sich erhebliche Lücken zwischen Benchmark-Performance und praktischen …

gpt-series (GPT-Serie und OpenAI-Modelle)

News-Wiki · 27.04.2026

Die **GPT-Serie** umfasst die Hauptmodelle und spezialisierten Varianten von OpenAI. Sie repräsentiert die Entwicklungslinie von allgemeinen Large Language Models bis zu domänenspezifischen Frontier-Modellen. ## Hauptmodelle ### GPT-5.5 **GPT-5.5** ist das aktuelle Flagship-Modell mit agentenbasierten Fähigkeiten. …

Robotik & Embodied AI

News-Wiki · 27.04.2026

## Überblick Robotik und Embodied AI beschäftigen sich mit der Integration von KI-Systemen in physische Agenten. Im Open-Source-Bereich liegt der Fokus zunehmend auf praktischen Deployment-Szenarien: Vision-Language-Action-Modelle (VLA) auf Edge-Hardware, systematische Datenerfassung und Skalierung von Trainings-Infrastruktur. …

Multimodale Modelle für Edge & On-Device

News-Wiki · 27.04.2026

## Übersicht Multimodale Modelle (Text + Bilder + Audio + Video) werden zunehmend für Edge-Deployment und On-Device-Szenarien optimiert. Dies ermöglicht datenschutzfreundliche KI-Anwendungen mit niedriger Latenz ohne Cloud-Abhängigkeit. Hauptanwendungsfälle: Robotik, IoT, Offline-Szenarien, Enterprise-Dokumente, Bildverarbeitung auf lokalen …

Qwen & DeepSeek: Frontier-Modelle mit neuer Architektur

News-Wiki · 27.04.2026

## Überblick Qwen (Alibaba) und DeepSeek gehören zu den führenden Open-Source-Modell-Anbietern im Frontier-Segment. Beide setzen auf architektonische Innovationen – insbesondere [Mixture of Experts (MoE)](/wiki/open-source/mixture-of-experts/) – um bessere Effizienz und Skalierbarkeit zu erreichen. Die neuesten Generationen …

Vision-Language-Training und Embeddings

News-Wiki · 27.04.2026

## Übersicht Training und Feintuning von Vision-Language-Modellen (VLMs) umfasst Techniken zur Optimierung von Modellen, die Text und visuelle Inhalte gemeinsam verarbeiten. Dies ist zentral für Anwendungen wie [Retrieval-Augmented Generation](/wiki/retrieval/rag/), Bildsuche, visuelle Agenten und spezialisierte Domänen-Applikationen. …

Multimodale Frontier-Modelle

News-Wiki · 27.04.2026

## Überblick Multimodale Frontier-Modelle kombinieren Frontier-Level-Fähigkeiten mit der Verarbeitung mehrerer Datentypen (Text, Bilder, Audio, Video und weitere Modalitäten). Sie bilden die Spitzenkategorie bei Reasoning, Verständnis und Generierung von cross-modalen Inhalten. Der Trend geht zugleich zu …

Claude-Entwicklung

News-Wiki · 27.04.2026

## Übersicht Claude ist die Modell-Familie von [Anthropic](/wiki/labs/anthropic/). Die Seite dokumentiert aktuelle Entwicklungen, Modellversionen, Sicherheitsaspekte und Tooling rund um Claude. ## Modellversionen ### Claude Opus - **Opus 4.6**: Baseline-Version mit dokumentierten System-Prompts - **Opus 4.7** …

3D-Simulationsframeworks

News-Wiki · 27.04.2026

## Überblick 3D-Simulationsumgebungen sind zentral für das Training von [RL-Agenten](/wiki/ml-training/reinforcement-learning/) und [Multi-Agent-Systemen](/wiki/ml-training/multi-agent-systems/). Sie ermöglichen die Evaluation von Verhalten in interaktiven Welten ohne reale Hardware. ## Frameworks ### Waypoint **Waypoint-1.5** ist ein Framework für realistische, interaktive …

Edge Deployment & On-Device-Optimierung

News-Wiki · 27.04.2026

## Überblick Edge Deployment bezeichnet die Ausführung von KI-Modellen direkt auf Grenzgeräten (edge devices) – Robotern, IoT-Hardware, eingebetteten Systemen – statt auf zentralen Servern. Ziele sind Latenzreduktion, Datenschutz durch lokale Verarbeitung, Offline-Betrieb und reduzierte Netzwerkabhängigkeit. …

Training-Parallelismus & Skalierungstechniken

News-Wiki · 27.04.2026

## Überblick Training-Parallelismus umfasst Techniken und Infrastruktur zur effizienten Skalierung von LLM-Training auf große Cluster. Zentrale Herausforderungen: Speicher, Durchsatz, Netzwerk-Bandbreite und Long-Context-Skalierung. ## Parallelisierungstechniken ### Ulysses Sequence Parallelism Trainingstechnik für LLMs mit sehr großen Kontextfenstern …

Google Gemma & Gemini Modelle

News-Wiki · 27.04.2026

## Überblick Gemma ist Googles Familie von leichtgewichtigen, Open-Source-Sprachmodellen. Sie fokussieren auf praktische Deployment-Szenarien mit reduzierten Rechenressourcen – ideal für lokale, datenschutzfreundliche Anwendungen. Der Open-Source-Ansatz mit echter Lizenzfreiheit ermöglicht Entwickler:innen, Modelle anzupassen und zu verfeinern, …

Open-Source Frontier-Modelle

News-Wiki · 27.04.2026

## Überblick Open-Source Frontier-Modelle sind state-of-the-art Large Language Models mit öffentlich verfügbarem Code und/oder Gewichten. Sie ermöglichen lokale Deployments, Fine-Tuning und volle Kontrolle – ohne proprietäre Beschränkungen. Der Markt entwickelt sich rasant: Modelle wie DeepSeek …

GPT-5.5 Release und Integration

News-Wiki · 27.04.2026

## Übersicht GPT-5.5 ist OpenAIs neuestes Flagship-Modell (angekündigt April 2026) und repräsentiert einen qualitativen Sprung zu agentenbasierter KI mit universellen Fähigkeiten. Das Modell integriert spezialisierte Coding-Capabilities und Tool-Use nativ, ohne separate Spezialisierungen zu benötigen. Es …

Claude-Modelle (Anthropic Releases)

News-Wiki · 27.04.2026

## Übersicht Anthropic Claude ist eine Familie von großen Sprachmodellen mit Fokus auf Safety und praktischen Anwendungen. Die aktuellen Top-Modelle sind Claude Opus 4.7, Claude Opus 4.6 und Claude Mythos (Preview), ergänzt durch leichtgewichtige Varianten …

Open-Source Coding-Modelle und effiziente Alternativen

News-Wiki · 27.04.2026

## Überblick Open-Source Coding-Modelle ermöglichen es Entwickler:innen, hochleistungsfähige Code-Generierung und -Analyse lokal oder on-premise einzusetzen – ohne Cloud-Abhängigkeit. Der Trend geht klar zu effizienteren Architekturen: aktuelle Modelle erreichen Flagship-Performance bei deutlich reduzierten Parameterzahlen. Parallel wächst …

GPT-Modelle (OpenAI Flagship-Releases)

News-Wiki · 27.04.2026

## Übersicht OpenAI-Flaggschiff-Modelle für allgemeine und spezialisierte KI-Aufgaben. Die Produktlinie integriert zunehmend Coding-Fähigkeiten direkt in die Hauptmodelle statt separater Spezialisierungen. Mit GPT-5.5 vollzieht OpenAI die strategische Vereinigung: das dedizierte Codex-Modell wird eingestellt, seine Funktionen landen …

Benchmark-Kritik und Aussagekraft

News-Wiki · 27.04.2026

## Überblick Benchmarks sind zentral für die Evaluierung von KI-Modellen, aber ihre Aussagekraft und Zuverlässigkeit werden zunehmend kritisch hinterfragt. Dieser Artikel dokumentiert bekannte Limitationen, methodische Probleme und aktuelle Debatten zum Benchmarking in der KI-Praxis. ## …

Domain-spezifische und spezialisierte Benchmarks

News-Wiki · 27.04.2026

## Überblick Domain-spezifische Benchmarks evaluieren KI-Modelle unter Bedingungen, die realen Anwendungsszenarien entsprechen. Sie unterscheiden sich von allgemeinen Benchmarks durch: - Verwendung von Daten und Metriken aus konkreten Fachbereichen - Integration von Fachexpertise in die Evaluierungsmethodik …

Benchmarks für Multi-Agenten-Systeme

News-Wiki · 27.04.2026

## Übersicht Benchmarks für Multi-Agenten-Systeme (MAS) messen die Fähigkeit von Gruppen autonomer Agenten, komplexe Aufgaben kollaborativ zu lösen. Im Fokus stehen dabei Emergenz-Phänomene, Skalierungseffekte und praktische Koordinationsprobleme in wachsenden Agent-Ökosystemen. ## Kollektive Intelligenz und Emergenz …

Sicherheit und Alignment: Benchmarks

News-Wiki · 27.04.2026

## Überblick Benchmarks für KI-Sicherheit und Alignment konzentrieren sich auf die Messung und Detektion von Fehlverhalten in [Language Models](/wiki/models/llm/), insbesondere auf Risiken durch Misalignment und strategisches Reasoning. Der Schwerpunkt liegt auf systematischen Evaluierungsmethoden für versteckte …

Mathematisches Reasoning und Evaluation

News-Wiki · 27.04.2026

## Überblick Mathematisches Reasoning ist ein Kernbereich zur Evaluierung von [LLM](/wiki/models/)-Fähigkeiten. Aktuelle Benchmarks und empirische Studien untersuchen, ob Modelle echtes konzeptionelles Verständnis oder nur syntaktische Nachbildung von Lösungsmustern demonstrieren. Die Forschung offenbart dabei systematische Schwächen …