GPT‑5.5 vs. Claude Opus 4.7 vs. China: Wer führt das Feld im April 2026?

1. Mai 2026

Zwischen dem 7. und 24. April 2026 haben fünf Labore ihre jeweils stärksten Modelle veröffentlicht — GLM‑5.1 (7.4.), Claude Opus 4.7 (16.4.), Kimi K2.6 (20.4.), GPT‑5.5 (23.4.) und DeepSeek V4‑Pro (24.4.). Der Markt hat sich in diesen knapp drei Wochen mehr verschoben als im gesamten ersten Quartal davor. Wer Anwendungen baut, die diese Modelle nutzen, sollte verstehen, woran sich diese Modelle wirklich unterscheiden — und woran nicht.

Dieser Beitrag zieht die Bilanz: Stärken, Schwächen und tatsächliche Kosten. Keine Hype‑Tabellen, sondern die Sicht eines Entwicklers, der diese Modelle in Produktion einsetzt.

Die fünf Modelle im Kurzüberblick

Modell	Anbieter	Veröffentlichung	Lizenz	Input $/Mio	Output $/Mio	Kontext
Claude Opus 4.7	Anthropic	16. April 2026	Proprietär	$5,00	$25,00	1 Mio
GPT‑5.5	OpenAI	23. April 2026	Proprietär	$5,00	$30,00	1 Mio (API) / 400K (Codex)
GPT‑5.5 Pro	OpenAI	23. April 2026	Proprietär	$30,00	$180,00	1 Mio
DeepSeek V4‑Pro	DeepSeek	24. April 2026	MIT (Open Weights)	$0,145	$1,74	1 Mio
Kimi K2.6	Moonshot AI	20. April 2026	Modified MIT	$0,60–$0,95	$4,00	256K
GLM‑5.1	Z.ai (Zhipu)	7. April 2026	MIT (Open Weights)	offen verfügbar	offen verfügbar	—

Allein dieser Tabelle entnimmt man den ersten wichtigen Befund: GPT‑5.5 ist das einzige Modell, das gegenüber seinem Vorgänger im Preis gestiegen ist. Die Output‑Token sind 2× so teuer wie bei GPT‑5.4. OpenAI begründet dies in der eigenen Ankündigung mit der Token‑Effizienz:

„While GPT‑5.5 is priced higher than GPT‑5.4, it is both more intelligent and much more token efficient."

Die anderen vier Modelle bewegen sich preislich entweder im selben Rahmen wie ihre Vorgänger oder darunter.

Claude Opus 4.7: Der Spezialist für Coding‑Agenten

Anthropic hat Opus 4.7 explizit als fokussiertes Upgrade gegenüber Opus 4.6 positioniert. Kein neues Pricing‑Tier, keine architektonische Revolution, sondern messbare Verbesserungen genau dort, wo Opus 4.6 in Produktion regelmäßig stolperte. Vellum bringt es in seiner Benchmark‑Analyse auf den Punkt:

„This is not a model that sweeps every leaderboard. Anthropic is explicit that Claude Mythos Preview remains more broadly capable. But for developers building production coding agents and long-running workflows, the improvements are real and well-targeted."

Die Zahlen, die zählen: SWE‑bench Verified springt von 80,8 % auf 87,6 %. SWE‑bench Pro — der härtere Multi‑Language‑Engineering‑Benchmark — geht von 53,4 % auf 64,3 %. Das sind keine kosmetischen Verschiebungen, sondern Werte, die in realen Workflows den Unterschied machen, ob ein Agent eine Aufgabe selbständig zu Ende bringt oder nach drei Schritten festfährt.

Stärken:

Coding‑Spitze: 64,3 % auf SWE‑bench Pro liegen klar vor GPT‑5.5 (58,6 %) und allen offenen chinesischen Modellen.
Vision: Bilder bis 2.576 Pixel auf der langen Kante (~3,75 MP), mehr als 3× die Auflösung früherer Claude‑Modelle. CharXiv visual reasoning sprang von 69,1 % auf 82,1 %.
Literale Instruktionsbefolgung: Opus 4.7 nimmt System‑Prompts wörtlicher als seine Vorgänger. Aufzählungen werden nicht mehr als „optionale Hinweise" interpretiert, sondern als harte Anforderungen.
MCP‑Atlas: 77,3 % bzw. 79,1 % laut verschiedenen Quellen — die beste Performance unter realen Multi‑Tool‑Orchestrierungs‑Benchmarks.

Schwächen:

Verbosity und Latenz: Auf dem Artificial Analysis Intelligence Index v4.0 erreicht Opus 4.7 (Adaptive Reasoning, Max Effort) zwar 57 Punkte, produziert dafür aber 110 Mio Tokens beim Eval‑Lauf gegenüber einem Median von 35 Mio. Time‑to‑first‑token liegt bei 18,54 s.
Tokenizer‑Inflation: Anthropic hat einen neuen Tokenizer ausgerollt, der je nach Inhalt 1,0× bis 1,35× mehr Tokens pro Eingabe produziert. Finout warnt entsprechend: > „Do not trust the 35% ceiling as a flat estimate, and do not trust 0% either."
Multilinguale Aufgaben: Hier führt Gemini 3.1 Pro weiterhin.

GPT‑5.5: Der breite Allrounder mit Latenz‑Vorteil

GPT‑5.5 (interner Codename „Spud") ist laut OpenAI das erste vollständig neu trainierte Basismodell seit GPT‑4.5. Auf der Launch‑Seite heißt es:

„On Artificial Analysis's Coding Index, GPT‑5.5 delivers state-of-the-art intelligence at half the cost of competitive frontier coding models."

Stärken:

Terminal‑Bench 2.0: 82,7 % — klar vor Opus 4.7 (69,4 %) und DeepSeek V4‑Pro (67,9 %).
BrowseComp: 84,4 % (GPT‑5.5 Pro 90,1 %), gegen 79,3 % bei Opus 4.7.
Token‑Effizienz: GPT‑5.5 erreicht laut OpenAI das gleiche Niveau wie GPT‑5.4 mit weniger Tokens.
„Super‑App"‑Architektur: GPT‑5.5 wurde explizit für Multi‑Tool‑Orchestrierung trainiert. OpenAI‑President Greg Brockman, zitiert von TechCrunch: > „It's a faster, sharper thinker for fewer tokens compared to something like 5.4."

Schwächen:

Preisanstieg: $5/$30 statt $2,50/$15 bei GPT‑5.4 — eine Verdopplung beim Output.
SWE‑bench Pro: 58,6 % — knapp 6 Punkte hinter Opus 4.7.
Halluzinationen: Tom's Guide hat in einer 7‑teiligen Vergleichsserie GPT‑5.5 gegen Opus 4.7 antreten lassen. Die Wikipedia‑Zusammenfassung der Tests fasst das Ergebnis nüchtern: > „GPT-5.5 lost in all 7 categories tested. The website praised GPT-5.5 for its speed but criticized the model for its tendency to hallucinate rather than admitting that it does not know something."
API‑Verfügbarkeit verzögert: OpenAI begründete dies mit „different safeguards".

DeepSeek V4‑Pro: Der Preisbrecher

DeepSeek hat am 24. April V4‑Pro und V4‑Flash veröffentlicht — beide unter MIT‑Lizenz mit Gewichten auf Hugging Face. DeepSeek‑Researcher Deli Chen kommentierte den Release auf X mit den Worten: > „AGI belongs to everyone." (zitiert nach VentureBeat).

Architektur: V4‑Pro ist ein 1,6‑Billionen‑Parameter‑MoE mit 49 Mrd. aktivierten Parametern. Die zentrale Innovation ist die Hybrid‑Attention (Compressed Sparse Attention + Heavily Compressed Attention), die laut DeepSeek‑Tech‑Report bei 1‑Mio‑Token‑Kontext nur 27 % der Inference‑FLOPs und 10 % des KV‑Caches gegenüber V3.2 benötigt.

Stärken:

Codeforces‑Rating 3.206 — höher als GPT‑5.4 (3.168) und Gemini 3.1 Pro (3.052).
LiveCodeBench 93,5 % — führt das Feld an, vor Gemini (91,7 %) und Claude (88,8 %).
SWE‑bench Verified 80,6 % — 0,2 Punkte hinter Claude Opus 4.6.
Preis: $0,145/Mio Input und $1,74/Mio Output — 7× günstiger Input, 6× günstiger Output als GPT‑5.5 oder Opus 4.7. Bei 100 Mio Output‑Tokens monatlich sind das $174 vs. $2.500.
Open Weights, MIT‑Lizenz.

Schwächen:

SWE‑bench Pro 55,4 % — hinter Opus 4.7 (64,3 %) und GPT‑5.5 (58,6 %).
Humanity's Last Exam ohne Tools 37,7 % — gegenüber 41,4 % (GPT‑5.5) und 46,9 % (Opus 4.7).
SimpleQA‑Verified 57,9 % vs. Gemini 75,6 %.
Preview‑Status: Beide V4‑Modelle sind explizit als Preview veröffentlicht.

Kimi K2.6: Der Open‑Weight‑Spezialist für Coding‑Agenten

Moonshot AI hat am 20. April Kimi K2.6 veröffentlicht — 1‑Billion‑Parameter‑MoE, 32 Mrd. aktive Parameter, 256K‑Kontext, Modified MIT License. Die Besonderheit: K2.6 wurde explizit für lange agentische Coding‑Sessions trainiert und kommt mit einem Agent‑Swarm‑Orchestrator, der bis zu 300 parallele Sub‑Agenten koordinieren kann. Scott Breitenother (CEO Kilo Code) wird in der offiziellen Ankündigung so zitiert:

„K2.6 offers SOTA-level performance at a fraction of the cost. It's tremendously good at long-context tasks across the codebase, as well as the day-to-day work needed to support an always-on agent like KiloClaw."

Stärken:

SWE‑bench Pro 58,6 % — gleichauf mit GPT‑5.5, schlägt GPT‑5.4 (57,7 %) und GLM‑5.1 (58,4 %) knapp.
SWE‑bench Verified 80,2 %.
Preis: $0,60–$0,95 / $4,00 pro Mio Tokens. Mit Cache 25× günstiger als Opus 4.7.
Long‑Horizon‑Stabilität: 13 Stunden kontinuierliches autonomes Coding demonstriert.

Schwächen:

Pure Reasoning / Math: GPT‑5.4 führt bei AIME 2026 (99,2 % vs. K2.6 96,4 %) und GPQA Diamond (92,8 % vs. 90,5 %).
Tool‑Call‑Reliability: CodeRouter formuliert es so: > „The gap is narrowing — K2.6 is visibly better than K2.5 — but for apps that absolutely require structured-output reliability, Anthropic is still the floor."
Kontextfenster: 256K vs. 1M bei GPT‑5.5, Opus 4.7 und V4‑Pro.

GLM‑5.1: Die Huawei‑Ascend‑Geschichte

Z.ai (vormals Zhipu AI) hat GLM‑5.1 am 7. April veröffentlicht. Der bemerkenswerte Punkt ist nicht das Benchmark‑Ergebnis, sondern dass das Modell vollständig auf einem 100.000‑Chip‑Cluster aus Huawei‑Ascend‑910B trainiert wurde. Null Nvidia‑GPUs. China kann inzwischen Frontier‑Modelle ohne US‑Hardware trainieren.

Stärken: SWE‑bench Pro 58,4 %, MIT‑Lizenz, frei selbst hostbar, tiefes Reasoning auf mathematischen Aufgaben.

Schwächen: Wurde von Kimi K2.6 zwei Wochen später überholt; Ökosystem‑Reife hinkt Anthropic und OpenAI hinterher.

SWE‑bench Pro im Direktvergleich

Auffällig ist nicht der Spitzenwert von Opus 4.7, sondern wie eng das Mittelfeld zusammenliegt: GPT‑5.5, Kimi K2.6 und GLM‑5.1 unterscheiden sich um 0,2 Prozentpunkte. Bei diesem Streuungsbereich entscheiden Preis, Lizenz und Tooling‑Reife mehr als die Benchmark‑Zahl.

Erweiterter Benchmark‑Vergleich

Benchmark	Opus 4.7	GPT‑5.5	DeepSeek V4‑Pro	Kimi K2.6	GLM‑5.1
SWE‑bench Verified	87,6 %	—	80,6 %	80,2 %	—
SWE‑bench Pro	64,3 %	58,6 %	55,4 %	58,6 %	58,4 %
Terminal‑Bench 2.0	69,4 %	82,7 %	67,9 %	66,7 %	—
MCP‑Atlas	~79 %	75,3 %	73,6 %	—	—
GPQA Diamond	94,2 %	93,6 %	90,1 %	90,5 %	—
HLE (ohne Tools)	46,9 %	41,4 %	37,7 %	—	—
BrowseComp	79,3 %	84,4 %	83,4 %	83,2 %	—

(Quellen: Hersteller‑Tabellen, VentureBeat, llm‑stats.com.)

Welches Modell wofür?

Coding‑Agent in Produktion, Qualität priorisiert — Claude Opus 4.7. Vorsprung auf SWE‑bench Pro, literale Instruktionsbefolgung, Vision‑Verbesserungen rechtfertigen den Premium‑Preis bei Aufgaben, in denen Fehler teuer sind.

Terminal/DevOps/Browser‑Automation — GPT‑5.5. Terminal‑Bench 2.0 mit 82,7 % und BrowseComp mit 84,4 % sind klar die Spitze.

Hohe Volumina mit guter Coding‑Qualität — DeepSeek V4‑Pro oder Kimi K2.6.

Daten nicht aus dem Haus geben — DeepSeek V4, Kimi K2.6 oder GLM‑5.1 selbst hosten.

Günstigstes praktikables Modell für Standardaufgaben — Sonnet 4.6 oder DeepSeek V4‑Flash.

Was unter dem Tisch bleibt

Benchmark‑Inflation ist real. Selbstreportierte Zahlen stimmen nicht 1:1 mit Real‑World‑Verhalten überein.
Tokenizer‑Änderungen verschleiern Preisbewegungen. Listenpreis und effektive Kosten sind nicht dasselbe.
„Open Weights" ist nicht „Open Source". Trainings‑Code und ‑Daten sind nicht vollständig offen.

Fazit

Das Frontier‑Feld ist enger geworden, nicht weiter. Anthropic, OpenAI, Moonshot, DeepSeek und Z.ai veröffentlichen Modelle innerhalb derselben Wochen, die sich auf den meisten Benchmarks innerhalb weniger Prozentpunkte bewegen. Was wirklich entscheidet, sind die Randbedingungen: Wirtschaftlichkeit pro Million Tokens, Datenschutzanforderungen, Tool‑Call‑Reliability und Ökosystem‑Reife.

Wer immer noch glaubt, ein Modell könne alle Aufgaben optimal lösen, hat in den letzten drei Wochen nicht aufgepasst.

Quellen

Hersteller‑Primärquellen

OpenAI: Introducing GPT‑5.5, GPT‑5.5 System Card
Anthropic Opus 4.7 Profil: llm‑stats.com
DeepSeek V4: api‑docs.deepseek.com, Gewichte auf Hugging Face
Moonshot Kimi K2.6: Cloudflare Workers AI Changelog

Unabhängige Analysen

Vellum: Claude Opus 4.7 Benchmarks Explained
VentureBeat: DeepSeek‑V4 at 1/6th the cost
CodeRouter: Kimi K2.6 Review
TechCrunch: OpenAI releases GPT‑5.5
Finout: Claude Opus 4.7 Pricing Reality
Artificial Analysis Index v4.0: artificialanalysis.ai