Skip to content
Gespräch vereinbaren
AI Models

GPT‑5.5 vs. Claude Opus 4.7 vs. China: Wer führt das Feld im April 2026?

Felix Schmidt

Zwischen dem 7. und 24. April 2026 haben fünf Labore ihre jeweils stärksten Modelle veröffentlicht — GLM‑5.1 (7.4.), Claude Opus 4.7 (16.4.), Kimi K2.6 (20.4.), GPT‑5.5 (23.4.) und DeepSeek V4‑Pro (24.4.). Der Markt hat sich in diesen knapp drei Wochen mehr verschoben als im gesamten ersten Quartal davor. Wer Anwendungen baut, die diese Modelle nutzen, sollte verstehen, woran sich diese Modelle wirklich unterscheiden — und woran nicht.

Dieser Beitrag zieht die Bilanz: Stärken, Schwächen und tatsächliche Kosten. Keine Hype‑Tabellen, sondern die Sicht eines Entwicklers, der diese Modelle in Produktion einsetzt.

Die fünf Modelle im Kurzüberblick

ModellAnbieterVeröffentlichungLizenzInput $/MioOutput $/MioKontext
Claude Opus 4.7Anthropic16. April 2026Proprietär$5,00$25,001 Mio
GPT‑5.5OpenAI23. April 2026Proprietär$5,00$30,001 Mio (API) / 400K (Codex)
GPT‑5.5 ProOpenAI23. April 2026Proprietär$30,00$180,001 Mio
DeepSeek V4‑ProDeepSeek24. April 2026MIT (Open Weights)$0,145$1,741 Mio
Kimi K2.6Moonshot AI20. April 2026Modified MIT$0,60–$0,95$4,00256K
GLM‑5.1Z.ai (Zhipu)7. April 2026MIT (Open Weights)offen verfügbaroffen verfügbar

Allein dieser Tabelle entnimmt man den ersten wichtigen Befund: GPT‑5.5 ist das einzige Modell, das gegenüber seinem Vorgänger im Preis gestiegen ist. Die Output‑Token sind 2× so teuer wie bei GPT‑5.4. OpenAI begründet dies in der eigenen Ankündigung mit der Token‑Effizienz:

„While GPT‑5.5 is priced higher than GPT‑5.4, it is both more intelligent and much more token efficient."

Die anderen vier Modelle bewegen sich preislich entweder im selben Rahmen wie ihre Vorgänger oder darunter.

Claude Opus 4.7: Der Spezialist für Coding‑Agenten

Anthropic hat Opus 4.7 explizit als fokussiertes Upgrade gegenüber Opus 4.6 positioniert. Kein neues Pricing‑Tier, keine architektonische Revolution, sondern messbare Verbesserungen genau dort, wo Opus 4.6 in Produktion regelmäßig stolperte. Vellum bringt es in seiner Benchmark‑Analyse auf den Punkt:

„This is not a model that sweeps every leaderboard. Anthropic is explicit that Claude Mythos Preview remains more broadly capable. But for developers building production coding agents and long-running workflows, the improvements are real and well-targeted."

Die Zahlen, die zählen: SWE‑bench Verified springt von 80,8 % auf 87,6 %. SWE‑bench Pro — der härtere Multi‑Language‑Engineering‑Benchmark — geht von 53,4 % auf 64,3 %. Das sind keine kosmetischen Verschiebungen, sondern Werte, die in realen Workflows den Unterschied machen, ob ein Agent eine Aufgabe selbständig zu Ende bringt oder nach drei Schritten festfährt.

Stärken:

  • Coding‑Spitze: 64,3 % auf SWE‑bench Pro liegen klar vor GPT‑5.5 (58,6 %) und allen offenen chinesischen Modellen.
  • Vision: Bilder bis 2.576 Pixel auf der langen Kante (~3,75 MP), mehr als 3× die Auflösung früherer Claude‑Modelle. CharXiv visual reasoning sprang von 69,1 % auf 82,1 %.
  • Literale Instruktionsbefolgung: Opus 4.7 nimmt System‑Prompts wörtlicher als seine Vorgänger. Aufzählungen werden nicht mehr als „optionale Hinweise" interpretiert, sondern als harte Anforderungen.
  • MCP‑Atlas: 77,3 % bzw. 79,1 % laut verschiedenen Quellen — die beste Performance unter realen Multi‑Tool‑Orchestrierungs‑Benchmarks.

Schwächen:

  • Verbosity und Latenz: Auf dem Artificial Analysis Intelligence Index v4.0 erreicht Opus 4.7 (Adaptive Reasoning, Max Effort) zwar 57 Punkte, produziert dafür aber 110 Mio Tokens beim Eval‑Lauf gegenüber einem Median von 35 Mio. Time‑to‑first‑token liegt bei 18,54 s.
  • Tokenizer‑Inflation: Anthropic hat einen neuen Tokenizer ausgerollt, der je nach Inhalt 1,0× bis 1,35× mehr Tokens pro Eingabe produziert. Finout warnt entsprechend: > „Do not trust the 35% ceiling as a flat estimate, and do not trust 0% either."
  • Multilinguale Aufgaben: Hier führt Gemini 3.1 Pro weiterhin.

GPT‑5.5: Der breite Allrounder mit Latenz‑Vorteil

GPT‑5.5 (interner Codename „Spud") ist laut OpenAI das erste vollständig neu trainierte Basismodell seit GPT‑4.5. Auf der Launch‑Seite heißt es:

„On Artificial Analysis's Coding Index, GPT‑5.5 delivers state-of-the-art intelligence at half the cost of competitive frontier coding models."

Stärken:

  • Terminal‑Bench 2.0: 82,7 % — klar vor Opus 4.7 (69,4 %) und DeepSeek V4‑Pro (67,9 %).
  • BrowseComp: 84,4 % (GPT‑5.5 Pro 90,1 %), gegen 79,3 % bei Opus 4.7.
  • Token‑Effizienz: GPT‑5.5 erreicht laut OpenAI das gleiche Niveau wie GPT‑5.4 mit weniger Tokens.
  • „Super‑App"‑Architektur: GPT‑5.5 wurde explizit für Multi‑Tool‑Orchestrierung trainiert. OpenAI‑President Greg Brockman, zitiert von TechCrunch: > „It's a faster, sharper thinker for fewer tokens compared to something like 5.4."

Schwächen:

  • Preisanstieg: $5/$30 statt $2,50/$15 bei GPT‑5.4 — eine Verdopplung beim Output.
  • SWE‑bench Pro: 58,6 % — knapp 6 Punkte hinter Opus 4.7.
  • Halluzinationen: Tom's Guide hat in einer 7‑teiligen Vergleichsserie GPT‑5.5 gegen Opus 4.7 antreten lassen. Die Wikipedia‑Zusammenfassung der Tests fasst das Ergebnis nüchtern: > „GPT-5.5 lost in all 7 categories tested. The website praised GPT-5.5 for its speed but criticized the model for its tendency to hallucinate rather than admitting that it does not know something."
  • API‑Verfügbarkeit verzögert: OpenAI begründete dies mit „different safeguards".

DeepSeek V4‑Pro: Der Preisbrecher

DeepSeek hat am 24. April V4‑Pro und V4‑Flash veröffentlicht — beide unter MIT‑Lizenz mit Gewichten auf Hugging Face. DeepSeek‑Researcher Deli Chen kommentierte den Release auf X mit den Worten: > „AGI belongs to everyone." (zitiert nach VentureBeat).

Architektur: V4‑Pro ist ein 1,6‑Billionen‑Parameter‑MoE mit 49 Mrd. aktivierten Parametern. Die zentrale Innovation ist die Hybrid‑Attention (Compressed Sparse Attention + Heavily Compressed Attention), die laut DeepSeek‑Tech‑Report bei 1‑Mio‑Token‑Kontext nur 27 % der Inference‑FLOPs und 10 % des KV‑Caches gegenüber V3.2 benötigt.

Stärken:

  • Codeforces‑Rating 3.206 — höher als GPT‑5.4 (3.168) und Gemini 3.1 Pro (3.052).
  • LiveCodeBench 93,5 % — führt das Feld an, vor Gemini (91,7 %) und Claude (88,8 %).
  • SWE‑bench Verified 80,6 % — 0,2 Punkte hinter Claude Opus 4.6.
  • Preis: $0,145/Mio Input und $1,74/Mio Output — 7× günstiger Input, 6× günstiger Output als GPT‑5.5 oder Opus 4.7. Bei 100 Mio Output‑Tokens monatlich sind das $174 vs. $2.500.
  • Open Weights, MIT‑Lizenz.

Schwächen:

  • SWE‑bench Pro 55,4 % — hinter Opus 4.7 (64,3 %) und GPT‑5.5 (58,6 %).
  • Humanity's Last Exam ohne Tools 37,7 % — gegenüber 41,4 % (GPT‑5.5) und 46,9 % (Opus 4.7).
  • SimpleQA‑Verified 57,9 % vs. Gemini 75,6 %.
  • Preview‑Status: Beide V4‑Modelle sind explizit als Preview veröffentlicht.

Kimi K2.6: Der Open‑Weight‑Spezialist für Coding‑Agenten

Moonshot AI hat am 20. April Kimi K2.6 veröffentlicht — 1‑Billion‑Parameter‑MoE, 32 Mrd. aktive Parameter, 256K‑Kontext, Modified MIT License. Die Besonderheit: K2.6 wurde explizit für lange agentische Coding‑Sessions trainiert und kommt mit einem Agent‑Swarm‑Orchestrator, der bis zu 300 parallele Sub‑Agenten koordinieren kann. Scott Breitenother (CEO Kilo Code) wird in der offiziellen Ankündigung so zitiert:

„K2.6 offers SOTA-level performance at a fraction of the cost. It's tremendously good at long-context tasks across the codebase, as well as the day-to-day work needed to support an always-on agent like KiloClaw."

Stärken:

  • SWE‑bench Pro 58,6 % — gleichauf mit GPT‑5.5, schlägt GPT‑5.4 (57,7 %) und GLM‑5.1 (58,4 %) knapp.
  • SWE‑bench Verified 80,2 %.
  • Preis: $0,60–$0,95 / $4,00 pro Mio Tokens. Mit Cache 25× günstiger als Opus 4.7.
  • Long‑Horizon‑Stabilität: 13 Stunden kontinuierliches autonomes Coding demonstriert.

Schwächen:

  • Pure Reasoning / Math: GPT‑5.4 führt bei AIME 2026 (99,2 % vs. K2.6 96,4 %) und GPQA Diamond (92,8 % vs. 90,5 %).
  • Tool‑Call‑Reliability: CodeRouter formuliert es so: > „The gap is narrowing — K2.6 is visibly better than K2.5 — but for apps that absolutely require structured-output reliability, Anthropic is still the floor."
  • Kontextfenster: 256K vs. 1M bei GPT‑5.5, Opus 4.7 und V4‑Pro.

GLM‑5.1: Die Huawei‑Ascend‑Geschichte

Z.ai (vormals Zhipu AI) hat GLM‑5.1 am 7. April veröffentlicht. Der bemerkenswerte Punkt ist nicht das Benchmark‑Ergebnis, sondern dass das Modell vollständig auf einem 100.000‑Chip‑Cluster aus Huawei‑Ascend‑910B trainiert wurde. Null Nvidia‑GPUs. China kann inzwischen Frontier‑Modelle ohne US‑Hardware trainieren.

Stärken: SWE‑bench Pro 58,4 %, MIT‑Lizenz, frei selbst hostbar, tiefes Reasoning auf mathematischen Aufgaben.

Schwächen: Wurde von Kimi K2.6 zwei Wochen später überholt; Ökosystem‑Reife hinkt Anthropic und OpenAI hinterher.

SWE‑bench Pro im Direktvergleich

SWE-bench Pro: Direkter ModellvergleichHöher = besser. Stand: April 2026.0%10203040506070%Claude Opus 4.764.3%GPT-5.558.6%Kimi K2.658.6%GLM-5.158.4%DeepSeek V4-Pro55.4%GPT-5.4 (Vorgänger)57.7%Quellen: Anthropic Modellseite, VentureBeat, CodeRouter, Nerd Level Tech.

Auffällig ist nicht der Spitzenwert von Opus 4.7, sondern wie eng das Mittelfeld zusammenliegt: GPT‑5.5, Kimi K2.6 und GLM‑5.1 unterscheiden sich um 0,2 Prozentpunkte. Bei diesem Streuungsbereich entscheiden Preis, Lizenz und Tooling‑Reife mehr als die Benchmark‑Zahl.

Erweiterter Benchmark‑Vergleich

BenchmarkOpus 4.7GPT‑5.5DeepSeek V4‑ProKimi K2.6GLM‑5.1
SWE‑bench Verified87,6 %80,6 %80,2 %
SWE‑bench Pro64,3 %58,6 %55,4 %58,6 %58,4 %
Terminal‑Bench 2.069,4 %82,7 %67,9 %66,7 %
MCP‑Atlas~79 %75,3 %73,6 %
GPQA Diamond94,2 %93,6 %90,1 %90,5 %
HLE (ohne Tools)46,9 %41,4 %37,7 %
BrowseComp79,3 %84,4 %83,4 %83,2 %

(Quellen: Hersteller‑Tabellen, VentureBeat, llm‑stats.com.)

Welches Modell wofür?

Coding‑Agent in Produktion, Qualität priorisiert — Claude Opus 4.7. Vorsprung auf SWE‑bench Pro, literale Instruktionsbefolgung, Vision‑Verbesserungen rechtfertigen den Premium‑Preis bei Aufgaben, in denen Fehler teuer sind.

Terminal/DevOps/Browser‑Automation — GPT‑5.5. Terminal‑Bench 2.0 mit 82,7 % und BrowseComp mit 84,4 % sind klar die Spitze.

Hohe Volumina mit guter Coding‑Qualität — DeepSeek V4‑Pro oder Kimi K2.6.

Daten nicht aus dem Haus geben — DeepSeek V4, Kimi K2.6 oder GLM‑5.1 selbst hosten.

Günstigstes praktikables Modell für Standardaufgaben — Sonnet 4.6 oder DeepSeek V4‑Flash.

Was unter dem Tisch bleibt

  1. Benchmark‑Inflation ist real. Selbstreportierte Zahlen stimmen nicht 1:1 mit Real‑World‑Verhalten überein.
  2. Tokenizer‑Änderungen verschleiern Preisbewegungen. Listenpreis und effektive Kosten sind nicht dasselbe.
  3. „Open Weights" ist nicht „Open Source". Trainings‑Code und ‑Daten sind nicht vollständig offen.

Fazit

Das Frontier‑Feld ist enger geworden, nicht weiter. Anthropic, OpenAI, Moonshot, DeepSeek und Z.ai veröffentlichen Modelle innerhalb derselben Wochen, die sich auf den meisten Benchmarks innerhalb weniger Prozentpunkte bewegen. Was wirklich entscheidet, sind die Randbedingungen: Wirtschaftlichkeit pro Million Tokens, Datenschutzanforderungen, Tool‑Call‑Reliability und Ökosystem‑Reife.

Wer immer noch glaubt, ein Modell könne alle Aufgaben optimal lösen, hat in den letzten drei Wochen nicht aufgepasst.


Quellen

Hersteller‑Primärquellen

Unabhängige Analysen

Dieses Thema betrifft dein Team? Lass uns besprechen, wie ich helfen kann.

Diese Website verwendet Drittdienste (Google reCAPTCHA, Calendly), die Cookies setzen können. Mehr dazu in meiner Datenschutzerklärung .