Anthropic hat heute Claude Opus 4.7 veröffentlicht. Die Versionsnummer wirkt unscheinbar, die Benchmark-Zahlen sind es nicht. Das Modell setzt sich in den Agent-relevanten Disziplinen deutlich ab — und genau dort entscheidet sich aktuell, welches Modell welche Aufgabe in der Praxis übernimmt.
Was Anthropic zu Opus 4.7 veröffentlicht hat
Anthropic selbst kommuniziert sparsam. Die Model-Card nennt drei Stossrichtungen: bessere Planung über viele Schritte hinweg, stabilere Tool-Nutzung und verlässlicheres Verhalten in Agent-Umgebungen. Das 1-Million-Token-Kontextfenster und die API-Preise bleiben identisch zur Vorgängerversion. Wer heute auf Opus läuft, kann per Modell-Label umschalten — kein Migrationsprojekt, kein neues Pricing-Modell.
Interessanter sind die Zahlen, die in den Stunden nach dem Release durch Entwickler-Communities und X-Threads gingen. Sie zeigen ein konsistentes Muster: 4.7 legt vor allem dort zu, wo ein Modell eigenständig planen, Tools aufrufen und zwischen Teilergebnissen wechseln muss.
Die wichtigsten Benchmark-Zahlen im Überblick
Wir haben die bisher veröffentlichten Zahlen zu den vier aktuell meistbeachteten Agent-Benchmarks zusammengezogen. Alle Werte als Pass-Rate, höher ist besser — Quelle ist jeweils die Anthropic Model-Card in Kombination mit Community-Evaluations der letzten 72 Stunden.
Agent-Benchmarks · Opus 4.7 vs. Opus 4.6
Pass-Rate in Prozent, gerundet. Höher ist besser.
SWE-bench VerifiedAgent Coding78,3 %
Terminal-benchAgent Terminal51,7 %
OSWorldComputer Use39,8 %
GAIAAgent Search / Research65,4 %
AIME 2025Math Reasoning90,1 %
Claude Opus 4.6
Claude Opus 4.7
Agent Coding: Der grösste Sprung
Auf SWE-bench Verified — dem aktuell relevantesten Benchmark für autonome Coding-Agenten — klettert Opus 4.7 von 72,5 auf 78,3 Prozent. Der Benchmark schickt das Modell durch 500 reale GitHub-Issues und misst, ob der generierte Patch die Originaltests bestehen würde. Jedes Prozent ist hier hart erarbeitet. 5,8 Punkte auf einen Versionssprung sind dafür ungewöhnlich viel.
Terminal-bench und OSWorld: Das Modell wird handwerklicher
Terminal-bench testet, ob ein Modell in einer echten Linux-Shell mehrstufige Aufgaben erledigt — von Log-Analyse bis Paket-Installation. Der Sprung von 43 auf 52 Prozent heisst konkret: aus knapp jeder zweiten Aufgabe wird jetzt mehr als jede zweite korrekt gelöst. Auf OSWorld, dem Benchmark für Computer-Use-Agenten (reales Desktop-UI), legt 4.7 ähnlich zu. Beide Zahlen sind für Unternehmen mit internen Automatisierungs-Projekten relevanter als jeder Wissensbenchmark.
„Opus 4.7 gewinnt nicht auf der Wissensebene, sondern in der Ausführung. Das ist die Sorte Verbesserung, die in produktiven Agenten direkt sichtbar wird."
GAIA und AIME: Sauber, aber nicht spektakulär
GAIA misst die Fähigkeit, mehrstufige Recherche-Aufgaben inklusive Web-Nutzung zu lösen — ein Proxy für „Agent, der für mich etwas herausfindet". 7 Prozentpunkte mehr sind solide, aber keine Revolution. Bei AIME 2025 (Matheolympiade-Aufgaben) bleibt der Unterschied mit vier Prozentpunkten deutlich kleiner — was zeigt, dass 4.7 kein breiter Knowledge-Boost ist, sondern ein Agent-Update.
Was das für den deutschen Mittelstand bedeutet
Für die grosse Mehrheit der KI-Projekte im Mittelstand — Kundenkorrespondenz automatisieren, interne Daten strukturieren, Standardprozesse beschleunigen — ändert Opus 4.7 wenig. Sonnet 4.6 bleibt in diesen Fällen das bessere Modell, weil es schneller und deutlich günstiger ist. Opus 4.7 zeigt seine Stärke überall dort, wo ein Modell selbstständig Werkzeuge benutzt: ein Code-Agent, der Pull-Requests vorbereitet; ein Research-Agent, der Ausschreibungen auswertet; ein Ops-Agent, der Infrastruktur-Skripte orchestriert.
tips_and_updates
Praxis-Tipp
Benchmark-Prozente sind nicht linear in Business-Wert übersetzbar. Ein Sprung von 72 auf 78 Prozent auf SWE-bench klingt nach sechs Prozent Verbesserung — in der Praxis bedeutet er, dass statt jeder vierten jetzt jede fünfte Aufgabe scheitert. Das ist die Rechnung, die entscheidet, ob ein Agent-System produktiv laufen darf oder nicht.
Der Direktvergleich zur Modell-Landschaft
In einer Tabelle wird deutlicher, in welchem Segment Opus 4.7 heute spielt. Alle Zahlen sind öffentliche Herstellerangaben oder Community-Benchmarks aus April 2026.
| Modell | SWE-bench | Terminal-bench | Kontext |
| Claude Opus 4.7 | 78,3 % | 51,7 % | 1.000.000 |
| Claude Opus 4.6 | 72,5 % | 43,2 % | 1.000.000 |
| Claude Sonnet 4.6 | 66,8 % | 37,5 % | 200.000 |
| GPT-5 | 74,9 % | 46,1 % | 400.000 |
| Gemini 2.5 Pro | 63,2 % | 34,8 % | 2.000.000 |
Kostenfrage: Rechnet sich der Wechsel?
Die API-Preise für Opus 4.7 liegen unverändert bei rund 15 US-Dollar pro Million Input- und 75 US-Dollar pro Million Output-Tokens. In den meisten KMU-Workflows ist nicht der Tokenpreis der Kostentreiber, sondern die Fehlerquote. Ein Agent, der auf SWE-bench zehn Prozentpunkte mehr Aufgaben löst, spart am Ende Entwicklerzeit für die Fehlerbehebung. Wer noch gar keine Agent-Workflows einsetzt, sollte zuerst den Anwendungsfall prüfen, nicht das Modell. Für alle anderen ist der Wechsel ein risikoloser Knopfdruck.
Fazit: Für wen sich der Wechsel lohnt — und für wen nicht
Opus 4.7 ist das erste Modell in der 4er-Reihe, das seinen Vorsprung vor GPT-5 in den Agent-Disziplinen sichtbar ausbaut — bei gleichem Preis. Für Teams, die Coding-Agenten, Research-Agenten oder Computer-Use-Automatisierung betreiben, ist der Umstieg in den nächsten Tagen Standard. Für die Standardaufgaben im Mittelstand — Chat, Klassifikation, kurze Dokumentenanalyse — bleibt Sonnet 4.6 das ökonomischere Modell.
Unser Eindruck: Der wichtigste Shift passiert gerade nicht auf der Wissens-, sondern auf der Ausführungsebene. Die Modelle werden zuverlässiger darin, das Richtige in der richtigen Reihenfolge zu tun. Wer daraus einen produktiven Agenten bauen will, sollte den Use-Case vor dem Modell definieren — und dann prüfen, ob der Sprung von 4.6 auf 4.7 in den eigenen Prozessen tatsächlich zu Buche schlägt.
A
ATLAS Consulting Redaktion
Wir kuratieren jede Woche die wichtigsten KI-News für Entscheider im deutschen Mittelstand — ohne Hype, immer auf Deutsch.
Agent-Projekte mit Opus 4.7 starten?
ATLAS Consulting begleitet Mittelständler von der Use-Case-Auswahl bis zur produktiven Agent-Integration — ohne Blackbox, mit klaren Zahlen.
Anthropic released Claude Opus 4.7 today. The version bump looks modest; the benchmark numbers do not. The model pulls clear distance in agent-relevant disciplines — and that is exactly where the current debate over "which model for which task" is being decided.
What Anthropic published on Opus 4.7
Anthropic's own messaging is sparse. The model card lists three focus areas: better multi-step planning, more stable tool use, and more reliable behaviour in agent environments. The one-million-token context window and API pricing stay identical to the previous version. Teams already running on Opus can simply flip the model label — no migration project, no new pricing model.
More interesting are the numbers that hit developer communities and X threads within hours of the release. They show a consistent pattern: 4.7 improves most where a model has to plan independently, call tools, and move between partial results.
The key benchmark numbers at a glance
We pulled together the figures published so far for the four currently most-watched agent benchmarks. All values are pass rates, higher is better — sourced from the Anthropic model card combined with community evaluations from the past 72 hours.
Agent benchmarks · Opus 4.7 vs. Opus 4.6
Pass rate in percent, rounded. Higher is better.
SWE-bench VerifiedAgent Coding78.3 %
Terminal-benchAgent Terminal51.7 %
OSWorldComputer Use39.8 %
GAIAAgent Search / Research65.4 %
AIME 2025Math reasoning90.1 %
Claude Opus 4.6
Claude Opus 4.7
Agent coding: the biggest jump
On SWE-bench Verified — currently the most relevant benchmark for autonomous coding agents — Opus 4.7 climbs from 72.5 to 78.3 percent. The benchmark runs the model through 500 real GitHub issues and checks whether the generated patch passes the original tests. Every percentage point is hard-earned here. 5.8 points in a single version bump is unusually large.
Terminal-bench and OSWorld: the model gets more hands-on
Terminal-bench tests whether a model can handle multi-step tasks in a real Linux shell — from log analysis to package installation. The jump from 43 to 52 percent means that instead of failing just over half the tasks, the model now passes more than half. On OSWorld, the benchmark for computer-use agents (real desktop UI), 4.7 adds a similar amount. Both numbers matter more for companies running internal automation projects than any knowledge benchmark.
"Opus 4.7 doesn't win on knowledge, it wins on execution. That's the kind of improvement you feel in production agents."
GAIA and AIME: solid, not spectacular
GAIA measures the ability to solve multi-step research tasks including web use — a proxy for "an agent that looks things up for me". 7 percentage points is solid, not revolutionary. On AIME 2025 (math olympiad-level problems), the gap shrinks to four points — showing that 4.7 is not a broad knowledge boost but an agent-focused update.
What this means for German mid-sized business
For the majority of SME AI projects — automating customer correspondence, structuring internal data, accelerating standard processes — Opus 4.7 changes little. Sonnet 4.6 stays the better model there, because it is faster and noticeably cheaper. Opus 4.7 plays its strength wherever a model has to use tools autonomously: a coding agent preparing pull requests; a research agent evaluating tenders; an ops agent orchestrating infrastructure scripts.
tips_and_updates
Practical tip
Benchmark percentage points do not translate linearly into business value. A jump from 72 to 78 percent on SWE-bench sounds like six percent more. In practice it means that instead of one in four tasks failing, now one in five fails. That is the math that decides whether an agent system goes into production.
Direct comparison across the model landscape
A table makes the positioning clearer. All numbers are either public vendor figures or community benchmarks from April 2026.
| Model | SWE-bench | Terminal-bench | Context |
| Claude Opus 4.7 | 78.3 % | 51.7 % | 1,000,000 |
| Claude Opus 4.6 | 72.5 % | 43.2 % | 1,000,000 |
| Claude Sonnet 4.6 | 66.8 % | 37.5 % | 200,000 |
| GPT-5 | 74.9 % | 46.1 % | 400,000 |
| Gemini 2.5 Pro | 63.2 % | 34.8 % | 2,000,000 |
Cost question: does switching pay off?
API prices for Opus 4.7 stay at roughly 15 US dollars per million input and 75 US dollars per million output tokens. In most SME workflows the cost driver isn't the token price, it is the error rate. An agent that solves ten more percent of SWE-bench tasks saves developer time on fixing wrong patches. Teams without any agent workflows should first validate the use case, not the model. For everyone else, the switch is a risk-free flip.
Conclusion: who should switch — and who shouldn't
Opus 4.7 is the first model in the 4.x line that clearly extends Anthropic's lead over GPT-5 in agent disciplines — at the same price. Teams running coding agents, research agents or computer-use automation will switch in the coming days as a matter of course. For the day-to-day tasks of mid-sized business — chat, classification, short document analysis — Sonnet 4.6 remains the more economical choice.
Our take: the important shift right now is not on the knowledge layer, it is on the execution layer. Models are getting more reliable at doing the right thing in the right order. Teams that want to turn that into a productive agent should define the use case before the model — and then check whether the jump from 4.6 to 4.7 actually shows up in their own processes.
A
ATLAS Consulting Editorial
Every week we curate the most important AI news for decision-makers in German mid-sized business — no hype, always to the point.
Start agent projects with Opus 4.7?
ATLAS Consulting guides SMEs from use-case selection to productive agent integration — without black boxes, with clear numbers.