SWE-bench Verified

Coding% resolved

Real GitHub issues solved end-to-end by the model.

At a glance

🏆 Top score

Total results

Models tested

Providers

Verified · Self-reported

16 · 3

Average

56.72 % resolved

Median

53.6 % resolved

Range

32 – 72.7 % resolved

32.052.472.7

19 results across 10 score bands

Model must generate a patch that resolves a real GitHub issue. Verified subset has human-confirmed solvability.

Scaffolding and harness differences cause large score variation across published numbers.

Anthropic· 6 models
72.7 % resolved
Claude Sonnet 4.6
Average: 63.63 % resolvedBest: 72.7 % resolved
OpenAI· 7 models
71.7 % resolved
o3-pro
Average: 56.49 % resolvedBest: 71.7 % resolved
Google· 2 models
63.2 % resolved
Gemini 2.5 Pro
Average: 58.35 % resolvedBest: 63.2 % resolved
Mistral AI· 1 model
53.6 % resolved
Devstral
Average: 53.6 % resolvedBest: 53.6 % resolved
xAI· 1 model
50 % resolved
Grok 3
Average: 50 % resolvedBest: 50 % resolved
DeepSeek· 1 model
42 % resolved
DeepSeek V3 (2506)
Average: 42 % resolvedBest: 42 % resolved
Meta· 1 model
38.2 % resolved
Llama 4 Maverick
Average: 38.2 % resolvedBest: 38.2 % resolved

Showing 19 of 19

ProviderSourceSort by

#	Model	Provider	Score (% resolved)	Source	Date
1	Claude Sonnet 4.6	Anthropic	72.7	Third-party Papers With Code	Apr 18, 2026
2	Claude Opus 4.5	Anthropic	72.5	Third-party Papers With Code	Apr 18, 2026
3	o3-pro	OpenAI	71.7	Third-party Papers With Code	Apr 18, 2026
4	o3	OpenAI	71.7	Third-party Papers With Code	Apr 18, 2026
5	Claude 3.7 Sonnet	Anthropic	70.3	Third-party Papers With Code	Apr 18, 2026
6	Claude Sonnet 4.5	Anthropic	70.3	Third-party Papers With Code	Apr 18, 2026
7	o4-mini	OpenAI	68.1	Third-party Papers With Code	Apr 18, 2026
8	Gemini 2.5 Pro	Google	63.2	Third-party Papers With Code	Apr 18, 2026
9	GPT-4.1	OpenAI	54.6	Third-party Papers With Code	Apr 18, 2026
10	Devstral	Mistral AI	53.6	Third-party Papers With Code	Apr 18, 2026
11	Gemini 2.5 Flash	Google	53.5	Third-party Papers With Code	Apr 18, 2026
12	Claude Opus 4	Anthropic	52	Self-reported Anthropic Claude 4 announcement	Jun 1, 2025
13	Grok 3	xAI	50	Third-party Papers With Code	Apr 18, 2026
14	o3-mini	OpenAI	49.3	Self-reported OpenAI system card	Jun 1, 2025
15	GPT-5	OpenAI	48	Third-party Third-party harness run	Jun 1, 2025
16	Claude Sonnet 4	Anthropic	44	Self-reported Anthropic model card	Jun 1, 2025
17	DeepSeek V3 (2506)	DeepSeek	42	Third-party Papers With Code	Apr 18, 2026
18	Llama 4 Maverick	Meta	38.2	Third-party Papers With Code	Apr 18, 2026
19	GPT-4.1 mini	OpenAI	32	Third-party Papers With Code	Apr 18, 2026