HumanEval

Codingpass@1 %

Python coding benchmark of 164 programming problems.

At a glance

🏆 Top score

GPT-5 OpenAI94 pass@1 %

Total results

Models tested

Providers

Verified · Self-reported

0 · 9

Average

90.44 pass@1 %

Median

90.2 pass@1 %

Range

85.4 – 94 pass@1 %

85.489.794.0

9 results across 10 score bands

pass@1 on 164 handwritten Python problems with unit tests. Scores reflect whether the first generation passes all tests.

Saturated near 95%+ for frontier models. Narrow in language and problem style.

OpenAI· 2 models
94 pass@1 %
GPT-5
Average: 93.75 pass@1 %Best: 94 pass@1 %
Anthropic· 2 models
93 pass@1 %
Claude Opus 4
Average: 92.5 pass@1 %Best: 93 pass@1 %
DeepSeek· 1 model
90.2 pass@1 %
DeepSeek V3
Average: 90.2 pass@1 %Best: 90.2 pass@1 %
Meta· 1 model
89 pass@1 %
Llama 3.1 405B
Average: 89 pass@1 %Best: 89 pass@1 %
xAI· 1 model
88.5 pass@1 %
Grok 3
Average: 88.5 pass@1 %Best: 88.5 pass@1 %
Google· 1 model
88.4 pass@1 %
Gemini 2 Pro
Average: 88.4 pass@1 %Best: 88.4 pass@1 %
Mistral AI· 1 model
85.4 pass@1 %
Codestral
Average: 85.4 pass@1 %Best: 85.4 pass@1 %

Showing 9 of 9

ProviderSourceSort by

#	Model	Provider	Score (pass@1 %)	Source	Date
1	GPT-5	OpenAI	94	Self-reported OpenAI system card	Jun 1, 2025
2	o3-mini	OpenAI	93.5	Self-reported OpenAI system card	Jun 1, 2025
3	Claude Opus 4	Anthropic	93	Self-reported Anthropic model card	Jun 1, 2025
4	Claude Sonnet 4	Anthropic	92	Self-reported Anthropic model card	Jun 1, 2025
5	DeepSeek V3	DeepSeek	90.2	Self-reported DeepSeek tech report	Jun 1, 2025
6	Llama 3.1 405B	Meta	89	Self-reported Meta system card	Jun 1, 2025
7	Grok 3	xAI	88.5	Self-reported xAI model card	Jun 1, 2025
8	Gemini 2 Pro	Google	88.4	Self-reported Google model card	Jun 1, 2025
9	Codestral	Mistral AI	85.4	Self-reported Mistral Codestral announcement	Jun 1, 2025