MMLU-Pro

General knowledge% accuracy

Harder reformulation of MMLU with 10 answer choices and deeper reasoning.

At a glance

🏆 Top score

o3 OpenAI81.2 % accuracy

Total results

Models tested

Providers

Verified · Self-reported

2 · 5

Average

75.54 % accuracy

Median

76 % accuracy

Range

63.1 – 81.2 % accuracy

63.172.281.2

7 results across 10 score bands

10-way multiple choice, substantially reduced prompt-sensitivity vs MMLU.

Newer; fewer published numbers than MMLU. Still a multiple-choice exam.

OpenAI· 3 models
81.2 % accuracy
o3
Average: 73.43 % accuracyBest: 81.2 % accuracy
xAI· 1 model
79.3 % accuracy
Grok 3
Average: 79.3 % accuracyBest: 79.3 % accuracy
Anthropic· 1 model
77.5 % accuracy
Claude Opus 4
Average: 77.5 % accuracyBest: 77.5 % accuracy
DeepSeek· 1 model
75.9 % accuracy
DeepSeek V3
Average: 75.9 % accuracyBest: 75.9 % accuracy
Google· 1 model
75.8 % accuracy
Gemini 2 Pro
Average: 75.8 % accuracyBest: 75.8 % accuracy

Showing 7 of 7

ProviderSourceSort by

#	Model	Provider	Score (% accuracy)	Source	Date
1	o3	OpenAI	81.2	Third-party Artificial Analysis	Jun 1, 2025
2	Grok 3	xAI	79.3	Self-reported xAI model card	Jun 1, 2025
3	Claude Opus 4	Anthropic	77.5	Self-reported Anthropic model card	Jun 1, 2025
4	GPT-5	OpenAI	76	Third-party Artificial Analysis	Jun 1, 2025
5	DeepSeek V3	DeepSeek	75.9	Self-reported DeepSeek tech report	Jun 1, 2025
6	Gemini 2 Pro	Google	75.8	Self-reported Google model card	Jun 1, 2025
7	GPT-4o mini	OpenAI	63.1	Self-reported OpenAI system card	Jun 1, 2025