updated

11 Sept 2025

LLM Leaderboard

This LLM leaderboard displays the latest public benchmark performance for SOTA model versions released after April 2024. The data comes from model providers as well as independently run evaluations by Vellum or the open-source community. We feature results from non-saturated benchmarks, excluding outdated benchmarks (e.g. MMLU). If you want to evaluate these models on your use-cases, try Vellum Evals.

Top models per tasks

Best in Reasoning (GPQA Diamond)

Score (Percentage)

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

Grok 4

GPT-5

Gemini 2.5 Pro

Grok 3 [Beta]

OpenAI o3

Best in High School Math (AIME 2025)

Score (Percentage)

100%

90%

80%

70%

60%

50%

GPT-5

GPT oss 20b

OpenAI o3

GPT oss 120b

Grok 3 [Beta]

Best in Agentic Coding (SWE Bench)

Score (Percentage)

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

Grok 4

GPT-5

Claude Opus 4.1

Claude 4 Sonnet

Claude 4 Opus

Independent evals

Best in Tool Use (BFCL)

Score (Percentage)

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

Llama 3.1 405b

Llama 3.3 70b

GPT-4o

GPT-4.5

Nova Pro

Best in Adaptive Reasoning (GRIND)

Score (Percentage)

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

Gemini 2.5 Pro

Claude 4 Sonnet

Claude 4 Opus

Claude 3.7 Sonnet [R]

Nemotron Ultra 253B

Best Overall (Humanity's Last Exam)

Score (Percentage)

GPT-5

Grok 4

Gemini 2.5 Pro

OpenAI o3

GPT oss 120b

Fastest and most affordable models

Fastest Models

Tokens/seconds

2500

2000

1500

1000

500

Llama 4 Scout

Llama 3.3 70b

Llama 3.1 70b

Llama 3.1 8b

Llama 3.1 405b

Lowest Latency (TTFT)

Seconds to first token

0.6s

0.5s

0.4s

0.3s

0.2s

0.1s

0.0s

Nova Micro

Llama 3.1 8b

Llama 4 Scout

Gemini 2.0 Flash

GPT-4o mini

Cheapest Models

Input

Output

USD per 1M tokens

0.8

0.65

0.5

0.35

0.2

0.05

Nova Micro

Gemma 3 27b

Gemini 1.5 Flash

GPT oss 20b

Test models side by side in Vellum

LLM Leaderboard