# LLM Latency Benchmark Report

**Generated**: 2026-01-27 05:19:42

## Summary

| Model | TTFT (median) | Total (median) | Tokens/sec | Success |
|-------|---------------|----------------|------------|---------|
| anthropic/claude-haiku-4-5-20251001 | 512ms | 3814ms | 91.1 | 100% |
| xai/grok-4-1-fast-non-reasoning | 667ms | 3204ms | 120.0 | 100% |
| gemini/gemini-2.5-flash-lite | 728ms | 2422ms | 183.2 | 100% |
| gemini/gemini-3-flash-preview | 1029ms | 3300ms | 132.0 | 100% |
| anthropic/claude-opus-4-5-20251101 | 1640ms | 7746ms | 49.1 | 100% |
| xai/grok-code-fast-1 | 2932ms | 5782ms | 107.2 | 100% |
| openai/gpt-5-mini | 3267ms | 4325ms | 332.6 | 100% |

## Detailed Results

### anthropic/claude-haiku-4-5-20251001

**TTFT (Time to First Token)**
- Min: 481ms
- Max: 543ms
- Mean: 512ms
- Median: 512ms
- Stdev: 44ms

**Total Response Time**
- Min: 3694ms
- Max: 3934ms
- Mean: 3814ms
- Median: 3814ms
- Stdev: 170ms

**Individual Runs**

- Run 1: TTFT=481ms, Total=3934ms, Tokens=300, 86.9 tok/s
- Run 2: TTFT=543ms, Total=3694ms, Tokens=300, 95.2 tok/s

### xai/grok-4-1-fast-non-reasoning

**TTFT (Time to First Token)**
- Min: 384ms
- Max: 951ms
- Mean: 667ms
- Median: 667ms
- Stdev: 401ms

**Total Response Time**
- Min: 2931ms
- Max: 3478ms
- Mean: 3204ms
- Median: 3204ms
- Stdev: 387ms

**Individual Runs**

- Run 1: TTFT=951ms, Total=3478ms, Tokens=304, 120.3 tok/s
- Run 2: TTFT=384ms, Total=2931ms, Tokens=305, 119.8 tok/s

### gemini/gemini-2.5-flash-lite

**TTFT (Time to First Token)**
- Min: 635ms
- Max: 822ms
- Mean: 728ms
- Median: 728ms
- Stdev: 132ms

**Total Response Time**
- Min: 2207ms
- Max: 2637ms
- Mean: 2422ms
- Median: 2422ms
- Stdev: 304ms

**Individual Runs**

- Run 1: TTFT=822ms, Total=2207ms, Tokens=300, 216.5 tok/s
- Run 2: TTFT=635ms, Total=2637ms, Tokens=300, 149.8 tok/s

### gemini/gemini-3-flash-preview

**TTFT (Time to First Token)**
- Min: 1004ms
- Max: 1054ms
- Mean: 1029ms
- Median: 1029ms
- Stdev: 35ms

**Total Response Time**
- Min: 3021ms
- Max: 3578ms
- Mean: 3300ms
- Median: 3300ms
- Stdev: 394ms

**Individual Runs**

- Run 1: TTFT=1054ms, Total=3578ms, Tokens=296, 117.3 tok/s
- Run 2: TTFT=1004ms, Total=3021ms, Tokens=296, 146.7 tok/s

### anthropic/claude-opus-4-5-20251101

**TTFT (Time to First Token)**
- Min: 1593ms
- Max: 1687ms
- Mean: 1640ms
- Median: 1640ms
- Stdev: 66ms

**Total Response Time**
- Min: 7609ms
- Max: 7882ms
- Mean: 7746ms
- Median: 7746ms
- Stdev: 193ms

**Individual Runs**

- Run 1: TTFT=1687ms, Total=7882ms, Tokens=300, 48.4 tok/s
- Run 2: TTFT=1593ms, Total=7609ms, Tokens=300, 49.9 tok/s

### xai/grok-code-fast-1

**TTFT (Time to First Token)**
- Min: 2691ms
- Max: 3174ms
- Mean: 2932ms
- Median: 2932ms
- Stdev: 341ms

**Total Response Time**
- Min: 5761ms
- Max: 5803ms
- Mean: 5782ms
- Median: 5782ms
- Stdev: 30ms

**Individual Runs**

- Run 1: TTFT=3174ms, Total=5803ms, Tokens=304, 115.6 tok/s
- Run 2: TTFT=2691ms, Total=5761ms, Tokens=303, 98.7 tok/s

### openai/gpt-5-mini

**TTFT (Time to First Token)**
- Min: 3267ms
- Max: 3267ms
- Mean: 3267ms
- Median: 3267ms
- Stdev: N/A

**Total Response Time**
- Min: 4170ms
- Max: 4481ms
- Mean: 4325ms
- Median: 4325ms
- Stdev: 220ms

**Individual Runs**

Tokens=300
- Run 2: TTFT=3267ms, Total=4170ms, Tokens=300, 332.6 tok/s

## Configuration

- **Prompt**: "Explain how a CPU cache works in 3 paragraphs."
- **Max Tokens**: 300
- **Timeout**: 60s