Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Model Optimizer

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

112

Base only

Active filters: Model Optimizer

nvidia/GLM-5.1-NVFP4

Text Generation • 382B • Updated 2 days ago • 8.25k • 20

nvidia/DeepSeek-V4-Pro-NVFP4

Text Generation • 910B • Updated about 13 hours ago • 1.51k • 14

nvidia/Gemma-4-26B-A4B-NVFP4

Text Generation • 14B • Updated 18 days ago • 1.2M • 66

nvidia/Gemma-4-31B-IT-NVFP4

Text Generation • 21B • Updated 22 days ago • 2.56M • 494

nvidia/MiniMax-M2.7-NVFP4

Text Generation • 116B • Updated Apr 24 • 318k • 49

nvidia/Kimi-K2.6-NVFP4

Text Generation • Updated 14 days ago • 683k • 27

nvidia/Qwen3-Next-80B-A3B-Thinking-NVFP4

Text Generation • Updated Feb 9 • 1.95k • 62

nvidia/Wan2.2-T2V-A14B-Diffusers-NVFP4

Text-to-Video • Updated 9 days ago • 8

nvidia/Llama-4-Maverick-17B-128E-Instruct-FP8

402B • Updated Jul 29, 2025 • 511 • 15

nvidia/Llama-4-Scout-17B-16E-Instruct-FP8

109B • Updated Dec 12, 2025 • 332k • 16

nvidia/Llama-4-Maverick-17B-128E-Eagle3

2B • Updated Sep 3, 2025 • 4 • 11

nvidia/Qwen3-30B-A3B-NVFP4

Text Generation • 16B • Updated Sep 10, 2025 • 48.9k • 31

nvidia/Qwen3-235B-A22B-Eagle3

Text Generation • 0.3B • Updated Jan 26 • 228 • 13

nvidia/gpt-oss-120b-Eagle3-long-context

Text Generation • 0.2B • Updated Jan 26 • 20.9k • 71

nvidia/Qwen3-235B-A22B-Thinking-2507-Eagle3

Text Generation • 0.3B • Updated Mar 10 • 94 • 2

nvidia/Qwen3-30B-A3B-Thinking-2507-Eagle3

Text Generation • 0.1B • Updated Mar 10 • 101 • 4

nvidia/Phi-4-reasoning-plus-FP8

15B • Updated Sep 15, 2025 • 135 • 7

nvidia/Llama-3.1-8B-Instruct-NVFP4

5B • Updated Sep 15, 2025 • 259k • 11

nvidia/Qwen3-8B-FP8

Text Generation • 8B • Updated Sep 9, 2025 • 8.05k • 6

nvidia/Qwen3-14B-NVFP4

Text Generation • 8B • Updated Sep 9, 2025 • 53.5k • 12

nvidia/Qwen3-14B-FP8

Text Generation • 15B • Updated Sep 9, 2025 • 2.06k • 6

nvidia/Qwen3-32B-NVFP4

Text Generation • 17B • Updated Sep 9, 2025 • 51.6k • 17

nvidia/Qwen2.5-VL-7B-Instruct-NVFP4

Text Generation • 5B • Updated Dec 6, 2025 • 236k • 16

nvidia/gpt-oss-120b-Eagle3-short-context

Text Generation • 0.8B • Updated Jan 26 • 3.65k • 17

nvidia/gpt-oss-120b-Eagle3-throughput

Text Generation • 0.8B • Updated Jan 26 • 1.01k • 35

nvidia/Qwen3-Next-80B-A3B-Instruct-NVFP4

Text Generation • Updated Feb 9 • 13.3k • 40

nvidia/Qwen3-235B-A22B-Thinking-2507-FP4-Eagle3

Text Generation • 0.9B • Updated Mar 10 • 50 • 1

nvidia/Kimi-K2.5-NVFP4

Text Generation • Updated 16 days ago • 969k • 84

nvidia/Qwen3.5-397B-A17B-NVFP4

Text Generation • Updated Mar 30 • 861k • 97

nvidia/Kimi-K2-Thinking-Eagle3

Text Generation • 2B • Updated Mar 12 • 55 • 2