Qwen3-Next-80B-A3B Quantized Models - a inference-optimization Collection

inference-optimization 's Collections

Granite 4 Small and Tiny Quantized Models

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

Qwen3-Next-80B-A3B Quantized Models

updated 11 days ago

FP8-dynamic, FP8-block, NVFP4, INT4, INT8 versions of Qwen3-Next-80B-A3B-Instruct and Qwen3-Next-80B-A3B-Thinking Models

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated Jan 9 • 7
inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated Jan 9 • 7
RedHatAI/Qwen3-Next-80B-A3B-Thinking-FP8-block

Text Generation • 80B • Updated Jan 5 • 7
RedHatAI/Qwen3-Next-80B-A3B-Thinking-FP8-dynamic

Text Generation • 80B • Updated Jan 14 • 820
RedHatAI/Qwen3-Next-80B-A3B-Thinking-quantized.w4a16

Text Generation • Updated Jan 14 • 58