test-models - a inference-optimization Collection

inference-optimization 's Collections

Granite 4 Small and Tiny Quantized Models

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

test-models

updated 1 day ago

inference-optimization/test_tencentbac_fastmtp

Updated 9 days ago • 43
inference-optimization/test_qwen3_next_mtp

Updated 9 days ago • 46
inference-optimization/Qwen3-Next-80B-A3B-Instruct_mtp_speculator

Text Generation • 2B • Updated 1 day ago • 38