Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.65M • 353
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.84M • 436
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 459k • • 154

Language Models - Essential Research Papers

about 1 hour ago

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 109
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 20
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 248

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14, 2025
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31, 2025 • 301

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 627
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22, 2025 • 223k • 1.19k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 11 • 4

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

about 20 hours ago

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7, 2025 • 149
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 152

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27, 2025 • 5.68M • 13.9k • 390
zwhe99/DeepMath-103K

Viewer • Updated May 29, 2025 • 103k • 8.87k • 287
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated 24 days ago • 5.39k • 1.24k
Running

Featured

825

Qwen3 Demo

📊

825

Generate responses to text prompts in a chat interface

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 300
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 434
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 259

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.65M • 353
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.84M • 436
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 459k • • 154

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

about 20 hours ago

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

Language Models - Essential Research Papers

about 1 hour ago

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 109
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 20
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 248

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7, 2025 • 149
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14, 2025
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31, 2025 • 301

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 152

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27, 2025 • 5.68M • 13.9k • 390
zwhe99/DeepMath-103K

Viewer • Updated May 29, 2025 • 103k • 8.87k • 287
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated 24 days ago • 5.39k • 1.24k
Running

Featured

825

Qwen3 Demo

📊

825

Generate responses to text prompts in a chat interface

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 627
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22, 2025 • 223k • 1.19k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 11 • 4

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 300
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 434
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 259

Previous
1
2
3
...
7
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs