OptimizerStudy
/

muon_300m_8

Model card Files Files and versions

YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Model Card

Source: https://arxiv.org/abs/2509.02046
Optimizer: muon
Model size: 300m
Data size: 48B

Best configuration

Hyperparameter	Value
beta1	`0.8`
beta2	`0.98`
decay	`0.8`
epsilon	`1e-15`
learning_rate	`0.008`
lr_schedule	`linear`
max_grad_norm	`1`
min_lr_ratio	`0`
momentum	`0.98`
muon_epsilon	`1e-05`
muon_to_adam_lr	`0.3`
train_batch_size	`256`
warmup	`0`
weight_decay	`0.1`

Downloads last month: 5

Safetensors

Model size

0.5B params

Tensor type

F32

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for OptimizerStudy/muon_300m_8

Fantastic Pretraining Optimizers and Where to Find Them

Paper • 2509.02046 • Published Sep 2, 2025 • 13