AALF
/

FuseR1-QwQ-R1-LightR1-TinyR1-32B

Model card Files Files and versions

AALF commited on Mar 7, 2025

Commit

8a8c640

·

verified ·

1 Parent(s): a4157af

Create README.md

Files changed (1) hide show

README.md +37 -0

README.md ADDED Viewed

	@@ -0,0 +1,37 @@

+# FuseR1-QwQ-R1-LightR1-TinyR1-32B
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the sce merge method using [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) as a base.
+### Models Merged
+The following models were included in the merge:
+* [deepseek-ai/DeepSeek-R1-Distill-Qwen-32B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)
+* [Qwen/QwQ-32B](https://huggingface.co/Qwen/QwQ-32B)
+* [qihoo360/Light-R1-32B](https://huggingface.co/qihoo360/Light-R1-32B)
+* [qihoo360/TinyR1-32B-Preview](https://huggingface.co/qihoo360/TinyR1-32B-Preview)
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+models:
+  - model: Qwen/Qwen2.5-32B
+  - model: deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
+  - model: Qwen/QwQ-32B
+  - model: qihoo360/Light-R1-32B
+  - model: qihoo360/TinyR1-32B-Preview
+merge_method: sce
+base_model: Qwen/Qwen2.5-32B
+parameters:
+  select_topk: 1.0
+dtype: bfloat16
+```
+### Tokenizer
+Copied from [deepseek-ai/DeepSeek-R1-Distill-Qwen-32B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)