dmitry315
/

trainer_output

Text Classification

Generated from Trainer

Model card Files Files and versions

dmitry315 commited on Mar 28, 2025

Commit

a439b13

·

verified ·

1 Parent(s): 8e78968

End of training

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 base_model: HuggingFaceTB/SmolLM-135M-Instruct
 datasets: HumanLLMs/Human-Like-DPO-Dataset
 library_name: transformers
-model_name: trainer_output
 tags:
 - generated_from_trainer
 - trl
@@ -10,7 +10,7 @@ tags:
 licence: license
 ---
-# Model Card for trainer_output
 This model is a fine-tuned version of [HuggingFaceTB/SmolLM-135M-Instruct](https://huggingface.co/HuggingFaceTB/SmolLM-135M-Instruct) on the [HumanLLMs/Human-Like-DPO-Dataset](https://huggingface.co/datasets/HumanLLMs/Human-Like-DPO-Dataset) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).

 base_model: HuggingFaceTB/SmolLM-135M-Instruct
 datasets: HumanLLMs/Human-Like-DPO-Dataset
 library_name: transformers
+model_name: dmitry315/llm-course-hw2-reward-model
 tags:
 - generated_from_trainer
 - trl
 licence: license
 ---
+# Model Card for dmitry315/llm-course-hw2-reward-model
 This model is a fine-tuned version of [HuggingFaceTB/SmolLM-135M-Instruct](https://huggingface.co/HuggingFaceTB/SmolLM-135M-Instruct) on the [HumanLLMs/Human-Like-DPO-Dataset](https://huggingface.co/datasets/HumanLLMs/Human-Like-DPO-Dataset) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).