mesolitica
/

Malaysian-Qwen2.5-7B-Dialect-Reasoning-GRPO

Model card Files Files and versions

huseinzol05 commited on May 27

Commit

ae9c029

·

verified ·

1 Parent(s): 31a9614

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ base_model:
 - mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT
 ---
-# Malaysian Qwen 2.5 7B Instruct Reasoning GRPO
 Online Reinforcement learning using GRPO full parameter on warmup reasoning SFT https://huggingface.co/mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT on highly curated Malay Dialect Reasoning dataset.

 - mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT
 ---
+# Malaysian Qwen 2.5 7B Instruct Dialect Reasoning GRPO
 Online Reinforcement learning using GRPO full parameter on warmup reasoning SFT https://huggingface.co/mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT on highly curated Malay Dialect Reasoning dataset.