benchang1110
/

Qwen2.5-Taiwan-3B-Instruct

@@ -24,7 +24,7 @@ library_name: transformers
 因為簡體中文和繁體中文在語法和語義相似度高，往往只是差在文字本身看起來不一樣。另外，千問 (Qwen) 的模型中文的能力是很強的 (很可惜 3B 的 license 不是 apache)。我們利用[繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞，可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
 ### SFT
-這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k) 這個資料集做微調，目標讓模型知道一點台灣的在地文化和一些台灣常用的慣用語，但為了保持模型原先強大的性能，我們用 LoRA 微調。
 ### DPO
 這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment，目標讓模型能夠條列式的輸出，並且能夠在輸出的時候保持一定的邏輯性。
@@ -130,8 +130,7 @@ ASSISTANT：在我的時代，即18世紀，音樂風格經歷了顯著的發展
 ## Bias, Risks, and Limitations
-修改 system prompt 會調整模型輸出的偏見和立場(~~這裡就不多提了，各位自己調調看~~)。
 ## How to Get Started with the Model
@@ -359,7 +358,8 @@ GPU Hours: A100*3h
 ## Summary
-這個模型借用了 base model 強大的能力，和同級的模型相比在 TMLU 和 TMMLU+ 上有更好的表現，甚至可以和 8B 的模型相比。開發成本也比上述的模型低非常多。撇除一些撇除一些小缺點(小機率出現簡體中文)，在日常對話和對台灣的理解上表現都相當優異。感謝提供 base model 和資料集的團隊。
 ## Citation

 因為簡體中文和繁體中文在語法和語義相似度高，往往只是差在文字本身看起來不一樣。另外，千問 (Qwen) 的模型中文的能力是很強的 (很可惜 3B 的 license 不是 apache)。我們利用[繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞，可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
 ### SFT
+因為前面的繁簡轉換並無法轉換所有單詞，這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k) 這個資料集做微調。但為了保持模型原先強大的性能，避免更改太多模型參數，我們用 LoRA 微調。
 ### DPO
 這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment，目標讓模型能夠條列式的輸出，並且能夠在輸出的時候保持一定的邏輯性。
 ## Bias, Risks, and Limitations
+修改 system prompt 會調整模型輸出的偏見和立場。
 ## How to Get Started with the Model
 ## Summary
+這個模型借用了 base model 強大的能力，和同級的模型相比在 TMLU 和 TMMLU+ 上有更好的表現，甚至可以和 8B 的模型相比 (完全是靠 base model 的中文理解能力)
+開發成本也比上述的模型低非常多。在日常對話和對台灣的理解上表現都相當優異。感謝提供 base model 和資料集的團隊。
 ## Citation