benchang1110 commited on
Commit
197ca3c
·
verified ·
1 Parent(s): aa1a644

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -4
README.md CHANGED
@@ -24,7 +24,7 @@ library_name: transformers
24
  因為簡體中文和繁體中文在語法和語義相似度高,往往只是差在文字本身看起來不一樣。另外,千問 (Qwen) 的模型中文的能力是很強的 (很可惜 3B 的 license 不是 apache)。我們利用[繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞,可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
25
 
26
  ### SFT
27
- 這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k) 這個資料集做微調,目標讓模型知道一點台灣的在地文化和一些台灣常用的慣用語,但為了保持模型原先強大的性能,我們用 LoRA 微調。
28
 
29
  ### DPO
30
  這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment,目標讓模型能夠條列式的輸出,並且能夠在輸出的時候保持一定的邏輯性。
@@ -130,8 +130,7 @@ ASSISTANT:在我的時代,即18世紀,音樂風格經歷了顯著的發展
130
 
131
  ## Bias, Risks, and Limitations
132
 
133
- 修改 system prompt 會調整模型輸出的偏見和立場(~~這裡就不多提了,各位自己調調看~~)。
134
-
135
 
136
  ## How to Get Started with the Model
137
 
@@ -359,7 +358,8 @@ GPU Hours: A100*3h
359
 
360
 
361
  ## Summary
362
- 這個模型借用了 base model 強大的能力,和同級的模型相比在 TMLU 和 TMMLU+ 上有更好的表現,甚至可以和 8B 的模型相比。開發成本也比上述的模型低非常多。撇除一些撇除一些小缺點(小機率出現簡體中文),在日常對話和對台灣的理解上表現都相當優異。感謝提供 base model 和資料集的團隊。
 
363
 
364
  ## Citation
365
 
 
24
  因為簡體中文和繁體中文在語法和語義相似度高,往往只是差在文字本身看起來不一樣。另外,千問 (Qwen) 的模型中文的能力是很強的 (很可惜 3B 的 license 不是 apache)。我們利用[繁化姬](https://zhconvert.org) 將簡體中文所對應的 token 和 繁體中文的 token 做代換。更多關於 tokenizer 帶換掉哪些單詞,可以查看 [benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw](https://huggingface.co/benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw) 中的 convert.txt。
25
 
26
  ### SFT
27
+ 因為前面的繁簡轉換並無法轉換所有單詞,這個階段我們用 [lianghsun/tw-instruct-500k](https://huggingface.co/datasets/lianghsun/tw-instruct-500k) 這個資料集做微調。但為了保持模型原先強大的性能,避免更改太多模型參數,我們用 LoRA 微調。
28
 
29
  ### DPO
30
  這個階段我們用 [zake7749/kyara-chinese-preference-rl-dpo-s0-30K](https://huggingface.co/datasets/zake7749/kyara-chinese-preference-rl-dpo-s0-30K) 這個資料集做 alignment,目標讓模型能夠條列式的輸出,並且能夠在輸出的時候保持一定的邏輯性。
 
130
 
131
  ## Bias, Risks, and Limitations
132
 
133
+ 修改 system prompt 會調整模型輸出的偏見和立場。
 
134
 
135
  ## How to Get Started with the Model
136
 
 
358
 
359
 
360
  ## Summary
361
+ 這個模型借用了 base model 強大的能力,和同級的模型相比在 TMLU 和 TMMLU+ 上有更好的表現,甚至可以和 8B 的模型相比 (完全是靠 base model 的中文理解能力)
362
+ 開發成本也比上述的模型低非常多。在日常對話和對台灣的理解上表現都相當優異。感謝提供 base model 和資料集的團隊。
363
 
364
  ## Citation
365