mirralz commited on
Commit
4170988
·
verified ·
1 Parent(s): 73e576c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -6
README.md CHANGED
@@ -1,10 +1,49 @@
1
  ---
2
  tags:
3
- - model_hub_mixin
4
- - pytorch_model_hub_mixin
 
 
 
 
 
5
  ---
6
 
7
- This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
8
- - Code: [More Information Needed]
9
- - Paper: [More Information Needed]
10
- - Docs: [More Information Needed]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  tags:
3
+ - casual-lm
4
+ - russian
5
+ - transformers
6
+ - jokes
7
+ license: mit
8
+ language:
9
+ - ru
10
  ---
11
 
12
+ # 🤡 Русская LLM-модель для генерации анекдотов
13
+
14
+ Модель обучена с нуля на архитектуре Transformer (small, 12 слоёв, 12 голов, 768 hidden) на корпусе русских анекдотов.
15
+
16
+ ## 📐 Архитектура
17
+
18
+ - 12 слоёв, 12 attention-голов
19
+ - 768 скрытых признаков, 2048 в FFN
20
+ - RMSNorm + SwiGLU
21
+ - ALiBi positional bias
22
+ - Byte-level BPE токенизация
23
+
24
+ ## 📚 Датасет
25
+
26
+ Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
27
+ Модель обучалась на русскоязычном корпусе анекдотов.
28
+ Примеры:
29
+
30
+ - Штирлиц заходит в бар...
31
+ - Мужик приходит к доктору...
32
+ - Вовочка отвечает на уроке...
33
+
34
+ ## 🧠 Обучение
35
+
36
+ - Всего шагов: **50,000**
37
+ - Оптимизатор: AdamW, learning rate: `3e-4`
38
+ - Потери:
39
+ - training loss: ~2.5
40
+ - validation loss: ~2.6
41
+
42
+ ## 🧪 Примеры генерации
43
+
44
+ ```python
45
+ prompts = ["Штирлиц", "Мужик", "Доктор", "Студентка", "Вовочка"]
46
+ for prompt in prompts:
47
+ input_ids = tokenizer(prompt, return_tensors="pt").input_ids
48
+ output = model.generate(input_ids, max_new_tokens=100)
49
+ print(tokenizer.decode(output[0]))