---
tags:
- casual-lm
- russian
- transformers
- jokes
license: mit
language:
- ru
---

# 🤡 Русская LLM-модель для генерации анекдотов

Модель обучена с нуля на архитектуре Transformer (small, 12 слоёв, 12 голов, 768 hidden) на корпусе русских анекдотов.

## 📐 Архитектура

- 12 слоёв, 12 attention-голов
- 768 скрытых признаков, 2048 в FFN
- RMSNorm + SwiGLU
- ALiBi positional bias
- Byte-level BPE токенизация

## 📚 Датасет

Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)  
Модель обучалась на русскоязычном корпусе анекдотов.  
Примеры:

- Штирлиц заходит в бар...
- Мужик приходит к доктору...
- Вовочка отвечает на уроке...

## 🧠 Обучение

- Всего шагов: **50,000**
- Оптимизатор: AdamW, learning rate: `3e-4`
- Потери:
  - training loss: ~2.5
  - validation loss: ~2.6

## 🧪 Примеры генерации

```python
prompts = ["Штирлиц", "Мужик", "Доктор", "Студентка", "Вовочка"]
for prompt in prompts:
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids
    output = model.generate(input_ids, max_new_tokens=100)
    print(tokenizer.decode(output[0]))