german-moe-gpt-v8-pretrained / train_moe_v8_clean.py

Upload 8 files

8cd0952 verified 18 days ago

15.6 kB

	"""
	German MoE GPT v8 - CLEAN DATA + OPUS EDITION
	Training mit Wikipedia + OpenSubtitles + Belletristik

	Datasets (v8 - CLEAN + DIALOGUES! 🎉):
	- Clean Wikipedia (local) - 11 GB (64%)
	- OpenSubtitles OPUS (local) - 4.2 GB (24%)
	- Belletristik (arnomatic/merged_all) - 2.2 GB (12%)

	Total: ~17.4 GB of 100% CLEAN German text!
	NO spam, NO ads, NO SEO garbage! ✅
	PLUS natural dialogues from movie subtitles! 🎬
	"""

	import os
	import sys

	# Disable HF transfer (can cause issues on Windows)
	os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"

	# Force UTF-8 encoding for Windows console
	if sys.platform == 'win32':
	sys.stdout.reconfigure(encoding='utf-8')

	import torch
	from datasets import load_dataset, interleave_datasets
	from transformers import TrainingArguments, set_seed, AutoTokenizer

	from moe_config import MoEGPTConfig
	from moe_model import MoEGPTForCausalLM
	from moe_trainer import MoETrainer, MoEEvalCallback, DataCollatorForLanguageModeling
	from sample_generation_callback import SampleGenerationCallback, get_german_sample_prompts


	def load_clean_datasets(tokenizer, max_length=2048, seed=42, resume_step=0):
	"""
	Lädt 3 clean datasets (v8 - INTERLEAVED!):
	- Wikipedia (WITH EOS) - 64%
	- OpenSubtitles OPUS (NO EOS) - 24%
	- Belletristik (NO EOS) - 12%

	Args:
	resume_step: If > 0, adjusts seed to continue from checkpoint
	"""
	# Adjust seed based on resume step (für reproducibility beim Resume)
	effective_seed = seed + (resume_step // 1000)
	print(f"📚 Lade CLEAN Datasets (v8 - OPUS Edition)...")
	if resume_step > 0:
	print(f" 🔄 Resume from step {resume_step} → Effective seed: {effective_seed}\n")
	else:
	print()

	# ========================================================================
	# 1. WIKIPEDIA (WITH EOS between articles)
	# ========================================================================
	print("1️⃣ Wikipedia (WITH EOS)...")
	try:
	wiki_ds = load_dataset(
	"jonas-is-coding/german-wikipedia-articles",
	split="train",
	streaming=True
	)
	print(" ✅ Dataset loaded (streaming mode)")

	# Shuffle
	print(" 🔀 Shuffling with buffer_size=10,000...")
	wiki_ds = wiki_ds.shuffle(seed=effective_seed, buffer_size=10000)
	print(" ✅ Shuffle applied")

	except Exception as e:
	print(f" ❌ Wikipedia Error: {e}")
	raise ValueError(f"Failed to load Wikipedia: {e}")

	# ========================================================================
	# 2. OPENSUBTITLES OPUS (NO EOS - continuous dialogues)
	# ========================================================================
	print("\n2️⃣ OpenSubtitles OPUS (NO EOS - continuous dialogues)...")
	try:
	opus_ds = load_dataset(
	"arnomatic/german-opus-subtitles",
	split="train",
	streaming=True
	)
	print(" ✅ Dataset loaded (streaming mode)")

	# Shuffle
	print(" 🔀 Shuffling with buffer_size=10,000...")
	opus_ds = opus_ds.shuffle(seed=effective_seed, buffer_size=10000)
	print(" ✅ Shuffle applied")

	except Exception as e:
	print(f" ❌ OpenSubtitles Error: {e}")
	raise ValueError(f"Failed to load OpenSubtitles: {e}")

	# ========================================================================
	# 3. BELLETRISTIK (NO EOS - continuous)
	# ========================================================================
	print("\n3️⃣ Belletristik (NO EOS - continuous)...")
	try:
	belle_ds = load_dataset(
	"arnomatic/merged_all",
	split="train",
	streaming=True
	)
	print(" ✅ Dataset loaded (streaming mode)")

	# Shuffle
	print(" 🔀 Shuffling with buffer_size=10,000...")
	belle_ds = belle_ds.shuffle(seed=effective_seed, buffer_size=10000)
	print(" ✅ Shuffle applied")

	except Exception as e:
	print(f" ❌ Belletristik Error: {e}")
	raise ValueError(f"Failed to load Belletristik: {e}")

	print("\n✅ All datasets loaded!")
	print(" Wikipedia: 4 GB (WITH EOS)")
	print(" OpenSubtitles: 4.2 GB (NO EOS)")
	print(" Belletristik: 2.2 GB (NO EOS)")
	print(" Total: ~10.4 GB clean German!")

	# ========================================================================
	# DIRECT PACKING (no intermediate tokenization)
	# ========================================================================
	print("\n🔤 Tokenizing & Packing datasets...")

	from datasets import IterableDataset as HFIterableDataset

	def pack_dataset_with_eos(dataset, text_field='text'):
	"""Pack dataset WITH EOS directly into 2048-token batches"""
	def gen():
	buffer = []
	for example in dataset:
	text = example.get(text_field, '')
	if not text or not text.strip():
	continue

	# Tokenize
	tokens = tokenizer.encode(text, add_special_tokens=False)

	# Add tokens + EOS
	buffer.extend(tokens)
	buffer.append(tokenizer.eos_token_id)

	# Yield complete chunks
	while len(buffer) >= max_length:
	yield {
	"input_ids": buffer[:max_length],
	"attention_mask": [1] * max_length,
	"labels": buffer[:max_length],
	}
	buffer = buffer[max_length:]

	return HFIterableDataset.from_generator(gen)

	def pack_dataset_no_eos(dataset, text_field='text'):
	"""Pack dataset WITHOUT EOS directly into 2048-token batches"""
	def gen():
	buffer = []
	for example in dataset:
	text = example.get(text_field, '')
	if not text or not text.strip():
	continue

	# Tokenize
	tokens = tokenizer.encode(text, add_special_tokens=False)

	# Add tokens (NO EOS)
	buffer.extend(tokens)

	# Yield complete chunks
	while len(buffer) >= max_length:
	yield {
	"input_ids": buffer[:max_length],
	"attention_mask": [1] * max_length,
	"labels": buffer[:max_length],
	}
	buffer = buffer[max_length:]

	return HFIterableDataset.from_generator(gen)

	print(" Wikipedia (WITH EOS)...")
	wiki_batched = pack_dataset_with_eos(wiki_ds, text_field='content')

	print(" OpenSubtitles (NO EOS)...")
	opus_batched = pack_dataset_no_eos(opus_ds, text_field='text')

	print(" Belletristik (NO EOS)...")
	belle_batched = pack_dataset_no_eos(belle_ds, text_field='text')

	print("✅ Batching complete!")

	# ========================================================================
	# INTERLEAVE DATASETS (64% Wiki, 24% OPUS, 12% Belle)
	# ========================================================================
	print("\n🔀 Interleaving datasets (64/24/12)...")

	train_dataset = interleave_datasets(
	[wiki_batched, opus_batched, belle_batched],
	probabilities=[0.64, 0.24, 0.12],
	seed=effective_seed,
	stopping_strategy="all_exhausted"
	)

	print("✅ Datasets interleaved! (v8 strategy)")
	print(" Wikipedia: 64%")
	print(" OpenSubtitles: 24%")
	print(" Belletristik: 12%")

	# ========================================================================
	# EVAL DATASET (fixed 500 samples from Wikipedia)
	# ========================================================================
	eval_dataset_path = "./eval_dataset_v8_clean"

	if os.path.exists(eval_dataset_path):
	print(f"\n📊 Loading existing eval dataset from {eval_dataset_path}...")
	from datasets import load_from_disk
	eval_dataset = load_from_disk(eval_dataset_path)
	print(f"✅ Eval dataset loaded: {len(eval_dataset)} samples (from disk)")
	else:
	print("\n📊 Creating fixed eval set (500 samples from Wikipedia)...")

	eval_samples = []
	eval_iter = iter(wiki_batched)
	for i in range(500):
	try:
	sample = next(eval_iter)
	eval_samples.append(sample)
	if (i + 1) % 100 == 0:
	print(f" Collected {i+1}/500 samples...")
	except StopIteration:
	print(f" ⚠️ Only {i} eval samples available (dataset exhausted)")
	break

	if len(eval_samples) == 0:
	raise ValueError("No eval samples collected! Dataset exhausted immediately.")

	print(f" Collected {len(eval_samples)} samples total")

	# Convert to regular Dataset (not streaming!)
	from datasets import Dataset
	eval_dataset = Dataset.from_dict({
	key: [sample[key] for sample in eval_samples]
	for key in eval_samples[0].keys()
	})

	# Save to disk
	print(f"💾 Saving eval dataset to {eval_dataset_path}...")
	eval_dataset.save_to_disk(eval_dataset_path)
	print(f"✅ Eval dataset saved to disk!")

	print(f" → No more fsspec cache leak!")
	print(f" Training: Clean Mix (streaming)")
	print(f" Eval: {len(eval_dataset)} samples (fixed, from disk)\n")

	return train_dataset, eval_dataset


	def main():
	SEED = 42
	set_seed(SEED)

	# Config
	config = MoEGPTConfig(
	vocab_size=128256,
	n_positions=2048,
	n_embd=512,
	n_layer=8,
	n_head=8,
	n_experts=8,
	n_experts_active=2,
	moe_layer_frequency=2,
	capacity_factor=1.25,
	eval_capacity_factor=2.0,
	use_noisy_gating=True,
	aux_loss_alpha=0.01,
	router_z_loss_alpha=0.001,
	bias=False,
	dropout=0.1,
	activation_function="gelu",
	initializer_range=0.1,
	rope_theta=10000.0,
	)

	print("\n🔧 Model Config:")
	print(f" - Experten: {config.n_experts} (Top-{config.n_experts_active})")
	print(f" - Parameter: {config.total_experts} MoE experts")

	# Training Args
	# Dataset: ~10.4 GB ≈ 2.5B tokens ≈ 1.2M batches (2048 tokens each)
	# With batch size 32: ~38K steps per epoch
	# ~1.3 epochs = ~50K steps (interleaved = more efficient)
	training_args = TrainingArguments(
	output_dir="./moe_checkpoints_v8_clean",
	run_name="german_moe_v8_clean",
	max_steps=200000,
	per_device_train_batch_size=2,
	per_device_eval_batch_size=2,
	gradient_accumulation_steps=16,
	learning_rate=6e-4,
	warmup_steps=2000,
	lr_scheduler_type="cosine",
	weight_decay=0.1,
	bf16=torch.cuda.is_bf16_supported() if torch.cuda.is_available() else False,
	fp16=not torch.cuda.is_bf16_supported() if torch.cuda.is_available() else False,
	logging_dir="./logs_v8_clean",
	logging_steps=100,
	logging_first_step=True,
	report_to=["tensorboard"],
	eval_strategy="steps",
	eval_steps=1000, # Every 1K steps (more frequent than v7)
	save_strategy="steps",
	save_steps=1000,
	save_total_limit=10,
	dataloader_num_workers=0,
	dataloader_pin_memory=True,
	gradient_checkpointing=True,
	seed=SEED,
	load_best_model_at_end=False,
	metric_for_best_model="eval_loss",
	greater_is_better=False,
	ignore_data_skip=True, # CRITICAL: Don't skip batches, use fresh shuffled data!
	)

	# Check for existing checkpoints (auto-resume) - DO THIS EARLY!
	import glob
	checkpoints = glob.glob(os.path.join(training_args.output_dir, "checkpoint-*"))
	resume_from_checkpoint = None
	resume_step = 0

	if checkpoints:
	latest_checkpoint = max(checkpoints, key=lambda x: int(x.split("-")[-1]))
	resume_from_checkpoint = latest_checkpoint
	resume_step = int(latest_checkpoint.split("-")[-1])
	print(f"\n🔄 RESUME Training from: {latest_checkpoint} (Step {resume_step})")
	else:
	print("\n🆕 Starting fresh training (no checkpoints found)")

	# Tokenizer
	print("\n📚 Lade Tokenizer...")
	tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.2-1B")
	tokenizer.pad_token = tokenizer.eos_token
	print("✅ Llama 3.2 Tokenizer geladen")

	# Load Clean Datasets (with resume_step for reproducibility!)
	train_dataset, eval_dataset = load_clean_datasets(
	tokenizer=tokenizer,
	max_length=2048,
	seed=SEED,
	resume_step=resume_step,
	)

	# Data Collator
	data_collator = DataCollatorForLanguageModeling(pad_token_id=tokenizer.pad_token_id)

	# Model
	print("\n🏗️ Erstelle MoE Modell...")
	model = MoEGPTForCausalLM(config)

	# Ensure weight tying (especially after checkpoint load)
	model.tie_weights()

	total_params = sum(p.numel() for p in model.parameters())
	print(f"✅ Modell erstellt! ({total_params/1e6:.1f}M params)")

	# Callbacks
	sample_callback = SampleGenerationCallback(
	tokenizer=tokenizer,
	prompts=get_german_sample_prompts(),
	generate_every_n_steps=1000, # Every 1K steps - fast feedback!
	max_new_tokens=500,
	temperature=0.7,
	top_p=0.7,
	output_dir="./samples_v8_clean",
	)

	# Trainer
	print("\n🚀 Initialisiere Trainer...")
	trainer = MoETrainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	eval_dataset=eval_dataset,
	data_collator=data_collator,
	callbacks=[MoEEvalCallback(), sample_callback],
	)

	print("✅ Trainer bereit!")

	print("\n" + "=" * 60)
	print("🎯 STARTE TRAINING v8 - OPUS EDITION!")
	print("=" * 60)
	print("\nDataset Composition (INTERLEAVED!):")
	print(" Wikipedia (WITH EOS): 64%")
	print(" OpenSubtitles OPUS (NO EOS): 24%")
	print(" Belletristik (NO EOS): 12%")
	print("\nTotal: ~10.4 GB CLEAN German!")
	print("NO spam, NO ads, NO SEO garbage! 🎉")
	print("PLUS natural dialogues from movie subtitles! 🎬")
	print("=" * 60 + "\n")

	# Train with resume support
	trainer.train(resume_from_checkpoint=resume_from_checkpoint)

	# Save
	print("\n💾 Speichere finales Modell...")
	final_model_path = "./moe_final_v8_clean"
	trainer.save_model(final_model_path)
	config.save_pretrained(final_model_path)
	print(f"✅ Modell gespeichert in: {final_model_path}")

	# Eval
	print("\n📊 Finale Evaluation...")
	eval_results = trainer.evaluate()

	for key, value in eval_results.items():
	print(f" - {key}: {value:.4f}")

	if "eval_loss" in eval_results:
	perplexity = torch.exp(torch.tensor(eval_results["eval_loss"]))
	print(f"\n🎯 Finale Perplexity: {perplexity:.2f}")

	print("\n" + "=" * 60)
	print("✅ TRAINING ABGESCHLOSSEN!")
	print("=" * 60)


	if __name__ == "__main__":
	main()