korean-gpt-150m
한국어 Foundation Model (GPT-style, From Scratch)
Model Description
이 모델은 처음부터(from scratch) 학습된 한국어 생성 모델입니다.
- Language: Korean (한국어)
- Model Type: Autoregressive Language Model
- Architecture: Custom GPT (Transformer Decoder)
- Training: Self-supervised causal language modeling
- Dataset: Korean text corpus
Intended Uses
Primary Use
한국어 텍스트 생성:
- 문장 완성
- 창의적 글쓰기
- 대화 생성
Out-of-Scope Uses
- 사실 확인이 중요한 작업 (모델이 환각을 생성할 수 있음)
- 의료, 법률 등 전문적 조언
- 악의적 목적의 텍스트 생성
How to Use
Installation
pip install torch transformers tokenizers
import torch
from tokenizers import Tokenizer
# 토크나이저 로드
tokenizer = Tokenizer.from_pretrained("oz1115/korean-gpt-150m")
# 모델 로드 (커스텀 구현 필요)
# model = CustomGPTModel.from_pretrained("oz1115/korean-gpt-150m")
# 텍스트 생성
prompt = "인공지능의 미래는"
input_ids = tokenizer.encode(prompt).ids
# output = model.generate(input_ids, max_length=50)
# generated_text = tokenizer.decode(output)
Training Data
한국어 위키피디아 및 공개 한국어 텍스트 코퍼스
Training Procedure
Preprocessing
Tokenizer: BPE (Byte-Pair Encoding)
Vocabulary Size: 32,000
Max Sequence Length: 512
Training
Optimizer: AdamW
Learning Rate: 5e-4
Batch Size: 32 (effective)
Training Steps: ~10,000
Hardware: Google Colab (T4 GPU)
Evaluation
한국어 텍스트 생성 품질 평가는 korean_evaluation.json 파일을 참조하세요.
Limitations
학습 데이터가 제한적이어서 일반화 성능에 한계가 있을 수 있습니다
긴 문맥 처리에 제한이 있습니다 (max 512 tokens)
사실 정확성이 보장되지 않습니다
Bias and Risks
모델이 학습 데이터의 편향을 반영할 수 있습니다. 생성된 텍스트를 비판적으로 검토하시기 바랍니다.
Citation
bibtex@misc{korean-gpt-150m,
author = {oz1115},
title = {korean-gpt-150m: Korean Foundation Model},
year = {2025},
publisher = {HuggingFace},
url = {https://huggingface.co/oz1115/korean-gpt-150m}
}
Contact
HuggingFace: @oz1115
License
MIT
- Downloads last month
- 40
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support