Tokenizer detayları
Selamlar,
Tebrikelr öncelikle. Biz firma olarak Türkçe TTS eğitimi üstüne calisisiyoruz. Hali hazırda eğitilmiş modellerimiz var. Acaba LLM tabanlı TTS tarafında Kumrunun tokenizeri kullanimi nasıl olur diye dusunduk?
Acaba Tokenizer ile ilgili daha fazla bilgi paylasmaniz mümkün mudur? Blog yazinizi okudum hali hazırda. Token azalmalari güzel duruyor. Sondan eklemeli dil olmasının bunun uzerinde etkisi vardır diye düşünüyorum. Ayni fikirde misiniz acaba?
TTS tarafında ihtiyacınızı bilmiyorum ama Kumru'nun tokenizer'ı kod, matematik ve web dahil olabildiğince büyük bir veride eğitilmiş modern LLM ihtiyaçlarına cevap veren bir tokenizer. O yüzden sizin işinizi de görür herhalde.
Türkçe'nin morfolojisi -özellikle sondan eklemeli oluşu- ve tokenizerlarla ilgili birkaç çalışma ve msc tezi vardı ama benim bildiğim net bir sonuç yok.
Tokenizer meselesi bazı requirement'ları (pretokenization regex, special tokens, math ve code desteği, chat template) sağladıktan sonra metni en verimli şekilde (fertility) represent etme ile ilgili. Bunun yolu da vocabulary'i veriye bakarak istatistiki olarak oluşturmak.
Bunları yaptıktan sonra token'ların birbirleri ile ilişkisini model kendi içinde öğreniyor ve diğer detayların önemi kalmıyor.
"Metinleri Türkçe yapım ve çekim eklerine ayırarak tokenize etmek" gibi romantik fikirler var. Ama günün sonunda model performansına ne kadar etki eder, buradan elde edilecek kazanım için metni tokenize ederken çalıştırılacak morphological analyzer gibi araçlara ne kadar ekstra compute harcanır, tüm bunlara değer mi? Çok şüpheliyim.