--- library_name: sklearn tags: - classification - catboost - game-popularity - datathon - steam - tabular - joblib license: mit language: en datasets: - FronkonGames/steam-games-dataset - fahri-desrian/steam-games-dataset-modified metrics: - accuracy model-index: - name: Popularity Classifier (CatBoost - Manual Bin 3) results: - task: type: classification name: Popularity Classification dataset: name: Modified Steam Games Dataset type: tabular split: test metrics: - name: Accuracy type: accuracy value: 0.9192 --- # Model Card for Popularity Classifier (CatBoost - Manual Bin 3) Model ini memprediksi **tingkat popularitas game** berdasarkan berbagai fitur dari dataset Steam seperti `Price`, `Tags`, `Developers`, `Playtime`, dan lain-lain. Kelas output terbagi menjadi 3 label: - **Kurang Populer** - **Cukup Populer** - **Sangat Populer** Model dikembangkan sebagai bagian dari kompetisi **Datathon 2025**. ## Model Details ### Model Description Model ini merupakan model klasifikasi berbasis **CatBoostClassifier**, dilatih pada dataset Steam yang telah dimodifikasi (FronkonGames → versi custom). Data yang digunakan mencakup sekitar 60.000 game dengan preprocessing dan binning khusus. - **Developed by:** Fahri Desrian - **Model type:** Gradient Boosted Decision Tree (CatBoost) - **Language(s):** English (metadata kolom) - **License:** MIT - **Finetuned from:** Tidak berlaku (model dari awal) ### Model Files - `popularity_classifier_catboost_manualbin3.joblib` – model CatBoost - `popularity_label_encoder_manualbin3.joblib` – label encoder untuk 3 kelas - `feature_columns.joblib` – daftar fitur yang digunakan saat inference ## Uses ### Direct Use Model ini digunakan untuk: - Prediksi popularitas game baru berdasarkan metadata - Analisis game design, genre, atau perilaku pengguna - Insight untuk developer dan publisher ### Downstream Use Dapat digunakan dalam pipeline otomatis (misalnya dalam sistem rekomendasi atau dashboard analitik). ### Out-of-Scope Use - Tidak cocok untuk prediksi revenue atau performa pasar real. - Tidak boleh digunakan sebagai satu-satunya dasar keputusan bisnis tanpa validasi tambahan. ## Bias, Risks, and Limitations - Dataset Steam mungkin bias terhadap genre mainstream atau developer besar. - Genre niche atau regional mungkin kurang akurat diprediksi. - Tidak mempertimbangkan sentimen sosial media atau campaign marketing. ### Recommendations Gunakan model ini hanya sebagai alat bantu dan lakukan validasi manual pada prediksi penting. ## How to Get Started with the Model ```python import joblib import pandas as pd # Load model dan encoder model = joblib.load("popularity_classifier_catboost_manualbin3.joblib") label_encoder = joblib.load("popularity_label_encoder_manualbin3.joblib") feature_cols = joblib.load("feature_columns.joblib") # Contoh data df = pd.read_csv("game_input.csv") # Prediksi X = df[feature_cols] y_pred = model.predict(X) y_label = label_encoder.inverse_transform(y_pred) print(y_label) ``` ## Training Details ### Training Data Dataset: [Modified Steam Games Dataset](https://huggingface.co/datasets/fahri-desrian/steam-games-dataset-modified) Jumlah data: ~60.000 game Kelas target: 3 kelas binned berdasarkan `Estimated owners` ### Preprocessing - Multi-label column diubah jadi binary features (Tags, Genres, Categories) - Missing value → median/“unknown” - Binning target: - `<10.000` → Kurang Populer - `10.000–100.000` → Cukup Populer - `>100.000` → Sangat Populer #### Training Hyperparameters CatBoost Model Detail - Model type: Multi-class classification - Classes: Kurang Populer, Cukup Populer, Sangat Populer - Algorithm: CatBoostClassifier - Accuracy: 91.92% - Training Parameters: - iterations: 1000 - depth: 6 - learning_rate: 0.0995 - loss_function: MultiClass - bootstrap_type: Bayesian - score_function: Cosine - random_seed: 42 ## Evaluation ### Testing Data Split 80/20 train/test ### Metrics - **Accuracy:** 91.92% - F1 Macro, Recall, dan Precision tersedia di log training (tidak disertakan di sini) ## Citation **BibTeX:** ```bibtex @misc{fahriakmalsarah2025popularitymodel, author = {Fahri Desrian, Sarah Zhafirah Adzra, Muhammad Akmal Fasya}, title = {Popularity Classifier (CatBoost - Manual Bin 3)}, year = 2025, howpublished = {\url{https://huggingface.co/Yuuuuurei/steam-games-popularity-predictor}}, note = {Used for Datathon 2025} } ```