blab-jhu
/

test-32m-dec

modernbert-decoder

Model card Files Files and versions

orionweller commited on Jun 27

Commit

455ad07

·

verified ·

1 Parent(s): 2ea1271

Update config.json

Files changed (1) hide show

config.json +16 -2

config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_name_or_path": "ettin-decoder-32m",
   "architectures": [
-    "ModernBERTDecoder"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
@@ -9,6 +9,7 @@
   "classifier_activation": "gelu",
   "classifier_bias": false,
   "classifier_dropout": 0.0,
   "cls_token_id": 50281,
   "decoder_bias": true,
   "deterministic_flash_attn": false,
@@ -46,5 +47,18 @@
   "eos_token": "[SEP]",
   "bos_token": "[CLS]",
   "tokenizer_class": "PreTrainedTokenizerFast",
-  "unk_token": "[UNK]"
 }

 {
   "_name_or_path": "ettin-decoder-32m",
   "architectures": [
+    "ModernBertDecoderForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "classifier_activation": "gelu",
   "classifier_bias": false,
   "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
   "cls_token_id": 50281,
   "decoder_bias": true,
   "deterministic_flash_attn": false,
   "eos_token": "[SEP]",
   "bos_token": "[CLS]",
   "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]",
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "use_cache": true
 }