Upload folder using huggingface_hub

Files changed (10) hide show

README.md ADDED Viewed

+---
+base_model:
+- SillyTilly/mistralai_Mistral-Nemo-Base-2407
+- SillyTilly/mistralai_Mistral-Nemo-Instruct-2407
+library_name: transformers
+tags:
+- mergekit
+- merge
+---
+# merge
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the [TIES](https://arxiv.org/abs/2306.01708) merge method using [SillyTilly/mistralai_Mistral-Nemo-Base-2407](https://huggingface.co/SillyTilly/mistralai_Mistral-Nemo-Base-2407) as a base.
+### Models Merged
+The following models were included in the merge:
+* [SillyTilly/mistralai_Mistral-Nemo-Instruct-2407](https://huggingface.co/SillyTilly/mistralai_Mistral-Nemo-Instruct-2407)
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+base_model: SillyTilly/mistralai_Mistral-Nemo-Base-2407
+dtype: bfloat16
+merge_method: ties
+parameters:
+  normalize: true
+  int8_mask: true
+  lambda: 0.8
+slices:
+  - sources:
+    - model: SillyTilly/mistralai_Mistral-Nemo-Base-2407
+      layer_range: [0, -1]
+      parameters:
+        weight: 1.0
+        density: 0.6
+    - model: SillyTilly/mistralai_Mistral-Nemo-Instruct-2407
+      layer_range: [0, -1]
+      parameters:
+        weight: 0.7
+        density: 0.6
+tie_alpha: 0.3
+tie_norm: L2
+merge_verbose: true
+```

config.json ADDED Viewed

+{
+  "_name_or_path": "SillyTilly/mistralai_Mistral-Nemo-Base-2407",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 1024000,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": -1,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.1",
+  "use_cache": true,
+  "vocab_size": 131072
+}

mergekit_config.yml ADDED Viewed

+base_model: SillyTilly/mistralai_Mistral-Nemo-Base-2407
+dtype: bfloat16
+merge_method: ties
+parameters:
+  normalize: true
+  int8_mask: true
+  lambda: 0.8
+slices:
+  - sources:
+    - model: SillyTilly/mistralai_Mistral-Nemo-Base-2407
+      layer_range: [0, -1]
+      parameters:
+        weight: 1.0
+        density: 0.6
+    - model: SillyTilly/mistralai_Mistral-Nemo-Instruct-2407
+      layer_range: [0, -1]
+      parameters:
+        weight: 0.7
+        density: 0.6
+tie_alpha: 0.3
+tie_norm: L2
+merge_verbose: true

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00001.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e9922c06872ffdb62d24543c3b7ffd3382fd6386fcf36fbfe785c41c5240288
+size 2684365128

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"metadata": {"mergekit_version": "0.0.4.4", "total_size": 2684364800}, "weight_map": {"lm_head.weight": "model-00001-of-00001.safetensors", "model.embed_tokens.weight": "model-00001-of-00001.safetensors", "model.norm.weight": "model-00001-of-00001.safetensors"}}

special_tokens_map.json ADDED Viewed

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff