Upload folder using huggingface_hub

Files changed (6) hide show

config.json CHANGED Viewed

@@ -68,7 +68,7 @@
     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
-    "version": "0.10.3.dev47+ge463fe6"
   },
   "rescale_prenorm_residual": true,
   "residual_in_fp32": false,
@@ -84,7 +84,7 @@
   "time_step_max": 0.1,
   "time_step_min": 0.001,
   "time_step_rank": 256,
-  "transformers_version": "4.56.0.dev0",
   "use_bias": false,
   "use_cache": true,
   "use_conv_bias": true,

     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
+    "version": "0.10.3.dev71+g3ae8ca4.d20250913"
   },
   "rescale_prenorm_residual": true,
   "residual_in_fp32": false,
   "time_step_max": 0.1,
   "time_step_min": 0.001,
   "time_step_rank": 256,
+  "transformers_version": "4.57.0.dev0",
   "use_bias": false,
   "use_cache": true,
   "use_conv_bias": true,

generation_config.json CHANGED Viewed

@@ -7,5 +7,5 @@
     12
   ],
   "pad_token_id": 0,
-  "transformers_version": "4.56.0.dev0"
 }

     12
   ],
   "pad_token_id": 0,
+  "transformers_version": "4.57.0.dev0"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda8100f0c0e54b94a311baf95dcb87641c029c53f47cfb618a4419a8a9c4fea
 size 4984644328

 version https://git-lfs.github.com/spec/v1
+oid sha256:373d3b262f6787efa3eba167834f93ca3041c46319053962a8896d63adbcc76a
 size 4984644328

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:364d6c4cf28a860a3af4e0419a6830b67cfb29f87cdd2312597ef69a49c8499c
 size 3872549848

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdb031720d413c9b73b6cd867991ecaa664057d73d6c0f5b2ab84b885ed6db7a
 size 3872549848

modeling_nemotron_h.py CHANGED Viewed

@@ -1458,8 +1458,17 @@ class NemotronHModel(NemotronHPreTrainedModel):
             2. Attending to all inputs
         """
         mamba_mask = attention_mask
-        if cache_position[0] > 0 or (attention_mask is not None and torch.all(attention_mask == 1)):
-            mamba_mask = None
         return mamba_mask
@@ -1635,4 +1644,4 @@ class NemotronHForCausalLM(NemotronHPreTrainedModel, GenerationMixin):
             cache_params=nemotron_h_outputs.cache_params,
             hidden_states=nemotron_h_outputs.hidden_states,
             attentions=nemotron_h_outputs.attentions,
-        )

             2. Attending to all inputs
         """
         mamba_mask = attention_mask
+        # Check if we're in tracing mode
+        if not torch.jit.is_tracing() and not torch.fx._symbolic_trace.is_fx_tracing():
+            try:
+                # Normal execution path
+                if cache_position[0] > 0 or (attention_mask is not None and torch.all(attention_mask == 1)):
+                    mamba_mask = None
+            except (TypeError, torch.fx.proxy.TraceError):
+                # Fallback for tracing mode
+                pass
         return mamba_mask
             cache_params=nemotron_h_outputs.cache_params,
             hidden_states=nemotron_h_outputs.hidden_states,
             attentions=nemotron_h_outputs.attentions,
+        )

recipe.yaml CHANGED Viewed

@@ -1,5 +1,5 @@
-quant_stage:
-  quant_modifiers:
     AWQModifier:
       config_groups:
         group_0:
@@ -19,14 +19,16 @@ quant_stage:
           output_activations: null
           format: null
       targets: [Linear]
-      ignore: [backbone.embeddings, 're:.*mixer.A_log', 're:.*conv1d.bias', 're:.*mixer.D',
-        're:.*mixer.dt_bias', 're:.*norm', 're:backbone.norm_f', lm_head]
       mappings:
-      - smooth_layer: re:.*norm$
-        balance_layers: ['re:.*q_proj$', 're:.*k_proj$', 're:.*v_proj$', 're:.*up_proj$',
-          're:.*in_proj$']
-      - smooth_layer: re:.*v_proj$
-        balance_layers: ['re:.*o_proj$']
-      - smooth_layer: re:.*up_proj$
-        balance_layers: ['re:.*down_proj$']
       duo_scaling: true

+default_stage:
+  default_modifiers:
     AWQModifier:
       config_groups:
         group_0:
           output_activations: null
           format: null
       targets: [Linear]
+      ignore: [backbone.embeddings, 're:.*mixer.A_log', 're:.*conv1d.*', 're:.*mixer.D', 're:.*mixer.norm.*',
+        're:.*mixer.dt_bias', 're:backbone.norm_f', lm_head]
       mappings:
+      - smooth_layer: re:backbone\.layers\.(7|16|25|34|43|52)\.norm$
+        balance_layers: ['re:backbone\.layers\.(7|16|25|34|43|52)\.mixer\.q_proj$', 're:backbone\.layers\.(7|16|25|34|43|52)\.mixer\.k_proj$',
+          're:backbone\.layers\.(7|16|25|34|43|52)\.mixer\.v_proj$']
+      - smooth_layer: re:backbone\.layers\.(7|16|25|34|43|52)\.mixer\.v_proj$
+        balance_layers: ['re:backbone\.layers\.(7|16|25|34|43|52)\.mixer\.o_proj$']
+      - smooth_layer: re:backbone\.layers\.(1|3|5|8|10|12|14|17|19|21|23|26|28|30|32|35|37|39|41|44|46|48|50|53|55|57|59|61)\.norm$
+        balance_layers: ['re:backbone\.layers\.(1|3|5|8|10|12|14|17|19|21|23|26|28|30|32|35|37|39|41|44|46|48|50|53|55|57|59|61)\.mixer\.up_proj$']
+      - smooth_layer: re:backbone\.layers\.(1|3|5|8|10|12|14|17|19|21|23|26|28|30|32|35|37|39|41|44|46|48|50|53|55|57|59|61)\.mixer\.up_proj$
+        balance_layers: ['re:backbone\.layers\.(1|3|5|8|10|12|14|17|19|21|23|26|28|30|32|35|37|39|41|44|46|48|50|53|55|57|59|61)\.mixer\.down_proj$']
       duo_scaling: true