My_Model

Browse files

Files changed (9) hide show

README.md +72 -0
all_results.json +8 -0
config.json +109 -0
model.safetensors +3 -0
runs/Sep26_15-29-03_00ef1955dd4b/events.out.tfevents.1727364544.00ef1955dd4b.639.0 +3 -0
runs/Sep26_15-29-03_00ef1955dd4b/events.out.tfevents.1727369255.00ef1955dd4b.639.1 +3 -0
train_results.json +8 -0
trainer_state.json +398 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: distilbert/distilbert-base-uncased
+tags:
+- generated_from_trainer
+model-index:
+- name: My_Model
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# My_Model
+This model is a fine-tuned version of [distilbert/distilbert-base-uncased](https://huggingface.co/distilbert/distilbert-base-uncased) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4353
+- Accuracy@en: 0.8946
+- F1@en: 0.8931
+- Precision@en: 0.8965
+- Recall@en: 0.8952
+- Loss@en: 0.4353
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy@en | F1@en  | Precision@en | Recall@en | Loss@en |
+|:-------------:|:-----:|:----:|:---------------:|:-----------:|:------:|:------------:|:---------:|:-------:|
+| 3.1352        | 1.0   | 700  | 2.5257          | 0.3279      | 0.2574 | 0.3241       | 0.3350    | 2.5257  |
+| 2.1929        | 2.0   | 1400 | 1.6830          | 0.6121      | 0.5597 | 0.6589       | 0.6125    | 1.6830  |
+| 1.4355        | 3.0   | 2100 | 1.0143          | 0.7929      | 0.7750 | 0.7990       | 0.7914    | 1.0143  |
+| 0.9043        | 4.0   | 2800 | 0.6990          | 0.8242      | 0.8062 | 0.8239       | 0.8248    | 0.6990  |
+| 0.6269        | 5.0   | 3500 | 0.5446          | 0.8796      | 0.8783 | 0.8845       | 0.8802    | 0.5446  |
+| 0.4852        | 6.0   | 4200 | 0.4860          | 0.8862      | 0.8847 | 0.8901       | 0.8862    | 0.4860  |
+| 0.4124        | 7.0   | 4900 | 0.4538          | 0.8892      | 0.8876 | 0.8925       | 0.8896    | 0.4538  |
+| 0.3602        | 8.0   | 5600 | 0.4392          | 0.89        | 0.8886 | 0.8925       | 0.8906    | 0.4392  |
+| 0.3355        | 9.0   | 6300 | 0.4373          | 0.8912      | 0.8898 | 0.8934       | 0.8919    | 0.4373  |
+| 0.3147        | 10.0  | 7000 | 0.4353          | 0.8946      | 0.8931 | 0.8965       | 0.8952    | 0.4353  |
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.4.1+cu121
+- Datasets 3.0.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 7423201443840000.0,
+    "train_loss": 1.0203040662493024,
+    "train_runtime": 4378.397,
+    "train_samples_per_second": 12.79,
+    "train_steps_per_second": 1.599
+}

config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "ActaAudienciaAplicacionPrincipioOportunidadRenuncia",
+    "1": "ActaAudienciaAplicacionPrincipioOportunidadSuspension",
+    "2": "ActaAudienciaConcentrada",
+    "3": "ActaAudienciaControlInterceptacionComunicaciones",
+    "4": "ActaAudienciaControlPosteriorBusquedaSelectivaBaseDatos",
+    "5": "ActaAudienciaControlPosteriorRecuperacionInformacionProductoLaTransmisionDatos",
+    "6": "ActaAudienciaControlPrevioBusquedaSelectivaBaseDatos",
+    "7": "ActaAudienciaFormulacionImputacion",
+    "8": "ActaAudienciaLegalizacionCaptura",
+    "9": "ActaAudienciaLibertadVencimientoTerminos",
+    "10": "ActaAudienciaOrdenCaptura",
+    "11": "ActaAudienciaProrrogaBusquedaSelectivaBaseDatos",
+    "12": "ActaAudienciaProrrogaOrdenCaptura",
+    "13": "ActaAudienciaRevocatoriaMedidaAseguramiento",
+    "14": "ActaAudienciaSustitucionMedidaAseguramiento",
+    "15": "ActaRepartoGarantias",
+    "16": "BoletaEncarcelacion",
+    "17": "ColillaCitaciones",
+    "18": "ConstanciaReprogramacion",
+    "19": "ConstanciaSecretarial",
+    "20": "NoticiaCriminal",
+    "21": "OficioArticulo97Imputacion",
+    "22": "OficioInformaCancelacionOrdenCaptura",
+    "23": "OficioInformaImposicionMedidaAseguramiento",
+    "24": "OficioInformaImposicionMedidasCautelares",
+    "25": "OficioInformaOrdenCaptura",
+    "26": "OrdenCaptura",
+    "27": "SolicitudAplicacionPrincipioOportunidadRenuncia",
+    "28": "SolicitudAudienciasConcentradas",
+    "29": "SolicitudControlInterceptacionComunicaciones",
+    "30": "SolicitudControlPosteriorBusquedaSelectivaBaseDatos",
+    "31": "SolicitudControlPrevioBusquedaSelectivaBaseDatos",
+    "32": "SolicitudEntregaDefinitivaVehiculo",
+    "33": "SolicitudFormulacionImputacion",
+    "34": "SolicitudLibertadVencimientoTerminos",
+    "35": "SolicitudOrdenCaptura",
+    "36": "SolicitudProrrogaBusquedaSelectivaBaseDatos",
+    "37": "SolicitudProrrogaOrdenCaptura",
+    "38": "SolicitudRevocatoriaMedidaAseguramiento",
+    "39": "SolicitudSustitucionMedidaAseguramiento"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "ActaAudienciaAplicacionPrincipioOportunidadRenuncia": 0,
+    "ActaAudienciaAplicacionPrincipioOportunidadSuspension": 1,
+    "ActaAudienciaConcentrada": 2,
+    "ActaAudienciaControlInterceptacionComunicaciones": 3,
+    "ActaAudienciaControlPosteriorBusquedaSelectivaBaseDatos": 4,
+    "ActaAudienciaControlPosteriorRecuperacionInformacionProductoLaTransmisionDatos": 5,
+    "ActaAudienciaControlPrevioBusquedaSelectivaBaseDatos": 6,
+    "ActaAudienciaFormulacionImputacion": 7,
+    "ActaAudienciaLegalizacionCaptura": 8,
+    "ActaAudienciaLibertadVencimientoTerminos": 9,
+    "ActaAudienciaOrdenCaptura": 10,
+    "ActaAudienciaProrrogaBusquedaSelectivaBaseDatos": 11,
+    "ActaAudienciaProrrogaOrdenCaptura": 12,
+    "ActaAudienciaRevocatoriaMedidaAseguramiento": 13,
+    "ActaAudienciaSustitucionMedidaAseguramiento": 14,
+    "ActaRepartoGarantias": 15,
+    "BoletaEncarcelacion": 16,
+    "ColillaCitaciones": 17,
+    "ConstanciaReprogramacion": 18,
+    "ConstanciaSecretarial": 19,
+    "NoticiaCriminal": 20,
+    "OficioArticulo97Imputacion": 21,
+    "OficioInformaCancelacionOrdenCaptura": 22,
+    "OficioInformaImposicionMedidaAseguramiento": 23,
+    "OficioInformaImposicionMedidasCautelares": 24,
+    "OficioInformaOrdenCaptura": 25,
+    "OrdenCaptura": 26,
+    "SolicitudAplicacionPrincipioOportunidadRenuncia": 27,
+    "SolicitudAudienciasConcentradas": 28,
+    "SolicitudControlInterceptacionComunicaciones": 29,
+    "SolicitudControlPosteriorBusquedaSelectivaBaseDatos": 30,
+    "SolicitudControlPrevioBusquedaSelectivaBaseDatos": 31,
+    "SolicitudEntregaDefinitivaVehiculo": 32,
+    "SolicitudFormulacionImputacion": 33,
+    "SolicitudLibertadVencimientoTerminos": 34,
+    "SolicitudOrdenCaptura": 35,
+    "SolicitudProrrogaBusquedaSelectivaBaseDatos": 36,
+    "SolicitudProrrogaOrdenCaptura": 37,
+    "SolicitudRevocatoriaMedidaAseguramiento": 38,
+    "SolicitudSustitucionMedidaAseguramiento": 39
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "vocab_size": 30522
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95988a56d4d1ac218e38b000f70f40e25cab9b2ece1166bb8bae249dcb58f4c2
+size 267949464

runs/Sep26_15-29-03_00ef1955dd4b/events.out.tfevents.1727364544.00ef1955dd4b.639.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55a1cdbd7a4792adf9b247eff416885664b82cceead22f9a562326790de5e906
+size 22787

runs/Sep26_15-29-03_00ef1955dd4b/events.out.tfevents.1727369255.00ef1955dd4b.639.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a48fd90cbcbe82d6b733147c5440beecb33234afda6ef387cc46c9c9b741f754
+size 1275

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 7423201443840000.0,
+    "train_loss": 1.0203040662493024,
+    "train_runtime": 4378.397,
+    "train_samples_per_second": 12.79,
+    "train_steps_per_second": 1.599
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,398 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 7000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "step": 700,
+      "train@en_accuracy@en": 0.34375,
+      "train@en_f1@en": 0.26433920874315414,
+      "train@en_loss": 2.507004976272583,
+      "train@en_loss@en": 2.507004976272583,
+      "train@en_precision@en": 0.31280481843195657,
+      "train@en_recall@en": 0.3408727980841251,
+      "train@en_runtime": 94.9519,
+      "train@en_samples_per_second": 58.977,
+      "train@en_steps_per_second": 7.372
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 6.358036518096924,
+      "learning_rate": 9e-06,
+      "loss": 3.1352,
+      "step": 700
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy@en": 0.3279166666666667,
+      "eval_f1@en": 0.2574237949125209,
+      "eval_loss": 2.5256826877593994,
+      "eval_loss@en": 2.5256826877593994,
+      "eval_precision@en": 0.32413309895477144,
+      "eval_recall@en": 0.33497029506802606,
+      "eval_runtime": 40.6414,
+      "eval_samples_per_second": 59.053,
+      "eval_steps_per_second": 7.382,
+      "step": 700
+    },
+    {
+      "epoch": 2.0,
+      "step": 1400,
+      "train@en_accuracy@en": 0.62375,
+      "train@en_f1@en": 0.5742986370992385,
+      "train@en_loss": 1.6666306257247925,
+      "train@en_loss@en": 1.6666306257247925,
+      "train@en_precision@en": 0.702336197256759,
+      "train@en_recall@en": 0.62328079736136,
+      "train@en_runtime": 94.9224,
+      "train@en_samples_per_second": 58.996,
+      "train@en_steps_per_second": 7.374
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 12.081613540649414,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 2.1929,
+      "step": 1400
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy@en": 0.6120833333333333,
+      "eval_f1@en": 0.5596697475213486,
+      "eval_loss": 1.6829949617385864,
+      "eval_loss@en": 1.6829948425292969,
+      "eval_precision@en": 0.6589140555735225,
+      "eval_recall@en": 0.6124881504058503,
+      "eval_runtime": 40.955,
+      "eval_samples_per_second": 58.601,
+      "eval_steps_per_second": 7.325,
+      "step": 1400
+    },
+    {
+      "epoch": 3.0,
+      "step": 2100,
+      "train@en_accuracy@en": 0.8026785714285715,
+      "train@en_f1@en": 0.787258335698847,
+      "train@en_loss": 0.9801780581474304,
+      "train@en_loss@en": 0.9801781177520752,
+      "train@en_precision@en": 0.8144774919753994,
+      "train@en_recall@en": 0.8032770135992633,
+      "train@en_runtime": 94.6841,
+      "train@en_samples_per_second": 59.144,
+      "train@en_steps_per_second": 7.393
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 7.4003586769104,
+      "learning_rate": 7e-06,
+      "loss": 1.4355,
+      "step": 2100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy@en": 0.7929166666666667,
+      "eval_f1@en": 0.7750444717423886,
+      "eval_loss": 1.0143293142318726,
+      "eval_loss@en": 1.0143293142318726,
+      "eval_precision@en": 0.7990333939296972,
+      "eval_recall@en": 0.7914333335575858,
+      "eval_runtime": 40.6569,
+      "eval_samples_per_second": 59.031,
+      "eval_steps_per_second": 7.379,
+      "step": 2100
+    },
+    {
+      "epoch": 4.0,
+      "step": 2800,
+      "train@en_accuracy@en": 0.8451785714285714,
+      "train@en_f1@en": 0.8293494910105388,
+      "train@en_loss": 0.6264702677726746,
+      "train@en_loss@en": 0.6264702677726746,
+      "train@en_precision@en": 0.8630517375855116,
+      "train@en_recall@en": 0.8450169861202415,
+      "train@en_runtime": 95.0025,
+      "train@en_samples_per_second": 58.946,
+      "train@en_steps_per_second": 7.368
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 17.754791259765625,
+      "learning_rate": 6e-06,
+      "loss": 0.9043,
+      "step": 2800
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy@en": 0.8241666666666667,
+      "eval_f1@en": 0.8062219760834642,
+      "eval_loss": 0.6990054249763489,
+      "eval_loss@en": 0.6990054249763489,
+      "eval_precision@en": 0.8239392997219726,
+      "eval_recall@en": 0.8248465837554612,
+      "eval_runtime": 40.6254,
+      "eval_samples_per_second": 59.076,
+      "eval_steps_per_second": 7.385,
+      "step": 2800
+    },
+    {
+      "epoch": 5.0,
+      "step": 3500,
+      "train@en_accuracy@en": 0.9032142857142857,
+      "train@en_f1@en": 0.9027244042054093,
+      "train@en_loss": 0.4525674879550934,
+      "train@en_loss@en": 0.4525674879550934,
+      "train@en_precision@en": 0.9070092329699971,
+      "train@en_recall@en": 0.9029663965407628,
+      "train@en_runtime": 95.2629,
+      "train@en_samples_per_second": 58.785,
+      "train@en_steps_per_second": 7.348
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.363593101501465,
+      "learning_rate": 5e-06,
+      "loss": 0.6269,
+      "step": 3500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy@en": 0.8795833333333334,
+      "eval_f1@en": 0.8782906102037042,
+      "eval_loss": 0.544560968875885,
+      "eval_loss@en": 0.5445610284805298,
+      "eval_precision@en": 0.884533616431302,
+      "eval_recall@en": 0.8802499769187758,
+      "eval_runtime": 40.8955,
+      "eval_samples_per_second": 58.686,
+      "eval_steps_per_second": 7.336,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "step": 4200,
+      "train@en_accuracy@en": 0.9125,
+      "train@en_f1@en": 0.9121300237302143,
+      "train@en_loss": 0.3839361071586609,
+      "train@en_loss@en": 0.3839361071586609,
+      "train@en_precision@en": 0.9170749755243058,
+      "train@en_recall@en": 0.9124407943873611,
+      "train@en_runtime": 95.1975,
+      "train@en_samples_per_second": 58.825,
+      "train@en_steps_per_second": 7.353
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.9296058416366577,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.4852,
+      "step": 4200
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy@en": 0.88625,
+      "eval_f1@en": 0.8846960621547091,
+      "eval_loss": 0.4860028028488159,
+      "eval_loss@en": 0.48600292205810547,
+      "eval_precision@en": 0.8900593967407658,
+      "eval_recall@en": 0.8861556208357062,
+      "eval_runtime": 40.9267,
+      "eval_samples_per_second": 58.641,
+      "eval_steps_per_second": 7.33,
+      "step": 4200
+    },
+    {
+      "epoch": 7.0,
+      "step": 4900,
+      "train@en_accuracy@en": 0.9217857142857143,
+      "train@en_f1@en": 0.9214453335435421,
+      "train@en_loss": 0.33172789216041565,
+      "train@en_loss@en": 0.33172792196273804,
+      "train@en_precision@en": 0.9249516156522037,
+      "train@en_recall@en": 0.9217162336632556,
+      "train@en_runtime": 94.8919,
+      "train@en_samples_per_second": 59.014,
+      "train@en_steps_per_second": 7.377
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 5.603872299194336,
+      "learning_rate": 3e-06,
+      "loss": 0.4124,
+      "step": 4900
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy@en": 0.8891666666666667,
+      "eval_f1@en": 0.8875957586953916,
+      "eval_loss": 0.4537738561630249,
+      "eval_loss@en": 0.4537737965583801,
+      "eval_precision@en": 0.8924955219230164,
+      "eval_recall@en": 0.8895945067696548,
+      "eval_runtime": 40.7161,
+      "eval_samples_per_second": 58.945,
+      "eval_steps_per_second": 7.368,
+      "step": 4900
+    },
+    {
+      "epoch": 8.0,
+      "step": 5600,
+      "train@en_accuracy@en": 0.9269642857142857,
+      "train@en_f1@en": 0.9268275154406451,
+      "train@en_loss": 0.3015599846839905,
+      "train@en_loss@en": 0.3015599846839905,
+      "train@en_precision@en": 0.929294504097796,
+      "train@en_recall@en": 0.9269746361541606,
+      "train@en_runtime": 94.8999,
+      "train@en_samples_per_second": 59.01,
+      "train@en_steps_per_second": 7.376
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 14.972261428833008,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.3602,
+      "step": 5600
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy@en": 0.89,
+      "eval_f1@en": 0.8886400377574052,
+      "eval_loss": 0.4391521215438843,
+      "eval_loss@en": 0.4391521215438843,
+      "eval_precision@en": 0.8924797214528745,
+      "eval_recall@en": 0.8905594135731242,
+      "eval_runtime": 40.8791,
+      "eval_samples_per_second": 58.71,
+      "eval_steps_per_second": 7.339,
+      "step": 5600
+    },
+    {
+      "epoch": 9.0,
+      "step": 6300,
+      "train@en_accuracy@en": 0.9308928571428572,
+      "train@en_f1@en": 0.9307655706182029,
+      "train@en_loss": 0.2896050214767456,
+      "train@en_loss@en": 0.2896049916744232,
+      "train@en_precision@en": 0.9335190085867936,
+      "train@en_recall@en": 0.9309233485086119,
+      "train@en_runtime": 94.7133,
+      "train@en_samples_per_second": 59.126,
+      "train@en_steps_per_second": 7.391
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 18.07584571838379,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3355,
+      "step": 6300
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy@en": 0.89125,
+      "eval_f1@en": 0.8898241490623645,
+      "eval_loss": 0.43729308247566223,
+      "eval_loss@en": 0.43729308247566223,
+      "eval_precision@en": 0.8934240261027814,
+      "eval_recall@en": 0.891901632779242,
+      "eval_runtime": 40.7209,
+      "eval_samples_per_second": 58.938,
+      "eval_steps_per_second": 7.367,
+      "step": 6300
+    },
+    {
+      "epoch": 10.0,
+      "step": 7000,
+      "train@en_accuracy@en": 0.9308928571428572,
+      "train@en_f1@en": 0.930857547069914,
+      "train@en_loss": 0.28553587198257446,
+      "train@en_loss@en": 0.28553587198257446,
+      "train@en_precision@en": 0.9332947682664481,
+      "train@en_recall@en": 0.9309689846137742,
+      "train@en_runtime": 95.5143,
+      "train@en_samples_per_second": 58.63,
+      "train@en_steps_per_second": 7.329
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 8.576262474060059,
+      "learning_rate": 0.0,
+      "loss": 0.3147,
+      "step": 7000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy@en": 0.8945833333333333,
+      "eval_f1@en": 0.8931269722333681,
+      "eval_loss": 0.4353380799293518,
+      "eval_loss@en": 0.4353380799293518,
+      "eval_precision@en": 0.8964579374461799,
+      "eval_recall@en": 0.8951529655905859,
+      "eval_runtime": 40.9416,
+      "eval_samples_per_second": 58.62,
+      "eval_steps_per_second": 7.328,
+      "step": 7000
+    },
+    {
+      "epoch": 10.0,
+      "step": 7000,
+      "total_flos": 7423201443840000.0,
+      "train_loss": 1.0203040662493024,
+      "train_runtime": 4378.397,
+      "train_samples_per_second": 12.79,
+      "train_steps_per_second": 1.599
+    },
+    {
+      "epoch": 10.0,
+      "step": 7000,
+      "train_en_accuracy@en": 0.9308928571428572,
+      "train_en_f1@en": 0.930857547069914,
+      "train_en_loss": 0.28553587198257446,
+      "train_en_loss@en": 0.28553587198257446,
+      "train_en_precision@en": 0.9332947682664481,
+      "train_en_recall@en": 0.9309689846137742,
+      "train_en_runtime": 96.5413,
+      "train_en_samples_per_second": 58.006,
+      "train_en_steps_per_second": 7.251
+    },
+    {
+      "epoch": 10.0,
+      "step": 7000,
+      "test_en_accuracy@en": 0.8945833333333333,
+      "test_en_f1@en": 0.8931269722333681,
+      "test_en_loss": 0.4353380799293518,
+      "test_en_loss@en": 0.4353380799293518,
+      "test_en_precision@en": 0.8964579374461799,
+      "test_en_recall@en": 0.8951529655905859,
+      "test_en_runtime": 41.8459,
+      "test_en_samples_per_second": 57.353,
+      "test_en_steps_per_second": 7.169
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7423201443840000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7342b6dddf9e6da6bfe04ec59898b109df0dc8b0d2c3a5c096e1656de97aeae4
+size 5176