cgpcorpbot commited on Jul 28, 2025

Commit

afa680b

verified ·

1 Parent(s): 6d2005c

Upload initial fine-tuned model from C:/xampp/htdocs/cgp_website/backend_cgp_ai/cgp_model_en-fr

Browse files

Files changed (25) hide show

.gitattributes +7 -35
checkpoint-1500/config.json +56 -0
checkpoint-1500/generation_config.json +16 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/trainer_state.json +244 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-1560/config.json +56 -0
checkpoint-1560/generation_config.json +16 -0
checkpoint-1560/model.safetensors +3 -0
checkpoint-1560/optimizer.pt +3 -0
checkpoint-1560/rng_state.pth +3 -0
checkpoint-1560/scheduler.pt +3 -0
checkpoint-1560/trainer_state.json +251 -0
checkpoint-1560/training_args.bin +3 -0
config.json +56 -0
generation_config.json +16 -0
model.safetensors +3 -0
source.spm +3 -0
special_tokens_map.json +5 -0
target.spm +3 -0
tokenizer_config.json +39 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,7 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+checkpoint-1500/rng_state.pth filter=lfs diff=lfs merge=lfs -text
+checkpoint-1560/rng_state.pth filter=lfs diff=lfs merge=lfs -text
+source.spm filter=lfs diff=lfs merge=lfs -text
+target.spm filter=lfs diff=lfs merge=lfs -text

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 59513,
+  "decoder_vocab_size": 59514,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 59513,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.0",
+  "use_cache": true,
+  "vocab_size": 59514
+}

checkpoint-1500/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      59513
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 59513,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 59513,
+  "renormalize_logits": true,
+  "transformers_version": "4.54.0"
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07b9c74d4e525691d68417751667879fc95c74f4ca4a0fafa7dd02d9356e8bf0
+size 298705768

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3fc626332f62038676e8326c442a9058292174b336451731daffb88995da9cd
+size 597082251

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:243c440838d8f2bbade2abb0b98188723f11aaf9fa54b5696781361417637f11
+size 14455

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b115109ee567f26bb6998bd40abb8facf08418ac7ce039699b256838702124ac
+size 1465

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.8846153846153846,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09615384615384616,
+      "grad_norm": 3.1953046321868896,
+      "learning_rate": 2.45e-05,
+      "loss": 3.6899,
+      "step": 50
+    },
+    {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 2.544658660888672,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 2.1686,
+      "step": 100
+    },
+    {
+      "epoch": 0.28846153846153844,
+      "grad_norm": 4.205613136291504,
+      "learning_rate": 4.832191780821918e-05,
+      "loss": 2.0857,
+      "step": 150
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 3.8234896659851074,
+      "learning_rate": 4.660958904109589e-05,
+      "loss": 1.9111,
+      "step": 200
+    },
+    {
+      "epoch": 0.4807692307692308,
+      "grad_norm": 4.28694486618042,
+      "learning_rate": 4.48972602739726e-05,
+      "loss": 1.761,
+      "step": 250
+    },
+    {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 2.937706470489502,
+      "learning_rate": 4.318493150684932e-05,
+      "loss": 1.8325,
+      "step": 300
+    },
+    {
+      "epoch": 0.6730769230769231,
+      "grad_norm": 3.3119773864746094,
+      "learning_rate": 4.147260273972603e-05,
+      "loss": 1.6846,
+      "step": 350
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 3.939532518386841,
+      "learning_rate": 3.976027397260274e-05,
+      "loss": 1.6464,
+      "step": 400
+    },
+    {
+      "epoch": 0.8653846153846154,
+      "grad_norm": 4.2462077140808105,
+      "learning_rate": 3.8047945205479454e-05,
+      "loss": 1.5198,
+      "step": 450
+    },
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 3.727308511734009,
+      "learning_rate": 3.633561643835617e-05,
+      "loss": 1.6443,
+      "step": 500
+    },
+    {
+      "epoch": 1.0576923076923077,
+      "grad_norm": 4.351789951324463,
+      "learning_rate": 3.462328767123288e-05,
+      "loss": 1.5651,
+      "step": 550
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 3.2092528343200684,
+      "learning_rate": 3.291095890410959e-05,
+      "loss": 1.3584,
+      "step": 600
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 3.2792916297912598,
+      "learning_rate": 3.11986301369863e-05,
+      "loss": 1.434,
+      "step": 650
+    },
+    {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 3.4979541301727295,
+      "learning_rate": 2.9486301369863017e-05,
+      "loss": 1.4075,
+      "step": 700
+    },
+    {
+      "epoch": 1.4423076923076923,
+      "grad_norm": 3.57789945602417,
+      "learning_rate": 2.777397260273973e-05,
+      "loss": 1.4304,
+      "step": 750
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 3.221327304840088,
+      "learning_rate": 2.606164383561644e-05,
+      "loss": 1.404,
+      "step": 800
+    },
+    {
+      "epoch": 1.6346153846153846,
+      "grad_norm": 4.0415825843811035,
+      "learning_rate": 2.4349315068493153e-05,
+      "loss": 1.342,
+      "step": 850
+    },
+    {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 3.710806131362915,
+      "learning_rate": 2.2636986301369862e-05,
+      "loss": 1.5197,
+      "step": 900
+    },
+    {
+      "epoch": 1.8269230769230769,
+      "grad_norm": 4.142817497253418,
+      "learning_rate": 2.0924657534246576e-05,
+      "loss": 1.3675,
+      "step": 950
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 2.9149763584136963,
+      "learning_rate": 1.921232876712329e-05,
+      "loss": 1.3854,
+      "step": 1000
+    },
+    {
+      "epoch": 2.019230769230769,
+      "grad_norm": 3.659573554992676,
+      "learning_rate": 1.75e-05,
+      "loss": 1.3636,
+      "step": 1050
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 2.742046356201172,
+      "learning_rate": 1.5787671232876715e-05,
+      "loss": 1.2279,
+      "step": 1100
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 4.790888786315918,
+      "learning_rate": 1.4075342465753425e-05,
+      "loss": 1.1643,
+      "step": 1150
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 3.8369340896606445,
+      "learning_rate": 1.2363013698630138e-05,
+      "loss": 1.294,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 4.389476776123047,
+      "learning_rate": 1.0650684931506851e-05,
+      "loss": 1.3471,
+      "step": 1250
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.5613744258880615,
+      "learning_rate": 8.93835616438356e-06,
+      "loss": 1.3533,
+      "step": 1300
+    },
+    {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 3.449380874633789,
+      "learning_rate": 7.226027397260274e-06,
+      "loss": 1.2711,
+      "step": 1350
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 2.79150652885437,
+      "learning_rate": 5.513698630136987e-06,
+      "loss": 1.1622,
+      "step": 1400
+    },
+    {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 2.670416831970215,
+      "learning_rate": 3.8013698630136993e-06,
+      "loss": 1.3558,
+      "step": 1450
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 3.5149829387664795,
+      "learning_rate": 2.089041095890411e-06,
+      "loss": 1.1482,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 203254596108288.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f3d111a17cd16e140a0068f85ef3eb3e2105dcd6e66d3d20d69b15b44b63f71
+size 5841

checkpoint-1560/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 59513,
+  "decoder_vocab_size": 59514,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 59513,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.0",
+  "use_cache": true,
+  "vocab_size": 59514
+}

checkpoint-1560/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      59513
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 59513,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 59513,
+  "renormalize_logits": true,
+  "transformers_version": "4.54.0"
+}

checkpoint-1560/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34a42091b548e0ee61487811e57b886fc866e151671bd35b8cfb9687cde29726
+size 298705768

checkpoint-1560/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ccdabecf72919b807da83357de637a394129b4447a84cb87b0bc0e76152c8ae
+size 597082251

checkpoint-1560/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0632a368254e74926741726fe2cbd8395408338fe2c1c6292e682c4c690fb404
+size 14455

checkpoint-1560/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c22ff8f3700b53856d5759d28956e3d850e72df1ac1cf5ea7e6c56963a1cbba
+size 1465

checkpoint-1560/trainer_state.json ADDED Viewed

	@@ -0,0 +1,251 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09615384615384616,
+      "grad_norm": 3.1953046321868896,
+      "learning_rate": 2.45e-05,
+      "loss": 3.6899,
+      "step": 50
+    },
+    {
+      "epoch": 0.19230769230769232,
+      "grad_norm": 2.544658660888672,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 2.1686,
+      "step": 100
+    },
+    {
+      "epoch": 0.28846153846153844,
+      "grad_norm": 4.205613136291504,
+      "learning_rate": 4.832191780821918e-05,
+      "loss": 2.0857,
+      "step": 150
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 3.8234896659851074,
+      "learning_rate": 4.660958904109589e-05,
+      "loss": 1.9111,
+      "step": 200
+    },
+    {
+      "epoch": 0.4807692307692308,
+      "grad_norm": 4.28694486618042,
+      "learning_rate": 4.48972602739726e-05,
+      "loss": 1.761,
+      "step": 250
+    },
+    {
+      "epoch": 0.5769230769230769,
+      "grad_norm": 2.937706470489502,
+      "learning_rate": 4.318493150684932e-05,
+      "loss": 1.8325,
+      "step": 300
+    },
+    {
+      "epoch": 0.6730769230769231,
+      "grad_norm": 3.3119773864746094,
+      "learning_rate": 4.147260273972603e-05,
+      "loss": 1.6846,
+      "step": 350
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 3.939532518386841,
+      "learning_rate": 3.976027397260274e-05,
+      "loss": 1.6464,
+      "step": 400
+    },
+    {
+      "epoch": 0.8653846153846154,
+      "grad_norm": 4.2462077140808105,
+      "learning_rate": 3.8047945205479454e-05,
+      "loss": 1.5198,
+      "step": 450
+    },
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 3.727308511734009,
+      "learning_rate": 3.633561643835617e-05,
+      "loss": 1.6443,
+      "step": 500
+    },
+    {
+      "epoch": 1.0576923076923077,
+      "grad_norm": 4.351789951324463,
+      "learning_rate": 3.462328767123288e-05,
+      "loss": 1.5651,
+      "step": 550
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 3.2092528343200684,
+      "learning_rate": 3.291095890410959e-05,
+      "loss": 1.3584,
+      "step": 600
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 3.2792916297912598,
+      "learning_rate": 3.11986301369863e-05,
+      "loss": 1.434,
+      "step": 650
+    },
+    {
+      "epoch": 1.3461538461538463,
+      "grad_norm": 3.4979541301727295,
+      "learning_rate": 2.9486301369863017e-05,
+      "loss": 1.4075,
+      "step": 700
+    },
+    {
+      "epoch": 1.4423076923076923,
+      "grad_norm": 3.57789945602417,
+      "learning_rate": 2.777397260273973e-05,
+      "loss": 1.4304,
+      "step": 750
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 3.221327304840088,
+      "learning_rate": 2.606164383561644e-05,
+      "loss": 1.404,
+      "step": 800
+    },
+    {
+      "epoch": 1.6346153846153846,
+      "grad_norm": 4.0415825843811035,
+      "learning_rate": 2.4349315068493153e-05,
+      "loss": 1.342,
+      "step": 850
+    },
+    {
+      "epoch": 1.7307692307692308,
+      "grad_norm": 3.710806131362915,
+      "learning_rate": 2.2636986301369862e-05,
+      "loss": 1.5197,
+      "step": 900
+    },
+    {
+      "epoch": 1.8269230769230769,
+      "grad_norm": 4.142817497253418,
+      "learning_rate": 2.0924657534246576e-05,
+      "loss": 1.3675,
+      "step": 950
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 2.9149763584136963,
+      "learning_rate": 1.921232876712329e-05,
+      "loss": 1.3854,
+      "step": 1000
+    },
+    {
+      "epoch": 2.019230769230769,
+      "grad_norm": 3.659573554992676,
+      "learning_rate": 1.75e-05,
+      "loss": 1.3636,
+      "step": 1050
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 2.742046356201172,
+      "learning_rate": 1.5787671232876715e-05,
+      "loss": 1.2279,
+      "step": 1100
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 4.790888786315918,
+      "learning_rate": 1.4075342465753425e-05,
+      "loss": 1.1643,
+      "step": 1150
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 3.8369340896606445,
+      "learning_rate": 1.2363013698630138e-05,
+      "loss": 1.294,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 4.389476776123047,
+      "learning_rate": 1.0650684931506851e-05,
+      "loss": 1.3471,
+      "step": 1250
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.5613744258880615,
+      "learning_rate": 8.93835616438356e-06,
+      "loss": 1.3533,
+      "step": 1300
+    },
+    {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 3.449380874633789,
+      "learning_rate": 7.226027397260274e-06,
+      "loss": 1.2711,
+      "step": 1350
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 2.79150652885437,
+      "learning_rate": 5.513698630136987e-06,
+      "loss": 1.1622,
+      "step": 1400
+    },
+    {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 2.670416831970215,
+      "learning_rate": 3.8013698630136993e-06,
+      "loss": 1.3558,
+      "step": 1450
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 3.5149829387664795,
+      "learning_rate": 2.089041095890411e-06,
+      "loss": 1.1482,
+      "step": 1500
+    },
+    {
+      "epoch": 2.980769230769231,
+      "grad_norm": 3.27219820022583,
+      "learning_rate": 3.767123287671233e-07,
+      "loss": 1.2803,
+      "step": 1550
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 211322406961152.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1560/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f3d111a17cd16e140a0068f85ef3eb3e2105dcd6e66d3d20d69b15b44b63f71
+size 5841

config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 59513,
+  "decoder_vocab_size": 59514,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 59513,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.0",
+  "use_cache": true,
+  "vocab_size": 59514
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      59513
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 59513,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 59513,
+  "renormalize_logits": true,
+  "transformers_version": "4.54.0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34a42091b548e0ee61487811e57b886fc866e151671bd35b8cfb9687cde29726
+size 298705768

source.spm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:173e9f493a668fe396d599e28d414a201193094e6ffd7a4678e5aab0f6d3d838
+size 778395

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

target.spm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78d0e717c77053f1c4b856d8661d9cb87c64f083a35418c087b9146300e4f585
+size 802397

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "59513": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "fr",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff