Mehd212 commited on Dec 1, 2025

Commit

8b50ad3

verified ·

1 Parent(s): 2e3d1db

Use bi-encoder FAISS top-K retrieval to train cross-encoder with hard negatives

Browse files

Files changed (35) hide show

checkpoint-3696/config.json +0 -28
checkpoint-3696/model.safetensors +0 -3
checkpoint-3696/optimizer.pt +0 -3
checkpoint-3696/rng_state.pth +0 -3
checkpoint-3696/scaler.pt +0 -3
checkpoint-3696/scheduler.pt +0 -3
checkpoint-3696/special_tokens_map.json +0 -56
checkpoint-3696/tokenizer.json +0 -0
checkpoint-3696/tokenizer_config.json +0 -84
checkpoint-3696/trainer_state.json +0 -617
checkpoint-3696/training_args.bin +0 -3
checkpoint-4224/config.json +0 -28
checkpoint-4224/model.safetensors +0 -3
checkpoint-4224/optimizer.pt +0 -3
checkpoint-4224/rng_state.pth +0 -3
checkpoint-4224/scaler.pt +0 -3
checkpoint-4224/scheduler.pt +0 -3
checkpoint-4224/special_tokens_map.json +0 -56
checkpoint-4224/tokenizer.json +0 -0
checkpoint-4224/tokenizer_config.json +0 -84
checkpoint-4224/trainer_state.json +0 -703
checkpoint-4224/training_args.bin +0 -3
checkpoint-4752/config.json +0 -28
checkpoint-4752/model.safetensors +0 -3
checkpoint-4752/optimizer.pt +0 -3
checkpoint-4752/rng_state.pth +0 -3
checkpoint-4752/scaler.pt +0 -3
checkpoint-4752/scheduler.pt +0 -3
checkpoint-4752/special_tokens_map.json +0 -56
checkpoint-4752/tokenizer.json +0 -0
checkpoint-4752/tokenizer_config.json +0 -84
checkpoint-4752/trainer_state.json +0 -789
checkpoint-4752/training_args.bin +0 -3
model.safetensors +1 -1
training_args.bin +1 -1

checkpoint-3696/config.json DELETED Viewed

@@ -1,28 +0,0 @@
-{
-  "architectures": [
-    "CamembertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 5,
-  "classifier_dropout": null,
-  "dtype": "float32",
-  "eos_token_id": 6,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "camembert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "output_past": true,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "transformers_version": "4.57.3",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 32005
-}

checkpoint-3696/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:30438456f15a191a07f2afbfbc4a691c12406b1aebc1a73e3167a45e3be3387c
-size 442518104

checkpoint-3696/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6154f15e03e2a66ab7ac5b9c342d955a771c7a394f5d1197e58343bef20c8c57
-size 885159307

checkpoint-3696/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:90edcc18339bcab188fe886c7de8ddb156e19ba42815ef3e77d0d587c505e977
-size 14645

checkpoint-3696/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:42d95b7b22877f7a7369647179abfb3ef136059915c0ffc1326249b0c778809b
-size 1383

checkpoint-3696/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6edcf01ce506662fd12ef7f2765fef0277805c6d3c3105814529925f34924e15
-size 1465

checkpoint-3696/special_tokens_map.json DELETED Viewed

@@ -1,56 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

checkpoint-3696/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3696/tokenizer_config.json DELETED Viewed

@@ -1,84 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "</s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "4": {
-      "content": "<unk>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "5": {
-      "content": "<s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "6": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32004": {
-      "content": "<mask>",
-      "lstrip": true,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": "<s>",
-  "clean_up_tokenization_spaces": true,
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "extra_special_tokens": {},
-  "mask_token": "<mask>",
-  "model_max_length": 512,
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "tokenizer_class": "CamembertTokenizer",
-  "unk_token": "<unk>"
-}

checkpoint-3696/trainer_state.json DELETED Viewed

@@ -1,617 +0,0 @@
-{
-  "best_global_step": 3696,
-  "best_metric": 0.9914414414414414,
-  "best_model_checkpoint": "../models/camembert-bio-morpho-cross-encoder/checkpoint-3696",
-  "epoch": 7.0,
-  "eval_steps": 500,
-  "global_step": 3696,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0946969696969697,
-      "grad_norm": 1.7212085723876953,
-      "learning_rate": 9.280303030303031e-07,
-      "loss": 0.6819,
-      "step": 50
-    },
-    {
-      "epoch": 0.1893939393939394,
-      "grad_norm": 0.8152473568916321,
-      "learning_rate": 1.8750000000000003e-06,
-      "loss": 0.615,
-      "step": 100
-    },
-    {
-      "epoch": 0.2840909090909091,
-      "grad_norm": 0.8320032954216003,
-      "learning_rate": 2.8219696969696973e-06,
-      "loss": 0.5181,
-      "step": 150
-    },
-    {
-      "epoch": 0.3787878787878788,
-      "grad_norm": 1.74077570438385,
-      "learning_rate": 3.7689393939393944e-06,
-      "loss": 0.412,
-      "step": 200
-    },
-    {
-      "epoch": 0.4734848484848485,
-      "grad_norm": 3.2630276679992676,
-      "learning_rate": 4.715909090909091e-06,
-      "loss": 0.2989,
-      "step": 250
-    },
-    {
-      "epoch": 0.5681818181818182,
-      "grad_norm": 5.9127020835876465,
-      "learning_rate": 5.662878787878788e-06,
-      "loss": 0.2506,
-      "step": 300
-    },
-    {
-      "epoch": 0.6628787878787878,
-      "grad_norm": 4.532700538635254,
-      "learning_rate": 6.6098484848484855e-06,
-      "loss": 0.2167,
-      "step": 350
-    },
-    {
-      "epoch": 0.7575757575757576,
-      "grad_norm": 2.2779574394226074,
-      "learning_rate": 7.556818181818183e-06,
-      "loss": 0.2103,
-      "step": 400
-    },
-    {
-      "epoch": 0.8522727272727273,
-      "grad_norm": 3.8016679286956787,
-      "learning_rate": 8.50378787878788e-06,
-      "loss": 0.1825,
-      "step": 450
-    },
-    {
-      "epoch": 0.946969696969697,
-      "grad_norm": 2.031386375427246,
-      "learning_rate": 9.450757575757576e-06,
-      "loss": 0.1771,
-      "step": 500
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9608108108108108,
-      "eval_loss": 0.14045676589012146,
-      "eval_runtime": 0.9313,
-      "eval_samples_per_second": 2383.741,
-      "eval_steps_per_second": 7.516,
-      "step": 528
-    },
-    {
-      "epoch": 1.0416666666666667,
-      "grad_norm": 4.0610175132751465,
-      "learning_rate": 1.0397727272727275e-05,
-      "loss": 0.1615,
-      "step": 550
-    },
-    {
-      "epoch": 1.1363636363636362,
-      "grad_norm": 1.9611369371414185,
-      "learning_rate": 1.1344696969696971e-05,
-      "loss": 0.1433,
-      "step": 600
-    },
-    {
-      "epoch": 1.231060606060606,
-      "grad_norm": 6.061194896697998,
-      "learning_rate": 1.2291666666666668e-05,
-      "loss": 0.1517,
-      "step": 650
-    },
-    {
-      "epoch": 1.3257575757575757,
-      "grad_norm": 2.7738304138183594,
-      "learning_rate": 1.3238636363636366e-05,
-      "loss": 0.1496,
-      "step": 700
-    },
-    {
-      "epoch": 1.4204545454545454,
-      "grad_norm": 2.841794967651367,
-      "learning_rate": 1.4185606060606061e-05,
-      "loss": 0.1275,
-      "step": 750
-    },
-    {
-      "epoch": 1.5151515151515151,
-      "grad_norm": 5.296891689300537,
-      "learning_rate": 1.5132575757575758e-05,
-      "loss": 0.1398,
-      "step": 800
-    },
-    {
-      "epoch": 1.6098484848484849,
-      "grad_norm": 2.8792037963867188,
-      "learning_rate": 1.6079545454545456e-05,
-      "loss": 0.1062,
-      "step": 850
-    },
-    {
-      "epoch": 1.7045454545454546,
-      "grad_norm": 7.044574737548828,
-      "learning_rate": 1.7026515151515154e-05,
-      "loss": 0.1209,
-      "step": 900
-    },
-    {
-      "epoch": 1.7992424242424243,
-      "grad_norm": 4.128571033477783,
-      "learning_rate": 1.797348484848485e-05,
-      "loss": 0.1019,
-      "step": 950
-    },
-    {
-      "epoch": 1.893939393939394,
-      "grad_norm": 3.093858242034912,
-      "learning_rate": 1.8920454545454548e-05,
-      "loss": 0.0905,
-      "step": 1000
-    },
-    {
-      "epoch": 1.9886363636363638,
-      "grad_norm": 1.8322410583496094,
-      "learning_rate": 1.9867424242424246e-05,
-      "loss": 0.1046,
-      "step": 1050
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9702702702702702,
-      "eval_loss": 0.09388745576143265,
-      "eval_runtime": 0.9328,
-      "eval_samples_per_second": 2379.885,
-      "eval_steps_per_second": 7.504,
-      "step": 1056
-    },
-    {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 1.9016932249069214,
-      "learning_rate": 1.999898984854493e-05,
-      "loss": 0.092,
-      "step": 1100
-    },
-    {
-      "epoch": 2.178030303030303,
-      "grad_norm": 3.790273904800415,
-      "learning_rate": 1.999527514387006e-05,
-      "loss": 0.0958,
-      "step": 1150
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 1.2855342626571655,
-      "learning_rate": 1.9988830130412106e-05,
-      "loss": 0.0775,
-      "step": 1200
-    },
-    {
-      "epoch": 2.367424242424242,
-      "grad_norm": 4.88389253616333,
-      "learning_rate": 1.997965656869057e-05,
-      "loss": 0.0777,
-      "step": 1250
-    },
-    {
-      "epoch": 2.462121212121212,
-      "grad_norm": 4.471704483032227,
-      "learning_rate": 1.9967756964555044e-05,
-      "loss": 0.0881,
-      "step": 1300
-    },
-    {
-      "epoch": 2.5568181818181817,
-      "grad_norm": 4.597264289855957,
-      "learning_rate": 1.995313456850071e-05,
-      "loss": 0.0722,
-      "step": 1350
-    },
-    {
-      "epoch": 2.6515151515151514,
-      "grad_norm": 1.7858144044876099,
-      "learning_rate": 1.9935793374780435e-05,
-      "loss": 0.0823,
-      "step": 1400
-    },
-    {
-      "epoch": 2.746212121212121,
-      "grad_norm": 3.1771280765533447,
-      "learning_rate": 1.991573812031369e-05,
-      "loss": 0.0619,
-      "step": 1450
-    },
-    {
-      "epoch": 2.840909090909091,
-      "grad_norm": 3.0146450996398926,
-      "learning_rate": 1.989297428339264e-05,
-      "loss": 0.0722,
-      "step": 1500
-    },
-    {
-      "epoch": 2.9356060606060606,
-      "grad_norm": 1.1221269369125366,
-      "learning_rate": 1.9867508082185663e-05,
-      "loss": 0.071,
-      "step": 1550
-    },
-    {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9837837837837838,
-      "eval_loss": 0.05881131812930107,
-      "eval_runtime": 0.9401,
-      "eval_samples_per_second": 2361.381,
-      "eval_steps_per_second": 7.446,
-      "step": 1584
-    },
-    {
-      "epoch": 3.0303030303030303,
-      "grad_norm": 0.7528719305992126,
-      "learning_rate": 1.9839346473038815e-05,
-      "loss": 0.0676,
-      "step": 1600
-    },
-    {
-      "epoch": 3.125,
-      "grad_norm": 0.5066124200820923,
-      "learning_rate": 1.980849714857563e-05,
-      "loss": 0.0495,
-      "step": 1650
-    },
-    {
-      "epoch": 3.2196969696969697,
-      "grad_norm": 5.64263391494751,
-      "learning_rate": 1.9774968535595808e-05,
-      "loss": 0.0626,
-      "step": 1700
-    },
-    {
-      "epoch": 3.3143939393939394,
-      "grad_norm": 1.1057571172714233,
-      "learning_rate": 1.9738769792773338e-05,
-      "loss": 0.0611,
-      "step": 1750
-    },
-    {
-      "epoch": 3.409090909090909,
-      "grad_norm": 0.09228092432022095,
-      "learning_rate": 1.9699910808154726e-05,
-      "loss": 0.0576,
-      "step": 1800
-    },
-    {
-      "epoch": 3.503787878787879,
-      "grad_norm": 3.1624414920806885,
-      "learning_rate": 1.965840219645797e-05,
-      "loss": 0.0575,
-      "step": 1850
-    },
-    {
-      "epoch": 3.5984848484848486,
-      "grad_norm": 4.033729553222656,
-      "learning_rate": 1.961425529617306e-05,
-      "loss": 0.0656,
-      "step": 1900
-    },
-    {
-      "epoch": 3.6931818181818183,
-      "grad_norm": 3.7267255783081055,
-      "learning_rate": 1.956748216646473e-05,
-      "loss": 0.0594,
-      "step": 1950
-    },
-    {
-      "epoch": 3.787878787878788,
-      "grad_norm": 2.7791688442230225,
-      "learning_rate": 1.9518095583878406e-05,
-      "loss": 0.054,
-      "step": 2000
-    },
-    {
-      "epoch": 3.882575757575758,
-      "grad_norm": 0.10295089334249496,
-      "learning_rate": 1.946610903885014e-05,
-      "loss": 0.04,
-      "step": 2050
-    },
-    {
-      "epoch": 3.9772727272727275,
-      "grad_norm": 1.05549156665802,
-      "learning_rate": 1.941153673202158e-05,
-      "loss": 0.0441,
-      "step": 2100
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9864864864864865,
-      "eval_loss": 0.056456033140420914,
-      "eval_runtime": 0.9408,
-      "eval_samples_per_second": 2359.707,
-      "eval_steps_per_second": 7.441,
-      "step": 2112
-    },
-    {
-      "epoch": 4.071969696969697,
-      "grad_norm": 2.183342933654785,
-      "learning_rate": 1.9354393570360924e-05,
-      "loss": 0.0449,
-      "step": 2150
-    },
-    {
-      "epoch": 4.166666666666667,
-      "grad_norm": 3.2201144695281982,
-      "learning_rate": 1.929469516309092e-05,
-      "loss": 0.0443,
-      "step": 2200
-    },
-    {
-      "epoch": 4.261363636363637,
-      "grad_norm": 2.585134744644165,
-      "learning_rate": 1.9232457817425058e-05,
-      "loss": 0.0378,
-      "step": 2250
-    },
-    {
-      "epoch": 4.356060606060606,
-      "grad_norm": 0.22277259826660156,
-      "learning_rate": 1.9167698534113105e-05,
-      "loss": 0.0418,
-      "step": 2300
-    },
-    {
-      "epoch": 4.450757575757576,
-      "grad_norm": 1.6783980131149292,
-      "learning_rate": 1.910043500279716e-05,
-      "loss": 0.0357,
-      "step": 2350
-    },
-    {
-      "epoch": 4.545454545454545,
-      "grad_norm": 0.4771471619606018,
-      "learning_rate": 1.903068559717957e-05,
-      "loss": 0.0345,
-      "step": 2400
-    },
-    {
-      "epoch": 4.640151515151516,
-      "grad_norm": 0.10980956256389618,
-      "learning_rate": 1.8958469370003954e-05,
-      "loss": 0.026,
-      "step": 2450
-    },
-    {
-      "epoch": 4.734848484848484,
-      "grad_norm": 0.514388918876648,
-      "learning_rate": 1.8883806047850772e-05,
-      "loss": 0.0425,
-      "step": 2500
-    },
-    {
-      "epoch": 4.829545454545455,
-      "grad_norm": 2.0213735103607178,
-      "learning_rate": 1.8806716025748813e-05,
-      "loss": 0.0321,
-      "step": 2550
-    },
-    {
-      "epoch": 4.924242424242424,
-      "grad_norm": 2.96073842048645,
-      "learning_rate": 1.872722036160407e-05,
-      "loss": 0.0324,
-      "step": 2600
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9891891891891892,
-      "eval_loss": 0.039831362664699554,
-      "eval_runtime": 0.9492,
-      "eval_samples_per_second": 2338.807,
-      "eval_steps_per_second": 7.375,
-      "step": 2640
-    },
-    {
-      "epoch": 5.018939393939394,
-      "grad_norm": 5.567176342010498,
-      "learning_rate": 1.8645340770447595e-05,
-      "loss": 0.0448,
-      "step": 2650
-    },
-    {
-      "epoch": 5.113636363636363,
-      "grad_norm": 0.33689576387405396,
-      "learning_rate": 1.8561099618503785e-05,
-      "loss": 0.0398,
-      "step": 2700
-    },
-    {
-      "epoch": 5.208333333333333,
-      "grad_norm": 3.0077149868011475,
-      "learning_rate": 1.8474519917080867e-05,
-      "loss": 0.0234,
-      "step": 2750
-    },
-    {
-      "epoch": 5.303030303030303,
-      "grad_norm": 0.3385215103626251,
-      "learning_rate": 1.8385625316285095e-05,
-      "loss": 0.03,
-      "step": 2800
-    },
-    {
-      "epoch": 5.3977272727272725,
-      "grad_norm": 3.120093584060669,
-      "learning_rate": 1.8294440098560508e-05,
-      "loss": 0.0259,
-      "step": 2850
-    },
-    {
-      "epoch": 5.492424242424242,
-      "grad_norm": 5.4590864181518555,
-      "learning_rate": 1.8200989172055926e-05,
-      "loss": 0.027,
-      "step": 2900
-    },
-    {
-      "epoch": 5.587121212121212,
-      "grad_norm": 0.14214850962162018,
-      "learning_rate": 1.8105298063821065e-05,
-      "loss": 0.0396,
-      "step": 2950
-    },
-    {
-      "epoch": 5.681818181818182,
-      "grad_norm": 5.496220111846924,
-      "learning_rate": 1.8007392912833534e-05,
-      "loss": 0.0386,
-      "step": 3000
-    },
-    {
-      "epoch": 5.776515151515151,
-      "grad_norm": 2.2691736221313477,
-      "learning_rate": 1.7907300462858752e-05,
-      "loss": 0.0288,
-      "step": 3050
-    },
-    {
-      "epoch": 5.871212121212121,
-      "grad_norm": 0.3925817608833313,
-      "learning_rate": 1.7805048055144584e-05,
-      "loss": 0.0305,
-      "step": 3100
-    },
-    {
-      "epoch": 5.965909090909091,
-      "grad_norm": 0.03450781852006912,
-      "learning_rate": 1.7700663620952844e-05,
-      "loss": 0.0234,
-      "step": 3150
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.9882882882882883,
-      "eval_loss": 0.0493258498609066,
-      "eval_runtime": 0.9634,
-      "eval_samples_per_second": 2304.357,
-      "eval_steps_per_second": 7.266,
-      "step": 3168
-    },
-    {
-      "epoch": 6.0606060606060606,
-      "grad_norm": 0.05821343883872032,
-      "learning_rate": 1.7594175673929564e-05,
-      "loss": 0.0146,
-      "step": 3200
-    },
-    {
-      "epoch": 6.15530303030303,
-      "grad_norm": 0.04762452840805054,
-      "learning_rate": 1.7485613302316226e-05,
-      "loss": 0.02,
-      "step": 3250
-    },
-    {
-      "epoch": 6.25,
-      "grad_norm": 0.05227584019303322,
-      "learning_rate": 1.7375006161004018e-05,
-      "loss": 0.0117,
-      "step": 3300
-    },
-    {
-      "epoch": 6.34469696969697,
-      "grad_norm": 6.182316780090332,
-      "learning_rate": 1.7262384463433286e-05,
-      "loss": 0.0312,
-      "step": 3350
-    },
-    {
-      "epoch": 6.4393939393939394,
-      "grad_norm": 2.6263253688812256,
-      "learning_rate": 1.7147778973340466e-05,
-      "loss": 0.0273,
-      "step": 3400
-    },
-    {
-      "epoch": 6.534090909090909,
-      "grad_norm": 4.184931755065918,
-      "learning_rate": 1.703122099635463e-05,
-      "loss": 0.0339,
-      "step": 3450
-    },
-    {
-      "epoch": 6.628787878787879,
-      "grad_norm": 4.779547214508057,
-      "learning_rate": 1.6912742371446068e-05,
-      "loss": 0.0187,
-      "step": 3500
-    },
-    {
-      "epoch": 6.723484848484849,
-      "grad_norm": 4.305413246154785,
-      "learning_rate": 1.6792375462229132e-05,
-      "loss": 0.0288,
-      "step": 3550
-    },
-    {
-      "epoch": 6.818181818181818,
-      "grad_norm": 0.8370099067687988,
-      "learning_rate": 1.6670153148121834e-05,
-      "loss": 0.022,
-      "step": 3600
-    },
-    {
-      "epoch": 6.912878787878788,
-      "grad_norm": 0.042217787355184555,
-      "learning_rate": 1.6546108815364448e-05,
-      "loss": 0.0165,
-      "step": 3650
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.9914414414414414,
-      "eval_loss": 0.042690977454185486,
-      "eval_runtime": 1.1165,
-      "eval_samples_per_second": 1988.281,
-      "eval_steps_per_second": 6.269,
-      "step": 3696
-    }
-  ],
-  "logging_steps": 50,
-  "max_steps": 10560,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "EarlyStoppingCallback": {
-      "args": {
-        "early_stopping_patience": 2,
-        "early_stopping_threshold": 0.0
-      },
-      "attributes": {
-        "early_stopping_patience_counter": 0
-      }
-    },
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 7628165050320000.0,
-  "train_batch_size": 80,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-3696/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03e483228a10899db361a89a78f6d4c066e2522650debdb0af61e02a9f9faa73
-size 5905

checkpoint-4224/config.json DELETED Viewed

@@ -1,28 +0,0 @@
-{
-  "architectures": [
-    "CamembertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 5,
-  "classifier_dropout": null,
-  "dtype": "float32",
-  "eos_token_id": 6,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "camembert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "output_past": true,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "transformers_version": "4.57.3",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 32005
-}

checkpoint-4224/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:195734aa47d7048bc0b5ce2aa08bc41782501331182aca59d8fb149370e42d51
-size 442518104

checkpoint-4224/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7a1ff0a7e9da896c796d85a38b00a897c7c64860aa1ba012ea2abdee677ce762
-size 885159307

checkpoint-4224/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2f6ce09fab811a03946d54140f022dcb0f2d669094f78143026b34a3d4a9f00e
-size 14645

checkpoint-4224/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3f1fdbb2b1c1114fc2b99a720d34948dc2aa42cd71b7fa5e0643e0738375279b
-size 1383

checkpoint-4224/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:dade6b4bafabb9222857aa03dfb48e1b30b2282bd87341bd8220c43dc0086cdf
-size 1465

checkpoint-4224/special_tokens_map.json DELETED Viewed

@@ -1,56 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

checkpoint-4224/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4224/tokenizer_config.json DELETED Viewed

@@ -1,84 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "</s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "4": {
-      "content": "<unk>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "5": {
-      "content": "<s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "6": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32004": {
-      "content": "<mask>",
-      "lstrip": true,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": "<s>",
-  "clean_up_tokenization_spaces": true,
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "extra_special_tokens": {},
-  "mask_token": "<mask>",
-  "model_max_length": 512,
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "tokenizer_class": "CamembertTokenizer",
-  "unk_token": "<unk>"
-}

checkpoint-4224/trainer_state.json DELETED Viewed

@@ -1,703 +0,0 @@
-{
-  "best_global_step": 3696,
-  "best_metric": 0.9914414414414414,
-  "best_model_checkpoint": "../models/camembert-bio-morpho-cross-encoder/checkpoint-3696",
-  "epoch": 8.0,
-  "eval_steps": 500,
-  "global_step": 4224,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0946969696969697,
-      "grad_norm": 1.7212085723876953,
-      "learning_rate": 9.280303030303031e-07,
-      "loss": 0.6819,
-      "step": 50
-    },
-    {
-      "epoch": 0.1893939393939394,
-      "grad_norm": 0.8152473568916321,
-      "learning_rate": 1.8750000000000003e-06,
-      "loss": 0.615,
-      "step": 100
-    },
-    {
-      "epoch": 0.2840909090909091,
-      "grad_norm": 0.8320032954216003,
-      "learning_rate": 2.8219696969696973e-06,
-      "loss": 0.5181,
-      "step": 150
-    },
-    {
-      "epoch": 0.3787878787878788,
-      "grad_norm": 1.74077570438385,
-      "learning_rate": 3.7689393939393944e-06,
-      "loss": 0.412,
-      "step": 200
-    },
-    {
-      "epoch": 0.4734848484848485,
-      "grad_norm": 3.2630276679992676,
-      "learning_rate": 4.715909090909091e-06,
-      "loss": 0.2989,
-      "step": 250
-    },
-    {
-      "epoch": 0.5681818181818182,
-      "grad_norm": 5.9127020835876465,
-      "learning_rate": 5.662878787878788e-06,
-      "loss": 0.2506,
-      "step": 300
-    },
-    {
-      "epoch": 0.6628787878787878,
-      "grad_norm": 4.532700538635254,
-      "learning_rate": 6.6098484848484855e-06,
-      "loss": 0.2167,
-      "step": 350
-    },
-    {
-      "epoch": 0.7575757575757576,
-      "grad_norm": 2.2779574394226074,
-      "learning_rate": 7.556818181818183e-06,
-      "loss": 0.2103,
-      "step": 400
-    },
-    {
-      "epoch": 0.8522727272727273,
-      "grad_norm": 3.8016679286956787,
-      "learning_rate": 8.50378787878788e-06,
-      "loss": 0.1825,
-      "step": 450
-    },
-    {
-      "epoch": 0.946969696969697,
-      "grad_norm": 2.031386375427246,
-      "learning_rate": 9.450757575757576e-06,
-      "loss": 0.1771,
-      "step": 500
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9608108108108108,
-      "eval_loss": 0.14045676589012146,
-      "eval_runtime": 0.9313,
-      "eval_samples_per_second": 2383.741,
-      "eval_steps_per_second": 7.516,
-      "step": 528
-    },
-    {
-      "epoch": 1.0416666666666667,
-      "grad_norm": 4.0610175132751465,
-      "learning_rate": 1.0397727272727275e-05,
-      "loss": 0.1615,
-      "step": 550
-    },
-    {
-      "epoch": 1.1363636363636362,
-      "grad_norm": 1.9611369371414185,
-      "learning_rate": 1.1344696969696971e-05,
-      "loss": 0.1433,
-      "step": 600
-    },
-    {
-      "epoch": 1.231060606060606,
-      "grad_norm": 6.061194896697998,
-      "learning_rate": 1.2291666666666668e-05,
-      "loss": 0.1517,
-      "step": 650
-    },
-    {
-      "epoch": 1.3257575757575757,
-      "grad_norm": 2.7738304138183594,
-      "learning_rate": 1.3238636363636366e-05,
-      "loss": 0.1496,
-      "step": 700
-    },
-    {
-      "epoch": 1.4204545454545454,
-      "grad_norm": 2.841794967651367,
-      "learning_rate": 1.4185606060606061e-05,
-      "loss": 0.1275,
-      "step": 750
-    },
-    {
-      "epoch": 1.5151515151515151,
-      "grad_norm": 5.296891689300537,
-      "learning_rate": 1.5132575757575758e-05,
-      "loss": 0.1398,
-      "step": 800
-    },
-    {
-      "epoch": 1.6098484848484849,
-      "grad_norm": 2.8792037963867188,
-      "learning_rate": 1.6079545454545456e-05,
-      "loss": 0.1062,
-      "step": 850
-    },
-    {
-      "epoch": 1.7045454545454546,
-      "grad_norm": 7.044574737548828,
-      "learning_rate": 1.7026515151515154e-05,
-      "loss": 0.1209,
-      "step": 900
-    },
-    {
-      "epoch": 1.7992424242424243,
-      "grad_norm": 4.128571033477783,
-      "learning_rate": 1.797348484848485e-05,
-      "loss": 0.1019,
-      "step": 950
-    },
-    {
-      "epoch": 1.893939393939394,
-      "grad_norm": 3.093858242034912,
-      "learning_rate": 1.8920454545454548e-05,
-      "loss": 0.0905,
-      "step": 1000
-    },
-    {
-      "epoch": 1.9886363636363638,
-      "grad_norm": 1.8322410583496094,
-      "learning_rate": 1.9867424242424246e-05,
-      "loss": 0.1046,
-      "step": 1050
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9702702702702702,
-      "eval_loss": 0.09388745576143265,
-      "eval_runtime": 0.9328,
-      "eval_samples_per_second": 2379.885,
-      "eval_steps_per_second": 7.504,
-      "step": 1056
-    },
-    {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 1.9016932249069214,
-      "learning_rate": 1.999898984854493e-05,
-      "loss": 0.092,
-      "step": 1100
-    },
-    {
-      "epoch": 2.178030303030303,
-      "grad_norm": 3.790273904800415,
-      "learning_rate": 1.999527514387006e-05,
-      "loss": 0.0958,
-      "step": 1150
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 1.2855342626571655,
-      "learning_rate": 1.9988830130412106e-05,
-      "loss": 0.0775,
-      "step": 1200
-    },
-    {
-      "epoch": 2.367424242424242,
-      "grad_norm": 4.88389253616333,
-      "learning_rate": 1.997965656869057e-05,
-      "loss": 0.0777,
-      "step": 1250
-    },
-    {
-      "epoch": 2.462121212121212,
-      "grad_norm": 4.471704483032227,
-      "learning_rate": 1.9967756964555044e-05,
-      "loss": 0.0881,
-      "step": 1300
-    },
-    {
-      "epoch": 2.5568181818181817,
-      "grad_norm": 4.597264289855957,
-      "learning_rate": 1.995313456850071e-05,
-      "loss": 0.0722,
-      "step": 1350
-    },
-    {
-      "epoch": 2.6515151515151514,
-      "grad_norm": 1.7858144044876099,
-      "learning_rate": 1.9935793374780435e-05,
-      "loss": 0.0823,
-      "step": 1400
-    },
-    {
-      "epoch": 2.746212121212121,
-      "grad_norm": 3.1771280765533447,
-      "learning_rate": 1.991573812031369e-05,
-      "loss": 0.0619,
-      "step": 1450
-    },
-    {
-      "epoch": 2.840909090909091,
-      "grad_norm": 3.0146450996398926,
-      "learning_rate": 1.989297428339264e-05,
-      "loss": 0.0722,
-      "step": 1500
-    },
-    {
-      "epoch": 2.9356060606060606,
-      "grad_norm": 1.1221269369125366,
-      "learning_rate": 1.9867508082185663e-05,
-      "loss": 0.071,
-      "step": 1550
-    },
-    {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9837837837837838,
-      "eval_loss": 0.05881131812930107,
-      "eval_runtime": 0.9401,
-      "eval_samples_per_second": 2361.381,
-      "eval_steps_per_second": 7.446,
-      "step": 1584
-    },
-    {
-      "epoch": 3.0303030303030303,
-      "grad_norm": 0.7528719305992126,
-      "learning_rate": 1.9839346473038815e-05,
-      "loss": 0.0676,
-      "step": 1600
-    },
-    {
-      "epoch": 3.125,
-      "grad_norm": 0.5066124200820923,
-      "learning_rate": 1.980849714857563e-05,
-      "loss": 0.0495,
-      "step": 1650
-    },
-    {
-      "epoch": 3.2196969696969697,
-      "grad_norm": 5.64263391494751,
-      "learning_rate": 1.9774968535595808e-05,
-      "loss": 0.0626,
-      "step": 1700
-    },
-    {
-      "epoch": 3.3143939393939394,
-      "grad_norm": 1.1057571172714233,
-      "learning_rate": 1.9738769792773338e-05,
-      "loss": 0.0611,
-      "step": 1750
-    },
-    {
-      "epoch": 3.409090909090909,
-      "grad_norm": 0.09228092432022095,
-      "learning_rate": 1.9699910808154726e-05,
-      "loss": 0.0576,
-      "step": 1800
-    },
-    {
-      "epoch": 3.503787878787879,
-      "grad_norm": 3.1624414920806885,
-      "learning_rate": 1.965840219645797e-05,
-      "loss": 0.0575,
-      "step": 1850
-    },
-    {
-      "epoch": 3.5984848484848486,
-      "grad_norm": 4.033729553222656,
-      "learning_rate": 1.961425529617306e-05,
-      "loss": 0.0656,
-      "step": 1900
-    },
-    {
-      "epoch": 3.6931818181818183,
-      "grad_norm": 3.7267255783081055,
-      "learning_rate": 1.956748216646473e-05,
-      "loss": 0.0594,
-      "step": 1950
-    },
-    {
-      "epoch": 3.787878787878788,
-      "grad_norm": 2.7791688442230225,
-      "learning_rate": 1.9518095583878406e-05,
-      "loss": 0.054,
-      "step": 2000
-    },
-    {
-      "epoch": 3.882575757575758,
-      "grad_norm": 0.10295089334249496,
-      "learning_rate": 1.946610903885014e-05,
-      "loss": 0.04,
-      "step": 2050
-    },
-    {
-      "epoch": 3.9772727272727275,
-      "grad_norm": 1.05549156665802,
-      "learning_rate": 1.941153673202158e-05,
-      "loss": 0.0441,
-      "step": 2100
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9864864864864865,
-      "eval_loss": 0.056456033140420914,
-      "eval_runtime": 0.9408,
-      "eval_samples_per_second": 2359.707,
-      "eval_steps_per_second": 7.441,
-      "step": 2112
-    },
-    {
-      "epoch": 4.071969696969697,
-      "grad_norm": 2.183342933654785,
-      "learning_rate": 1.9354393570360924e-05,
-      "loss": 0.0449,
-      "step": 2150
-    },
-    {
-      "epoch": 4.166666666666667,
-      "grad_norm": 3.2201144695281982,
-      "learning_rate": 1.929469516309092e-05,
-      "loss": 0.0443,
-      "step": 2200
-    },
-    {
-      "epoch": 4.261363636363637,
-      "grad_norm": 2.585134744644165,
-      "learning_rate": 1.9232457817425058e-05,
-      "loss": 0.0378,
-      "step": 2250
-    },
-    {
-      "epoch": 4.356060606060606,
-      "grad_norm": 0.22277259826660156,
-      "learning_rate": 1.9167698534113105e-05,
-      "loss": 0.0418,
-      "step": 2300
-    },
-    {
-      "epoch": 4.450757575757576,
-      "grad_norm": 1.6783980131149292,
-      "learning_rate": 1.910043500279716e-05,
-      "loss": 0.0357,
-      "step": 2350
-    },
-    {
-      "epoch": 4.545454545454545,
-      "grad_norm": 0.4771471619606018,
-      "learning_rate": 1.903068559717957e-05,
-      "loss": 0.0345,
-      "step": 2400
-    },
-    {
-      "epoch": 4.640151515151516,
-      "grad_norm": 0.10980956256389618,
-      "learning_rate": 1.8958469370003954e-05,
-      "loss": 0.026,
-      "step": 2450
-    },
-    {
-      "epoch": 4.734848484848484,
-      "grad_norm": 0.514388918876648,
-      "learning_rate": 1.8883806047850772e-05,
-      "loss": 0.0425,
-      "step": 2500
-    },
-    {
-      "epoch": 4.829545454545455,
-      "grad_norm": 2.0213735103607178,
-      "learning_rate": 1.8806716025748813e-05,
-      "loss": 0.0321,
-      "step": 2550
-    },
-    {
-      "epoch": 4.924242424242424,
-      "grad_norm": 2.96073842048645,
-      "learning_rate": 1.872722036160407e-05,
-      "loss": 0.0324,
-      "step": 2600
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9891891891891892,
-      "eval_loss": 0.039831362664699554,
-      "eval_runtime": 0.9492,
-      "eval_samples_per_second": 2338.807,
-      "eval_steps_per_second": 7.375,
-      "step": 2640
-    },
-    {
-      "epoch": 5.018939393939394,
-      "grad_norm": 5.567176342010498,
-      "learning_rate": 1.8645340770447595e-05,
-      "loss": 0.0448,
-      "step": 2650
-    },
-    {
-      "epoch": 5.113636363636363,
-      "grad_norm": 0.33689576387405396,
-      "learning_rate": 1.8561099618503785e-05,
-      "loss": 0.0398,
-      "step": 2700
-    },
-    {
-      "epoch": 5.208333333333333,
-      "grad_norm": 3.0077149868011475,
-      "learning_rate": 1.8474519917080867e-05,
-      "loss": 0.0234,
-      "step": 2750
-    },
-    {
-      "epoch": 5.303030303030303,
-      "grad_norm": 0.3385215103626251,
-      "learning_rate": 1.8385625316285095e-05,
-      "loss": 0.03,
-      "step": 2800
-    },
-    {
-      "epoch": 5.3977272727272725,
-      "grad_norm": 3.120093584060669,
-      "learning_rate": 1.8294440098560508e-05,
-      "loss": 0.0259,
-      "step": 2850
-    },
-    {
-      "epoch": 5.492424242424242,
-      "grad_norm": 5.4590864181518555,
-      "learning_rate": 1.8200989172055926e-05,
-      "loss": 0.027,
-      "step": 2900
-    },
-    {
-      "epoch": 5.587121212121212,
-      "grad_norm": 0.14214850962162018,
-      "learning_rate": 1.8105298063821065e-05,
-      "loss": 0.0396,
-      "step": 2950
-    },
-    {
-      "epoch": 5.681818181818182,
-      "grad_norm": 5.496220111846924,
-      "learning_rate": 1.8007392912833534e-05,
-      "loss": 0.0386,
-      "step": 3000
-    },
-    {
-      "epoch": 5.776515151515151,
-      "grad_norm": 2.2691736221313477,
-      "learning_rate": 1.7907300462858752e-05,
-      "loss": 0.0288,
-      "step": 3050
-    },
-    {
-      "epoch": 5.871212121212121,
-      "grad_norm": 0.3925817608833313,
-      "learning_rate": 1.7805048055144584e-05,
-      "loss": 0.0305,
-      "step": 3100
-    },
-    {
-      "epoch": 5.965909090909091,
-      "grad_norm": 0.03450781852006912,
-      "learning_rate": 1.7700663620952844e-05,
-      "loss": 0.0234,
-      "step": 3150
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.9882882882882883,
-      "eval_loss": 0.0493258498609066,
-      "eval_runtime": 0.9634,
-      "eval_samples_per_second": 2304.357,
-      "eval_steps_per_second": 7.266,
-      "step": 3168
-    },
-    {
-      "epoch": 6.0606060606060606,
-      "grad_norm": 0.05821343883872032,
-      "learning_rate": 1.7594175673929564e-05,
-      "loss": 0.0146,
-      "step": 3200
-    },
-    {
-      "epoch": 6.15530303030303,
-      "grad_norm": 0.04762452840805054,
-      "learning_rate": 1.7485613302316226e-05,
-      "loss": 0.02,
-      "step": 3250
-    },
-    {
-      "epoch": 6.25,
-      "grad_norm": 0.05227584019303322,
-      "learning_rate": 1.7375006161004018e-05,
-      "loss": 0.0117,
-      "step": 3300
-    },
-    {
-      "epoch": 6.34469696969697,
-      "grad_norm": 6.182316780090332,
-      "learning_rate": 1.7262384463433286e-05,
-      "loss": 0.0312,
-      "step": 3350
-    },
-    {
-      "epoch": 6.4393939393939394,
-      "grad_norm": 2.6263253688812256,
-      "learning_rate": 1.7147778973340466e-05,
-      "loss": 0.0273,
-      "step": 3400
-    },
-    {
-      "epoch": 6.534090909090909,
-      "grad_norm": 4.184931755065918,
-      "learning_rate": 1.703122099635463e-05,
-      "loss": 0.0339,
-      "step": 3450
-    },
-    {
-      "epoch": 6.628787878787879,
-      "grad_norm": 4.779547214508057,
-      "learning_rate": 1.6912742371446068e-05,
-      "loss": 0.0187,
-      "step": 3500
-    },
-    {
-      "epoch": 6.723484848484849,
-      "grad_norm": 4.305413246154785,
-      "learning_rate": 1.6792375462229132e-05,
-      "loss": 0.0288,
-      "step": 3550
-    },
-    {
-      "epoch": 6.818181818181818,
-      "grad_norm": 0.8370099067687988,
-      "learning_rate": 1.6670153148121834e-05,
-      "loss": 0.022,
-      "step": 3600
-    },
-    {
-      "epoch": 6.912878787878788,
-      "grad_norm": 0.042217787355184555,
-      "learning_rate": 1.6546108815364448e-05,
-      "loss": 0.0165,
-      "step": 3650
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.9914414414414414,
-      "eval_loss": 0.042690977454185486,
-      "eval_runtime": 1.1165,
-      "eval_samples_per_second": 1988.281,
-      "eval_steps_per_second": 6.269,
-      "step": 3696
-    },
-    {
-      "epoch": 7.007575757575758,
-      "grad_norm": 0.08638785779476166,
-      "learning_rate": 1.6420276347899776e-05,
-      "loss": 0.0267,
-      "step": 3700
-    },
-    {
-      "epoch": 7.1022727272727275,
-      "grad_norm": 0.019671985879540443,
-      "learning_rate": 1.6292690118117393e-05,
-      "loss": 0.015,
-      "step": 3750
-    },
-    {
-      "epoch": 7.196969696969697,
-      "grad_norm": 0.10662596672773361,
-      "learning_rate": 1.6163384977464476e-05,
-      "loss": 0.0177,
-      "step": 3800
-    },
-    {
-      "epoch": 7.291666666666667,
-      "grad_norm": 0.1051739975810051,
-      "learning_rate": 1.6032396246925806e-05,
-      "loss": 0.0204,
-      "step": 3850
-    },
-    {
-      "epoch": 7.386363636363637,
-      "grad_norm": 0.06513633579015732,
-      "learning_rate": 1.5899759707375487e-05,
-      "loss": 0.0146,
-      "step": 3900
-    },
-    {
-      "epoch": 7.481060606060606,
-      "grad_norm": 5.043694496154785,
-      "learning_rate": 1.576551158980302e-05,
-      "loss": 0.0202,
-      "step": 3950
-    },
-    {
-      "epoch": 7.575757575757576,
-      "grad_norm": 0.04632123187184334,
-      "learning_rate": 1.562968856541648e-05,
-      "loss": 0.0188,
-      "step": 4000
-    },
-    {
-      "epoch": 7.670454545454545,
-      "grad_norm": 0.1046363040804863,
-      "learning_rate": 1.549232773562539e-05,
-      "loss": 0.0218,
-      "step": 4050
-    },
-    {
-      "epoch": 7.765151515151516,
-      "grad_norm": 10.116546630859375,
-      "learning_rate": 1.5353466621906113e-05,
-      "loss": 0.0223,
-      "step": 4100
-    },
-    {
-      "epoch": 7.859848484848484,
-      "grad_norm": 0.06823263317346573,
-      "learning_rate": 1.5213143155552479e-05,
-      "loss": 0.0234,
-      "step": 4150
-    },
-    {
-      "epoch": 7.954545454545455,
-      "grad_norm": 0.10893430560827255,
-      "learning_rate": 1.5071395667314481e-05,
-      "loss": 0.0162,
-      "step": 4200
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.986936936936937,
-      "eval_loss": 0.05621395632624626,
-      "eval_runtime": 1.1546,
-      "eval_samples_per_second": 1922.822,
-      "eval_steps_per_second": 6.063,
-      "step": 4224
-    }
-  ],
-  "logging_steps": 50,
-  "max_steps": 10560,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "EarlyStoppingCallback": {
-      "args": {
-        "early_stopping_patience": 2,
-        "early_stopping_threshold": 0.0
-      },
-      "attributes": {
-        "early_stopping_patience_counter": 1
-      }
-    },
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 8718626763704400.0,
-  "train_batch_size": 80,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-4224/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03e483228a10899db361a89a78f6d4c066e2522650debdb0af61e02a9f9faa73
-size 5905

checkpoint-4752/config.json DELETED Viewed

@@ -1,28 +0,0 @@
-{
-  "architectures": [
-    "CamembertForSequenceClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 5,
-  "classifier_dropout": null,
-  "dtype": "float32",
-  "eos_token_id": 6,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "camembert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "output_past": true,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "problem_type": "single_label_classification",
-  "transformers_version": "4.57.3",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 32005
-}

checkpoint-4752/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a92f81d0998505b572ae1a4353cb36da7aca685709add9adcef3459b56efc6e8
-size 442518104

checkpoint-4752/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:164e6340d8057d32a3f432666c7eef3c760d513bfceab5b37c57f5ffb63ac19a
-size 885159307

checkpoint-4752/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f29eec5ad54e1257873d92553224fc1d69e6d9fd97fe540fc487ea60d1571a33
-size 14645

checkpoint-4752/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3d4b6d35c6c0125cf4871d4cd86dbb7076b3d466839f8f76d76dc8ea8717753d
-size 1383

checkpoint-4752/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ddb23ad2f31807017b65eb087ce8ca17ea34a977497e8157fd4c85e3fb5b7a26
-size 1465

checkpoint-4752/special_tokens_map.json DELETED Viewed

@@ -1,56 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

checkpoint-4752/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4752/tokenizer_config.json DELETED Viewed

@@ -1,84 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "</s>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "4": {
-      "content": "<unk>NOTUSED",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "5": {
-      "content": "<s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "6": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32004": {
-      "content": "<mask>",
-      "lstrip": true,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED",
-    "<unk>NOTUSED"
-  ],
-  "bos_token": "<s>",
-  "clean_up_tokenization_spaces": true,
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "extra_special_tokens": {},
-  "mask_token": "<mask>",
-  "model_max_length": 512,
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "tokenizer_class": "CamembertTokenizer",
-  "unk_token": "<unk>"
-}

checkpoint-4752/trainer_state.json DELETED Viewed

@@ -1,789 +0,0 @@
-{
-  "best_global_step": 3696,
-  "best_metric": 0.9914414414414414,
-  "best_model_checkpoint": "../models/camembert-bio-morpho-cross-encoder/checkpoint-3696",
-  "epoch": 9.0,
-  "eval_steps": 500,
-  "global_step": 4752,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0946969696969697,
-      "grad_norm": 1.7212085723876953,
-      "learning_rate": 9.280303030303031e-07,
-      "loss": 0.6819,
-      "step": 50
-    },
-    {
-      "epoch": 0.1893939393939394,
-      "grad_norm": 0.8152473568916321,
-      "learning_rate": 1.8750000000000003e-06,
-      "loss": 0.615,
-      "step": 100
-    },
-    {
-      "epoch": 0.2840909090909091,
-      "grad_norm": 0.8320032954216003,
-      "learning_rate": 2.8219696969696973e-06,
-      "loss": 0.5181,
-      "step": 150
-    },
-    {
-      "epoch": 0.3787878787878788,
-      "grad_norm": 1.74077570438385,
-      "learning_rate": 3.7689393939393944e-06,
-      "loss": 0.412,
-      "step": 200
-    },
-    {
-      "epoch": 0.4734848484848485,
-      "grad_norm": 3.2630276679992676,
-      "learning_rate": 4.715909090909091e-06,
-      "loss": 0.2989,
-      "step": 250
-    },
-    {
-      "epoch": 0.5681818181818182,
-      "grad_norm": 5.9127020835876465,
-      "learning_rate": 5.662878787878788e-06,
-      "loss": 0.2506,
-      "step": 300
-    },
-    {
-      "epoch": 0.6628787878787878,
-      "grad_norm": 4.532700538635254,
-      "learning_rate": 6.6098484848484855e-06,
-      "loss": 0.2167,
-      "step": 350
-    },
-    {
-      "epoch": 0.7575757575757576,
-      "grad_norm": 2.2779574394226074,
-      "learning_rate": 7.556818181818183e-06,
-      "loss": 0.2103,
-      "step": 400
-    },
-    {
-      "epoch": 0.8522727272727273,
-      "grad_norm": 3.8016679286956787,
-      "learning_rate": 8.50378787878788e-06,
-      "loss": 0.1825,
-      "step": 450
-    },
-    {
-      "epoch": 0.946969696969697,
-      "grad_norm": 2.031386375427246,
-      "learning_rate": 9.450757575757576e-06,
-      "loss": 0.1771,
-      "step": 500
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9608108108108108,
-      "eval_loss": 0.14045676589012146,
-      "eval_runtime": 0.9313,
-      "eval_samples_per_second": 2383.741,
-      "eval_steps_per_second": 7.516,
-      "step": 528
-    },
-    {
-      "epoch": 1.0416666666666667,
-      "grad_norm": 4.0610175132751465,
-      "learning_rate": 1.0397727272727275e-05,
-      "loss": 0.1615,
-      "step": 550
-    },
-    {
-      "epoch": 1.1363636363636362,
-      "grad_norm": 1.9611369371414185,
-      "learning_rate": 1.1344696969696971e-05,
-      "loss": 0.1433,
-      "step": 600
-    },
-    {
-      "epoch": 1.231060606060606,
-      "grad_norm": 6.061194896697998,
-      "learning_rate": 1.2291666666666668e-05,
-      "loss": 0.1517,
-      "step": 650
-    },
-    {
-      "epoch": 1.3257575757575757,
-      "grad_norm": 2.7738304138183594,
-      "learning_rate": 1.3238636363636366e-05,
-      "loss": 0.1496,
-      "step": 700
-    },
-    {
-      "epoch": 1.4204545454545454,
-      "grad_norm": 2.841794967651367,
-      "learning_rate": 1.4185606060606061e-05,
-      "loss": 0.1275,
-      "step": 750
-    },
-    {
-      "epoch": 1.5151515151515151,
-      "grad_norm": 5.296891689300537,
-      "learning_rate": 1.5132575757575758e-05,
-      "loss": 0.1398,
-      "step": 800
-    },
-    {
-      "epoch": 1.6098484848484849,
-      "grad_norm": 2.8792037963867188,
-      "learning_rate": 1.6079545454545456e-05,
-      "loss": 0.1062,
-      "step": 850
-    },
-    {
-      "epoch": 1.7045454545454546,
-      "grad_norm": 7.044574737548828,
-      "learning_rate": 1.7026515151515154e-05,
-      "loss": 0.1209,
-      "step": 900
-    },
-    {
-      "epoch": 1.7992424242424243,
-      "grad_norm": 4.128571033477783,
-      "learning_rate": 1.797348484848485e-05,
-      "loss": 0.1019,
-      "step": 950
-    },
-    {
-      "epoch": 1.893939393939394,
-      "grad_norm": 3.093858242034912,
-      "learning_rate": 1.8920454545454548e-05,
-      "loss": 0.0905,
-      "step": 1000
-    },
-    {
-      "epoch": 1.9886363636363638,
-      "grad_norm": 1.8322410583496094,
-      "learning_rate": 1.9867424242424246e-05,
-      "loss": 0.1046,
-      "step": 1050
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9702702702702702,
-      "eval_loss": 0.09388745576143265,
-      "eval_runtime": 0.9328,
-      "eval_samples_per_second": 2379.885,
-      "eval_steps_per_second": 7.504,
-      "step": 1056
-    },
-    {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 1.9016932249069214,
-      "learning_rate": 1.999898984854493e-05,
-      "loss": 0.092,
-      "step": 1100
-    },
-    {
-      "epoch": 2.178030303030303,
-      "grad_norm": 3.790273904800415,
-      "learning_rate": 1.999527514387006e-05,
-      "loss": 0.0958,
-      "step": 1150
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 1.2855342626571655,
-      "learning_rate": 1.9988830130412106e-05,
-      "loss": 0.0775,
-      "step": 1200
-    },
-    {
-      "epoch": 2.367424242424242,
-      "grad_norm": 4.88389253616333,
-      "learning_rate": 1.997965656869057e-05,
-      "loss": 0.0777,
-      "step": 1250
-    },
-    {
-      "epoch": 2.462121212121212,
-      "grad_norm": 4.471704483032227,
-      "learning_rate": 1.9967756964555044e-05,
-      "loss": 0.0881,
-      "step": 1300
-    },
-    {
-      "epoch": 2.5568181818181817,
-      "grad_norm": 4.597264289855957,
-      "learning_rate": 1.995313456850071e-05,
-      "loss": 0.0722,
-      "step": 1350
-    },
-    {
-      "epoch": 2.6515151515151514,
-      "grad_norm": 1.7858144044876099,
-      "learning_rate": 1.9935793374780435e-05,
-      "loss": 0.0823,
-      "step": 1400
-    },
-    {
-      "epoch": 2.746212121212121,
-      "grad_norm": 3.1771280765533447,
-      "learning_rate": 1.991573812031369e-05,
-      "loss": 0.0619,
-      "step": 1450
-    },
-    {
-      "epoch": 2.840909090909091,
-      "grad_norm": 3.0146450996398926,
-      "learning_rate": 1.989297428339264e-05,
-      "loss": 0.0722,
-      "step": 1500
-    },
-    {
-      "epoch": 2.9356060606060606,
-      "grad_norm": 1.1221269369125366,
-      "learning_rate": 1.9867508082185663e-05,
-      "loss": 0.071,
-      "step": 1550
-    },
-    {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9837837837837838,
-      "eval_loss": 0.05881131812930107,
-      "eval_runtime": 0.9401,
-      "eval_samples_per_second": 2361.381,
-      "eval_steps_per_second": 7.446,
-      "step": 1584
-    },
-    {
-      "epoch": 3.0303030303030303,
-      "grad_norm": 0.7528719305992126,
-      "learning_rate": 1.9839346473038815e-05,
-      "loss": 0.0676,
-      "step": 1600
-    },
-    {
-      "epoch": 3.125,
-      "grad_norm": 0.5066124200820923,
-      "learning_rate": 1.980849714857563e-05,
-      "loss": 0.0495,
-      "step": 1650
-    },
-    {
-      "epoch": 3.2196969696969697,
-      "grad_norm": 5.64263391494751,
-      "learning_rate": 1.9774968535595808e-05,
-      "loss": 0.0626,
-      "step": 1700
-    },
-    {
-      "epoch": 3.3143939393939394,
-      "grad_norm": 1.1057571172714233,
-      "learning_rate": 1.9738769792773338e-05,
-      "loss": 0.0611,
-      "step": 1750
-    },
-    {
-      "epoch": 3.409090909090909,
-      "grad_norm": 0.09228092432022095,
-      "learning_rate": 1.9699910808154726e-05,
-      "loss": 0.0576,
-      "step": 1800
-    },
-    {
-      "epoch": 3.503787878787879,
-      "grad_norm": 3.1624414920806885,
-      "learning_rate": 1.965840219645797e-05,
-      "loss": 0.0575,
-      "step": 1850
-    },
-    {
-      "epoch": 3.5984848484848486,
-      "grad_norm": 4.033729553222656,
-      "learning_rate": 1.961425529617306e-05,
-      "loss": 0.0656,
-      "step": 1900
-    },
-    {
-      "epoch": 3.6931818181818183,
-      "grad_norm": 3.7267255783081055,
-      "learning_rate": 1.956748216646473e-05,
-      "loss": 0.0594,
-      "step": 1950
-    },
-    {
-      "epoch": 3.787878787878788,
-      "grad_norm": 2.7791688442230225,
-      "learning_rate": 1.9518095583878406e-05,
-      "loss": 0.054,
-      "step": 2000
-    },
-    {
-      "epoch": 3.882575757575758,
-      "grad_norm": 0.10295089334249496,
-      "learning_rate": 1.946610903885014e-05,
-      "loss": 0.04,
-      "step": 2050
-    },
-    {
-      "epoch": 3.9772727272727275,
-      "grad_norm": 1.05549156665802,
-      "learning_rate": 1.941153673202158e-05,
-      "loss": 0.0441,
-      "step": 2100
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9864864864864865,
-      "eval_loss": 0.056456033140420914,
-      "eval_runtime": 0.9408,
-      "eval_samples_per_second": 2359.707,
-      "eval_steps_per_second": 7.441,
-      "step": 2112
-    },
-    {
-      "epoch": 4.071969696969697,
-      "grad_norm": 2.183342933654785,
-      "learning_rate": 1.9354393570360924e-05,
-      "loss": 0.0449,
-      "step": 2150
-    },
-    {
-      "epoch": 4.166666666666667,
-      "grad_norm": 3.2201144695281982,
-      "learning_rate": 1.929469516309092e-05,
-      "loss": 0.0443,
-      "step": 2200
-    },
-    {
-      "epoch": 4.261363636363637,
-      "grad_norm": 2.585134744644165,
-      "learning_rate": 1.9232457817425058e-05,
-      "loss": 0.0378,
-      "step": 2250
-    },
-    {
-      "epoch": 4.356060606060606,
-      "grad_norm": 0.22277259826660156,
-      "learning_rate": 1.9167698534113105e-05,
-      "loss": 0.0418,
-      "step": 2300
-    },
-    {
-      "epoch": 4.450757575757576,
-      "grad_norm": 1.6783980131149292,
-      "learning_rate": 1.910043500279716e-05,
-      "loss": 0.0357,
-      "step": 2350
-    },
-    {
-      "epoch": 4.545454545454545,
-      "grad_norm": 0.4771471619606018,
-      "learning_rate": 1.903068559717957e-05,
-      "loss": 0.0345,
-      "step": 2400
-    },
-    {
-      "epoch": 4.640151515151516,
-      "grad_norm": 0.10980956256389618,
-      "learning_rate": 1.8958469370003954e-05,
-      "loss": 0.026,
-      "step": 2450
-    },
-    {
-      "epoch": 4.734848484848484,
-      "grad_norm": 0.514388918876648,
-      "learning_rate": 1.8883806047850772e-05,
-      "loss": 0.0425,
-      "step": 2500
-    },
-    {
-      "epoch": 4.829545454545455,
-      "grad_norm": 2.0213735103607178,
-      "learning_rate": 1.8806716025748813e-05,
-      "loss": 0.0321,
-      "step": 2550
-    },
-    {
-      "epoch": 4.924242424242424,
-      "grad_norm": 2.96073842048645,
-      "learning_rate": 1.872722036160407e-05,
-      "loss": 0.0324,
-      "step": 2600
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9891891891891892,
-      "eval_loss": 0.039831362664699554,
-      "eval_runtime": 0.9492,
-      "eval_samples_per_second": 2338.807,
-      "eval_steps_per_second": 7.375,
-      "step": 2640
-    },
-    {
-      "epoch": 5.018939393939394,
-      "grad_norm": 5.567176342010498,
-      "learning_rate": 1.8645340770447595e-05,
-      "loss": 0.0448,
-      "step": 2650
-    },
-    {
-      "epoch": 5.113636363636363,
-      "grad_norm": 0.33689576387405396,
-      "learning_rate": 1.8561099618503785e-05,
-      "loss": 0.0398,
-      "step": 2700
-    },
-    {
-      "epoch": 5.208333333333333,
-      "grad_norm": 3.0077149868011475,
-      "learning_rate": 1.8474519917080867e-05,
-      "loss": 0.0234,
-      "step": 2750
-    },
-    {
-      "epoch": 5.303030303030303,
-      "grad_norm": 0.3385215103626251,
-      "learning_rate": 1.8385625316285095e-05,
-      "loss": 0.03,
-      "step": 2800
-    },
-    {
-      "epoch": 5.3977272727272725,
-      "grad_norm": 3.120093584060669,
-      "learning_rate": 1.8294440098560508e-05,
-      "loss": 0.0259,
-      "step": 2850
-    },
-    {
-      "epoch": 5.492424242424242,
-      "grad_norm": 5.4590864181518555,
-      "learning_rate": 1.8200989172055926e-05,
-      "loss": 0.027,
-      "step": 2900
-    },
-    {
-      "epoch": 5.587121212121212,
-      "grad_norm": 0.14214850962162018,
-      "learning_rate": 1.8105298063821065e-05,
-      "loss": 0.0396,
-      "step": 2950
-    },
-    {
-      "epoch": 5.681818181818182,
-      "grad_norm": 5.496220111846924,
-      "learning_rate": 1.8007392912833534e-05,
-      "loss": 0.0386,
-      "step": 3000
-    },
-    {
-      "epoch": 5.776515151515151,
-      "grad_norm": 2.2691736221313477,
-      "learning_rate": 1.7907300462858752e-05,
-      "loss": 0.0288,
-      "step": 3050
-    },
-    {
-      "epoch": 5.871212121212121,
-      "grad_norm": 0.3925817608833313,
-      "learning_rate": 1.7805048055144584e-05,
-      "loss": 0.0305,
-      "step": 3100
-    },
-    {
-      "epoch": 5.965909090909091,
-      "grad_norm": 0.03450781852006912,
-      "learning_rate": 1.7700663620952844e-05,
-      "loss": 0.0234,
-      "step": 3150
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.9882882882882883,
-      "eval_loss": 0.0493258498609066,
-      "eval_runtime": 0.9634,
-      "eval_samples_per_second": 2304.357,
-      "eval_steps_per_second": 7.266,
-      "step": 3168
-    },
-    {
-      "epoch": 6.0606060606060606,
-      "grad_norm": 0.05821343883872032,
-      "learning_rate": 1.7594175673929564e-05,
-      "loss": 0.0146,
-      "step": 3200
-    },
-    {
-      "epoch": 6.15530303030303,
-      "grad_norm": 0.04762452840805054,
-      "learning_rate": 1.7485613302316226e-05,
-      "loss": 0.02,
-      "step": 3250
-    },
-    {
-      "epoch": 6.25,
-      "grad_norm": 0.05227584019303322,
-      "learning_rate": 1.7375006161004018e-05,
-      "loss": 0.0117,
-      "step": 3300
-    },
-    {
-      "epoch": 6.34469696969697,
-      "grad_norm": 6.182316780090332,
-      "learning_rate": 1.7262384463433286e-05,
-      "loss": 0.0312,
-      "step": 3350
-    },
-    {
-      "epoch": 6.4393939393939394,
-      "grad_norm": 2.6263253688812256,
-      "learning_rate": 1.7147778973340466e-05,
-      "loss": 0.0273,
-      "step": 3400
-    },
-    {
-      "epoch": 6.534090909090909,
-      "grad_norm": 4.184931755065918,
-      "learning_rate": 1.703122099635463e-05,
-      "loss": 0.0339,
-      "step": 3450
-    },
-    {
-      "epoch": 6.628787878787879,
-      "grad_norm": 4.779547214508057,
-      "learning_rate": 1.6912742371446068e-05,
-      "loss": 0.0187,
-      "step": 3500
-    },
-    {
-      "epoch": 6.723484848484849,
-      "grad_norm": 4.305413246154785,
-      "learning_rate": 1.6792375462229132e-05,
-      "loss": 0.0288,
-      "step": 3550
-    },
-    {
-      "epoch": 6.818181818181818,
-      "grad_norm": 0.8370099067687988,
-      "learning_rate": 1.6670153148121834e-05,
-      "loss": 0.022,
-      "step": 3600
-    },
-    {
-      "epoch": 6.912878787878788,
-      "grad_norm": 0.042217787355184555,
-      "learning_rate": 1.6546108815364448e-05,
-      "loss": 0.0165,
-      "step": 3650
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.9914414414414414,
-      "eval_loss": 0.042690977454185486,
-      "eval_runtime": 1.1165,
-      "eval_samples_per_second": 1988.281,
-      "eval_steps_per_second": 6.269,
-      "step": 3696
-    },
-    {
-      "epoch": 7.007575757575758,
-      "grad_norm": 0.08638785779476166,
-      "learning_rate": 1.6420276347899776e-05,
-      "loss": 0.0267,
-      "step": 3700
-    },
-    {
-      "epoch": 7.1022727272727275,
-      "grad_norm": 0.019671985879540443,
-      "learning_rate": 1.6292690118117393e-05,
-      "loss": 0.015,
-      "step": 3750
-    },
-    {
-      "epoch": 7.196969696969697,
-      "grad_norm": 0.10662596672773361,
-      "learning_rate": 1.6163384977464476e-05,
-      "loss": 0.0177,
-      "step": 3800
-    },
-    {
-      "epoch": 7.291666666666667,
-      "grad_norm": 0.1051739975810051,
-      "learning_rate": 1.6032396246925806e-05,
-      "loss": 0.0204,
-      "step": 3850
-    },
-    {
-      "epoch": 7.386363636363637,
-      "grad_norm": 0.06513633579015732,
-      "learning_rate": 1.5899759707375487e-05,
-      "loss": 0.0146,
-      "step": 3900
-    },
-    {
-      "epoch": 7.481060606060606,
-      "grad_norm": 5.043694496154785,
-      "learning_rate": 1.576551158980302e-05,
-      "loss": 0.0202,
-      "step": 3950
-    },
-    {
-      "epoch": 7.575757575757576,
-      "grad_norm": 0.04632123187184334,
-      "learning_rate": 1.562968856541648e-05,
-      "loss": 0.0188,
-      "step": 4000
-    },
-    {
-      "epoch": 7.670454545454545,
-      "grad_norm": 0.1046363040804863,
-      "learning_rate": 1.549232773562539e-05,
-      "loss": 0.0218,
-      "step": 4050
-    },
-    {
-      "epoch": 7.765151515151516,
-      "grad_norm": 10.116546630859375,
-      "learning_rate": 1.5353466621906113e-05,
-      "loss": 0.0223,
-      "step": 4100
-    },
-    {
-      "epoch": 7.859848484848484,
-      "grad_norm": 0.06823263317346573,
-      "learning_rate": 1.5213143155552479e-05,
-      "loss": 0.0234,
-      "step": 4150
-    },
-    {
-      "epoch": 7.954545454545455,
-      "grad_norm": 0.10893430560827255,
-      "learning_rate": 1.5071395667314481e-05,
-      "loss": 0.0162,
-      "step": 4200
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.986936936936937,
-      "eval_loss": 0.05621395632624626,
-      "eval_runtime": 1.1546,
-      "eval_samples_per_second": 1922.822,
-      "eval_steps_per_second": 6.063,
-      "step": 4224
-    },
-    {
-      "epoch": 8.049242424242424,
-      "grad_norm": 3.010509967803955,
-      "learning_rate": 1.4928262876927855e-05,
-      "loss": 0.0255,
-      "step": 4250
-    },
-    {
-      "epoch": 8.143939393939394,
-      "grad_norm": 0.14104370772838593,
-      "learning_rate": 1.478378388253738e-05,
-      "loss": 0.0151,
-      "step": 4300
-    },
-    {
-      "epoch": 8.238636363636363,
-      "grad_norm": 0.05722634121775627,
-      "learning_rate": 1.4637998150016847e-05,
-      "loss": 0.0122,
-      "step": 4350
-    },
-    {
-      "epoch": 8.333333333333334,
-      "grad_norm": 0.0412001870572567,
-      "learning_rate": 1.4490945502188572e-05,
-      "loss": 0.02,
-      "step": 4400
-    },
-    {
-      "epoch": 8.428030303030303,
-      "grad_norm": 6.0322265625,
-      "learning_rate": 1.4342666107945362e-05,
-      "loss": 0.0112,
-      "step": 4450
-    },
-    {
-      "epoch": 8.522727272727273,
-      "grad_norm": 0.04742131009697914,
-      "learning_rate": 1.4193200471278019e-05,
-      "loss": 0.0095,
-      "step": 4500
-    },
-    {
-      "epoch": 8.617424242424242,
-      "grad_norm": 0.47154614329338074,
-      "learning_rate": 1.4042589420211254e-05,
-      "loss": 0.0182,
-      "step": 4550
-    },
-    {
-      "epoch": 8.712121212121213,
-      "grad_norm": 6.622648239135742,
-      "learning_rate": 1.3890874095651113e-05,
-      "loss": 0.0155,
-      "step": 4600
-    },
-    {
-      "epoch": 8.806818181818182,
-      "grad_norm": 0.6059552431106567,
-      "learning_rate": 1.3738095940146916e-05,
-      "loss": 0.0126,
-      "step": 4650
-    },
-    {
-      "epoch": 8.901515151515152,
-      "grad_norm": 0.7394792437553406,
-      "learning_rate": 1.3584296686570828e-05,
-      "loss": 0.0129,
-      "step": 4700
-    },
-    {
-      "epoch": 8.996212121212121,
-      "grad_norm": 0.03701222315430641,
-      "learning_rate": 1.3429518346718109e-05,
-      "loss": 0.0197,
-      "step": 4750
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.9891891891891892,
-      "eval_loss": 0.05412689596414566,
-      "eval_runtime": 0.9468,
-      "eval_samples_per_second": 2344.86,
-      "eval_steps_per_second": 7.394,
-      "step": 4752
-    }
-  ],
-  "logging_steps": 50,
-  "max_steps": 10560,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "EarlyStoppingCallback": {
-      "args": {
-        "early_stopping_patience": 2,
-        "early_stopping_threshold": 0.0
-      },
-      "attributes": {
-        "early_stopping_patience_counter": 2
-      }
-    },
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 9807783199587600.0,
-  "train_batch_size": 80,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-4752/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03e483228a10899db361a89a78f6d4c066e2522650debdb0af61e02a9f9faa73
-size 5905

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30438456f15a191a07f2afbfbc4a691c12406b1aebc1a73e3167a45e3be3387c
 size 442518104

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d4e71f248361094d73ece09b36ab275208ef3436f90a0b0951597e42a72341
 size 442518104

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03e483228a10899db361a89a78f6d4c066e2522650debdb0af61e02a9f9faa73
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9c47a27dab82cc7c6005a2d96f6c72daa67abe67559305a0271da3c32ac59a8
 size 5905