Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

checkpoint-4869/config.json +26 -0
checkpoint-4869/model.safetensors +3 -0
checkpoint-4869/optimizer.pt +3 -0
checkpoint-4869/rng_state.pth +3 -0
checkpoint-4869/scheduler.pt +3 -0
checkpoint-4869/special_tokens_map.json +7 -0
checkpoint-4869/tokenizer.json +0 -0
checkpoint-4869/tokenizer_config.json +56 -0
checkpoint-4869/trainer_state.json +742 -0
checkpoint-4869/training_args.bin +3 -0
checkpoint-4869/vocab.txt +0 -0
config.json +26 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +56 -0
vocab.txt +0 -0

checkpoint-4869/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

checkpoint-4869/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2dc1a034fc94f3ba1ade1a879613bfe896c3069f8f2586e9b2dd85aabc8d687
+size 541317368

checkpoint-4869/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89bff5bf1678b79658f22adcb363b05ee9952aa08dcd853472fc486982076e19
+size 1082696890

checkpoint-4869/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5922254a568679b10af963b3b855e6ca274e9e9099d2e30915bca951a4bbd620
+size 14244

checkpoint-4869/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eacc40b7c65dbbb072f5857b7428d653eaf2c4eab5e6a3120a3fd798961ec10e
+size 1064

checkpoint-4869/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-4869/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4869/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-4869/trainer_state.json ADDED Viewed

	@@ -0,0 +1,742 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4869,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.030807147258163893,
+      "grad_norm": 0.8413804173469543,
+      "learning_rate": 4.948654754569727e-05,
+      "loss": 0.6254,
+      "step": 50
+    },
+    {
+      "epoch": 0.061614294516327786,
+      "grad_norm": 0.8895371556282043,
+      "learning_rate": 4.8973095091394537e-05,
+      "loss": 0.6182,
+      "step": 100
+    },
+    {
+      "epoch": 0.09242144177449169,
+      "grad_norm": 0.8498105406761169,
+      "learning_rate": 4.845964263709181e-05,
+      "loss": 0.6218,
+      "step": 150
+    },
+    {
+      "epoch": 0.12322858903265557,
+      "grad_norm": 0.5705401301383972,
+      "learning_rate": 4.794619018278908e-05,
+      "loss": 0.6157,
+      "step": 200
+    },
+    {
+      "epoch": 0.15403573629081946,
+      "grad_norm": 0.4433952271938324,
+      "learning_rate": 4.743273772848634e-05,
+      "loss": 0.62,
+      "step": 250
+    },
+    {
+      "epoch": 0.18484288354898337,
+      "grad_norm": 0.6152193546295166,
+      "learning_rate": 4.691928527418361e-05,
+      "loss": 0.6155,
+      "step": 300
+    },
+    {
+      "epoch": 0.21565003080714726,
+      "grad_norm": 0.6297628879547119,
+      "learning_rate": 4.640583281988088e-05,
+      "loss": 0.6052,
+      "step": 350
+    },
+    {
+      "epoch": 0.24645717806531114,
+      "grad_norm": 1.396401047706604,
+      "learning_rate": 4.5892380365578146e-05,
+      "loss": 0.6109,
+      "step": 400
+    },
+    {
+      "epoch": 0.27726432532347506,
+      "grad_norm": 0.8087674975395203,
+      "learning_rate": 4.537892791127542e-05,
+      "loss": 0.6189,
+      "step": 450
+    },
+    {
+      "epoch": 0.3080714725816389,
+      "grad_norm": 0.6552234888076782,
+      "learning_rate": 4.486547545697269e-05,
+      "loss": 0.6038,
+      "step": 500
+    },
+    {
+      "epoch": 0.33887861983980283,
+      "grad_norm": 0.705816388130188,
+      "learning_rate": 4.435202300266996e-05,
+      "loss": 0.5924,
+      "step": 550
+    },
+    {
+      "epoch": 0.36968576709796674,
+      "grad_norm": 0.7386820912361145,
+      "learning_rate": 4.383857054836723e-05,
+      "loss": 0.6001,
+      "step": 600
+    },
+    {
+      "epoch": 0.4004929143561306,
+      "grad_norm": 0.5741195678710938,
+      "learning_rate": 4.332511809406449e-05,
+      "loss": 0.605,
+      "step": 650
+    },
+    {
+      "epoch": 0.4313000616142945,
+      "grad_norm": 1.0655230283737183,
+      "learning_rate": 4.281166563976176e-05,
+      "loss": 0.611,
+      "step": 700
+    },
+    {
+      "epoch": 0.46210720887245843,
+      "grad_norm": 0.8722517490386963,
+      "learning_rate": 4.2298213185459026e-05,
+      "loss": 0.6034,
+      "step": 750
+    },
+    {
+      "epoch": 0.4929143561306223,
+      "grad_norm": 1.067927360534668,
+      "learning_rate": 4.1784760731156296e-05,
+      "loss": 0.5969,
+      "step": 800
+    },
+    {
+      "epoch": 0.5237215033887862,
+      "grad_norm": 0.6687670350074768,
+      "learning_rate": 4.127130827685357e-05,
+      "loss": 0.5942,
+      "step": 850
+    },
+    {
+      "epoch": 0.5545286506469501,
+      "grad_norm": 0.5344964861869812,
+      "learning_rate": 4.075785582255083e-05,
+      "loss": 0.6074,
+      "step": 900
+    },
+    {
+      "epoch": 0.585335797905114,
+      "grad_norm": 1.381353497505188,
+      "learning_rate": 4.02444033682481e-05,
+      "loss": 0.5867,
+      "step": 950
+    },
+    {
+      "epoch": 0.6161429451632778,
+      "grad_norm": 1.152223825454712,
+      "learning_rate": 3.973095091394537e-05,
+      "loss": 0.5978,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6469500924214417,
+      "grad_norm": 0.6478285193443298,
+      "learning_rate": 3.9217498459642635e-05,
+      "loss": 0.5964,
+      "step": 1050
+    },
+    {
+      "epoch": 0.6777572396796057,
+      "grad_norm": 0.5611660480499268,
+      "learning_rate": 3.8704046005339906e-05,
+      "loss": 0.6018,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7085643869377696,
+      "grad_norm": 1.0561463832855225,
+      "learning_rate": 3.8190593551037176e-05,
+      "loss": 0.5934,
+      "step": 1150
+    },
+    {
+      "epoch": 0.7393715341959335,
+      "grad_norm": 0.6724879741668701,
+      "learning_rate": 3.767714109673444e-05,
+      "loss": 0.596,
+      "step": 1200
+    },
+    {
+      "epoch": 0.7701786814540974,
+      "grad_norm": 0.74288010597229,
+      "learning_rate": 3.716368864243171e-05,
+      "loss": 0.5967,
+      "step": 1250
+    },
+    {
+      "epoch": 0.8009858287122612,
+      "grad_norm": 0.5019825100898743,
+      "learning_rate": 3.665023618812898e-05,
+      "loss": 0.607,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8317929759704251,
+      "grad_norm": 0.5708956718444824,
+      "learning_rate": 3.613678373382625e-05,
+      "loss": 0.5914,
+      "step": 1350
+    },
+    {
+      "epoch": 0.862600123228589,
+      "grad_norm": 0.7714687585830688,
+      "learning_rate": 3.562333127952352e-05,
+      "loss": 0.5956,
+      "step": 1400
+    },
+    {
+      "epoch": 0.893407270486753,
+      "grad_norm": 0.5472440123558044,
+      "learning_rate": 3.5109878825220786e-05,
+      "loss": 0.595,
+      "step": 1450
+    },
+    {
+      "epoch": 0.9242144177449169,
+      "grad_norm": 0.6139542460441589,
+      "learning_rate": 3.4596426370918056e-05,
+      "loss": 0.5856,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9550215650030807,
+      "grad_norm": 0.9097696542739868,
+      "learning_rate": 3.4082973916615327e-05,
+      "loss": 0.5799,
+      "step": 1550
+    },
+    {
+      "epoch": 0.9858287122612446,
+      "grad_norm": 0.6651259660720825,
+      "learning_rate": 3.356952146231259e-05,
+      "loss": 0.6113,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6870184899845917,
+      "eval_f1": 0.3470224222454392,
+      "eval_loss": 0.5951406359672546,
+      "eval_runtime": 182.7287,
+      "eval_samples_per_second": 142.069,
+      "eval_steps_per_second": 2.222,
+      "step": 1623
+    },
+    {
+      "epoch": 1.0166358595194085,
+      "grad_norm": 0.8712685108184814,
+      "learning_rate": 3.305606900800986e-05,
+      "loss": 0.5899,
+      "step": 1650
+    },
+    {
+      "epoch": 1.0474430067775724,
+      "grad_norm": 0.8138744235038757,
+      "learning_rate": 3.254261655370713e-05,
+      "loss": 0.5791,
+      "step": 1700
+    },
+    {
+      "epoch": 1.0782501540357363,
+      "grad_norm": 0.6202666759490967,
+      "learning_rate": 3.2029164099404395e-05,
+      "loss": 0.5763,
+      "step": 1750
+    },
+    {
+      "epoch": 1.1090573012939002,
+      "grad_norm": 0.9712618589401245,
+      "learning_rate": 3.1515711645101665e-05,
+      "loss": 0.5755,
+      "step": 1800
+    },
+    {
+      "epoch": 1.1398644485520641,
+      "grad_norm": 0.75148606300354,
+      "learning_rate": 3.100225919079893e-05,
+      "loss": 0.5805,
+      "step": 1850
+    },
+    {
+      "epoch": 1.170671595810228,
+      "grad_norm": 0.9125542044639587,
+      "learning_rate": 3.04888067364962e-05,
+      "loss": 0.5953,
+      "step": 1900
+    },
+    {
+      "epoch": 1.201478743068392,
+      "grad_norm": 0.6646100878715515,
+      "learning_rate": 2.997535428219347e-05,
+      "loss": 0.5863,
+      "step": 1950
+    },
+    {
+      "epoch": 1.2322858903265557,
+      "grad_norm": 0.8849004507064819,
+      "learning_rate": 2.9461901827890737e-05,
+      "loss": 0.5774,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2630930375847196,
+      "grad_norm": 0.615292489528656,
+      "learning_rate": 2.8948449373588004e-05,
+      "loss": 0.5721,
+      "step": 2050
+    },
+    {
+      "epoch": 1.2939001848428835,
+      "grad_norm": 0.605387806892395,
+      "learning_rate": 2.8434996919285278e-05,
+      "loss": 0.5841,
+      "step": 2100
+    },
+    {
+      "epoch": 1.3247073321010474,
+      "grad_norm": 0.579868495464325,
+      "learning_rate": 2.7921544464982545e-05,
+      "loss": 0.5777,
+      "step": 2150
+    },
+    {
+      "epoch": 1.3555144793592113,
+      "grad_norm": 0.9773715138435364,
+      "learning_rate": 2.7408092010679816e-05,
+      "loss": 0.5824,
+      "step": 2200
+    },
+    {
+      "epoch": 1.3863216266173752,
+      "grad_norm": 0.7113815546035767,
+      "learning_rate": 2.6894639556377083e-05,
+      "loss": 0.5898,
+      "step": 2250
+    },
+    {
+      "epoch": 1.4171287738755391,
+      "grad_norm": 0.8966727256774902,
+      "learning_rate": 2.638118710207435e-05,
+      "loss": 0.5761,
+      "step": 2300
+    },
+    {
+      "epoch": 1.447935921133703,
+      "grad_norm": 0.8858876824378967,
+      "learning_rate": 2.5867734647771617e-05,
+      "loss": 0.5828,
+      "step": 2350
+    },
+    {
+      "epoch": 1.478743068391867,
+      "grad_norm": 0.8401291966438293,
+      "learning_rate": 2.5354282193468888e-05,
+      "loss": 0.5934,
+      "step": 2400
+    },
+    {
+      "epoch": 1.5095502156500307,
+      "grad_norm": 0.6061798930168152,
+      "learning_rate": 2.4840829739166155e-05,
+      "loss": 0.5764,
+      "step": 2450
+    },
+    {
+      "epoch": 1.5403573629081948,
+      "grad_norm": 0.7705461382865906,
+      "learning_rate": 2.4327377284863422e-05,
+      "loss": 0.5822,
+      "step": 2500
+    },
+    {
+      "epoch": 1.5711645101663585,
+      "grad_norm": 0.8041555881500244,
+      "learning_rate": 2.3813924830560692e-05,
+      "loss": 0.5922,
+      "step": 2550
+    },
+    {
+      "epoch": 1.6019716574245226,
+      "grad_norm": 0.48748356103897095,
+      "learning_rate": 2.330047237625796e-05,
+      "loss": 0.5859,
+      "step": 2600
+    },
+    {
+      "epoch": 1.6327788046826863,
+      "grad_norm": 0.6026128530502319,
+      "learning_rate": 2.2787019921955226e-05,
+      "loss": 0.5857,
+      "step": 2650
+    },
+    {
+      "epoch": 1.6635859519408502,
+      "grad_norm": 0.8907531499862671,
+      "learning_rate": 2.2273567467652497e-05,
+      "loss": 0.5753,
+      "step": 2700
+    },
+    {
+      "epoch": 1.6943930991990142,
+      "grad_norm": 1.0833817720413208,
+      "learning_rate": 2.1760115013349767e-05,
+      "loss": 0.5872,
+      "step": 2750
+    },
+    {
+      "epoch": 1.725200246457178,
+      "grad_norm": 0.5048693418502808,
+      "learning_rate": 2.1246662559047035e-05,
+      "loss": 0.5808,
+      "step": 2800
+    },
+    {
+      "epoch": 1.756007393715342,
+      "grad_norm": 0.6286513209342957,
+      "learning_rate": 2.07332101047443e-05,
+      "loss": 0.5826,
+      "step": 2850
+    },
+    {
+      "epoch": 1.786814540973506,
+      "grad_norm": 0.9262789487838745,
+      "learning_rate": 2.021975765044157e-05,
+      "loss": 0.5818,
+      "step": 2900
+    },
+    {
+      "epoch": 1.8176216882316698,
+      "grad_norm": 0.7718830704689026,
+      "learning_rate": 1.970630519613884e-05,
+      "loss": 0.5878,
+      "step": 2950
+    },
+    {
+      "epoch": 1.8484288354898335,
+      "grad_norm": 0.8999438881874084,
+      "learning_rate": 1.9192852741836106e-05,
+      "loss": 0.5746,
+      "step": 3000
+    },
+    {
+      "epoch": 1.8792359827479976,
+      "grad_norm": 0.5566578507423401,
+      "learning_rate": 1.8679400287533373e-05,
+      "loss": 0.5778,
+      "step": 3050
+    },
+    {
+      "epoch": 1.9100431300061613,
+      "grad_norm": 1.171489953994751,
+      "learning_rate": 1.8165947833230644e-05,
+      "loss": 0.5806,
+      "step": 3100
+    },
+    {
+      "epoch": 1.9408502772643255,
+      "grad_norm": 0.6422250866889954,
+      "learning_rate": 1.7652495378927914e-05,
+      "loss": 0.5975,
+      "step": 3150
+    },
+    {
+      "epoch": 1.9716574245224892,
+      "grad_norm": 1.3185786008834839,
+      "learning_rate": 1.713904292462518e-05,
+      "loss": 0.574,
+      "step": 3200
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6854006163328197,
+      "eval_f1": 0.37727792603888677,
+      "eval_loss": 0.5936052799224854,
+      "eval_runtime": 183.2044,
+      "eval_samples_per_second": 141.7,
+      "eval_steps_per_second": 2.216,
+      "step": 3246
+    },
+    {
+      "epoch": 2.0024645717806533,
+      "grad_norm": 0.6023927330970764,
+      "learning_rate": 1.662559047032245e-05,
+      "loss": 0.5813,
+      "step": 3250
+    },
+    {
+      "epoch": 2.033271719038817,
+      "grad_norm": 0.7293614745140076,
+      "learning_rate": 1.611213801601972e-05,
+      "loss": 0.5615,
+      "step": 3300
+    },
+    {
+      "epoch": 2.064078866296981,
+      "grad_norm": 0.6881064772605896,
+      "learning_rate": 1.5598685561716986e-05,
+      "loss": 0.566,
+      "step": 3350
+    },
+    {
+      "epoch": 2.094886013555145,
+      "grad_norm": 1.230314016342163,
+      "learning_rate": 1.5085233107414253e-05,
+      "loss": 0.567,
+      "step": 3400
+    },
+    {
+      "epoch": 2.1256931608133085,
+      "grad_norm": 1.237333059310913,
+      "learning_rate": 1.4571780653111522e-05,
+      "loss": 0.5694,
+      "step": 3450
+    },
+    {
+      "epoch": 2.1565003080714726,
+      "grad_norm": 0.7606936693191528,
+      "learning_rate": 1.405832819880879e-05,
+      "loss": 0.5794,
+      "step": 3500
+    },
+    {
+      "epoch": 2.1873074553296363,
+      "grad_norm": 0.811718225479126,
+      "learning_rate": 1.3544875744506058e-05,
+      "loss": 0.5684,
+      "step": 3550
+    },
+    {
+      "epoch": 2.2181146025878005,
+      "grad_norm": 0.8104314804077148,
+      "learning_rate": 1.3031423290203328e-05,
+      "loss": 0.5698,
+      "step": 3600
+    },
+    {
+      "epoch": 2.248921749845964,
+      "grad_norm": 1.2725473642349243,
+      "learning_rate": 1.2517970835900597e-05,
+      "loss": 0.5701,
+      "step": 3650
+    },
+    {
+      "epoch": 2.2797288971041283,
+      "grad_norm": 0.8804383277893066,
+      "learning_rate": 1.2004518381597864e-05,
+      "loss": 0.5632,
+      "step": 3700
+    },
+    {
+      "epoch": 2.310536044362292,
+      "grad_norm": 0.6673324108123779,
+      "learning_rate": 1.1491065927295133e-05,
+      "loss": 0.5719,
+      "step": 3750
+    },
+    {
+      "epoch": 2.341343191620456,
+      "grad_norm": 0.7855513691902161,
+      "learning_rate": 1.0977613472992402e-05,
+      "loss": 0.5786,
+      "step": 3800
+    },
+    {
+      "epoch": 2.37215033887862,
+      "grad_norm": 0.730636477470398,
+      "learning_rate": 1.0464161018689669e-05,
+      "loss": 0.5698,
+      "step": 3850
+    },
+    {
+      "epoch": 2.402957486136784,
+      "grad_norm": 0.8906323909759521,
+      "learning_rate": 9.95070856438694e-06,
+      "loss": 0.5727,
+      "step": 3900
+    },
+    {
+      "epoch": 2.4337646333949476,
+      "grad_norm": 0.689626932144165,
+      "learning_rate": 9.437256110084207e-06,
+      "loss": 0.5616,
+      "step": 3950
+    },
+    {
+      "epoch": 2.4645717806531113,
+      "grad_norm": 1.2123029232025146,
+      "learning_rate": 8.923803655781475e-06,
+      "loss": 0.5435,
+      "step": 4000
+    },
+    {
+      "epoch": 2.4953789279112755,
+      "grad_norm": 0.9665613770484924,
+      "learning_rate": 8.410351201478742e-06,
+      "loss": 0.5723,
+      "step": 4050
+    },
+    {
+      "epoch": 2.526186075169439,
+      "grad_norm": 0.673569917678833,
+      "learning_rate": 7.896898747176013e-06,
+      "loss": 0.5641,
+      "step": 4100
+    },
+    {
+      "epoch": 2.5569932224276033,
+      "grad_norm": 0.8823952078819275,
+      "learning_rate": 7.383446292873281e-06,
+      "loss": 0.5749,
+      "step": 4150
+    },
+    {
+      "epoch": 2.587800369685767,
+      "grad_norm": 0.755225658416748,
+      "learning_rate": 6.869993838570549e-06,
+      "loss": 0.5698,
+      "step": 4200
+    },
+    {
+      "epoch": 2.618607516943931,
+      "grad_norm": 0.7433829307556152,
+      "learning_rate": 6.356541384267817e-06,
+      "loss": 0.5728,
+      "step": 4250
+    },
+    {
+      "epoch": 2.649414664202095,
+      "grad_norm": 0.7045505046844482,
+      "learning_rate": 5.843088929965086e-06,
+      "loss": 0.5788,
+      "step": 4300
+    },
+    {
+      "epoch": 2.6802218114602585,
+      "grad_norm": 0.8876537084579468,
+      "learning_rate": 5.3296364756623535e-06,
+      "loss": 0.5548,
+      "step": 4350
+    },
+    {
+      "epoch": 2.7110289587184226,
+      "grad_norm": 0.9181818962097168,
+      "learning_rate": 4.816184021359622e-06,
+      "loss": 0.5681,
+      "step": 4400
+    },
+    {
+      "epoch": 2.741836105976587,
+      "grad_norm": 0.6883150339126587,
+      "learning_rate": 4.30273156705689e-06,
+      "loss": 0.5623,
+      "step": 4450
+    },
+    {
+      "epoch": 2.7726432532347505,
+      "grad_norm": 0.8438022136688232,
+      "learning_rate": 3.789279112754159e-06,
+      "loss": 0.5549,
+      "step": 4500
+    },
+    {
+      "epoch": 2.803450400492914,
+      "grad_norm": 0.7179750204086304,
+      "learning_rate": 3.2758266584514275e-06,
+      "loss": 0.574,
+      "step": 4550
+    },
+    {
+      "epoch": 2.8342575477510783,
+      "grad_norm": 0.8070858716964722,
+      "learning_rate": 2.7623742041486962e-06,
+      "loss": 0.5529,
+      "step": 4600
+    },
+    {
+      "epoch": 2.865064695009242,
+      "grad_norm": 1.1926172971725464,
+      "learning_rate": 2.2489217498459646e-06,
+      "loss": 0.5781,
+      "step": 4650
+    },
+    {
+      "epoch": 2.895871842267406,
+      "grad_norm": 0.6364499926567078,
+      "learning_rate": 1.735469295543233e-06,
+      "loss": 0.5745,
+      "step": 4700
+    },
+    {
+      "epoch": 2.92667898952557,
+      "grad_norm": 1.107398509979248,
+      "learning_rate": 1.2220168412405011e-06,
+      "loss": 0.5785,
+      "step": 4750
+    },
+    {
+      "epoch": 2.957486136783734,
+      "grad_norm": 1.8869876861572266,
+      "learning_rate": 7.085643869377696e-07,
+      "loss": 0.5667,
+      "step": 4800
+    },
+    {
+      "epoch": 2.9882932840418976,
+      "grad_norm": 0.6402796506881714,
+      "learning_rate": 1.9511193263503802e-07,
+      "loss": 0.5626,
+      "step": 4850
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6842064714946071,
+      "eval_f1": 0.3815630657815329,
+      "eval_loss": 0.5975381731987,
+      "eval_runtime": 178.1316,
+      "eval_samples_per_second": 145.735,
+      "eval_steps_per_second": 2.279,
+      "step": 4869
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4869,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.126624402931712e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4869/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:216272edf196d9a6abebbc3a50312cbe271d02b69b3998f776cc104790711eae
+size 5304

checkpoint-4869/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-multilingual-cased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "vocab_size": 119547
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2dc1a034fc94f3ba1ade1a879613bfe896c3069f8f2586e9b2dd85aabc8d687
+size 541317368

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff