init v0.1.0

Browse files

Files changed (7) hide show

config.json +29 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +760 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": true,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.2",
+  "vocab_size": 32000
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:002eebd87f40fc8936783f9e427a1dccd7e7e60d762ca8721703299aedd71070
+size 272369900

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ef68dff28032e5acf3716fdc317320a4c4c0fb1ec9227a6de40216cd9e0d37d
+size 544799563

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:791590502d32babfec3e01cad84acac1a5c5f69449f6851db53f4aead2041f79
+size 14455

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88e67103b7bacb3746e8bd09a33738fe2674f4ced3f3c7714e2384f23492cdd4
+size 1465

trainer_state.json ADDED Viewed

	@@ -0,0 +1,760 @@

+{
+  "best_global_step": 1326,
+  "best_metric": 1.3003416061401367,
+  "best_model_checkpoint": "./results/checkpoint-1326",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 4420,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11312217194570136,
+      "grad_norm": 1.7515817880630493,
+      "learning_rate": 9.889140271493214e-06,
+      "loss": 1.9771,
+      "step": 50
+    },
+    {
+      "epoch": 0.22624434389140272,
+      "grad_norm": 0.3798021972179413,
+      "learning_rate": 9.776018099547512e-06,
+      "loss": 3.0565,
+      "step": 100
+    },
+    {
+      "epoch": 0.3393665158371041,
+      "grad_norm": 0.24794337153434753,
+      "learning_rate": 9.662895927601811e-06,
+      "loss": 3.1013,
+      "step": 150
+    },
+    {
+      "epoch": 0.45248868778280543,
+      "grad_norm": 0.13749714195728302,
+      "learning_rate": 9.54977375565611e-06,
+      "loss": 2.8378,
+      "step": 200
+    },
+    {
+      "epoch": 0.5656108597285068,
+      "grad_norm": 0.1238800510764122,
+      "learning_rate": 9.436651583710407e-06,
+      "loss": 2.1715,
+      "step": 250
+    },
+    {
+      "epoch": 0.6787330316742082,
+      "grad_norm": 0.24898090958595276,
+      "learning_rate": 9.323529411764707e-06,
+      "loss": 3.7122,
+      "step": 300
+    },
+    {
+      "epoch": 0.7918552036199095,
+      "grad_norm": 0.23299390077590942,
+      "learning_rate": 9.210407239819005e-06,
+      "loss": 2.6715,
+      "step": 350
+    },
+    {
+      "epoch": 0.9049773755656109,
+      "grad_norm": 0.07253708690404892,
+      "learning_rate": 9.097285067873303e-06,
+      "loss": 1.4325,
+      "step": 400
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.5660377358490566,
+      "eval_loss": 2.0750715732574463,
+      "eval_precision": 0.6818181818181818,
+      "eval_recall": 0.4838709677419355,
+      "eval_runtime": 8.6034,
+      "eval_samples_per_second": 205.499,
+      "eval_steps_per_second": 12.902,
+      "step": 442
+    },
+    {
+      "epoch": 1.0180995475113122,
+      "grad_norm": 223.5320281982422,
+      "learning_rate": 8.984162895927603e-06,
+      "loss": 2.09,
+      "step": 450
+    },
+    {
+      "epoch": 1.1312217194570136,
+      "grad_norm": 0.810788094997406,
+      "learning_rate": 8.8710407239819e-06,
+      "loss": 1.6058,
+      "step": 500
+    },
+    {
+      "epoch": 1.244343891402715,
+      "grad_norm": 0.12611542642116547,
+      "learning_rate": 8.7579185520362e-06,
+      "loss": 1.116,
+      "step": 550
+    },
+    {
+      "epoch": 1.3574660633484164,
+      "grad_norm": 0.0376112200319767,
+      "learning_rate": 8.644796380090498e-06,
+      "loss": 0.5762,
+      "step": 600
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 0.060051899403333664,
+      "learning_rate": 8.531674208144796e-06,
+      "loss": 2.5467,
+      "step": 650
+    },
+    {
+      "epoch": 1.5837104072398192,
+      "grad_norm": 0.07170303165912628,
+      "learning_rate": 8.418552036199096e-06,
+      "loss": 1.1257,
+      "step": 700
+    },
+    {
+      "epoch": 1.6968325791855203,
+      "grad_norm": 0.4100867211818695,
+      "learning_rate": 8.305429864253394e-06,
+      "loss": 2.1582,
+      "step": 750
+    },
+    {
+      "epoch": 1.8099547511312217,
+      "grad_norm": 0.034761942923069,
+      "learning_rate": 8.192307692307692e-06,
+      "loss": 1.2032,
+      "step": 800
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 0.07466017454862595,
+      "learning_rate": 8.079185520361992e-06,
+      "loss": 0.85,
+      "step": 850
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.5357142857142857,
+      "eval_loss": 1.7785077095031738,
+      "eval_precision": 0.6,
+      "eval_recall": 0.4838709677419355,
+      "eval_runtime": 8.5452,
+      "eval_samples_per_second": 206.9,
+      "eval_steps_per_second": 12.99,
+      "step": 884
+    },
+    {
+      "epoch": 2.0361990950226243,
+      "grad_norm": 0.07509780675172806,
+      "learning_rate": 7.96606334841629e-06,
+      "loss": 1.8895,
+      "step": 900
+    },
+    {
+      "epoch": 2.1493212669683257,
+      "grad_norm": 0.062317393720149994,
+      "learning_rate": 7.85294117647059e-06,
+      "loss": 0.5769,
+      "step": 950
+    },
+    {
+      "epoch": 2.262443438914027,
+      "grad_norm": 0.26913294196128845,
+      "learning_rate": 7.739819004524888e-06,
+      "loss": 1.0833,
+      "step": 1000
+    },
+    {
+      "epoch": 2.3755656108597285,
+      "grad_norm": 4.26383638381958,
+      "learning_rate": 7.626696832579186e-06,
+      "loss": 0.6466,
+      "step": 1050
+    },
+    {
+      "epoch": 2.48868778280543,
+      "grad_norm": 5.8240509033203125,
+      "learning_rate": 7.5135746606334844e-06,
+      "loss": 1.3183,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6018099547511313,
+      "grad_norm": 1.614251732826233,
+      "learning_rate": 7.400452488687784e-06,
+      "loss": 0.6002,
+      "step": 1150
+    },
+    {
+      "epoch": 2.7149321266968327,
+      "grad_norm": 0.018574368208646774,
+      "learning_rate": 7.287330316742081e-06,
+      "loss": 1.1073,
+      "step": 1200
+    },
+    {
+      "epoch": 2.8280542986425337,
+      "grad_norm": 1.8890864849090576,
+      "learning_rate": 7.174208144796381e-06,
+      "loss": 0.9746,
+      "step": 1250
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 1.8844258785247803,
+      "learning_rate": 7.06108597285068e-06,
+      "loss": 1.1957,
+      "step": 1300
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.6857142857142857,
+      "eval_loss": 1.3003416061401367,
+      "eval_precision": 0.6153846153846154,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.5419,
+      "eval_samples_per_second": 206.98,
+      "eval_steps_per_second": 12.995,
+      "step": 1326
+    },
+    {
+      "epoch": 3.0542986425339365,
+      "grad_norm": 0.02057269588112831,
+      "learning_rate": 6.947963800904978e-06,
+      "loss": 0.9242,
+      "step": 1350
+    },
+    {
+      "epoch": 3.167420814479638,
+      "grad_norm": 0.016314402222633362,
+      "learning_rate": 6.834841628959277e-06,
+      "loss": 1.1972,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2805429864253393,
+      "grad_norm": 0.016238074749708176,
+      "learning_rate": 6.7217194570135755e-06,
+      "loss": 0.5929,
+      "step": 1450
+    },
+    {
+      "epoch": 3.3936651583710407,
+      "grad_norm": 2.082648992538452,
+      "learning_rate": 6.6085972850678735e-06,
+      "loss": 0.0265,
+      "step": 1500
+    },
+    {
+      "epoch": 3.506787330316742,
+      "grad_norm": 17.545307159423828,
+      "learning_rate": 6.495475113122172e-06,
+      "loss": 1.7171,
+      "step": 1550
+    },
+    {
+      "epoch": 3.6199095022624435,
+      "grad_norm": 0.6719046831130981,
+      "learning_rate": 6.38235294117647e-06,
+      "loss": 0.0379,
+      "step": 1600
+    },
+    {
+      "epoch": 3.733031674208145,
+      "grad_norm": 3.1016860008239746,
+      "learning_rate": 6.26923076923077e-06,
+      "loss": 0.7337,
+      "step": 1650
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.12171656638383865,
+      "learning_rate": 6.156108597285069e-06,
+      "loss": 0.0274,
+      "step": 1700
+    },
+    {
+      "epoch": 3.9592760180995477,
+      "grad_norm": 3.5538485050201416,
+      "learning_rate": 6.042986425339367e-06,
+      "loss": 0.7957,
+      "step": 1750
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.6956521739130435,
+      "eval_loss": 1.482049822807312,
+      "eval_precision": 0.631578947368421,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.6318,
+      "eval_samples_per_second": 204.824,
+      "eval_steps_per_second": 12.859,
+      "step": 1768
+    },
+    {
+      "epoch": 4.072398190045249,
+      "grad_norm": 0.01248278096318245,
+      "learning_rate": 5.929864253393666e-06,
+      "loss": 0.7697,
+      "step": 1800
+    },
+    {
+      "epoch": 4.1855203619909505,
+      "grad_norm": 0.026634668931365013,
+      "learning_rate": 5.816742081447965e-06,
+      "loss": 0.9681,
+      "step": 1850
+    },
+    {
+      "epoch": 4.298642533936651,
+      "grad_norm": 0.011785144917666912,
+      "learning_rate": 5.703619909502263e-06,
+      "loss": 0.0388,
+      "step": 1900
+    },
+    {
+      "epoch": 4.411764705882353,
+      "grad_norm": 0.07407853752374649,
+      "learning_rate": 5.5904977375565615e-06,
+      "loss": 0.549,
+      "step": 1950
+    },
+    {
+      "epoch": 4.524886877828054,
+      "grad_norm": 0.4233396649360657,
+      "learning_rate": 5.47737556561086e-06,
+      "loss": 0.4991,
+      "step": 2000
+    },
+    {
+      "epoch": 4.638009049773755,
+      "grad_norm": 0.00987264234572649,
+      "learning_rate": 5.364253393665158e-06,
+      "loss": 0.0074,
+      "step": 2050
+    },
+    {
+      "epoch": 4.751131221719457,
+      "grad_norm": 0.08375240862369537,
+      "learning_rate": 5.251131221719458e-06,
+      "loss": 0.9549,
+      "step": 2100
+    },
+    {
+      "epoch": 4.864253393665159,
+      "grad_norm": 1.7564586400985718,
+      "learning_rate": 5.138009049773756e-06,
+      "loss": 0.5174,
+      "step": 2150
+    },
+    {
+      "epoch": 4.97737556561086,
+      "grad_norm": 0.21808204054832458,
+      "learning_rate": 5.024886877828055e-06,
+      "loss": 0.6401,
+      "step": 2200
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.6666666666666666,
+      "eval_loss": 1.3885061740875244,
+      "eval_precision": 0.5853658536585366,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.8942,
+      "eval_samples_per_second": 198.781,
+      "eval_steps_per_second": 12.48,
+      "step": 2210
+    },
+    {
+      "epoch": 5.090497737556561,
+      "grad_norm": 0.009224635548889637,
+      "learning_rate": 4.911764705882353e-06,
+      "loss": 0.2408,
+      "step": 2250
+    },
+    {
+      "epoch": 5.203619909502263,
+      "grad_norm": 0.14075350761413574,
+      "learning_rate": 4.7986425339366525e-06,
+      "loss": 0.1984,
+      "step": 2300
+    },
+    {
+      "epoch": 5.316742081447964,
+      "grad_norm": 0.011622537858784199,
+      "learning_rate": 4.6855203619909505e-06,
+      "loss": 0.334,
+      "step": 2350
+    },
+    {
+      "epoch": 5.429864253393665,
+      "grad_norm": 166.04515075683594,
+      "learning_rate": 4.572398190045249e-06,
+      "loss": 0.5887,
+      "step": 2400
+    },
+    {
+      "epoch": 5.542986425339366,
+      "grad_norm": 0.0077699883840978146,
+      "learning_rate": 4.459276018099548e-06,
+      "loss": 0.6319,
+      "step": 2450
+    },
+    {
+      "epoch": 5.656108597285068,
+      "grad_norm": 0.3266526758670807,
+      "learning_rate": 4.346153846153846e-06,
+      "loss": 0.0257,
+      "step": 2500
+    },
+    {
+      "epoch": 5.769230769230769,
+      "grad_norm": 0.007749281823635101,
+      "learning_rate": 4.233031674208145e-06,
+      "loss": 0.1457,
+      "step": 2550
+    },
+    {
+      "epoch": 5.882352941176471,
+      "grad_norm": 0.006045708432793617,
+      "learning_rate": 4.119909502262444e-06,
+      "loss": 0.3572,
+      "step": 2600
+    },
+    {
+      "epoch": 5.995475113122172,
+      "grad_norm": 0.010532204993069172,
+      "learning_rate": 4.006787330316743e-06,
+      "loss": 1.0198,
+      "step": 2650
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.631578947368421,
+      "eval_loss": 1.4059184789657593,
+      "eval_precision": 0.5333333333333333,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.5447,
+      "eval_samples_per_second": 206.912,
+      "eval_steps_per_second": 12.991,
+      "step": 2652
+    },
+    {
+      "epoch": 6.108597285067873,
+      "grad_norm": 0.010519157163798809,
+      "learning_rate": 3.893665158371041e-06,
+      "loss": 0.0923,
+      "step": 2700
+    },
+    {
+      "epoch": 6.221719457013575,
+      "grad_norm": 0.010456902906298637,
+      "learning_rate": 3.7805429864253396e-06,
+      "loss": 0.0487,
+      "step": 2750
+    },
+    {
+      "epoch": 6.334841628959276,
+      "grad_norm": 0.18975257873535156,
+      "learning_rate": 3.667420814479638e-06,
+      "loss": 0.0116,
+      "step": 2800
+    },
+    {
+      "epoch": 6.447963800904978,
+      "grad_norm": 25.184865951538086,
+      "learning_rate": 3.554298642533937e-06,
+      "loss": 0.1499,
+      "step": 2850
+    },
+    {
+      "epoch": 6.5610859728506785,
+      "grad_norm": 1.7686313390731812,
+      "learning_rate": 3.4411764705882358e-06,
+      "loss": 0.5646,
+      "step": 2900
+    },
+    {
+      "epoch": 6.67420814479638,
+      "grad_norm": 0.005733998026698828,
+      "learning_rate": 3.328054298642534e-06,
+      "loss": 0.4556,
+      "step": 2950
+    },
+    {
+      "epoch": 6.787330316742081,
+      "grad_norm": 2.235478639602661,
+      "learning_rate": 3.214932126696833e-06,
+      "loss": 0.0495,
+      "step": 3000
+    },
+    {
+      "epoch": 6.900452488687783,
+      "grad_norm": 0.014012620784342289,
+      "learning_rate": 3.1018099547511315e-06,
+      "loss": 0.9254,
+      "step": 3050
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.631578947368421,
+      "eval_loss": 1.4806020259857178,
+      "eval_precision": 0.5333333333333333,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.5485,
+      "eval_samples_per_second": 206.819,
+      "eval_steps_per_second": 12.985,
+      "step": 3094
+    },
+    {
+      "epoch": 7.013574660633484,
+      "grad_norm": 0.14705590903759003,
+      "learning_rate": 2.98868778280543e-06,
+      "loss": 0.2657,
+      "step": 3100
+    },
+    {
+      "epoch": 7.126696832579185,
+      "grad_norm": 0.01319128554314375,
+      "learning_rate": 2.8755656108597287e-06,
+      "loss": 0.0663,
+      "step": 3150
+    },
+    {
+      "epoch": 7.239819004524887,
+      "grad_norm": 0.006507423706352711,
+      "learning_rate": 2.7624434389140276e-06,
+      "loss": 0.4037,
+      "step": 3200
+    },
+    {
+      "epoch": 7.352941176470588,
+      "grad_norm": 0.006867765448987484,
+      "learning_rate": 2.649321266968326e-06,
+      "loss": 0.4015,
+      "step": 3250
+    },
+    {
+      "epoch": 7.46606334841629,
+      "grad_norm": 0.09424237906932831,
+      "learning_rate": 2.5361990950226244e-06,
+      "loss": 0.5639,
+      "step": 3300
+    },
+    {
+      "epoch": 7.579185520361991,
+      "grad_norm": 0.1817472279071808,
+      "learning_rate": 2.4230769230769233e-06,
+      "loss": 0.0205,
+      "step": 3350
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.006896049249917269,
+      "learning_rate": 2.309954751131222e-06,
+      "loss": 0.0364,
+      "step": 3400
+    },
+    {
+      "epoch": 7.8054298642533935,
+      "grad_norm": 0.005642372649163008,
+      "learning_rate": 2.1968325791855205e-06,
+      "loss": 0.5472,
+      "step": 3450
+    },
+    {
+      "epoch": 7.918552036199095,
+      "grad_norm": 0.21695345640182495,
+      "learning_rate": 2.0837104072398194e-06,
+      "loss": 0.3692,
+      "step": 3500
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.676056338028169,
+      "eval_loss": 1.7710559368133545,
+      "eval_precision": 0.6,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.516,
+      "eval_samples_per_second": 207.61,
+      "eval_steps_per_second": 13.034,
+      "step": 3536
+    },
+    {
+      "epoch": 8.031674208144796,
+      "grad_norm": 0.004109715577214956,
+      "learning_rate": 1.970588235294118e-06,
+      "loss": 0.0172,
+      "step": 3550
+    },
+    {
+      "epoch": 8.144796380090497,
+      "grad_norm": 0.07877568900585175,
+      "learning_rate": 1.8574660633484164e-06,
+      "loss": 0.0129,
+      "step": 3600
+    },
+    {
+      "epoch": 8.2579185520362,
+      "grad_norm": 0.004373373929411173,
+      "learning_rate": 1.744343891402715e-06,
+      "loss": 0.0199,
+      "step": 3650
+    },
+    {
+      "epoch": 8.371040723981901,
+      "grad_norm": 0.004394580144435167,
+      "learning_rate": 1.6312217194570137e-06,
+      "loss": 0.287,
+      "step": 3700
+    },
+    {
+      "epoch": 8.484162895927602,
+      "grad_norm": 2.0952539443969727,
+      "learning_rate": 1.5180995475113121e-06,
+      "loss": 0.0485,
+      "step": 3750
+    },
+    {
+      "epoch": 8.597285067873303,
+      "grad_norm": 1487.0665283203125,
+      "learning_rate": 1.404977375565611e-06,
+      "loss": 0.4402,
+      "step": 3800
+    },
+    {
+      "epoch": 8.710407239819004,
+      "grad_norm": 0.049724407494068146,
+      "learning_rate": 1.2918552036199098e-06,
+      "loss": 0.132,
+      "step": 3850
+    },
+    {
+      "epoch": 8.823529411764707,
+      "grad_norm": 0.00581687968224287,
+      "learning_rate": 1.1787330316742083e-06,
+      "loss": 0.4668,
+      "step": 3900
+    },
+    {
+      "epoch": 8.936651583710407,
+      "grad_norm": 0.0993039682507515,
+      "learning_rate": 1.065610859728507e-06,
+      "loss": 0.9671,
+      "step": 3950
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.6233766233766234,
+      "eval_loss": 1.410291075706482,
+      "eval_precision": 0.5217391304347826,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.5219,
+      "eval_samples_per_second": 207.465,
+      "eval_steps_per_second": 13.025,
+      "step": 3978
+    },
+    {
+      "epoch": 9.049773755656108,
+      "grad_norm": 0.01741698570549488,
+      "learning_rate": 9.524886877828054e-07,
+      "loss": 0.0967,
+      "step": 4000
+    },
+    {
+      "epoch": 9.16289592760181,
+      "grad_norm": 0.005097161512821913,
+      "learning_rate": 8.393665158371041e-07,
+      "loss": 0.0198,
+      "step": 4050
+    },
+    {
+      "epoch": 9.276018099547512,
+      "grad_norm": 0.005087696015834808,
+      "learning_rate": 7.262443438914028e-07,
+      "loss": 1.2565,
+      "step": 4100
+    },
+    {
+      "epoch": 9.389140271493213,
+      "grad_norm": 0.009162843227386475,
+      "learning_rate": 6.131221719457013e-07,
+      "loss": 0.0169,
+      "step": 4150
+    },
+    {
+      "epoch": 9.502262443438914,
+      "grad_norm": 0.01073523424565792,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.0172,
+      "step": 4200
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 0.004071434028446674,
+      "learning_rate": 3.8687782805429867e-07,
+      "loss": 0.2068,
+      "step": 4250
+    },
+    {
+      "epoch": 9.728506787330316,
+      "grad_norm": 0.0037068105302751064,
+      "learning_rate": 2.737556561085973e-07,
+      "loss": 0.0234,
+      "step": 4300
+    },
+    {
+      "epoch": 9.841628959276019,
+      "grad_norm": 0.0037418717984110117,
+      "learning_rate": 1.606334841628959e-07,
+      "loss": 0.1985,
+      "step": 4350
+    },
+    {
+      "epoch": 9.95475113122172,
+      "grad_norm": 0.0032976313959807158,
+      "learning_rate": 4.751131221719457e-08,
+      "loss": 0.0612,
+      "step": 4400
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.6233766233766234,
+      "eval_loss": 1.7046259641647339,
+      "eval_precision": 0.5217391304347826,
+      "eval_recall": 0.7741935483870968,
+      "eval_runtime": 8.423,
+      "eval_samples_per_second": 209.903,
+      "eval_steps_per_second": 13.178,
+      "step": 4420
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4420,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2341319516390400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a0c3ebf3358e5bf13ee595da0d31aa1e4508ec78599024e35c7f029521294c6
+size 5713