morpheuslord
/

rewrite

@@ -14,3 +14,45 @@ logs/events.out.tfevents.1777738485.bazzite.226596.0 filter=lfs diff=lfs merge=l
 logs/events.out.tfevents.1777790308.bazzite.14979.0 filter=lfs diff=lfs merge=lfs -text
 logs/events.out.tfevents.1777785111.bazzite.5847.0 filter=lfs diff=lfs merge=lfs -text
 logs/events.out.tfevents.1777790600.bazzite.19895.0 filter=lfs diff=lfs merge=lfs -text

 logs/events.out.tfevents.1777790308.bazzite.14979.0 filter=lfs diff=lfs merge=lfs -text
 logs/events.out.tfevents.1777785111.bazzite.5847.0 filter=lfs diff=lfs merge=lfs -text
 logs/events.out.tfevents.1777790600.bazzite.19895.0 filter=lfs diff=lfs merge=lfs -text
+logs/events.out.tfevents.1777790432.bazzite.18166.0 filter=lfs diff=lfs merge=lfs -text
+logs/events.out.tfevents.1777791700.bazzite.29722.0 filter=lfs diff=lfs merge=lfs -text
+logs/events.out.tfevents.1777792299.bazzite.34388.0 filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260502_150043-2fg22e6p/run-2fg22e6p.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260502_192151-h1jq4pkw/run-h1jq4pkw.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260502_200514-kl2gg5g9/run-kl2gg5g9.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260502_165926-36ppiwlg/run-36ppiwlg.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260502_204834-03roqvb7/run-03roqvb7.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260503_104137-zjr4w5ln/run-zjr4w5ln.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260503_123131-4y9tqaim/run-4y9tqaim.wandb filter=lfs diff=lfs merge=lfs -text
+wandb/run-20260503_124131-7q4dwe22/run-7q4dwe22.wandb filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/writing_prompts/data-00001-of-00002.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/writing_prompts/data-00000-of-00002.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00024-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/starblasters8/data.csv filter=lfs diff=lfs merge=lfs -text
+data/raw/fce_v2.1.bea19.tar.gz filter=lfs diff=lfs merge=lfs -text
+data/raw/wi+locness_v2.1.bea19.tar.gz filter=lfs diff=lfs merge=lfs -text
+data/processed/train.jsonl filter=lfs diff=lfs merge=lfs -text
+data/raw/jfleg_repo/EACLshort037.pdf filter=lfs diff=lfs merge=lfs -text
+data/raw/starblasters8/distribution.parquet filter=lfs diff=lfs merge=lfs -text
+data/raw/starblasters8/prompts.parquet filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/paws/data-00000-of-00001.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00001-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00002-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/mage/data-00000-of-00001.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/gpt_wiki_intro/data-00000-of-00001.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00000-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00004-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00003-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00005-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00007-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00008-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00010-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/shanegerami/AI_Human.csv filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00011-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00006-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00012-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/starblasters8/data.parquet filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00009-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00015-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00014-of-00025.arrow filter=lfs diff=lfs merge=lfs -text
+data/raw/hf/raid/data-00017-of-00025.arrow filter=lfs diff=lfs merge=lfs -text

checkpoints/checkpoint-1515/trainer_state.json CHANGED Viewed

@@ -1,574 +1,3 @@
-{
-  "best_global_step": 1300,
-  "best_metric": 1.4053895473480225,
-  "best_model_checkpoint": "checkpoints/checkpoint-1300",
-  "epoch": 5.0,
-  "eval_steps": 100,
-  "global_step": 1515,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.08264462809917356,
-      "grad_norm": 0.9776630997657776,
-      "learning_rate": 9.473684210526315e-05,
-      "loss": 14.8076,
-      "step": 25
-    },
-    {
-      "epoch": 0.1652892561983471,
-      "grad_norm": 0.8765299916267395,
-      "learning_rate": 0.00019342105263157894,
-      "loss": 14.3984,
-      "step": 50
-    },
-    {
-      "epoch": 0.24793388429752067,
-      "grad_norm": 1.0470659732818604,
-      "learning_rate": 0.0002921052631578947,
-      "loss": 13.8088,
-      "step": 75
-    },
-    {
-      "epoch": 0.3305785123966942,
-      "grad_norm": 0.8377240896224976,
-      "learning_rate": 0.0002998109381774427,
-      "loss": 13.4818,
-      "step": 100
-    },
-    {
-      "epoch": 0.3305785123966942,
-      "eval_loss": 1.5258959531784058,
-      "eval_runtime": 44.5888,
-      "eval_samples_per_second": 18.816,
-      "eval_steps_per_second": 2.355,
-      "step": 100
-    },
-    {
-      "epoch": 0.4132231404958678,
-      "grad_norm": 0.9031451940536499,
-      "learning_rate": 0.0002991771428891996,
-      "loss": 13.0253,
-      "step": 125
-    },
-    {
-      "epoch": 0.49586776859504134,
-      "grad_norm": 1.3265438079833984,
-      "learning_rate": 0.00029809907181205865,
-      "loss": 12.7368,
-      "step": 150
-    },
-    {
-      "epoch": 0.5785123966942148,
-      "grad_norm": 1.1032358407974243,
-      "learning_rate": 0.00029657993563144406,
-      "loss": 13.0546,
-      "step": 175
-    },
-    {
-      "epoch": 0.6611570247933884,
-      "grad_norm": 1.085852861404419,
-      "learning_rate": 0.00029462425860229204,
-      "loss": 12.6614,
-      "step": 200
-    },
-    {
-      "epoch": 0.6611570247933884,
-      "eval_loss": 1.4710893630981445,
-      "eval_runtime": 20.3316,
-      "eval_samples_per_second": 41.266,
-      "eval_steps_per_second": 5.164,
-      "step": 200
-    },
-    {
-      "epoch": 0.743801652892562,
-      "grad_norm": 1.010011076927185,
-      "learning_rate": 0.00029223786507502327,
-      "loss": 12.687,
-      "step": 225
-    },
-    {
-      "epoch": 0.8264462809917356,
-      "grad_norm": 1.0375562906265259,
-      "learning_rate": 0.00028942786214960245,
-      "loss": 12.7898,
-      "step": 250
-    },
-    {
-      "epoch": 0.9090909090909091,
-      "grad_norm": 1.092232584953308,
-      "learning_rate": 0.00028620261850934335,
-      "loss": 12.5906,
-      "step": 275
-    },
-    {
-      "epoch": 0.9917355371900827,
-      "grad_norm": 1.353973388671875,
-      "learning_rate": 0.000282571739497497,
-      "loss": 12.477,
-      "step": 300
-    },
-    {
-      "epoch": 0.9917355371900827,
-      "eval_loss": 1.4449142217636108,
-      "eval_runtime": 20.1604,
-      "eval_samples_per_second": 41.616,
-      "eval_steps_per_second": 5.208,
-      "step": 300
-    },
-    {
-      "epoch": 1.0727272727272728,
-      "grad_norm": 1.1319797039031982,
-      "learning_rate": 0.0002785460385108489,
-      "loss": 12.342,
-      "step": 325
-    },
-    {
-      "epoch": 1.1553719008264463,
-      "grad_norm": 1.1007564067840576,
-      "learning_rate": 0.0002741375047955198,
-      "loss": 12.239,
-      "step": 350
-    },
-    {
-      "epoch": 1.2380165289256198,
-      "grad_norm": 1.1579365730285645,
-      "learning_rate": 0.000269359267740881,
-      "loss": 12.4161,
-      "step": 375
-    },
-    {
-      "epoch": 1.3206611570247935,
-      "grad_norm": 1.2810680866241455,
-      "learning_rate": 0.0002642255577779212,
-      "loss": 12.3898,
-      "step": 400
-    },
-    {
-      "epoch": 1.3206611570247935,
-      "eval_loss": 1.4367592334747314,
-      "eval_runtime": 17.2935,
-      "eval_samples_per_second": 48.515,
-      "eval_steps_per_second": 6.072,
-      "step": 400
-    },
-    {
-      "epoch": 1.403305785123967,
-      "grad_norm": 1.1732923984527588,
-      "learning_rate": 0.0002587516639985186,
-      "loss": 12.1514,
-      "step": 425
-    },
-    {
-      "epoch": 1.4859504132231405,
-      "grad_norm": 1.2293694019317627,
-      "learning_rate": 0.00025295388862183425,
-      "loss": 12.2659,
-      "step": 450
-    },
-    {
-      "epoch": 1.5685950413223142,
-      "grad_norm": 1.1800557374954224,
-      "learning_rate": 0.00024684949844343366,
-      "loss": 12.3354,
-      "step": 475
-    },
-    {
-      "epoch": 1.6512396694214875,
-      "grad_norm": 1.7430154085159302,
-      "learning_rate": 0.00024045667341173076,
-      "loss": 12.2703,
-      "step": 500
-    },
-    {
-      "epoch": 1.6512396694214875,
-      "eval_loss": 1.433081865310669,
-      "eval_runtime": 12.995,
-      "eval_samples_per_second": 64.563,
-      "eval_steps_per_second": 8.08,
-      "step": 500
-    },
-    {
-      "epoch": 1.7338842975206612,
-      "grad_norm": 1.0517712831497192,
-      "learning_rate": 0.00023379445248490122,
-      "loss": 12.3778,
-      "step": 525
-    },
-    {
-      "epoch": 1.8165289256198347,
-      "grad_norm": 1.0788432359695435,
-      "learning_rate": 0.00022688267692951415,
-      "loss": 12.2553,
-      "step": 550
-    },
-    {
-      "epoch": 1.8991735537190082,
-      "grad_norm": 1.15561842918396,
-      "learning_rate": 0.00021974193122974782,
-      "loss": 12.3038,
-      "step": 575
-    },
-    {
-      "epoch": 1.981818181818182,
-      "grad_norm": 1.3563194274902344,
-      "learning_rate": 0.00021239348178317242,
-      "loss": 12.343,
-      "step": 600
-    },
-    {
-      "epoch": 1.981818181818182,
-      "eval_loss": 1.4239836931228638,
-      "eval_runtime": 13.614,
-      "eval_samples_per_second": 61.628,
-      "eval_steps_per_second": 7.713,
-      "step": 600
-    },
-    {
-      "epoch": 2.062809917355372,
-      "grad_norm": 1.1103503704071045,
-      "learning_rate": 0.00020485921356567523,
-      "loss": 12.0412,
-      "step": 625
-    },
-    {
-      "epoch": 2.1454545454545455,
-      "grad_norm": 1.2184436321258545,
-      "learning_rate": 0.0001971615649541501,
-      "loss": 12.2252,
-      "step": 650
-    },
-    {
-      "epoch": 2.2280991735537192,
-      "grad_norm": 1.2329784631729126,
-      "learning_rate": 0.00018932346090106165,
-      "loss": 12.0018,
-      "step": 675
-    },
-    {
-      "epoch": 2.3107438016528925,
-      "grad_norm": 1.2614842653274536,
-      "learning_rate": 0.00018136824465990166,
-      "loss": 12.1944,
-      "step": 700
-    },
-    {
-      "epoch": 2.3107438016528925,
-      "eval_loss": 1.4167625904083252,
-      "eval_runtime": 13.0103,
-      "eval_samples_per_second": 64.488,
-      "eval_steps_per_second": 8.071,
-      "step": 700
-    },
-    {
-      "epoch": 2.3933884297520662,
-      "grad_norm": 1.261049509048462,
-      "learning_rate": 0.0001733196082648715,
-      "loss": 11.9581,
-      "step": 725
-    },
-    {
-      "epoch": 2.4760330578512395,
-      "grad_norm": 1.2732257843017578,
-      "learning_rate": 0.00016520152197183418,
-      "loss": 12.1556,
-      "step": 750
-    },
-    {
-      "epoch": 2.5586776859504132,
-      "grad_norm": 1.2463732957839966,
-      "learning_rate": 0.000157038162870673,
-      "loss": 12.0429,
-      "step": 775
-    },
-    {
-      "epoch": 2.641322314049587,
-      "grad_norm": 1.1238192319869995,
-      "learning_rate": 0.0001488538428816627,
-      "loss": 12.3026,
-      "step": 800
-    },
-    {
-      "epoch": 2.641322314049587,
-      "eval_loss": 1.4147059917449951,
-      "eval_runtime": 13.0025,
-      "eval_samples_per_second": 64.526,
-      "eval_steps_per_second": 8.075,
-      "step": 800
-    },
-    {
-      "epoch": 2.7239669421487602,
-      "grad_norm": 1.3407771587371826,
-      "learning_rate": 0.00014067293635029133,
-      "loss": 11.9619,
-      "step": 825
-    },
-    {
-      "epoch": 2.806611570247934,
-      "grad_norm": 1.3070601224899292,
-      "learning_rate": 0.00013251980745616928,
-      "loss": 12.2279,
-      "step": 850
-    },
-    {
-      "epoch": 2.8892561983471072,
-      "grad_norm": 1.1657178401947021,
-      "learning_rate": 0.0001244187376522141,
-      "loss": 12.3092,
-      "step": 875
-    },
-    {
-      "epoch": 2.971900826446281,
-      "grad_norm": 1.3273015022277832,
-      "learning_rate": 0.0001163938533502094,
-      "loss": 12.09,
-      "step": 900
-    },
-    {
-      "epoch": 2.971900826446281,
-      "eval_loss": 1.414381742477417,
-      "eval_runtime": 13.0006,
-      "eval_samples_per_second": 64.536,
-      "eval_steps_per_second": 8.077,
-      "step": 900
-    },
-    {
-      "epoch": 3.0528925619834713,
-      "grad_norm": 1.2026565074920654,
-      "learning_rate": 0.0001084690540681045,
-      "loss": 11.89,
-      "step": 925
-    },
-    {
-      "epoch": 3.1355371900826445,
-      "grad_norm": 1.2379560470581055,
-      "learning_rate": 0.00010066794125304281,
-      "loss": 12.196,
-      "step": 950
-    },
-    {
-      "epoch": 3.2181818181818183,
-      "grad_norm": 1.219448447227478,
-      "learning_rate": 9.301374799209826e-05,
-      "loss": 11.8079,
-      "step": 975
-    },
-    {
-      "epoch": 3.3008264462809915,
-      "grad_norm": 1.2622979879379272,
-      "learning_rate": 8.55292698200527e-05,
-      "loss": 12.0511,
-      "step": 1000
-    },
-    {
-      "epoch": 3.3008264462809915,
-      "eval_loss": 1.4059090614318848,
-      "eval_runtime": 12.9985,
-      "eval_samples_per_second": 64.546,
-      "eval_steps_per_second": 8.078,
-      "step": 1000
-    },
-    {
-      "epoch": 3.3834710743801653,
-      "grad_norm": 1.420868158340454,
-      "learning_rate": 7.823679683028089e-05,
-      "loss": 12.0749,
-      "step": 1025
-    },
-    {
-      "epoch": 3.466115702479339,
-      "grad_norm": 1.2610206604003906,
-      "learning_rate": 7.115804729092889e-05,
-      "loss": 12.0321,
-      "step": 1050
-    },
-    {
-      "epoch": 3.5487603305785123,
-      "grad_norm": 1.0775682926177979,
-      "learning_rate": 6.431410296408913e-05,
-      "loss": 12.1338,
-      "step": 1075
-    },
-    {
-      "epoch": 3.631404958677686,
-      "grad_norm": 1.196616291999817,
-      "learning_rate": 5.772534632060193e-05,
-      "loss": 12.2208,
-      "step": 1100
-    },
-    {
-      "epoch": 3.631404958677686,
-      "eval_loss": 1.4090858697891235,
-      "eval_runtime": 13.0123,
-      "eval_samples_per_second": 64.478,
-      "eval_steps_per_second": 8.069,
-      "step": 1100
-    },
-    {
-      "epoch": 3.7140495867768593,
-      "grad_norm": 1.3985774517059326,
-      "learning_rate": 5.14113998374697e-05,
-      "loss": 11.9138,
-      "step": 1125
-    },
-    {
-      "epoch": 3.796694214876033,
-      "grad_norm": 1.2652424573898315,
-      "learning_rate": 4.53910675586668e-05,
-      "loss": 11.9639,
-      "step": 1150
-    },
-    {
-      "epoch": 3.8793388429752067,
-      "grad_norm": 1.2594548463821411,
-      "learning_rate": 3.968227909338666e-05,
-      "loss": 12.048,
-      "step": 1175
-    },
-    {
-      "epoch": 3.9619834710743804,
-      "grad_norm": 1.3240498304367065,
-      "learning_rate": 3.43020362185097e-05,
-      "loss": 11.7403,
-      "step": 1200
-    },
-    {
-      "epoch": 3.9619834710743804,
-      "eval_loss": 1.4072344303131104,
-      "eval_runtime": 13.0151,
-      "eval_samples_per_second": 64.464,
-      "eval_steps_per_second": 8.068,
-      "step": 1200
-    },
-    {
-      "epoch": 4.04297520661157,
-      "grad_norm": 1.252326250076294,
-      "learning_rate": 2.9266362244319302e-05,
-      "loss": 11.8426,
-      "step": 1225
-    },
-    {
-      "epoch": 4.125619834710744,
-      "grad_norm": 1.3867508172988892,
-      "learning_rate": 2.4590254294263283e-05,
-      "loss": 11.902,
-      "step": 1250
-    },
-    {
-      "epoch": 4.208264462809917,
-      "grad_norm": 1.266250491142273,
-      "learning_rate": 2.0287638640880855e-05,
-      "loss": 12.095,
-      "step": 1275
-    },
-    {
-      "epoch": 4.290909090909091,
-      "grad_norm": 1.0812941789627075,
-      "learning_rate": 1.6371329230911417e-05,
-      "loss": 12.0194,
-      "step": 1300
-    },
-    {
-      "epoch": 4.290909090909091,
-      "eval_loss": 1.4053895473480225,
-      "eval_runtime": 13.009,
-      "eval_samples_per_second": 64.494,
-      "eval_steps_per_second": 8.071,
-      "step": 1300
-    },
-    {
-      "epoch": 4.373553719008265,
-      "grad_norm": 1.3015711307525635,
-      "learning_rate": 1.285298952310605e-05,
-      "loss": 11.947,
-      "step": 1325
-    },
-    {
-      "epoch": 4.4561983471074385,
-      "grad_norm": 1.2638295888900757,
-      "learning_rate": 9.743097752394192e-06,
-      "loss": 12.1636,
-      "step": 1350
-    },
-    {
-      "epoch": 4.538842975206611,
-      "grad_norm": 1.4439826011657715,
-      "learning_rate": 7.050915723855716e-06,
-      "loss": 11.9777,
-      "step": 1375
-    },
-    {
-      "epoch": 4.621487603305785,
-      "grad_norm": 1.3093808889389038,
-      "learning_rate": 4.784461229435327e-06,
-      "loss": 12.0375,
-      "step": 1400
-    },
-    {
-      "epoch": 4.621487603305785,
-      "eval_loss": 1.4081956148147583,
-      "eval_runtime": 18.4374,
-      "eval_samples_per_second": 45.505,
-      "eval_steps_per_second": 5.695,
-      "step": 1400
-    },
-    {
-      "epoch": 4.704132231404959,
-      "grad_norm": 1.3626532554626465,
-      "learning_rate": 2.9504841695467797e-06,
-      "loss": 11.9254,
-      "step": 1425
-    },
-    {
-      "epoch": 4.7867768595041325,
-      "grad_norm": 1.433358907699585,
-      "learning_rate": 1.5544464506813624e-06,
-      "loss": 11.9902,
-      "step": 1450
-    },
-    {
-      "epoch": 4.869421487603306,
-      "grad_norm": 1.2513891458511353,
-      "learning_rate": 6.005057188890661e-07,
-      "loss": 11.9917,
-      "step": 1475
-    },
-    {
-      "epoch": 4.952066115702479,
-      "grad_norm": 1.3513580560684204,
-      "learning_rate": 9.150297757676839e-08,
-      "loss": 11.8346,
-      "step": 1500
-    },
-    {
-      "epoch": 4.952066115702479,
-      "eval_loss": 1.4073647260665894,
-      "eval_runtime": 23.2129,
-      "eval_samples_per_second": 36.144,
-      "eval_steps_per_second": 4.523,
-      "step": 1500
-    }
-  ],
-  "logging_steps": 25,
-  "max_steps": 1515,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 100,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 2296778116300800.0,
-  "train_batch_size": 4,
-  "trial_name": null,
-  "trial_params": null
-}

+version https://git-lfs.github.com/spec/v1
+oid sha256:88c73e13c88e2f12d95ba99d4233a2af5206350c02a2aad237563baca928f2bc
+size 14461