Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

consciousness/adapter_config.json +2 -2
consciousness/adapter_model.safetensors +1 -1
consciousness/checkpoint-225/adapter_config.json +2 -2
consciousness/checkpoint-225/adapter_model.safetensors +1 -1
consciousness/checkpoint-225/optimizer.pt +1 -1
consciousness/checkpoint-225/trainer_state.json +88 -88

consciousness/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "q_proj",
-    "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "q_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

consciousness/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32f33b94aa241bc5e536c9835963b5b1d0cb8d7d1055f12d2f0c6b4a716d1cb3
 size 27297544

 version https://git-lfs.github.com/spec/v1
+oid sha256:2633a26cf09e988f2b32a3ccdd93ae0821547a5b3864cb1e7ad13a8c7eab44e9
 size 27297544

consciousness/checkpoint-225/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "q_proj",
-    "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "q_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

consciousness/checkpoint-225/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32f33b94aa241bc5e536c9835963b5b1d0cb8d7d1055f12d2f0c6b4a716d1cb3
 size 27297544

 version https://git-lfs.github.com/spec/v1
+oid sha256:2633a26cf09e988f2b32a3ccdd93ae0821547a5b3864cb1e7ad13a8c7eab44e9
 size 27297544

consciousness/checkpoint-225/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee9eb5e6685805d3c665ee3cc29d44f68eefb0790059f256e7aa2fbfacc201e7
 size 54745547

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bd2af8e2d1a09808732f7b3860421a5364a4d1ea1d0c8402f9d55b86ab184c5
 size 54745547

consciousness/checkpoint-225/trainer_state.json CHANGED Viewed

@@ -10,222 +10,222 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 2.7761129081249236,
       "epoch": 0.13333333333333333,
-      "grad_norm": 0.875,
       "learning_rate": 9.908256880733946e-05,
-      "loss": 3.244321823120117,
-      "mean_token_accuracy": 0.44045700430870055,
       "num_tokens": 24761.0,
       "step": 10
     },
     {
-      "entropy": 2.040079203248024,
       "epoch": 0.26666666666666666,
-      "grad_norm": 0.82421875,
       "learning_rate": 9.44954128440367e-05,
-      "loss": 1.9786895751953124,
-      "mean_token_accuracy": 0.5847875744104385,
       "num_tokens": 49610.0,
       "step": 20
     },
     {
-      "entropy": 0.7117585293948651,
       "epoch": 0.4,
-      "grad_norm": 0.3359375,
       "learning_rate": 8.990825688073395e-05,
-      "loss": 0.6083943367004394,
-      "mean_token_accuracy": 0.8619846701622009,
       "num_tokens": 74374.0,
       "step": 30
     },
     {
-      "entropy": 0.2695525992661715,
       "epoch": 0.5333333333333333,
-      "grad_norm": 0.2021484375,
       "learning_rate": 8.53211009174312e-05,
-      "loss": 0.2516770601272583,
-      "mean_token_accuracy": 0.9505109563469887,
       "num_tokens": 99237.0,
       "step": 40
     },
     {
-      "entropy": 0.19716580733656883,
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.181640625,
       "learning_rate": 8.073394495412844e-05,
-      "loss": 0.1818714141845703,
-      "mean_token_accuracy": 0.9645047709345818,
       "num_tokens": 124034.0,
       "step": 50
     },
     {
-      "entropy": 0.17025253251194955,
       "epoch": 0.8,
-      "grad_norm": 0.1328125,
       "learning_rate": 7.614678899082569e-05,
-      "loss": 0.1523423671722412,
-      "mean_token_accuracy": 0.9701748862862587,
       "num_tokens": 148853.0,
       "step": 60
     },
     {
-      "entropy": 0.14797840677201748,
       "epoch": 0.9333333333333333,
-      "grad_norm": 0.1962890625,
       "learning_rate": 7.155963302752295e-05,
-      "loss": 0.13764077425003052,
-      "mean_token_accuracy": 0.9720944717526436,
       "num_tokens": 173595.0,
       "step": 70
     },
     {
-      "entropy": 0.138279221765697,
       "epoch": 1.0666666666666667,
-      "grad_norm": 0.1357421875,
       "learning_rate": 6.697247706422018e-05,
-      "loss": 0.12346233129501342,
-      "mean_token_accuracy": 0.9741749912500381,
       "num_tokens": 198381.0,
       "step": 80
     },
     {
-      "entropy": 0.1283793417736888,
       "epoch": 1.2,
-      "grad_norm": 0.11376953125,
       "learning_rate": 6.238532110091744e-05,
-      "loss": 0.11164928674697876,
-      "mean_token_accuracy": 0.9769473403692246,
       "num_tokens": 223136.0,
       "step": 90
     },
     {
-      "entropy": 0.12412137631326914,
       "epoch": 1.3333333333333333,
-      "grad_norm": 0.1162109375,
       "learning_rate": 5.779816513761468e-05,
-      "loss": 0.10832087993621826,
-      "mean_token_accuracy": 0.9769640281796456,
       "num_tokens": 247997.0,
       "step": 100
     },
     {
-      "entropy": 0.12210103627294303,
       "epoch": 1.4666666666666668,
-      "grad_norm": 0.13671875,
       "learning_rate": 5.3211009174311934e-05,
-      "loss": 0.10235855579376221,
-      "mean_token_accuracy": 0.9771915912628174,
       "num_tokens": 272852.0,
       "step": 110
     },
     {
-      "entropy": 0.11977386996150016,
       "epoch": 1.6,
-      "grad_norm": 0.10009765625,
       "learning_rate": 4.862385321100918e-05,
-      "loss": 0.09748664498329163,
-      "mean_token_accuracy": 0.9808539599180222,
       "num_tokens": 297579.0,
       "step": 120
     },
     {
-      "entropy": 0.11996886190026998,
       "epoch": 1.7333333333333334,
-      "grad_norm": 0.1669921875,
       "learning_rate": 4.403669724770643e-05,
-      "loss": 0.09674965739250183,
-      "mean_token_accuracy": 0.9802620068192482,
       "num_tokens": 322381.0,
       "step": 130
     },
     {
-      "entropy": 0.11315569579601288,
       "epoch": 1.8666666666666667,
-      "grad_norm": 0.10400390625,
       "learning_rate": 3.944954128440367e-05,
-      "loss": 0.09112051725387574,
-      "mean_token_accuracy": 0.9821677714586258,
       "num_tokens": 347147.0,
       "step": 140
     },
     {
-      "entropy": 0.11618176773190499,
       "epoch": 2.0,
-      "grad_norm": 0.1748046875,
       "learning_rate": 3.486238532110092e-05,
-      "loss": 0.08905571103096008,
-      "mean_token_accuracy": 0.9811127334833145,
       "num_tokens": 372010.0,
       "step": 150
     },
     {
-      "entropy": 0.11125754974782467,
       "epoch": 2.1333333333333333,
-      "grad_norm": 0.1025390625,
       "learning_rate": 3.027522935779817e-05,
-      "loss": 0.0815092146396637,
-      "mean_token_accuracy": 0.9828289076685905,
       "num_tokens": 396827.0,
       "step": 160
     },
     {
-      "entropy": 0.09863599725067615,
       "epoch": 2.2666666666666666,
-      "grad_norm": 0.1181640625,
       "learning_rate": 2.5688073394495416e-05,
-      "loss": 0.07570468187332154,
-      "mean_token_accuracy": 0.9811465948820114,
       "num_tokens": 421673.0,
       "step": 170
     },
     {
-      "entropy": 0.08374876081943512,
       "epoch": 2.4,
-      "grad_norm": 0.146484375,
       "learning_rate": 2.1100917431192662e-05,
-      "loss": 0.06952499151229859,
-      "mean_token_accuracy": 0.9823125705122948,
       "num_tokens": 446476.0,
       "step": 180
     },
     {
-      "entropy": 0.0826102739199996,
       "epoch": 2.533333333333333,
-      "grad_norm": 0.126953125,
       "learning_rate": 1.651376146788991e-05,
-      "loss": 0.067434161901474,
-      "mean_token_accuracy": 0.9819168344140052,
       "num_tokens": 471250.0,
       "step": 190
     },
     {
-      "entropy": 0.08154539205133915,
       "epoch": 2.6666666666666665,
-      "grad_norm": 0.1318359375,
       "learning_rate": 1.1926605504587156e-05,
-      "loss": 0.066810941696167,
-      "mean_token_accuracy": 0.9812787815928459,
       "num_tokens": 496006.0,
       "step": 200
     },
     {
-      "entropy": 0.0844537828117609,
       "epoch": 2.8,
-      "grad_norm": 0.11328125,
       "learning_rate": 7.3394495412844045e-06,
-      "loss": 0.06481906175613403,
-      "mean_token_accuracy": 0.9825038447976112,
       "num_tokens": 520845.0,
       "step": 210
     },
     {
-      "entropy": 0.0813144288957119,
       "epoch": 2.9333333333333336,
-      "grad_norm": 0.09375,
       "learning_rate": 2.7522935779816517e-06,
-      "loss": 0.0626812994480133,
-      "mean_token_accuracy": 0.9836445167660713,
       "num_tokens": 545626.0,
       "step": 220
     }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 2.7765824437141418,
       "epoch": 0.13333333333333333,
+      "grad_norm": 0.80078125,
       "learning_rate": 9.908256880733946e-05,
+      "loss": 3.2429569244384764,
+      "mean_token_accuracy": 0.44057580903172494,
       "num_tokens": 24761.0,
       "step": 10
     },
     {
+      "entropy": 2.0341117173433303,
       "epoch": 0.26666666666666666,
+      "grad_norm": 0.8203125,
       "learning_rate": 9.44954128440367e-05,
+      "loss": 1.963392448425293,
+      "mean_token_accuracy": 0.5877765864133835,
       "num_tokens": 49610.0,
       "step": 20
     },
     {
+      "entropy": 0.7002565786242485,
       "epoch": 0.4,
+      "grad_norm": 0.34765625,
       "learning_rate": 8.990825688073395e-05,
+      "loss": 0.5959352016448974,
+      "mean_token_accuracy": 0.8655647665262223,
       "num_tokens": 74374.0,
       "step": 30
     },
     {
+      "entropy": 0.26718092486262324,
       "epoch": 0.5333333333333333,
+      "grad_norm": 0.2216796875,
       "learning_rate": 8.53211009174312e-05,
+      "loss": 0.24935545921325683,
+      "mean_token_accuracy": 0.9515595227479935,
       "num_tokens": 99237.0,
       "step": 40
     },
     {
+      "entropy": 0.19680907018482685,
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.1884765625,
       "learning_rate": 8.073394495412844e-05,
+      "loss": 0.18131427764892577,
+      "mean_token_accuracy": 0.9645171865820885,
       "num_tokens": 124034.0,
       "step": 50
     },
     {
+      "entropy": 0.17123022936284543,
       "epoch": 0.8,
+      "grad_norm": 0.1318359375,
       "learning_rate": 7.614678899082569e-05,
+      "loss": 0.15188711881637573,
+      "mean_token_accuracy": 0.9693311020731926,
       "num_tokens": 148853.0,
       "step": 60
     },
     {
+      "entropy": 0.15020480044186116,
       "epoch": 0.9333333333333333,
+      "grad_norm": 0.271484375,
       "learning_rate": 7.155963302752295e-05,
+      "loss": 0.13665119409561158,
+      "mean_token_accuracy": 0.9722599163651466,
       "num_tokens": 173595.0,
       "step": 70
     },
     {
+      "entropy": 0.14392711482942105,
       "epoch": 1.0666666666666667,
+      "grad_norm": 0.1533203125,
       "learning_rate": 6.697247706422018e-05,
+      "loss": 0.12209154367446899,
+      "mean_token_accuracy": 0.9730806604027749,
       "num_tokens": 198381.0,
       "step": 80
     },
     {
+      "entropy": 0.12987205907702445,
       "epoch": 1.2,
+      "grad_norm": 0.1318359375,
       "learning_rate": 6.238532110091744e-05,
+      "loss": 0.107689368724823,
+      "mean_token_accuracy": 0.9769851833581924,
       "num_tokens": 223136.0,
       "step": 90
     },
     {
+      "entropy": 0.12836090996861457,
       "epoch": 1.3333333333333333,
+      "grad_norm": 0.1240234375,
       "learning_rate": 5.779816513761468e-05,
+      "loss": 0.10651180744171143,
+      "mean_token_accuracy": 0.9795817092061043,
       "num_tokens": 247997.0,
       "step": 100
     },
     {
+      "entropy": 0.12321772910654545,
       "epoch": 1.4666666666666668,
+      "grad_norm": 0.150390625,
       "learning_rate": 5.3211009174311934e-05,
+      "loss": 0.10062012672424317,
+      "mean_token_accuracy": 0.980827870965004,
       "num_tokens": 272852.0,
       "step": 110
     },
     {
+      "entropy": 0.11977940555661917,
       "epoch": 1.6,
+      "grad_norm": 0.1103515625,
       "learning_rate": 4.862385321100918e-05,
+      "loss": 0.09529207944869995,
+      "mean_token_accuracy": 0.9806077152490615,
       "num_tokens": 297579.0,
       "step": 120
     },
     {
+      "entropy": 0.1198594804853201,
       "epoch": 1.7333333333333334,
+      "grad_norm": 0.1708984375,
       "learning_rate": 4.403669724770643e-05,
+      "loss": 0.09222554564476013,
+      "mean_token_accuracy": 0.9803455516695976,
       "num_tokens": 322381.0,
       "step": 130
     },
     {
+      "entropy": 0.10655448362231254,
       "epoch": 1.8666666666666667,
+      "grad_norm": 0.1142578125,
       "learning_rate": 3.944954128440367e-05,
+      "loss": 0.08148675560951232,
+      "mean_token_accuracy": 0.9823274478316307,
       "num_tokens": 347147.0,
       "step": 140
     },
     {
+      "entropy": 0.09842615202069283,
       "epoch": 2.0,
+      "grad_norm": 0.2109375,
       "learning_rate": 3.486238532110092e-05,
+      "loss": 0.07490686774253845,
+      "mean_token_accuracy": 0.9813576474785805,
       "num_tokens": 372010.0,
       "step": 150
     },
     {
+      "entropy": 0.08633840866386891,
       "epoch": 2.1333333333333333,
+      "grad_norm": 0.10595703125,
       "learning_rate": 3.027522935779817e-05,
+      "loss": 0.06638463735580444,
+      "mean_token_accuracy": 0.9825427159667015,
       "num_tokens": 396827.0,
       "step": 160
     },
     {
+      "entropy": 0.0847671527415514,
       "epoch": 2.2666666666666666,
+      "grad_norm": 0.1142578125,
       "learning_rate": 2.5688073394495416e-05,
+      "loss": 0.0631272852420807,
+      "mean_token_accuracy": 0.9811472788453102,
       "num_tokens": 421673.0,
       "step": 170
     },
     {
+      "entropy": 0.08435465320944786,
       "epoch": 2.4,
+      "grad_norm": 0.1455078125,
       "learning_rate": 2.1100917431192662e-05,
+      "loss": 0.05959140658378601,
+      "mean_token_accuracy": 0.9823448762297631,
       "num_tokens": 446476.0,
       "step": 180
     },
     {
+      "entropy": 0.07953801900148391,
       "epoch": 2.533333333333333,
+      "grad_norm": 0.1328125,
       "learning_rate": 1.651376146788991e-05,
+      "loss": 0.05914499163627625,
+      "mean_token_accuracy": 0.9821029722690582,
       "num_tokens": 471250.0,
       "step": 190
     },
     {
+      "entropy": 0.08058121707290411,
       "epoch": 2.6666666666666665,
+      "grad_norm": 0.14453125,
       "learning_rate": 1.1926605504587156e-05,
+      "loss": 0.05882708430290222,
+      "mean_token_accuracy": 0.9816043302416801,
       "num_tokens": 496006.0,
       "step": 200
     },
     {
+      "entropy": 0.08485903479158878,
       "epoch": 2.8,
+      "grad_norm": 0.1220703125,
       "learning_rate": 7.3394495412844045e-06,
+      "loss": 0.05778748989105224,
+      "mean_token_accuracy": 0.9820649787783623,
       "num_tokens": 520845.0,
       "step": 210
     },
     {
+      "entropy": 0.08102625366300345,
       "epoch": 2.9333333333333336,
+      "grad_norm": 0.1123046875,
       "learning_rate": 2.7522935779816517e-06,
+      "loss": 0.05605600476264953,
+      "mean_token_accuracy": 0.9830348506569863,
       "num_tokens": 545626.0,
       "step": 220
     }