ZurabDz commited on
Commit
5cdacda
·
verified ·
1 Parent(s): afc7e11

Training in progress, step 10000

Browse files
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8abaa42d3463b1fade9c9a8962318359c17b20036209deee3f1533c022f6ff45
3
  size 44644496
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7ba74cf25c786c33ab51f49853610332c7c6fac2a629cf396b37bb2a5daf3218
3
  size 44644496
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:82254252c8439c400690d9e912a9b41091500366183fc979cee1cef9b2d35ddb
3
  size 11230198
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:307f93c818fe9e997251c586a4bbef0f98546328ebc4260c26d059dbb40e19bc
3
  size 11230198
rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6cb795a5cea0baa625c50007a6c9da09c6bbb5c16b560424070384a479e7d8a6
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:34bcae41c589c7e4cab7b2ef263b878c90c2741404a6af11994dc31537b2319b
3
  size 14512
rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5f19604377bd828eb366c68946ad997a4ff4d69beaeea93ee58915135768ec63
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d05dc84075e8f7dd1191c36f3be9dda12073208e12f7d2cef433c38d6336774a
3
  size 14512
runs/Jun07_20-36-29_829f6f605e43/events.out.tfevents.1717792718.829f6f605e43.85.0 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c5f5a58aa39d257803087286f6970f617b220fb828688a142a7a6f6b2ebe0a9a
3
- size 57851
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:91a8415078fc8a593e4dafbb625bc6e914226237ff615cf5f31057d766f26011
3
+ size 110924
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fe25b65e375d09c26af85ce4a53e5909be64fae7753341d624d8971238990a51
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:751d576a2eea45359933cc7817354c80776613355e39eb96453c641164eefa3f
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.0904895484571532,
5
  "eval_steps": 5000,
6
- "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1766,6 +1766,1765 @@
1766
  "eval_samples_per_second": 3517.479,
1767
  "eval_steps_per_second": 3.437,
1768
  "step": 5000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1769
  }
1770
  ],
1771
  "logging_steps": 20,
@@ -1779,13 +3538,13 @@
1779
  "should_epoch_stop": false,
1780
  "should_evaluate": false,
1781
  "should_log": false,
1782
- "should_save": false,
1783
  "should_training_stop": false
1784
  },
1785
  "attributes": {}
1786
  }
1787
  },
1788
- "total_flos": 7191810539520000.0,
1789
  "train_batch_size": 512,
1790
  "trial_name": null,
1791
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.1809790969143064,
5
  "eval_steps": 5000,
6
+ "global_step": 10000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1766
  "eval_samples_per_second": 3517.479,
1767
  "eval_steps_per_second": 3.437,
1768
  "step": 5000
1769
+ },
1770
+ {
1771
+ "epoch": 0.09085150665098181,
1772
+ "grad_norm": 4.571134567260742,
1773
+ "learning_rate": 0.00027227483863183924,
1774
+ "loss": 8.0411,
1775
+ "step": 5020
1776
+ },
1777
+ {
1778
+ "epoch": 0.09121346484481042,
1779
+ "grad_norm": 5.403674602508545,
1780
+ "learning_rate": 0.0002733606804608795,
1781
+ "loss": 8.0345,
1782
+ "step": 5040
1783
+ },
1784
+ {
1785
+ "epoch": 0.09157542303863904,
1786
+ "grad_norm": 4.911813259124756,
1787
+ "learning_rate": 0.0002744465222899197,
1788
+ "loss": 8.0946,
1789
+ "step": 5060
1790
+ },
1791
+ {
1792
+ "epoch": 0.09193738123246765,
1793
+ "grad_norm": 5.051859378814697,
1794
+ "learning_rate": 0.00027553236411895996,
1795
+ "loss": 8.0794,
1796
+ "step": 5080
1797
+ },
1798
+ {
1799
+ "epoch": 0.09229933942629626,
1800
+ "grad_norm": 5.029412746429443,
1801
+ "learning_rate": 0.0002766182059480002,
1802
+ "loss": 8.0873,
1803
+ "step": 5100
1804
+ },
1805
+ {
1806
+ "epoch": 0.09266129762012487,
1807
+ "grad_norm": 4.249423503875732,
1808
+ "learning_rate": 0.00027770404777704044,
1809
+ "loss": 8.098,
1810
+ "step": 5120
1811
+ },
1812
+ {
1813
+ "epoch": 0.09302325581395349,
1814
+ "grad_norm": 4.305202960968018,
1815
+ "learning_rate": 0.0002787898896060807,
1816
+ "loss": 8.0734,
1817
+ "step": 5140
1818
+ },
1819
+ {
1820
+ "epoch": 0.0933852140077821,
1821
+ "grad_norm": 5.8397345542907715,
1822
+ "learning_rate": 0.0002798757314351209,
1823
+ "loss": 8.12,
1824
+ "step": 5160
1825
+ },
1826
+ {
1827
+ "epoch": 0.09374717220161072,
1828
+ "grad_norm": 4.833122253417969,
1829
+ "learning_rate": 0.00028096157326416117,
1830
+ "loss": 8.0778,
1831
+ "step": 5180
1832
+ },
1833
+ {
1834
+ "epoch": 0.09410913039543933,
1835
+ "grad_norm": 3.883317232131958,
1836
+ "learning_rate": 0.0002820474150932014,
1837
+ "loss": 8.0997,
1838
+ "step": 5200
1839
+ },
1840
+ {
1841
+ "epoch": 0.09447108858926793,
1842
+ "grad_norm": 4.111331939697266,
1843
+ "learning_rate": 0.00028313325692224165,
1844
+ "loss": 8.1039,
1845
+ "step": 5220
1846
+ },
1847
+ {
1848
+ "epoch": 0.09483304678309655,
1849
+ "grad_norm": 3.988339424133301,
1850
+ "learning_rate": 0.0002842190987512819,
1851
+ "loss": 8.0941,
1852
+ "step": 5240
1853
+ },
1854
+ {
1855
+ "epoch": 0.09519500497692517,
1856
+ "grad_norm": 3.9682798385620117,
1857
+ "learning_rate": 0.0002853049405803221,
1858
+ "loss": 8.0477,
1859
+ "step": 5260
1860
+ },
1861
+ {
1862
+ "epoch": 0.09555696317075378,
1863
+ "grad_norm": 5.8604655265808105,
1864
+ "learning_rate": 0.0002863907824093623,
1865
+ "loss": 8.077,
1866
+ "step": 5280
1867
+ },
1868
+ {
1869
+ "epoch": 0.0959189213645824,
1870
+ "grad_norm": 4.823431015014648,
1871
+ "learning_rate": 0.00028747662423840256,
1872
+ "loss": 8.0723,
1873
+ "step": 5300
1874
+ },
1875
+ {
1876
+ "epoch": 0.096280879558411,
1877
+ "grad_norm": 8.868093490600586,
1878
+ "learning_rate": 0.0002885624660674428,
1879
+ "loss": 8.312,
1880
+ "step": 5320
1881
+ },
1882
+ {
1883
+ "epoch": 0.09664283775223961,
1884
+ "grad_norm": 3.8635661602020264,
1885
+ "learning_rate": 0.00028964830789648304,
1886
+ "loss": 8.1751,
1887
+ "step": 5340
1888
+ },
1889
+ {
1890
+ "epoch": 0.09700479594606823,
1891
+ "grad_norm": 4.368812084197998,
1892
+ "learning_rate": 0.0002907341497255233,
1893
+ "loss": 8.0755,
1894
+ "step": 5360
1895
+ },
1896
+ {
1897
+ "epoch": 0.09736675413989684,
1898
+ "grad_norm": 4.956539154052734,
1899
+ "learning_rate": 0.0002918199915545635,
1900
+ "loss": 8.0912,
1901
+ "step": 5380
1902
+ },
1903
+ {
1904
+ "epoch": 0.09772871233372546,
1905
+ "grad_norm": 4.059233665466309,
1906
+ "learning_rate": 0.00029290583338360376,
1907
+ "loss": 8.0815,
1908
+ "step": 5400
1909
+ },
1910
+ {
1911
+ "epoch": 0.09809067052755406,
1912
+ "grad_norm": 4.747849464416504,
1913
+ "learning_rate": 0.000293991675212644,
1914
+ "loss": 8.0874,
1915
+ "step": 5420
1916
+ },
1917
+ {
1918
+ "epoch": 0.09845262872138268,
1919
+ "grad_norm": 4.266099452972412,
1920
+ "learning_rate": 0.00029507751704168424,
1921
+ "loss": 8.0662,
1922
+ "step": 5440
1923
+ },
1924
+ {
1925
+ "epoch": 0.09881458691521129,
1926
+ "grad_norm": 4.489388465881348,
1927
+ "learning_rate": 0.0002961633588707245,
1928
+ "loss": 8.0817,
1929
+ "step": 5460
1930
+ },
1931
+ {
1932
+ "epoch": 0.09917654510903991,
1933
+ "grad_norm": 4.930331230163574,
1934
+ "learning_rate": 0.0002972492006997647,
1935
+ "loss": 8.0799,
1936
+ "step": 5480
1937
+ },
1938
+ {
1939
+ "epoch": 0.09953850330286852,
1940
+ "grad_norm": 5.424180030822754,
1941
+ "learning_rate": 0.00029833504252880496,
1942
+ "loss": 8.065,
1943
+ "step": 5500
1944
+ },
1945
+ {
1946
+ "epoch": 0.09990046149669714,
1947
+ "grad_norm": 4.461760520935059,
1948
+ "learning_rate": 0.0002994208843578452,
1949
+ "loss": 8.0738,
1950
+ "step": 5520
1951
+ },
1952
+ {
1953
+ "epoch": 0.10026241969052574,
1954
+ "grad_norm": 3.7566046714782715,
1955
+ "learning_rate": 0.0003005067261868854,
1956
+ "loss": 8.0848,
1957
+ "step": 5540
1958
+ },
1959
+ {
1960
+ "epoch": 0.10062437788435435,
1961
+ "grad_norm": 6.27786111831665,
1962
+ "learning_rate": 0.00030159256801592563,
1963
+ "loss": 8.088,
1964
+ "step": 5560
1965
+ },
1966
+ {
1967
+ "epoch": 0.10098633607818297,
1968
+ "grad_norm": 4.437178134918213,
1969
+ "learning_rate": 0.00030267840984496587,
1970
+ "loss": 8.068,
1971
+ "step": 5580
1972
+ },
1973
+ {
1974
+ "epoch": 0.10134829427201159,
1975
+ "grad_norm": 4.757803440093994,
1976
+ "learning_rate": 0.0003037642516740061,
1977
+ "loss": 8.0712,
1978
+ "step": 5600
1979
+ },
1980
+ {
1981
+ "epoch": 0.1017102524658402,
1982
+ "grad_norm": 4.162949085235596,
1983
+ "learning_rate": 0.00030485009350304635,
1984
+ "loss": 8.0941,
1985
+ "step": 5620
1986
+ },
1987
+ {
1988
+ "epoch": 0.1020722106596688,
1989
+ "grad_norm": 5.036799430847168,
1990
+ "learning_rate": 0.0003059359353320866,
1991
+ "loss": 8.1277,
1992
+ "step": 5640
1993
+ },
1994
+ {
1995
+ "epoch": 0.10243416885349742,
1996
+ "grad_norm": 6.508123397827148,
1997
+ "learning_rate": 0.00030702177716112683,
1998
+ "loss": 8.1014,
1999
+ "step": 5660
2000
+ },
2001
+ {
2002
+ "epoch": 0.10279612704732603,
2003
+ "grad_norm": 4.099546432495117,
2004
+ "learning_rate": 0.0003081076189901671,
2005
+ "loss": 8.1013,
2006
+ "step": 5680
2007
+ },
2008
+ {
2009
+ "epoch": 0.10315808524115465,
2010
+ "grad_norm": 5.094971656799316,
2011
+ "learning_rate": 0.0003091934608192073,
2012
+ "loss": 8.0943,
2013
+ "step": 5700
2014
+ },
2015
+ {
2016
+ "epoch": 0.10352004343498326,
2017
+ "grad_norm": 3.8019566535949707,
2018
+ "learning_rate": 0.00031027930264824756,
2019
+ "loss": 8.0894,
2020
+ "step": 5720
2021
+ },
2022
+ {
2023
+ "epoch": 0.10388200162881188,
2024
+ "grad_norm": 5.287724494934082,
2025
+ "learning_rate": 0.0003113651444772878,
2026
+ "loss": 8.0937,
2027
+ "step": 5740
2028
+ },
2029
+ {
2030
+ "epoch": 0.10424395982264048,
2031
+ "grad_norm": 4.729523658752441,
2032
+ "learning_rate": 0.00031245098630632804,
2033
+ "loss": 8.1002,
2034
+ "step": 5760
2035
+ },
2036
+ {
2037
+ "epoch": 0.1046059180164691,
2038
+ "grad_norm": 4.7321319580078125,
2039
+ "learning_rate": 0.0003135368281353683,
2040
+ "loss": 8.0607,
2041
+ "step": 5780
2042
+ },
2043
+ {
2044
+ "epoch": 0.10496787621029771,
2045
+ "grad_norm": 5.564339637756348,
2046
+ "learning_rate": 0.0003146226699644085,
2047
+ "loss": 8.1031,
2048
+ "step": 5800
2049
+ },
2050
+ {
2051
+ "epoch": 0.10532983440412633,
2052
+ "grad_norm": 3.883352041244507,
2053
+ "learning_rate": 0.00031570851179344876,
2054
+ "loss": 8.0864,
2055
+ "step": 5820
2056
+ },
2057
+ {
2058
+ "epoch": 0.10569179259795494,
2059
+ "grad_norm": 6.192608833312988,
2060
+ "learning_rate": 0.000316794353622489,
2061
+ "loss": 8.0805,
2062
+ "step": 5840
2063
+ },
2064
+ {
2065
+ "epoch": 0.10605375079178354,
2066
+ "grad_norm": 3.4210565090179443,
2067
+ "learning_rate": 0.00031788019545152924,
2068
+ "loss": 8.104,
2069
+ "step": 5860
2070
+ },
2071
+ {
2072
+ "epoch": 0.10641570898561216,
2073
+ "grad_norm": 5.195882797241211,
2074
+ "learning_rate": 0.0003189660372805695,
2075
+ "loss": 8.0621,
2076
+ "step": 5880
2077
+ },
2078
+ {
2079
+ "epoch": 0.10677766717944077,
2080
+ "grad_norm": 4.863924980163574,
2081
+ "learning_rate": 0.0003200518791096097,
2082
+ "loss": 8.2223,
2083
+ "step": 5900
2084
+ },
2085
+ {
2086
+ "epoch": 0.10713962537326939,
2087
+ "grad_norm": 6.122769355773926,
2088
+ "learning_rate": 0.00032113772093864996,
2089
+ "loss": 8.1023,
2090
+ "step": 5920
2091
+ },
2092
+ {
2093
+ "epoch": 0.107501583567098,
2094
+ "grad_norm": 10.902450561523438,
2095
+ "learning_rate": 0.00032222356276769015,
2096
+ "loss": 8.1196,
2097
+ "step": 5940
2098
+ },
2099
+ {
2100
+ "epoch": 0.1078635417609266,
2101
+ "grad_norm": 35.497840881347656,
2102
+ "learning_rate": 0.0003233094045967304,
2103
+ "loss": 8.1074,
2104
+ "step": 5960
2105
+ },
2106
+ {
2107
+ "epoch": 0.10822549995475522,
2108
+ "grad_norm": 4.4585862159729,
2109
+ "learning_rate": 0.00032417807805996257,
2110
+ "loss": 8.9866,
2111
+ "step": 5980
2112
+ },
2113
+ {
2114
+ "epoch": 0.10858745814858384,
2115
+ "grad_norm": 7.580636024475098,
2116
+ "learning_rate": 0.0003252639198890028,
2117
+ "loss": 9.1972,
2118
+ "step": 6000
2119
+ },
2120
+ {
2121
+ "epoch": 0.10894941634241245,
2122
+ "grad_norm": 4.390789031982422,
2123
+ "learning_rate": 0.00032634976171804305,
2124
+ "loss": 10.38,
2125
+ "step": 6020
2126
+ },
2127
+ {
2128
+ "epoch": 0.10931137453624107,
2129
+ "grad_norm": 3.9264190196990967,
2130
+ "learning_rate": 0.0003274356035470833,
2131
+ "loss": 9.9821,
2132
+ "step": 6040
2133
+ },
2134
+ {
2135
+ "epoch": 0.10967333273006968,
2136
+ "grad_norm": 4.207955837249756,
2137
+ "learning_rate": 0.00032852144537612354,
2138
+ "loss": 9.7519,
2139
+ "step": 6060
2140
+ },
2141
+ {
2142
+ "epoch": 0.11003529092389829,
2143
+ "grad_norm": 3.7314298152923584,
2144
+ "learning_rate": 0.0003292815346564517,
2145
+ "loss": 9.4857,
2146
+ "step": 6080
2147
+ },
2148
+ {
2149
+ "epoch": 0.1103972491177269,
2150
+ "grad_norm": NaN,
2151
+ "learning_rate": 0.0003296072872051638,
2152
+ "loss": 8.6937,
2153
+ "step": 6100
2154
+ },
2155
+ {
2156
+ "epoch": 0.11075920731155552,
2157
+ "grad_norm": NaN,
2158
+ "learning_rate": 0.0003296072872051638,
2159
+ "loss": 4.8707,
2160
+ "step": 6120
2161
+ },
2162
+ {
2163
+ "epoch": 0.11112116550538413,
2164
+ "grad_norm": NaN,
2165
+ "learning_rate": 0.0003296072872051638,
2166
+ "loss": 4.4629,
2167
+ "step": 6140
2168
+ },
2169
+ {
2170
+ "epoch": 0.11148312369921275,
2171
+ "grad_norm": NaN,
2172
+ "learning_rate": 0.0003297158713880678,
2173
+ "loss": 4.7899,
2174
+ "step": 6160
2175
+ },
2176
+ {
2177
+ "epoch": 0.11184508189304135,
2178
+ "grad_norm": NaN,
2179
+ "learning_rate": 0.0003297158713880678,
2180
+ "loss": 4.5487,
2181
+ "step": 6180
2182
+ },
2183
+ {
2184
+ "epoch": 0.11220704008686996,
2185
+ "grad_norm": NaN,
2186
+ "learning_rate": 0.0003297158713880678,
2187
+ "loss": 0.3068,
2188
+ "step": 6200
2189
+ },
2190
+ {
2191
+ "epoch": 0.11256899828069858,
2192
+ "grad_norm": NaN,
2193
+ "learning_rate": 0.0003297701634795198,
2194
+ "loss": 3.6855,
2195
+ "step": 6220
2196
+ },
2197
+ {
2198
+ "epoch": 0.1129309564745272,
2199
+ "grad_norm": NaN,
2200
+ "learning_rate": 0.0003297701634795198,
2201
+ "loss": 1.1705,
2202
+ "step": 6240
2203
+ },
2204
+ {
2205
+ "epoch": 0.11329291466835581,
2206
+ "grad_norm": NaN,
2207
+ "learning_rate": 0.0003297701634795198,
2208
+ "loss": 4.775,
2209
+ "step": 6260
2210
+ },
2211
+ {
2212
+ "epoch": 0.11365487286218441,
2213
+ "grad_norm": NaN,
2214
+ "learning_rate": 0.0003297701634795198,
2215
+ "loss": 1.8774,
2216
+ "step": 6280
2217
+ },
2218
+ {
2219
+ "epoch": 0.11401683105601303,
2220
+ "grad_norm": NaN,
2221
+ "learning_rate": 0.0003297701634795198,
2222
+ "loss": 1.6138,
2223
+ "step": 6300
2224
+ },
2225
+ {
2226
+ "epoch": 0.11437878924984164,
2227
+ "grad_norm": NaN,
2228
+ "learning_rate": 0.0003297701634795198,
2229
+ "loss": 4.092,
2230
+ "step": 6320
2231
+ },
2232
+ {
2233
+ "epoch": 0.11474074744367026,
2234
+ "grad_norm": NaN,
2235
+ "learning_rate": 0.0003297701634795198,
2236
+ "loss": 1.877,
2237
+ "step": 6340
2238
+ },
2239
+ {
2240
+ "epoch": 0.11510270563749887,
2241
+ "grad_norm": NaN,
2242
+ "learning_rate": 0.0003297701634795198,
2243
+ "loss": 0.0,
2244
+ "step": 6360
2245
+ },
2246
+ {
2247
+ "epoch": 0.11546466383132749,
2248
+ "grad_norm": NaN,
2249
+ "learning_rate": 0.0003297701634795198,
2250
+ "loss": 1.4496,
2251
+ "step": 6380
2252
+ },
2253
+ {
2254
+ "epoch": 0.11582662202515609,
2255
+ "grad_norm": NaN,
2256
+ "learning_rate": 0.0003297701634795198,
2257
+ "loss": 0.8283,
2258
+ "step": 6400
2259
+ },
2260
+ {
2261
+ "epoch": 0.1161885802189847,
2262
+ "grad_norm": NaN,
2263
+ "learning_rate": 0.0003297701634795198,
2264
+ "loss": 1.0648,
2265
+ "step": 6420
2266
+ },
2267
+ {
2268
+ "epoch": 0.11655053841281332,
2269
+ "grad_norm": NaN,
2270
+ "learning_rate": 0.0003297701634795198,
2271
+ "loss": 1.5593,
2272
+ "step": 6440
2273
+ },
2274
+ {
2275
+ "epoch": 0.11691249660664194,
2276
+ "grad_norm": NaN,
2277
+ "learning_rate": 0.0003297701634795198,
2278
+ "loss": 0.3318,
2279
+ "step": 6460
2280
+ },
2281
+ {
2282
+ "epoch": 0.11727445480047055,
2283
+ "grad_norm": NaN,
2284
+ "learning_rate": 0.0003297701634795198,
2285
+ "loss": 0.2933,
2286
+ "step": 6480
2287
+ },
2288
+ {
2289
+ "epoch": 0.11763641299429915,
2290
+ "grad_norm": NaN,
2291
+ "learning_rate": 0.0003297701634795198,
2292
+ "loss": 0.8112,
2293
+ "step": 6500
2294
+ },
2295
+ {
2296
+ "epoch": 0.11799837118812777,
2297
+ "grad_norm": NaN,
2298
+ "learning_rate": 0.0003297701634795198,
2299
+ "loss": 0.9949,
2300
+ "step": 6520
2301
+ },
2302
+ {
2303
+ "epoch": 0.11836032938195638,
2304
+ "grad_norm": NaN,
2305
+ "learning_rate": 0.0003297701634795198,
2306
+ "loss": 1.0499,
2307
+ "step": 6540
2308
+ },
2309
+ {
2310
+ "epoch": 0.118722287575785,
2311
+ "grad_norm": NaN,
2312
+ "learning_rate": 0.0003297701634795198,
2313
+ "loss": 1.1902,
2314
+ "step": 6560
2315
+ },
2316
+ {
2317
+ "epoch": 0.11908424576961361,
2318
+ "grad_norm": NaN,
2319
+ "learning_rate": 0.0003297701634795198,
2320
+ "loss": 4.6519,
2321
+ "step": 6580
2322
+ },
2323
+ {
2324
+ "epoch": 0.11944620396344222,
2325
+ "grad_norm": NaN,
2326
+ "learning_rate": 0.0003297701634795198,
2327
+ "loss": 3.6229,
2328
+ "step": 6600
2329
+ },
2330
+ {
2331
+ "epoch": 0.11980816215727083,
2332
+ "grad_norm": NaN,
2333
+ "learning_rate": 0.0003297701634795198,
2334
+ "loss": 0.0,
2335
+ "step": 6620
2336
+ },
2337
+ {
2338
+ "epoch": 0.12017012035109945,
2339
+ "grad_norm": NaN,
2340
+ "learning_rate": 0.00032982445557097183,
2341
+ "loss": 1.116,
2342
+ "step": 6640
2343
+ },
2344
+ {
2345
+ "epoch": 0.12053207854492806,
2346
+ "grad_norm": NaN,
2347
+ "learning_rate": 0.00032987874766242386,
2348
+ "loss": 2.6337,
2349
+ "step": 6660
2350
+ },
2351
+ {
2352
+ "epoch": 0.12089403673875668,
2353
+ "grad_norm": NaN,
2354
+ "learning_rate": 0.00032987874766242386,
2355
+ "loss": 2.4189,
2356
+ "step": 6680
2357
+ },
2358
+ {
2359
+ "epoch": 0.12125599493258529,
2360
+ "grad_norm": NaN,
2361
+ "learning_rate": 0.00032987874766242386,
2362
+ "loss": 0.0,
2363
+ "step": 6700
2364
+ },
2365
+ {
2366
+ "epoch": 0.1216179531264139,
2367
+ "grad_norm": NaN,
2368
+ "learning_rate": 0.00032993303975387584,
2369
+ "loss": 5.334,
2370
+ "step": 6720
2371
+ },
2372
+ {
2373
+ "epoch": 0.12197991132024251,
2374
+ "grad_norm": NaN,
2375
+ "learning_rate": 0.00032993303975387584,
2376
+ "loss": 1.2443,
2377
+ "step": 6740
2378
+ },
2379
+ {
2380
+ "epoch": 0.12234186951407112,
2381
+ "grad_norm": NaN,
2382
+ "learning_rate": 0.00032993303975387584,
2383
+ "loss": 4.497,
2384
+ "step": 6760
2385
+ },
2386
+ {
2387
+ "epoch": 0.12270382770789974,
2388
+ "grad_norm": NaN,
2389
+ "learning_rate": 0.00032993303975387584,
2390
+ "loss": 1.03,
2391
+ "step": 6780
2392
+ },
2393
+ {
2394
+ "epoch": 0.12306578590172836,
2395
+ "grad_norm": NaN,
2396
+ "learning_rate": 0.00032993303975387584,
2397
+ "loss": 0.5876,
2398
+ "step": 6800
2399
+ },
2400
+ {
2401
+ "epoch": 0.12342774409555696,
2402
+ "grad_norm": NaN,
2403
+ "learning_rate": 0.00032993303975387584,
2404
+ "loss": 3.1744,
2405
+ "step": 6820
2406
+ },
2407
+ {
2408
+ "epoch": 0.12378970228938557,
2409
+ "grad_norm": NaN,
2410
+ "learning_rate": 0.00032993303975387584,
2411
+ "loss": 1.7883,
2412
+ "step": 6840
2413
+ },
2414
+ {
2415
+ "epoch": 0.12415166048321419,
2416
+ "grad_norm": NaN,
2417
+ "learning_rate": 0.00032993303975387584,
2418
+ "loss": 0.6097,
2419
+ "step": 6860
2420
+ },
2421
+ {
2422
+ "epoch": 0.1245136186770428,
2423
+ "grad_norm": NaN,
2424
+ "learning_rate": 0.00032993303975387584,
2425
+ "loss": 2.116,
2426
+ "step": 6880
2427
+ },
2428
+ {
2429
+ "epoch": 0.12487557687087142,
2430
+ "grad_norm": NaN,
2431
+ "learning_rate": 0.00032993303975387584,
2432
+ "loss": 1.1183,
2433
+ "step": 6900
2434
+ },
2435
+ {
2436
+ "epoch": 0.12523753506470003,
2437
+ "grad_norm": NaN,
2438
+ "learning_rate": 0.00032998733184532787,
2439
+ "loss": 2.0884,
2440
+ "step": 6920
2441
+ },
2442
+ {
2443
+ "epoch": 0.12559949325852865,
2444
+ "grad_norm": NaN,
2445
+ "learning_rate": 0.00032998733184532787,
2446
+ "loss": 0.0,
2447
+ "step": 6940
2448
+ },
2449
+ {
2450
+ "epoch": 0.12596145145235726,
2451
+ "grad_norm": NaN,
2452
+ "learning_rate": 0.00032998733184532787,
2453
+ "loss": 3.2805,
2454
+ "step": 6960
2455
+ },
2456
+ {
2457
+ "epoch": 0.12632340964618585,
2458
+ "grad_norm": NaN,
2459
+ "learning_rate": 0.0003300416239367799,
2460
+ "loss": 2.9308,
2461
+ "step": 6980
2462
+ },
2463
+ {
2464
+ "epoch": 0.12668536784001447,
2465
+ "grad_norm": NaN,
2466
+ "learning_rate": 0.0003300416239367799,
2467
+ "loss": 0.2905,
2468
+ "step": 7000
2469
+ },
2470
+ {
2471
+ "epoch": 0.12704732603384308,
2472
+ "grad_norm": NaN,
2473
+ "learning_rate": 0.0003300416239367799,
2474
+ "loss": 1.5342,
2475
+ "step": 7020
2476
+ },
2477
+ {
2478
+ "epoch": 0.1274092842276717,
2479
+ "grad_norm": NaN,
2480
+ "learning_rate": 0.0003300416239367799,
2481
+ "loss": 2.1439,
2482
+ "step": 7040
2483
+ },
2484
+ {
2485
+ "epoch": 0.12777124242150031,
2486
+ "grad_norm": NaN,
2487
+ "learning_rate": 0.0003300416239367799,
2488
+ "loss": 1.8486,
2489
+ "step": 7060
2490
+ },
2491
+ {
2492
+ "epoch": 0.12813320061532893,
2493
+ "grad_norm": NaN,
2494
+ "learning_rate": 0.0003300416239367799,
2495
+ "loss": 2.2983,
2496
+ "step": 7080
2497
+ },
2498
+ {
2499
+ "epoch": 0.12849515880915754,
2500
+ "grad_norm": NaN,
2501
+ "learning_rate": 0.00033009591602823187,
2502
+ "loss": 5.8454,
2503
+ "step": 7100
2504
+ },
2505
+ {
2506
+ "epoch": 0.12885711700298616,
2507
+ "grad_norm": NaN,
2508
+ "learning_rate": 0.00033009591602823187,
2509
+ "loss": 0.0,
2510
+ "step": 7120
2511
+ },
2512
+ {
2513
+ "epoch": 0.12921907519681478,
2514
+ "grad_norm": NaN,
2515
+ "learning_rate": 0.00033009591602823187,
2516
+ "loss": 3.4919,
2517
+ "step": 7140
2518
+ },
2519
+ {
2520
+ "epoch": 0.1295810333906434,
2521
+ "grad_norm": NaN,
2522
+ "learning_rate": 0.00033009591602823187,
2523
+ "loss": 0.0,
2524
+ "step": 7160
2525
+ },
2526
+ {
2527
+ "epoch": 0.129942991584472,
2528
+ "grad_norm": NaN,
2529
+ "learning_rate": 0.0003301502081196839,
2530
+ "loss": 1.6828,
2531
+ "step": 7180
2532
+ },
2533
+ {
2534
+ "epoch": 0.1303049497783006,
2535
+ "grad_norm": NaN,
2536
+ "learning_rate": 0.0003302045002111359,
2537
+ "loss": 2.8762,
2538
+ "step": 7200
2539
+ },
2540
+ {
2541
+ "epoch": 0.1306669079721292,
2542
+ "grad_norm": NaN,
2543
+ "learning_rate": 0.0003302045002111359,
2544
+ "loss": 0.995,
2545
+ "step": 7220
2546
+ },
2547
+ {
2548
+ "epoch": 0.13102886616595782,
2549
+ "grad_norm": NaN,
2550
+ "learning_rate": 0.0003302045002111359,
2551
+ "loss": 3.0309,
2552
+ "step": 7240
2553
+ },
2554
+ {
2555
+ "epoch": 0.13139082435978644,
2556
+ "grad_norm": NaN,
2557
+ "learning_rate": 0.0003302045002111359,
2558
+ "loss": 2.1536,
2559
+ "step": 7260
2560
+ },
2561
+ {
2562
+ "epoch": 0.13175278255361506,
2563
+ "grad_norm": NaN,
2564
+ "learning_rate": 0.0003302045002111359,
2565
+ "loss": 1.7328,
2566
+ "step": 7280
2567
+ },
2568
+ {
2569
+ "epoch": 0.13211474074744367,
2570
+ "grad_norm": NaN,
2571
+ "learning_rate": 0.0003302045002111359,
2572
+ "loss": 1.4516,
2573
+ "step": 7300
2574
+ },
2575
+ {
2576
+ "epoch": 0.1324766989412723,
2577
+ "grad_norm": NaN,
2578
+ "learning_rate": 0.0003302045002111359,
2579
+ "loss": 2.3328,
2580
+ "step": 7320
2581
+ },
2582
+ {
2583
+ "epoch": 0.1328386571351009,
2584
+ "grad_norm": NaN,
2585
+ "learning_rate": 0.0003302045002111359,
2586
+ "loss": 5.0458,
2587
+ "step": 7340
2588
+ },
2589
+ {
2590
+ "epoch": 0.13320061532892952,
2591
+ "grad_norm": NaN,
2592
+ "learning_rate": 0.0003302045002111359,
2593
+ "loss": 0.6658,
2594
+ "step": 7360
2595
+ },
2596
+ {
2597
+ "epoch": 0.13356257352275813,
2598
+ "grad_norm": NaN,
2599
+ "learning_rate": 0.0003302587923025879,
2600
+ "loss": 3.0189,
2601
+ "step": 7380
2602
+ },
2603
+ {
2604
+ "epoch": 0.13392453171658675,
2605
+ "grad_norm": NaN,
2606
+ "learning_rate": 0.0003302587923025879,
2607
+ "loss": 1.0563,
2608
+ "step": 7400
2609
+ },
2610
+ {
2611
+ "epoch": 0.13428648991041534,
2612
+ "grad_norm": NaN,
2613
+ "learning_rate": 0.0003302587923025879,
2614
+ "loss": 0.2771,
2615
+ "step": 7420
2616
+ },
2617
+ {
2618
+ "epoch": 0.13464844810424395,
2619
+ "grad_norm": NaN,
2620
+ "learning_rate": 0.0003302587923025879,
2621
+ "loss": 2.2785,
2622
+ "step": 7440
2623
+ },
2624
+ {
2625
+ "epoch": 0.13501040629807257,
2626
+ "grad_norm": NaN,
2627
+ "learning_rate": 0.0003302587923025879,
2628
+ "loss": 3.2136,
2629
+ "step": 7460
2630
+ },
2631
+ {
2632
+ "epoch": 0.13537236449190118,
2633
+ "grad_norm": NaN,
2634
+ "learning_rate": 0.0003302587923025879,
2635
+ "loss": 0.4388,
2636
+ "step": 7480
2637
+ },
2638
+ {
2639
+ "epoch": 0.1357343226857298,
2640
+ "grad_norm": NaN,
2641
+ "learning_rate": 0.0003302587923025879,
2642
+ "loss": 1.5316,
2643
+ "step": 7500
2644
+ },
2645
+ {
2646
+ "epoch": 0.1360962808795584,
2647
+ "grad_norm": NaN,
2648
+ "learning_rate": 0.0003302587923025879,
2649
+ "loss": 4.91,
2650
+ "step": 7520
2651
+ },
2652
+ {
2653
+ "epoch": 0.13645823907338703,
2654
+ "grad_norm": NaN,
2655
+ "learning_rate": 0.0003302587923025879,
2656
+ "loss": 0.6,
2657
+ "step": 7540
2658
+ },
2659
+ {
2660
+ "epoch": 0.13682019726721564,
2661
+ "grad_norm": NaN,
2662
+ "learning_rate": 0.0003302587923025879,
2663
+ "loss": 1.3436,
2664
+ "step": 7560
2665
+ },
2666
+ {
2667
+ "epoch": 0.13718215546104426,
2668
+ "grad_norm": NaN,
2669
+ "learning_rate": 0.0003302587923025879,
2670
+ "loss": 0.971,
2671
+ "step": 7580
2672
+ },
2673
+ {
2674
+ "epoch": 0.13754411365487287,
2675
+ "grad_norm": NaN,
2676
+ "learning_rate": 0.0003302587923025879,
2677
+ "loss": 0.9318,
2678
+ "step": 7600
2679
+ },
2680
+ {
2681
+ "epoch": 0.13790607184870146,
2682
+ "grad_norm": NaN,
2683
+ "learning_rate": 0.0003302587923025879,
2684
+ "loss": 1.9039,
2685
+ "step": 7620
2686
+ },
2687
+ {
2688
+ "epoch": 0.13826803004253008,
2689
+ "grad_norm": NaN,
2690
+ "learning_rate": 0.0003302587923025879,
2691
+ "loss": 1.7444,
2692
+ "step": 7640
2693
+ },
2694
+ {
2695
+ "epoch": 0.1386299882363587,
2696
+ "grad_norm": NaN,
2697
+ "learning_rate": 0.0003302587923025879,
2698
+ "loss": 1.1124,
2699
+ "step": 7660
2700
+ },
2701
+ {
2702
+ "epoch": 0.1389919464301873,
2703
+ "grad_norm": NaN,
2704
+ "learning_rate": 0.0003302587923025879,
2705
+ "loss": 2.8302,
2706
+ "step": 7680
2707
+ },
2708
+ {
2709
+ "epoch": 0.13935390462401592,
2710
+ "grad_norm": NaN,
2711
+ "learning_rate": 0.0003302587923025879,
2712
+ "loss": 4.0674,
2713
+ "step": 7700
2714
+ },
2715
+ {
2716
+ "epoch": 0.13971586281784454,
2717
+ "grad_norm": NaN,
2718
+ "learning_rate": 0.0003302587923025879,
2719
+ "loss": 0.275,
2720
+ "step": 7720
2721
+ },
2722
+ {
2723
+ "epoch": 0.14007782101167315,
2724
+ "grad_norm": NaN,
2725
+ "learning_rate": 0.0003302587923025879,
2726
+ "loss": 2.7992,
2727
+ "step": 7740
2728
+ },
2729
+ {
2730
+ "epoch": 0.14043977920550177,
2731
+ "grad_norm": NaN,
2732
+ "learning_rate": 0.0003302587923025879,
2733
+ "loss": 3.474,
2734
+ "step": 7760
2735
+ },
2736
+ {
2737
+ "epoch": 0.14080173739933038,
2738
+ "grad_norm": NaN,
2739
+ "learning_rate": 0.0003302587923025879,
2740
+ "loss": 2.9148,
2741
+ "step": 7780
2742
+ },
2743
+ {
2744
+ "epoch": 0.141163695593159,
2745
+ "grad_norm": NaN,
2746
+ "learning_rate": 0.0003302587923025879,
2747
+ "loss": 0.2909,
2748
+ "step": 7800
2749
+ },
2750
+ {
2751
+ "epoch": 0.14152565378698762,
2752
+ "grad_norm": NaN,
2753
+ "learning_rate": 0.0003302587923025879,
2754
+ "loss": 2.1936,
2755
+ "step": 7820
2756
+ },
2757
+ {
2758
+ "epoch": 0.1418876119808162,
2759
+ "grad_norm": NaN,
2760
+ "learning_rate": 0.0003302587923025879,
2761
+ "loss": 4.1645,
2762
+ "step": 7840
2763
+ },
2764
+ {
2765
+ "epoch": 0.14224957017464482,
2766
+ "grad_norm": NaN,
2767
+ "learning_rate": 0.0003303130843940399,
2768
+ "loss": 4.7352,
2769
+ "step": 7860
2770
+ },
2771
+ {
2772
+ "epoch": 0.14261152836847343,
2773
+ "grad_norm": NaN,
2774
+ "learning_rate": 0.0003303130843940399,
2775
+ "loss": 0.9052,
2776
+ "step": 7880
2777
+ },
2778
+ {
2779
+ "epoch": 0.14297348656230205,
2780
+ "grad_norm": NaN,
2781
+ "learning_rate": 0.0003303130843940399,
2782
+ "loss": 3.5735,
2783
+ "step": 7900
2784
+ },
2785
+ {
2786
+ "epoch": 0.14333544475613066,
2787
+ "grad_norm": NaN,
2788
+ "learning_rate": 0.0003303130843940399,
2789
+ "loss": 0.4788,
2790
+ "step": 7920
2791
+ },
2792
+ {
2793
+ "epoch": 0.14369740294995928,
2794
+ "grad_norm": NaN,
2795
+ "learning_rate": 0.00033036737648549196,
2796
+ "loss": 2.5942,
2797
+ "step": 7940
2798
+ },
2799
+ {
2800
+ "epoch": 0.1440593611437879,
2801
+ "grad_norm": NaN,
2802
+ "learning_rate": 0.00033036737648549196,
2803
+ "loss": 0.5562,
2804
+ "step": 7960
2805
+ },
2806
+ {
2807
+ "epoch": 0.1444213193376165,
2808
+ "grad_norm": NaN,
2809
+ "learning_rate": 0.00033036737648549196,
2810
+ "loss": 1.268,
2811
+ "step": 7980
2812
+ },
2813
+ {
2814
+ "epoch": 0.14478327753144513,
2815
+ "grad_norm": NaN,
2816
+ "learning_rate": 0.00033036737648549196,
2817
+ "loss": 2.5866,
2818
+ "step": 8000
2819
+ },
2820
+ {
2821
+ "epoch": 0.14514523572527374,
2822
+ "grad_norm": NaN,
2823
+ "learning_rate": 0.00033036737648549196,
2824
+ "loss": 0.0,
2825
+ "step": 8020
2826
+ },
2827
+ {
2828
+ "epoch": 0.14550719391910236,
2829
+ "grad_norm": NaN,
2830
+ "learning_rate": 0.00033036737648549196,
2831
+ "loss": 1.2675,
2832
+ "step": 8040
2833
+ },
2834
+ {
2835
+ "epoch": 0.14586915211293094,
2836
+ "grad_norm": NaN,
2837
+ "learning_rate": 0.00033036737648549196,
2838
+ "loss": 0.407,
2839
+ "step": 8060
2840
+ },
2841
+ {
2842
+ "epoch": 0.14623111030675956,
2843
+ "grad_norm": NaN,
2844
+ "learning_rate": 0.00033036737648549196,
2845
+ "loss": 0.0,
2846
+ "step": 8080
2847
+ },
2848
+ {
2849
+ "epoch": 0.14659306850058818,
2850
+ "grad_norm": NaN,
2851
+ "learning_rate": 0.00033036737648549196,
2852
+ "loss": 1.6142,
2853
+ "step": 8100
2854
+ },
2855
+ {
2856
+ "epoch": 0.1469550266944168,
2857
+ "grad_norm": NaN,
2858
+ "learning_rate": 0.00033036737648549196,
2859
+ "loss": 0.6237,
2860
+ "step": 8120
2861
+ },
2862
+ {
2863
+ "epoch": 0.1473169848882454,
2864
+ "grad_norm": NaN,
2865
+ "learning_rate": 0.00033036737648549196,
2866
+ "loss": 1.5398,
2867
+ "step": 8140
2868
+ },
2869
+ {
2870
+ "epoch": 0.14767894308207402,
2871
+ "grad_norm": NaN,
2872
+ "learning_rate": 0.00033036737648549196,
2873
+ "loss": 0.4752,
2874
+ "step": 8160
2875
+ },
2876
+ {
2877
+ "epoch": 0.14804090127590264,
2878
+ "grad_norm": NaN,
2879
+ "learning_rate": 0.00033036737648549196,
2880
+ "loss": 2.9843,
2881
+ "step": 8180
2882
+ },
2883
+ {
2884
+ "epoch": 0.14840285946973125,
2885
+ "grad_norm": NaN,
2886
+ "learning_rate": 0.00033036737648549196,
2887
+ "loss": 1.2889,
2888
+ "step": 8200
2889
+ },
2890
+ {
2891
+ "epoch": 0.14876481766355987,
2892
+ "grad_norm": NaN,
2893
+ "learning_rate": 0.00033036737648549196,
2894
+ "loss": 0.0,
2895
+ "step": 8220
2896
+ },
2897
+ {
2898
+ "epoch": 0.14912677585738848,
2899
+ "grad_norm": NaN,
2900
+ "learning_rate": 0.00033036737648549196,
2901
+ "loss": 1.5344,
2902
+ "step": 8240
2903
+ },
2904
+ {
2905
+ "epoch": 0.1494887340512171,
2906
+ "grad_norm": NaN,
2907
+ "learning_rate": 0.00033036737648549196,
2908
+ "loss": 4.309,
2909
+ "step": 8260
2910
+ },
2911
+ {
2912
+ "epoch": 0.14985069224504569,
2913
+ "grad_norm": NaN,
2914
+ "learning_rate": 0.00033036737648549196,
2915
+ "loss": 4.7959,
2916
+ "step": 8280
2917
+ },
2918
+ {
2919
+ "epoch": 0.1502126504388743,
2920
+ "grad_norm": NaN,
2921
+ "learning_rate": 0.00033036737648549196,
2922
+ "loss": 0.2643,
2923
+ "step": 8300
2924
+ },
2925
+ {
2926
+ "epoch": 0.15057460863270292,
2927
+ "grad_norm": NaN,
2928
+ "learning_rate": 0.00033036737648549196,
2929
+ "loss": 1.5931,
2930
+ "step": 8320
2931
+ },
2932
+ {
2933
+ "epoch": 0.15093656682653153,
2934
+ "grad_norm": NaN,
2935
+ "learning_rate": 0.00033036737648549196,
2936
+ "loss": 3.252,
2937
+ "step": 8340
2938
+ },
2939
+ {
2940
+ "epoch": 0.15129852502036015,
2941
+ "grad_norm": NaN,
2942
+ "learning_rate": 0.00033036737648549196,
2943
+ "loss": 0.4066,
2944
+ "step": 8360
2945
+ },
2946
+ {
2947
+ "epoch": 0.15166048321418876,
2948
+ "grad_norm": NaN,
2949
+ "learning_rate": 0.00033036737648549196,
2950
+ "loss": 1.5006,
2951
+ "step": 8380
2952
+ },
2953
+ {
2954
+ "epoch": 0.15202244140801738,
2955
+ "grad_norm": NaN,
2956
+ "learning_rate": 0.00033036737648549196,
2957
+ "loss": 1.7442,
2958
+ "step": 8400
2959
+ },
2960
+ {
2961
+ "epoch": 0.152384399601846,
2962
+ "grad_norm": NaN,
2963
+ "learning_rate": 0.00033036737648549196,
2964
+ "loss": 0.4045,
2965
+ "step": 8420
2966
+ },
2967
+ {
2968
+ "epoch": 0.1527463577956746,
2969
+ "grad_norm": NaN,
2970
+ "learning_rate": 0.00033036737648549196,
2971
+ "loss": 1.252,
2972
+ "step": 8440
2973
+ },
2974
+ {
2975
+ "epoch": 0.15310831598950322,
2976
+ "grad_norm": NaN,
2977
+ "learning_rate": 0.00033036737648549196,
2978
+ "loss": 1.0349,
2979
+ "step": 8460
2980
+ },
2981
+ {
2982
+ "epoch": 0.1534702741833318,
2983
+ "grad_norm": NaN,
2984
+ "learning_rate": 0.00033042166857694393,
2985
+ "loss": 0.5888,
2986
+ "step": 8480
2987
+ },
2988
+ {
2989
+ "epoch": 0.15383223237716043,
2990
+ "grad_norm": NaN,
2991
+ "learning_rate": 0.00033047596066839596,
2992
+ "loss": 1.9747,
2993
+ "step": 8500
2994
+ },
2995
+ {
2996
+ "epoch": 0.15419419057098904,
2997
+ "grad_norm": NaN,
2998
+ "learning_rate": 0.00033047596066839596,
2999
+ "loss": 1.1524,
3000
+ "step": 8520
3001
+ },
3002
+ {
3003
+ "epoch": 0.15455614876481766,
3004
+ "grad_norm": NaN,
3005
+ "learning_rate": 0.00033047596066839596,
3006
+ "loss": 3.9692,
3007
+ "step": 8540
3008
+ },
3009
+ {
3010
+ "epoch": 0.15491810695864627,
3011
+ "grad_norm": NaN,
3012
+ "learning_rate": 0.00033047596066839596,
3013
+ "loss": 2.6825,
3014
+ "step": 8560
3015
+ },
3016
+ {
3017
+ "epoch": 0.1552800651524749,
3018
+ "grad_norm": NaN,
3019
+ "learning_rate": 0.00033047596066839596,
3020
+ "loss": 2.5432,
3021
+ "step": 8580
3022
+ },
3023
+ {
3024
+ "epoch": 0.1556420233463035,
3025
+ "grad_norm": NaN,
3026
+ "learning_rate": 0.000330530252759848,
3027
+ "loss": 3.0545,
3028
+ "step": 8600
3029
+ },
3030
+ {
3031
+ "epoch": 0.15600398154013212,
3032
+ "grad_norm": NaN,
3033
+ "learning_rate": 0.00033058454485129996,
3034
+ "loss": 1.709,
3035
+ "step": 8620
3036
+ },
3037
+ {
3038
+ "epoch": 0.15636593973396073,
3039
+ "grad_norm": NaN,
3040
+ "learning_rate": 0.00033058454485129996,
3041
+ "loss": 1.1557,
3042
+ "step": 8640
3043
+ },
3044
+ {
3045
+ "epoch": 0.15672789792778935,
3046
+ "grad_norm": NaN,
3047
+ "learning_rate": 0.00033058454485129996,
3048
+ "loss": 1.9568,
3049
+ "step": 8660
3050
+ },
3051
+ {
3052
+ "epoch": 0.15708985612161797,
3053
+ "grad_norm": NaN,
3054
+ "learning_rate": 0.00033058454485129996,
3055
+ "loss": 0.4101,
3056
+ "step": 8680
3057
+ },
3058
+ {
3059
+ "epoch": 0.15745181431544655,
3060
+ "grad_norm": NaN,
3061
+ "learning_rate": 0.00033058454485129996,
3062
+ "loss": 1.0798,
3063
+ "step": 8700
3064
+ },
3065
+ {
3066
+ "epoch": 0.15781377250927517,
3067
+ "grad_norm": NaN,
3068
+ "learning_rate": 0.00033058454485129996,
3069
+ "loss": 0.9417,
3070
+ "step": 8720
3071
+ },
3072
+ {
3073
+ "epoch": 0.15817573070310378,
3074
+ "grad_norm": NaN,
3075
+ "learning_rate": 0.00033058454485129996,
3076
+ "loss": 0.3268,
3077
+ "step": 8740
3078
+ },
3079
+ {
3080
+ "epoch": 0.1585376888969324,
3081
+ "grad_norm": NaN,
3082
+ "learning_rate": 0.00033058454485129996,
3083
+ "loss": 2.7045,
3084
+ "step": 8760
3085
+ },
3086
+ {
3087
+ "epoch": 0.15889964709076101,
3088
+ "grad_norm": NaN,
3089
+ "learning_rate": 0.00033058454485129996,
3090
+ "loss": 3.1654,
3091
+ "step": 8780
3092
+ },
3093
+ {
3094
+ "epoch": 0.15926160528458963,
3095
+ "grad_norm": NaN,
3096
+ "learning_rate": 0.00033058454485129996,
3097
+ "loss": 3.7107,
3098
+ "step": 8800
3099
+ },
3100
+ {
3101
+ "epoch": 0.15962356347841825,
3102
+ "grad_norm": NaN,
3103
+ "learning_rate": 0.00033058454485129996,
3104
+ "loss": 1.1776,
3105
+ "step": 8820
3106
+ },
3107
+ {
3108
+ "epoch": 0.15998552167224686,
3109
+ "grad_norm": NaN,
3110
+ "learning_rate": 0.00033058454485129996,
3111
+ "loss": 0.7538,
3112
+ "step": 8840
3113
+ },
3114
+ {
3115
+ "epoch": 0.16034747986607548,
3116
+ "grad_norm": NaN,
3117
+ "learning_rate": 0.000330638836942752,
3118
+ "loss": 5.9555,
3119
+ "step": 8860
3120
+ },
3121
+ {
3122
+ "epoch": 0.1607094380599041,
3123
+ "grad_norm": NaN,
3124
+ "learning_rate": 0.000330693129034204,
3125
+ "loss": 2.4652,
3126
+ "step": 8880
3127
+ },
3128
+ {
3129
+ "epoch": 0.1610713962537327,
3130
+ "grad_norm": NaN,
3131
+ "learning_rate": 0.000330693129034204,
3132
+ "loss": 0.6042,
3133
+ "step": 8900
3134
+ },
3135
+ {
3136
+ "epoch": 0.1614333544475613,
3137
+ "grad_norm": NaN,
3138
+ "learning_rate": 0.000330693129034204,
3139
+ "loss": 2.164,
3140
+ "step": 8920
3141
+ },
3142
+ {
3143
+ "epoch": 0.1617953126413899,
3144
+ "grad_norm": NaN,
3145
+ "learning_rate": 0.000330693129034204,
3146
+ "loss": 1.5732,
3147
+ "step": 8940
3148
+ },
3149
+ {
3150
+ "epoch": 0.16215727083521853,
3151
+ "grad_norm": NaN,
3152
+ "learning_rate": 0.000330693129034204,
3153
+ "loss": 0.7035,
3154
+ "step": 8960
3155
+ },
3156
+ {
3157
+ "epoch": 0.16251922902904714,
3158
+ "grad_norm": NaN,
3159
+ "learning_rate": 0.000330693129034204,
3160
+ "loss": 1.3199,
3161
+ "step": 8980
3162
+ },
3163
+ {
3164
+ "epoch": 0.16288118722287576,
3165
+ "grad_norm": NaN,
3166
+ "learning_rate": 0.000330693129034204,
3167
+ "loss": 2.9008,
3168
+ "step": 9000
3169
+ },
3170
+ {
3171
+ "epoch": 0.16324314541670437,
3172
+ "grad_norm": NaN,
3173
+ "learning_rate": 0.000330693129034204,
3174
+ "loss": 2.8915,
3175
+ "step": 9020
3176
+ },
3177
+ {
3178
+ "epoch": 0.163605103610533,
3179
+ "grad_norm": NaN,
3180
+ "learning_rate": 0.000330693129034204,
3181
+ "loss": 0.6013,
3182
+ "step": 9040
3183
+ },
3184
+ {
3185
+ "epoch": 0.1639670618043616,
3186
+ "grad_norm": NaN,
3187
+ "learning_rate": 0.000330693129034204,
3188
+ "loss": 0.7603,
3189
+ "step": 9060
3190
+ },
3191
+ {
3192
+ "epoch": 0.16432901999819022,
3193
+ "grad_norm": NaN,
3194
+ "learning_rate": 0.000330693129034204,
3195
+ "loss": 2.1826,
3196
+ "step": 9080
3197
+ },
3198
+ {
3199
+ "epoch": 0.16469097819201883,
3200
+ "grad_norm": NaN,
3201
+ "learning_rate": 0.000330693129034204,
3202
+ "loss": 3.9643,
3203
+ "step": 9100
3204
+ },
3205
+ {
3206
+ "epoch": 0.16505293638584742,
3207
+ "grad_norm": NaN,
3208
+ "learning_rate": 0.000330693129034204,
3209
+ "loss": 1.6171,
3210
+ "step": 9120
3211
+ },
3212
+ {
3213
+ "epoch": 0.16541489457967604,
3214
+ "grad_norm": NaN,
3215
+ "learning_rate": 0.000330693129034204,
3216
+ "loss": 0.5245,
3217
+ "step": 9140
3218
+ },
3219
+ {
3220
+ "epoch": 0.16577685277350465,
3221
+ "grad_norm": NaN,
3222
+ "learning_rate": 0.000330693129034204,
3223
+ "loss": 2.243,
3224
+ "step": 9160
3225
+ },
3226
+ {
3227
+ "epoch": 0.16613881096733327,
3228
+ "grad_norm": NaN,
3229
+ "learning_rate": 0.000330693129034204,
3230
+ "loss": 2.6442,
3231
+ "step": 9180
3232
+ },
3233
+ {
3234
+ "epoch": 0.16650076916116188,
3235
+ "grad_norm": NaN,
3236
+ "learning_rate": 0.000330747421125656,
3237
+ "loss": 1.4556,
3238
+ "step": 9200
3239
+ },
3240
+ {
3241
+ "epoch": 0.1668627273549905,
3242
+ "grad_norm": NaN,
3243
+ "learning_rate": 0.000330747421125656,
3244
+ "loss": 2.888,
3245
+ "step": 9220
3246
+ },
3247
+ {
3248
+ "epoch": 0.1672246855488191,
3249
+ "grad_norm": NaN,
3250
+ "learning_rate": 0.000330747421125656,
3251
+ "loss": 0.8837,
3252
+ "step": 9240
3253
+ },
3254
+ {
3255
+ "epoch": 0.16758664374264773,
3256
+ "grad_norm": NaN,
3257
+ "learning_rate": 0.000330747421125656,
3258
+ "loss": 3.352,
3259
+ "step": 9260
3260
+ },
3261
+ {
3262
+ "epoch": 0.16794860193647634,
3263
+ "grad_norm": NaN,
3264
+ "learning_rate": 0.000330747421125656,
3265
+ "loss": 1.1593,
3266
+ "step": 9280
3267
+ },
3268
+ {
3269
+ "epoch": 0.16831056013030496,
3270
+ "grad_norm": NaN,
3271
+ "learning_rate": 0.000330801713217108,
3272
+ "loss": 1.2725,
3273
+ "step": 9300
3274
+ },
3275
+ {
3276
+ "epoch": 0.16867251832413357,
3277
+ "grad_norm": NaN,
3278
+ "learning_rate": 0.000330801713217108,
3279
+ "loss": 2.86,
3280
+ "step": 9320
3281
+ },
3282
+ {
3283
+ "epoch": 0.16903447651796216,
3284
+ "grad_norm": NaN,
3285
+ "learning_rate": 0.000330801713217108,
3286
+ "loss": 1.3259,
3287
+ "step": 9340
3288
+ },
3289
+ {
3290
+ "epoch": 0.16939643471179078,
3291
+ "grad_norm": NaN,
3292
+ "learning_rate": 0.000330801713217108,
3293
+ "loss": 1.9639,
3294
+ "step": 9360
3295
+ },
3296
+ {
3297
+ "epoch": 0.1697583929056194,
3298
+ "grad_norm": NaN,
3299
+ "learning_rate": 0.000330801713217108,
3300
+ "loss": 1.0361,
3301
+ "step": 9380
3302
+ },
3303
+ {
3304
+ "epoch": 0.170120351099448,
3305
+ "grad_norm": NaN,
3306
+ "learning_rate": 0.000330801713217108,
3307
+ "loss": 0.8044,
3308
+ "step": 9400
3309
+ },
3310
+ {
3311
+ "epoch": 0.17048230929327662,
3312
+ "grad_norm": NaN,
3313
+ "learning_rate": 0.00033085600530856005,
3314
+ "loss": 2.3303,
3315
+ "step": 9420
3316
+ },
3317
+ {
3318
+ "epoch": 0.17084426748710524,
3319
+ "grad_norm": NaN,
3320
+ "learning_rate": 0.00033085600530856005,
3321
+ "loss": 2.9078,
3322
+ "step": 9440
3323
+ },
3324
+ {
3325
+ "epoch": 0.17120622568093385,
3326
+ "grad_norm": NaN,
3327
+ "learning_rate": 0.00033085600530856005,
3328
+ "loss": 0.4421,
3329
+ "step": 9460
3330
+ },
3331
+ {
3332
+ "epoch": 0.17156818387476247,
3333
+ "grad_norm": NaN,
3334
+ "learning_rate": 0.00033085600530856005,
3335
+ "loss": 5.0288,
3336
+ "step": 9480
3337
+ },
3338
+ {
3339
+ "epoch": 0.17193014206859109,
3340
+ "grad_norm": NaN,
3341
+ "learning_rate": 0.00033085600530856005,
3342
+ "loss": 0.8455,
3343
+ "step": 9500
3344
+ },
3345
+ {
3346
+ "epoch": 0.1722921002624197,
3347
+ "grad_norm": NaN,
3348
+ "learning_rate": 0.00033085600530856005,
3349
+ "loss": 3.2879,
3350
+ "step": 9520
3351
+ },
3352
+ {
3353
+ "epoch": 0.17265405845624832,
3354
+ "grad_norm": NaN,
3355
+ "learning_rate": 0.00033085600530856005,
3356
+ "loss": 3.2948,
3357
+ "step": 9540
3358
+ },
3359
+ {
3360
+ "epoch": 0.1730160166500769,
3361
+ "grad_norm": NaN,
3362
+ "learning_rate": 0.00033085600530856005,
3363
+ "loss": 1.6391,
3364
+ "step": 9560
3365
+ },
3366
+ {
3367
+ "epoch": 0.17337797484390552,
3368
+ "grad_norm": NaN,
3369
+ "learning_rate": 0.00033085600530856005,
3370
+ "loss": 0.8699,
3371
+ "step": 9580
3372
+ },
3373
+ {
3374
+ "epoch": 0.17373993303773413,
3375
+ "grad_norm": NaN,
3376
+ "learning_rate": 0.00033085600530856005,
3377
+ "loss": 0.3308,
3378
+ "step": 9600
3379
+ },
3380
+ {
3381
+ "epoch": 0.17410189123156275,
3382
+ "grad_norm": NaN,
3383
+ "learning_rate": 0.00033085600530856005,
3384
+ "loss": 0.5138,
3385
+ "step": 9620
3386
+ },
3387
+ {
3388
+ "epoch": 0.17446384942539137,
3389
+ "grad_norm": NaN,
3390
+ "learning_rate": 0.00033085600530856005,
3391
+ "loss": 2.5083,
3392
+ "step": 9640
3393
+ },
3394
+ {
3395
+ "epoch": 0.17482580761921998,
3396
+ "grad_norm": NaN,
3397
+ "learning_rate": 0.00033085600530856005,
3398
+ "loss": 2.8029,
3399
+ "step": 9660
3400
+ },
3401
+ {
3402
+ "epoch": 0.1751877658130486,
3403
+ "grad_norm": NaN,
3404
+ "learning_rate": 0.0003309102974000121,
3405
+ "loss": 2.2681,
3406
+ "step": 9680
3407
+ },
3408
+ {
3409
+ "epoch": 0.1755497240068772,
3410
+ "grad_norm": NaN,
3411
+ "learning_rate": 0.0003309102974000121,
3412
+ "loss": 0.0,
3413
+ "step": 9700
3414
+ },
3415
+ {
3416
+ "epoch": 0.17591168220070583,
3417
+ "grad_norm": NaN,
3418
+ "learning_rate": 0.0003309102974000121,
3419
+ "loss": 0.7887,
3420
+ "step": 9720
3421
+ },
3422
+ {
3423
+ "epoch": 0.17627364039453444,
3424
+ "grad_norm": NaN,
3425
+ "learning_rate": 0.0003309102974000121,
3426
+ "loss": 3.1913,
3427
+ "step": 9740
3428
+ },
3429
+ {
3430
+ "epoch": 0.17663559858836306,
3431
+ "grad_norm": NaN,
3432
+ "learning_rate": 0.0003309102974000121,
3433
+ "loss": 0.0,
3434
+ "step": 9760
3435
+ },
3436
+ {
3437
+ "epoch": 0.17699755678219165,
3438
+ "grad_norm": NaN,
3439
+ "learning_rate": 0.0003309102974000121,
3440
+ "loss": 0.4424,
3441
+ "step": 9780
3442
+ },
3443
+ {
3444
+ "epoch": 0.17735951497602026,
3445
+ "grad_norm": NaN,
3446
+ "learning_rate": 0.0003309102974000121,
3447
+ "loss": 2.4798,
3448
+ "step": 9800
3449
+ },
3450
+ {
3451
+ "epoch": 0.17772147316984888,
3452
+ "grad_norm": NaN,
3453
+ "learning_rate": 0.0003309645894914641,
3454
+ "loss": 2.4174,
3455
+ "step": 9820
3456
+ },
3457
+ {
3458
+ "epoch": 0.1780834313636775,
3459
+ "grad_norm": NaN,
3460
+ "learning_rate": 0.0003309645894914641,
3461
+ "loss": 1.3177,
3462
+ "step": 9840
3463
+ },
3464
+ {
3465
+ "epoch": 0.1784453895575061,
3466
+ "grad_norm": NaN,
3467
+ "learning_rate": 0.0003309645894914641,
3468
+ "loss": 3.8794,
3469
+ "step": 9860
3470
+ },
3471
+ {
3472
+ "epoch": 0.17880734775133472,
3473
+ "grad_norm": NaN,
3474
+ "learning_rate": 0.0003309645894914641,
3475
+ "loss": 1.0543,
3476
+ "step": 9880
3477
+ },
3478
+ {
3479
+ "epoch": 0.17916930594516334,
3480
+ "grad_norm": NaN,
3481
+ "learning_rate": 0.0003309645894914641,
3482
+ "loss": 1.4625,
3483
+ "step": 9900
3484
+ },
3485
+ {
3486
+ "epoch": 0.17953126413899195,
3487
+ "grad_norm": NaN,
3488
+ "learning_rate": 0.0003309645894914641,
3489
+ "loss": 3.5846,
3490
+ "step": 9920
3491
+ },
3492
+ {
3493
+ "epoch": 0.17989322233282057,
3494
+ "grad_norm": NaN,
3495
+ "learning_rate": 0.0003309645894914641,
3496
+ "loss": 1.6589,
3497
+ "step": 9940
3498
+ },
3499
+ {
3500
+ "epoch": 0.18025518052664918,
3501
+ "grad_norm": NaN,
3502
+ "learning_rate": 0.0003309645894914641,
3503
+ "loss": 3.6713,
3504
+ "step": 9960
3505
+ },
3506
+ {
3507
+ "epoch": 0.18061713872047777,
3508
+ "grad_norm": NaN,
3509
+ "learning_rate": 0.0003309645894914641,
3510
+ "loss": 0.0,
3511
+ "step": 9980
3512
+ },
3513
+ {
3514
+ "epoch": 0.1809790969143064,
3515
+ "grad_norm": NaN,
3516
+ "learning_rate": 0.0003309645894914641,
3517
+ "loss": 0.404,
3518
+ "step": 10000
3519
+ },
3520
+ {
3521
+ "epoch": 0.1809790969143064,
3522
+ "eval_accuracy": 4.7270488930998444e-05,
3523
+ "eval_loss": NaN,
3524
+ "eval_runtime": 168.7884,
3525
+ "eval_samples_per_second": 3601.195,
3526
+ "eval_steps_per_second": 3.519,
3527
+ "step": 10000
3528
  }
3529
  ],
3530
  "logging_steps": 20,
 
3538
  "should_epoch_stop": false,
3539
  "should_evaluate": false,
3540
  "should_log": false,
3541
+ "should_save": true,
3542
  "should_training_stop": false
3543
  },
3544
  "attributes": {}
3545
  }
3546
  },
3547
+ "total_flos": 1.438362107904e+16,
3548
  "train_batch_size": 512,
3549
  "trial_name": null,
3550
  "trial_params": null