CodeIsAbstract
/

llama3.2_thinking_experiment

Model card Files Files and versions

llama3.2_thinking_experiment / trainer_state.json

CodeIsAbstract's picture

Upload fine-tuned model

3c4b1e5 verified 10 months ago

3.19 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.191904047976012,
	"eval_steps": 25,
	"global_step": 100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.13193403298350825,
	"grad_norm": 119.62747955322266,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 60.0685,
	"step": 11
	},
	{
	"epoch": 0.2638680659670165,
	"grad_norm": 76.251220703125,
	"learning_rate": 1.983619906947144e-05,
	"loss": 53.8545,
	"step": 22
	},
	{
	"epoch": 0.29985007496251875,
	"eval_loss": 3.3249454498291016,
	"eval_runtime": 89.9708,
	"eval_samples_per_second": 5.557,
	"eval_steps_per_second": 1.856,
	"step": 25
	},
	{
	"epoch": 0.39580209895052476,
	"grad_norm": 67.91344451904297,
	"learning_rate": 1.9199794436588244e-05,
	"loss": 52.8293,
	"step": 33
	},
	{
	"epoch": 0.527736131934033,
	"grad_norm": 75.1031265258789,
	"learning_rate": 1.811377838556573e-05,
	"loss": 52.3377,
	"step": 44
	},
	{
	"epoch": 0.5997001499250375,
	"eval_loss": 3.2520751953125,
	"eval_runtime": 89.7398,
	"eval_samples_per_second": 5.572,
	"eval_steps_per_second": 1.861,
	"step": 50
	},
	{
	"epoch": 0.6596701649175413,
	"grad_norm": 70.66634368896484,
	"learning_rate": 1.6631226582407954e-05,
	"loss": 52.2969,
	"step": 55
	},
	{
	"epoch": 0.7916041979010495,
	"grad_norm": 74.07559204101562,
	"learning_rate": 1.4824594148071936e-05,
	"loss": 51.8169,
	"step": 66
	},
	{
	"epoch": 0.8995502248875562,
	"eval_loss": 3.2324743270874023,
	"eval_runtime": 90.1521,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.852,
	"step": 75
	},
	{
	"epoch": 0.9235382308845578,
	"grad_norm": 72.83753967285156,
	"learning_rate": 1.2782174639164528e-05,
	"loss": 51.5118,
	"step": 77
	},
	{
	"epoch": 1.047976011994003,
	"grad_norm": 79.93111419677734,
	"learning_rate": 1.0603784974222862e-05,
	"loss": 48.0834,
	"step": 88
	},
	{
	"epoch": 1.1799100449775113,
	"grad_norm": 89.3459243774414,
	"learning_rate": 8.395887191422397e-06,
	"loss": 50.378,
	"step": 99
	},
	{
	"epoch": 1.191904047976012,
	"eval_loss": 3.2021567821502686,
	"eval_runtime": 90.5661,
	"eval_samples_per_second": 5.521,
	"eval_steps_per_second": 1.844,
	"step": 100
	}
	],
	"logging_steps": 11,
	"max_steps": 166,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4253959153713152e+17,
	"train_batch_size": 3,
	"trial_name": null,
	"trial_params": null
	}