Update Training/Training_Documentation.txt

Files changed (1) hide show

Training/Training_Documentation.txt CHANGED Viewed

@@ -13,9 +13,12 @@ Training Dataset:         Custom curated dataset for medical reasoning
 Dataset Specifications
 ---------------------
-Total Token Count:        38,514,400
 Total Sample Count:       29,500
-Average Tokens/Sample:    1305.57
 Dataset Creation:         Created from a combination of public medical reasoning datasets from OpenAI o1 and DeepSeek-R1, along with additional reasoning chains created using Claude Sonnet 4 extended thinking
 Training Configuration

 Dataset Specifications
 ---------------------
+Total Token Count:        31,929,580
 Total Sample Count:       29,500
+Average Tokens/Sample:    1082.36
+Max Token Count:          9,803
+Min Token Count:          237
+Tokens Counted Using:     tiktoken (cl100k_base encoding)
 Dataset Creation:         Created from a combination of public medical reasoning datasets from OpenAI o1 and DeepSeek-R1, along with additional reasoning chains created using Claude Sonnet 4 extended thinking
 Training Configuration