alexshah
/

armembed

@@ -103,16 +103,9 @@ print(scores.tolist())
 ## Training Data
 ### Dataset Details
 - **Source**: Reddit dataset with English-Armenian translations
-- **Size**: 1.08M pairs of rows
 - **Content Type**: Title and body text pairs
-- **Token Statistics**:
-  - Training Set:
-    - Translated Title Tokens: 23,921,393
-    - Translated Body Tokens: 194,200,654
-  - Test Set:
-    - Translated Title Tokens: 242,443
-    - Translated Body Tokens: 1,946,164
-- **Split Ratio**: 99% train, 1% test
 ## Training Procedure
 ### Training Details

 ## Training Data
 ### Dataset Details
 - **Source**: Reddit dataset with English-Armenian translations
+- **Size**: 0.66M pairs of rows
 - **Content Type**: Title and body text pairs
+- **Split Ratio**: 98.5% train, 1.5% test
 ## Training Procedure
 ### Training Details