Add main & ema weights for ind

Files changed (9) hide show

README.md CHANGED Viewed

@@ -27,13 +27,13 @@ ema, main
 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
-  "vocab_size": 8192,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,
@@ -41,7 +41,7 @@ ema, main
   "num_labels": 2
 }
 ```
-Tokenizer file: `tokenizer_ind_vs8192.json`
 ## Quick Usage
 ```python
@@ -68,6 +68,6 @@ print(outputs.logits)
 ```
 ## Notes
-- Converted on 2025-10-06T00:34:41.843970+00:00
 - Weights are the exact trained parameters; no new layers were initialized.
 - Requires `trust_remote_code=True` due to custom architecture.

 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "vocab_size": 16384,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,
   "num_labels": 2
 }
 ```
+Tokenizer file: `tokenizer_ind_vs16384.json`
 ## Quick Usage
 ```python
 ```
 ## Notes
+- Converted on 2025-10-07T00:53:45.582592+00:00
 - Weights are the exact trained parameters; no new layers were initialized.
 - Requires `trust_remote_code=True` due to custom architecture.

config.json CHANGED Viewed

@@ -18,16 +18,16 @@
   "eos_token_id": 2,
   "force_causal_mask": true,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "layer_norm_eps": 1e-05,
   "mask_token_id": 4,
   "max_position_embeddings": 512,
   "model_type": "gpt_bert",
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
   "num_labels": 2,
   "pad_token_id": 3,
   "position_bucket_size": 32,
-  "vocab_size": 8192
 }

   "eos_token_id": 2,
   "force_causal_mask": true,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "layer_norm_eps": 1e-05,
   "mask_token_id": 4,
   "max_position_embeddings": 512,
   "model_type": "gpt_bert",
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "num_labels": 2,
   "pad_token_id": 3,
   "position_bucket_size": 32,
+  "vocab_size": 16384
 }

ind-2gpu-500steps.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:165fc9cceee621c3df426cf19e1f1e59e2953cbabe7adc77fc790cd2e18e3d03
 size 503042738

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8c14e75b5394a0b626176164485e3aba0ce0e30a9c2d6dcff9607cd76a318e8
 size 503042738

ind-2gpu-500steps_ema.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:196ebeb7663d5870b64f8616d9be904e5e86bb3a356ac89356ca82edad290a31
 size 503043438

 version https://git-lfs.github.com/spec/v1
+oid sha256:e889b748317cb4d78527bf37bbf5ab96ee8ec885fdd23fbdfbb34be56862d5e5
 size 503043438

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5b76b5985c0f512922b608f154c4fca95ee75cddd095559a9776a2a55ef947
 size 553332392

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c37d0c0bc6109234271fae3ffcd0db3c735ff423ebd9bbb68fe1ae1e3350bda
 size 553332392

model_ema.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab5b76b5985c0f512922b608f154c4fca95ee75cddd095559a9776a2a55ef947
 size 553332392

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c37d0c0bc6109234271fae3ffcd0db3c735ff423ebd9bbb68fe1ae1e3350bda
 size 553332392

original_project_config.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
-  "intermediate_size": 1280,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
-  "num_attention_heads": 6,
   "num_hidden_layers": 12,
-  "vocab_size": 8192,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,

 {
   "attention_probs_dropout_prob": 0.1,
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "intermediate_size": 2560,
   "max_position_embeddings": 512,
   "position_bucket_size": 32,
+  "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "vocab_size": 16384,
   "layer_norm_eps": 1e-05,
   "force_causal_mask": true,
   "classifier_dropout": 0.1,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4462e964cf00ec32e745e3f89f60d755476453e010a2033bd91aaa5a2f178df
 size 503029622

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b0dd172c62009de0354151925d73195e03da1054801df10c0a9d524817816e3
 size 503029622

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff