bernardocecchetto
/

QQ_NLP_MODEL_collection_newProcessingData

Text Classification

generated_from_keras_callback

text-embeddings-inference

Model card Files Files and versions

bernardocecchetto commited on Apr 1, 2024

Commit

ed7a86c

·

verified ·

1 Parent(s): 91c9eb4

Upload TFDistilBertForSequenceClassification

Files changed (3) hide show

README.md +1 -1
config.json +6 -6
tf_model.h5 +2 -2

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'WarmUp', 'config': {'initial_learning_rate': 4e-05, 'decay_schedule_fn': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 4e-05, 'decay_steps': 3453, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, '__passive_serialization__': True}, 'warmup_steps': 2, 'power': 1.0, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.1}
 - training_precision: float32
 ### Training results

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'WarmUp', 'config': {'initial_learning_rate': 1e-05, 'decay_schedule_fn': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 1e-05, 'decay_steps': 3681, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, '__passive_serialization__': True}, 'warmup_steps': 4, 'power': 1.0, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.6}
 - training_precision: float32
 ### Training results

config.json CHANGED Viewed

@@ -4,9 +4,9 @@
   "architectures": [
     "DistilBertForSequenceClassification"
   ],
-  "attention_dropout": 0.5,
   "dim": 768,
-  "dropout": 0.2,
   "hidden_dim": 3072,
   "id2label": {
     "0": "NEGATIVE",
@@ -20,13 +20,13 @@
   "max_position_embeddings": 512,
   "model_type": "distilbert",
   "n_heads": 12,
-  "n_layers": 9,
   "output_past": true,
   "pad_token_id": 0,
   "qa_dropout": 0.1,
-  "seq_classif_dropout": 0.4,
-  "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "transformers_version": "4.30.2",
-  "vocab_size": 119547
 }

   "architectures": [
     "DistilBertForSequenceClassification"
   ],
+  "attention_dropout": 0.25,
   "dim": 768,
+  "dropout": 0.35,
   "hidden_dim": 3072,
   "id2label": {
     "0": "NEGATIVE",
   "max_position_embeddings": 512,
   "model_type": "distilbert",
   "n_heads": 12,
+  "n_layers": 13,
   "output_past": true,
   "pad_token_id": 0,
   "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.6,
+  "sinusoidal_pos_embds": true,
   "tie_weights_": true,
   "transformers_version": "4.30.2",
+  "vocab_size": 119548
 }

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb89696328b9697c9ff2468c1f3f56677f9874ea20d9e441c3c5c534e65d7840
-size 626547656

 version https://git-lfs.github.com/spec/v1
+oid sha256:95dd04ec29c7970f97762bd6639436b51c65740edc188cae53f7ba4fa64e0c0f
+size 1107292752