openvoid
/

prox-7b-dpo

Text Generation

penetration testing

text-generation-inference

Model card Files Files and versions

preemware commited on Apr 11, 2024

Commit

ff1a0b3

·

verified ·

1 Parent(s): df7ca43

Update README.md

Files changed (1) hide show

README.md +9 -8

README.md CHANGED Viewed

@@ -43,18 +43,19 @@ The prox-7b model was fine-tuned on a proprietary dataset curated by OpenVoid AI
 The following hyperparameters were used during training:
-- Learning rate: 5e-06
-- Train batch size: 2
-- Eval batch size: 2
 - Seed: 42
 - Distributed type: multi-GPU
-- Number of devices: 8
 - Gradient accumulation steps: 4
-- Total train batch size: 64
 - Total eval batch size: 16
-- Optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-05
 - LR scheduler type: cosine
-- LR scheduler warmup steps: 10
-- Number of epochs: 4
 The training was performed using a distributed multi-GPU setup to accelerate the process and handle the large model size.

 The following hyperparameters were used during training:
+- Learning rate: 2e-05
+- Train batch size: 4
+- Eval batch size: 8
 - Seed: 42
 - Distributed type: multi-GPU
+- Number of devices: 2
 - Gradient accumulation steps: 4
+- Total train batch size: 32
 - Total eval batch size: 16
+- Optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-08
 - LR scheduler type: cosine
+- LR scheduler warmup steps: 100
+- Training Steps: 414
 The training was performed using a distributed multi-GPU setup to accelerate the process and handle the large model size.