cmndcntrlcyber
/

code-trainer-vision-adapter

code-generation

vision-encoder-decoder

code-trainer-v6

Model card Files Files and versions

cmndcntrlcyber commited on 14 days ago

Commit

d8a0038

·

verified ·

1 Parent(s): e977b42

Phase 3 eval: baseline + finetuned metrics

Files changed (3) hide show

eval/baseline.json +3 -3
eval/finetuned.json +3 -3
eval/summary.json +7 -7

eval/baseline.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "exact_match": 0.0,
   "bleu_4": 0.0,
-  "mean_edit_similarity": 0.06603700665878295,
-  "num_samples": 20,
-  "syntax_valid_rate": 0.2,
   "run_name": "baseline"
 }

 {
   "exact_match": 0.0,
   "bleu_4": 0.0,
+  "mean_edit_similarity": 0.03815683829552613,
+  "num_samples": 200,
+  "syntax_valid_rate": 0.195,
   "run_name": "baseline"
 }

eval/finetuned.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "exact_match": 0.0,
   "bleu_4": 0.0,
-  "mean_edit_similarity": 0.023189852963776902,
-  "num_samples": 20,
-  "syntax_valid_rate": 0.65,
   "run_name": "finetuned"
 }

 {
   "exact_match": 0.0,
   "bleu_4": 0.0,
+  "mean_edit_similarity": 0.04458389402018659,
+  "num_samples": 200,
+  "syntax_valid_rate": 0.61,
   "run_name": "finetuned"
 }

eval/summary.json CHANGED Viewed

@@ -2,21 +2,21 @@
   "dataset": "cmndcntrlcyber/code-trainer-offsec-dataset@v2-multimodal",
   "adapter": "cmndcntrlcyber/code-trainer-vision-adapter",
   "split": "test",
-  "num_samples": 20,
   "baseline": {
     "exact_match": 0.0,
     "bleu_4": 0.0,
-    "mean_edit_similarity": 0.06603700665878295,
-    "num_samples": 20,
-    "syntax_valid_rate": 0.2,
     "run_name": "baseline"
   },
   "finetuned": {
     "exact_match": 0.0,
     "bleu_4": 0.0,
-    "mean_edit_similarity": 0.023189852963776902,
-    "num_samples": 20,
-    "syntax_valid_rate": 0.65,
     "run_name": "finetuned"
   }
 }

   "dataset": "cmndcntrlcyber/code-trainer-offsec-dataset@v2-multimodal",
   "adapter": "cmndcntrlcyber/code-trainer-vision-adapter",
   "split": "test",
+  "num_samples": 200,
   "baseline": {
     "exact_match": 0.0,
     "bleu_4": 0.0,
+    "mean_edit_similarity": 0.03815683829552613,
+    "num_samples": 200,
+    "syntax_valid_rate": 0.195,
     "run_name": "baseline"
   },
   "finetuned": {
     "exact_match": 0.0,
     "bleu_4": 0.0,
+    "mean_edit_similarity": 0.04458389402018659,
+    "num_samples": 200,
+    "syntax_valid_rate": 0.61,
     "run_name": "finetuned"
   }
 }