Spaces:

TraceForce
/

varun-kd-finetune

Sleeping

Varun Wadhwa commited on Jan 7

Commit

aac732c

unverified ·

1 Parent(s): 19a3733

Logs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -122,6 +122,8 @@ def evaluate_model(model, dataloader, device):
     model.eval()  # Set model to evaluation mode
     all_preds = []
     all_labels = []
     # Disable gradient calculations
     with torch.no_grad():
@@ -149,12 +151,18 @@ def evaluate_model(model, dataloader, device):
                 all_preds.extend(valid_preds.tolist())
                 all_labels.extend(valid_labels.tolist())
     # Calculate evaluation metrics
     print("evaluate_model sizes")
     print(len(all_preds))
     print(len(all_labels))
-    print(id2label[all_preds[0]])
-    print(id2label[all_labels[0]])
     all_preds = np.asarray(all_preds, dtype=np.float32)
     all_labels = np.asarray(all_labels, dtype=np.float32)
     accuracy = accuracy_score(all_labels, all_preds)

     model.eval()  # Set model to evaluation mode
     all_preds = []
     all_labels = []
+    sample_count = 0
+    num_samples=100
     # Disable gradient calculations
     with torch.no_grad():
                 all_preds.extend(valid_preds.tolist())
                 all_labels.extend(valid_labels.tolist())
+                if sample_count < num_samples:
+                    print(f"Sample {sample_count + 1}:")
+                    print(f"Tokens: {tokenizer.convert_ids_to_tokens(input_ids[i])}")
+                    print(f"True Labels: {[id2label[label] for label in valid_labels]}")
+                    print(f"Predicted Labels: {[id2label[pred] for pred in valid_preds]}")
+                    print("-" * 50)
+                    sample_count += 1
     # Calculate evaluation metrics
     print("evaluate_model sizes")
     print(len(all_preds))
     print(len(all_labels))
     all_preds = np.asarray(all_preds, dtype=np.float32)
     all_labels = np.asarray(all_labels, dtype=np.float32)
     accuracy = accuracy_score(all_labels, all_preds)