Spaces:

ltg
/

fluency-annotation

Sleeping

App Files Files Community

davda54 commited on Aug 21, 2025

Commit

07857f0

verified ·

1 Parent(s): cb16510

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -4

app.py CHANGED Viewed

@@ -249,8 +249,27 @@ def load_dataset_samples():
                     "model_b": model_b,
                     "dataset": item.get("dataset", "unknown")
                 })
-        return pairwise_samples
     except Exception as e:
         print(f"Error loading dataset: {e}")
@@ -267,7 +286,7 @@ def load_dataset_samples():
                 "model_b": "modelB",
                 "dataset": "test"
             }
-        ]
 def swap_sample(sample):
@@ -283,7 +302,7 @@ def swap_sample(sample):
     }
 # Load dataset on startup
-DATASET_SAMPLES = load_dataset_samples()
 class AnnotationManager:
     def __init__(self):
@@ -301,7 +320,7 @@ class AnnotationManager:
     def get_user_seed(self, user_id: str) -> int:
         """Generate consistent seed for user"""
-        return int(hashlib.md5(user_id.encode()).hexdigest(), 16) % 10000
     def get_user_samples(self, user_id: str) -> List[Dict]:
         """Get shuffled samples for user based on their ID"""
@@ -312,6 +331,7 @@ class AnnotationManager:
             sample if random.Random(seed + i).randint(0, 1) == 0 else swap_sample(sample)
             for i, sample in enumerate(samples)
         ]
         return samples
     def get_next_sample(self, user_id: str) -> Tuple[Dict, int, int]:

                     "model_b": model_b,
                     "dataset": item.get("dataset", "unknown")
                 })
+        extra_dataset = load_dataset("ltg/fluency-generations", split="train_extra", token=HF_TOKEN)
+        extra_pairwise_samples = []
+        for i, item in enumerate(dataset):
+            sample_id = item["sample_id"]
+            prompt = item["prompt"]
+            responses = item["responses"]
+            model_a, model_b = MODEL_PAIRS[i]
+            model_a, model_b = model_a, model_b if i % 2 == 0 else model_b, model_a
+            extra_pairwise_samples.append({
+                "id": f"{sample_id}_{model_a}_vs_{model_b}",
+                "original_id": sample_id,
+                "prompt": prompt,
+                "response_a": responses[model_a],
+                "response_b": responses[model_b],
+                "model_a": model_a,
+                "model_b": model_b,
+                "dataset": item.get("dataset", "unknown")
+            })
+        return pairwise_samples, extra_pairwise_samples
     except Exception as e:
         print(f"Error loading dataset: {e}")
                 "model_b": "modelB",
                 "dataset": "test"
             }
+        ], []
 def swap_sample(sample):
     }
 # Load dataset on startup
+DATASET_SAMPLES, EXTRA_DATASET_SAMPLES = load_dataset_samples()
 class AnnotationManager:
     def __init__(self):
     def get_user_seed(self, user_id: str) -> int:
         """Generate consistent seed for user"""
+        return int(hashlib.md5(user_id.encode()).hexdigest(), 16)
     def get_user_samples(self, user_id: str) -> List[Dict]:
         """Get shuffled samples for user based on their ID"""
             sample if random.Random(seed + i).randint(0, 1) == 0 else swap_sample(sample)
             for i, sample in enumerate(samples)
         ]
+        samples = EXTRA_DATASET_SAMPLES.copy() + samples
         return samples
     def get_next_sample(self, user_id: str) -> Tuple[Dict, int, int]: