Spaces:

alon-albalak
/

collaborative-decoding

Sleeping

App Files Files Community

Alon Albalak commited on Nov 12, 2025

Commit

7e52249

1 Parent(s): b30b751

update data manager

Browse files

Files changed (1) hide show

src/models/data_manager.py +3 -34

src/models/data_manager.py CHANGED Viewed

@@ -9,13 +9,14 @@ from pathlib import Path
 from datasets import load_dataset
 from huggingface_hub import CommitScheduler
 JSON_DATASET_DIR = Path("results")
 JSON_DATASET_DIR.mkdir(parents=True, exist_ok=True)
 JSON_DATASET_PATH = JSON_DATASET_DIR / f"results_{uuid.uuid4()}.json"
 scheduler = CommitScheduler(
-    repo_id="alon-albalak/collaborative-decoding-results",
     repo_type="dataset",
     folder_path=JSON_DATASET_DIR.as_posix(),
     path_in_repo="data",
@@ -51,20 +52,8 @@ class DataManager:
         if self.results is None:
             raise RuntimeError("Results not loaded. Call get_results() first.")
         self.results.extend(new_results)
-    def load_results_data(self, filepath="data/results.jsonl"):
-        """Load all results data from results.jsonl file."""
-        results = []
-        try:
-            with open(filepath, "r") as f:
-                for line in f:
-                    if line.strip():
-                        results.append(json.loads(line))
-        except FileNotFoundError:
-            pass  # Return empty list if file doesn't exist
-        return results
-    def load_results_from_hf(self, hf_repo="alon-albalak/collaborative-decoding-results"):
         """Load results data from Hugging Face dataset repository."""
         try:
             dataset = load_dataset(hf_repo, split="train")
@@ -73,26 +62,6 @@ class DataManager:
             print(f"Error loading dataset from Hugging Face: {e}")
             return []
-    def save_interaction(self, prompt_data, user_continuation, generated_response,
-                        cosine_distance, session_id, num_user_tokens, filepath="data/results.jsonl"):
-        """Save a user interaction to the results file"""
-        interaction = {
-            "prompt": prompt_data["prompt"],
-            "model": prompt_data["model"],
-            "llm_partial_response": prompt_data["llm_partial_response"],
-            "llm_full_response_original": prompt_data["llm_full_response_original"],
-            "user_continuation": user_continuation,
-            "full_response_from_user": generated_response,
-            "cosine_distance": cosine_distance,
-            "timestamp": datetime.datetime.now().isoformat(),
-            "continuation_source": session_id,
-            "num_user_tokens": num_user_tokens
-        }
-        os.makedirs(os.path.dirname(filepath), exist_ok=True)
-        with open(filepath, "a") as f:
-            f.write(json.dumps(interaction) + "\n")
     def save_interaction_to_hf(self, prompt_data, user_continuation, generated_response,
                                cosine_distance, session_id, num_user_tokens):
         interaction = {

 from datasets import load_dataset
 from huggingface_hub import CommitScheduler
+HF_REPO_ID = "alon-albalak/collaborative-decoding-results"
 JSON_DATASET_DIR = Path("results")
 JSON_DATASET_DIR.mkdir(parents=True, exist_ok=True)
 JSON_DATASET_PATH = JSON_DATASET_DIR / f"results_{uuid.uuid4()}.json"
 scheduler = CommitScheduler(
+    repo_id=HF_REPO_ID,
     repo_type="dataset",
     folder_path=JSON_DATASET_DIR.as_posix(),
     path_in_repo="data",
         if self.results is None:
             raise RuntimeError("Results not loaded. Call get_results() first.")
         self.results.extend(new_results)
+    def load_results_from_hf(self, hf_repo=HF_REPO_ID):
         """Load results data from Hugging Face dataset repository."""
         try:
             dataset = load_dataset(hf_repo, split="train")
             print(f"Error loading dataset from Hugging Face: {e}")
             return []
     def save_interaction_to_hf(self, prompt_data, user_continuation, generated_response,
                                cosine_distance, session_id, num_user_tokens):
         interaction = {