Final_Assignment_Template

Running

App Files Files Community

Paperbag commited on Mar 24

Commit

8d79810

1 Parent(s): 85f2d49

update openrouter model

Browse files

Files changed (3) hide show

agent.py +2 -2
extract_gaia_parquet.py +61 -0
find_gaia_answers.py +46 -0

agent.py CHANGED Viewed

@@ -61,7 +61,7 @@ def smart_invoke(msgs, use_tools=False, start_tier=0):
     gemini_alternatives = ["gemini-2.5-flash", "gemini-2.0-flash", "gemini-flash-latest", "gemini-pro-latest"]
     tiers_config = [
-        {"name": "OpenRouter", "key": "OPENROUTER_API_KEY", "provider": "openai", "model_name": "meta-llama/llama-3.3-70b-instruct", "base_url": "https://openrouter.ai/api/v1"},
         {"name": "Gemini", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-2.0-flash", "alternatives": gemini_alternatives},
         {"name": "Groq", "key": "GROQ_API_KEY", "provider": "groq", "model_name": "llama-3.3-70b-versatile"},
         {"name": "NVIDIA", "key": "NVIDIA_API_KEY", "provider": "openai", "model_name": "meta/llama-3.3-70b-instruct", "base_url": "https://integrate.api.nvidia.com/v1"},
@@ -178,7 +178,7 @@ def wiki_search(query: str) -> str:
 def get_vision_models():
     """Returns a list of vision models to try, in order of preference."""
     configs = [
-        {"name": "OpenRouter-Gemini-2.0", "key": "OPENROUTER_API_KEY", "provider": "openai", "model_name": "google/gemini-2.0-flash-001", "base_url": "https://openrouter.ai/api/v1"},
         {"name": "Google-Gemini-2.0-Flash", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-2.0-flash"},
         {"name": "Google-Gemini-Flash-Latest", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-flash-latest"},
         {"name": "NVIDIA-Vision-Llama-11b", "key": "NVIDIA_API_KEY", "provider": "openai", "model_name": "meta/llama-3.2-11b-vision-instruct", "base_url": "https://integrate.api.nvidia.com/v1"},

     gemini_alternatives = ["gemini-2.5-flash", "gemini-2.0-flash", "gemini-flash-latest", "gemini-pro-latest"]
     tiers_config = [
+        {"name": "OpenRouter", "key": "OPENROUTER_API_KEY", "provider": "openai", "model_name": "minimax/minimax-m2.5:free", "base_url": "https://openrouter.ai/api/v1"},
         {"name": "Gemini", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-2.0-flash", "alternatives": gemini_alternatives},
         {"name": "Groq", "key": "GROQ_API_KEY", "provider": "groq", "model_name": "llama-3.3-70b-versatile"},
         {"name": "NVIDIA", "key": "NVIDIA_API_KEY", "provider": "openai", "model_name": "meta/llama-3.3-70b-instruct", "base_url": "https://integrate.api.nvidia.com/v1"},
 def get_vision_models():
     """Returns a list of vision models to try, in order of preference."""
     configs = [
+        {"name": "OpenRouter-Gemma-3-27b-it", "key": "OPENROUTER_API_KEY", "provider": "openai", "model_name": "google/gemma-3-27b-it:free", "base_url": "https://openrouter.ai/api/v1"},
         {"name": "Google-Gemini-2.0-Flash", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-2.0-flash"},
         {"name": "Google-Gemini-Flash-Latest", "key": "GOOGLE_API_KEY", "provider": "google", "model_name": "gemini-flash-latest"},
         {"name": "NVIDIA-Vision-Llama-11b", "key": "NVIDIA_API_KEY", "provider": "openai", "model_name": "meta/llama-3.2-11b-vision-instruct", "base_url": "https://integrate.api.nvidia.com/v1"},

extract_gaia_parquet.py ADDED Viewed

	@@ -0,0 +1,61 @@

+import requests
+import os
+import pandas as pd
+from huggingface_hub import hf_hub_download
+from dotenv import load_dotenv
+load_dotenv(override=True)
+# 1. Fetch current questions
+QUESTIONS_URL = "https://agents-course-unit4-scoring.hf.space/questions"
+print(f"Fetching questions from {QUESTIONS_URL}...")
+try:
+    resp = requests.get(QUESTIONS_URL)
+    resp.raise_for_status()
+    current_questions = resp.json()
+except Exception as e:
+    print(f"Error fetching questions: {e}")
+    current_questions = []
+# 2. Download ground truth via hf_hub_download
+print("Downloading GAIA validation metadata...")
+try:
+    token = os.getenv("HUGGINGFACEHUB_API_TOKEN") or os.getenv("HF_TOKEN")
+    file_path = hf_hub_download(
+        repo_id="gaia-benchmark/GAIA",
+        filename="2023/validation/metadata.parquet",
+        repo_type="dataset",
+        token=token
+    )
+    # 3. Read Parquet and match
+    df = pd.read_parquet(file_path)
+    # Ensure column names match (Question, Final answer, task_id)
+    # The GAIA dataset columns are usually: task_id, Question, Final answer, etc.
+    print("\n--- GAIA GROUND TRUTH ANSWERS ---")
+    results = []
+    for i, q in enumerate(current_questions):
+        tid = q.get("task_id")
+        match = df[df["task_id"] == tid]
+        if not match.empty:
+            answer = match.iloc[0]["Final answer"]
+            results.append({
+                "Index": i + 1,
+                "Task ID": tid,
+                "Question": q.get("question")[:100] + "...",
+                "Answer": answer
+            })
+            print(f"{i+1}. [ID: {tid[:8]}] Answer: {answer}")
+        else:
+            print(f"{i+1}. [ID: {tid[:8]}] NOT FOUND in validation set.")
+    # Save to a nice CSV for the user
+    if results:
+        res_df = pd.DataFrame(results)
+        res_df.to_csv("gaia_ground_truth.csv", index=False)
+        print("\nFull list saved to 'gaia_ground_truth.csv'")
+except Exception as e:
+    print(f"Error processing Parquet: {e}")
+    print("Tip: You might need 'pip install pyarrow' to read parquet files.")

find_gaia_answers.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import requests
+import json
+import os
+from dotenv import load_dotenv
+load_dotenv(override=True)
+# 1. Fetch current questions from the scoring space
+QUESTIONS_URL = "https://agents-course-unit4-scoring.hf.space/questions"
+print(f"Fetching questions from {QUESTIONS_URL}...")
+try:
+    resp = requests.get(QUESTIONS_URL)
+    resp.raise_for_status()
+    current_questions = resp.json()
+except Exception as e:
+    print(f"Error fetching questions: {e}")
+    current_questions = []
+# 2. Try to fetch GAIA Validation metadata from HF
+# Note: This file is large and might be gated, but we can try common URLs
+GAIA_VAL_URL = "https://huggingface.co/datasets/gaia-benchmark/GAIA/resolve/main/2023/validation/metadata.jsonl"
+print(f"Fetching ground truth answers from {GAIA_VAL_URL}...")
+# We need a token for gated datasets
+hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN") or os.getenv("HF_TOKEN")
+headers = {"Authorization": f"Bearer {hf_token}"} if hf_token else {}
+try:
+    resp = requests.get(GAIA_VAL_URL, headers=headers)
+    if resp.status_code == 200:
+        lines = resp.text.strip().split("\n")
+        val_data = [json.loads(line) for line in lines]
+        # Create a map of task_id -> answer
+        answer_map = {item["task_id"]: item.get("Final answer") for item in val_data}
+        print("\n--- GAIA GROUND TRUTH ANSWERS ---")
+        for i, q in enumerate(current_questions):
+            task_id = q.get("task_id")
+            answer = answer_map.get(task_id, "NOT FOUND")
+            print(f"{i+1}. [ID: {task_id[:8]}...] Answer: {answer}")
+            print(f"   Q: {q.get('question')[:80]}...")
+            print("-" * 20)
+    else:
+        print(f"Failed to fetch ground truth (Status {resp.status_code}). Likely gated or wrong URL.")
+        print("Tip: You can find them at https://huggingface.co/datasets/gaia-benchmark/GAIA/viewer/2023/validation")
+except Exception as e:
+    print(f"Error during matching: {e}")