Spaces:

our-sci
/

data-translation-experiments

Sleeping

App Files Files Community

rosemariafontana commited on Dec 19, 2024

Commit

04df73d

verified ·

1 Parent(s): 1f5854f

Update script_for_automation.py

Browse files

Files changed (1) hide show

script_for_automation.py +111 -65

script_for_automation.py CHANGED Viewed

@@ -108,9 +108,7 @@ def get_baserow_data():
         }
         # How to retrieve this data
-        # liz_carrot_planting = gold_standards["planting_gold_standards"]["liz_carrot"]
-        # ben_soybean_interactions = gold_standards["interactions_gold_standards"]["ben_soybean"]
-        # wally_squash_trial = gold_standards["trial_gold_standards"]["wally_squash"]
         input_data = {
             "liz_carrot": {
@@ -330,16 +328,6 @@ def get_data_ready(recipe_dict, input_data_piece):
     print("DID THAT NOW")
     return processed_data
-def sanitize_json_for_yaml(data):
-    if isinstance(data, dict):
-        return {key: sanitize_json_for_yaml(value) for key, value in data.items()}
-    elif isinstance(data, list):
-        return [sanitize_json_for_yaml(item) for item in data]
-    elif isinstance(data, tuple):  # Convert tuples to lists
-        return list(data)
-    else:
-        return data  # Keep other types as-is
 def format_json(json_data, truncate_length=500):
     try:
         # Try to load the JSON data
@@ -352,7 +340,6 @@ def format_json(json_data, truncate_length=500):
         # If it's not valid JSON, return the string as it is
         return json_data[:truncate_length] + "..." if len(json_data) > truncate_length else json_data
-import yaml
 def sanitize_json_for_yaml(data):
     if isinstance(data, dict):
@@ -369,13 +356,13 @@ def generate_markdown_output(df):
     markdown = ""
     # 1. Input Transcript
-    markdown += "\n## Input Transcript\n"  # Add space before header for consistency
     for _, row in df.iterrows():
         truncated_input = row['Input_Transcript'][:500] + "..." if len(row['Input_Transcript']) > 500 else row['Input_Transcript']
         markdown += f"**Recipe ID {row['Recipe_ID']}**:\n```\n{truncated_input}\n```\n\n"
     # 2. Recipe Fields
-    markdown += "\n## Recipe Fields\n"  # Add space before header for consistency
     recipe_columns = [
         "Recipe ID", "Testing Strategy", "Schema Processing Model", "Pre-Processing Strategy",
         "Pre-Processing Text", "Pre-Processing Model", "Prompting Strategy"
@@ -386,8 +373,16 @@ def generate_markdown_output(df):
         recipe_table += f"| {row['Recipe_ID']} | {row['Testing_Strategy_Text']} | {row['Schema_Processing_Model']} | {row['Pre_Processing_Strategy']} | {row['Pre_Processing_Text']} | {row['Pre_Processing_Model']} | {row['Prompting_Strategy']} |\n"
     markdown += recipe_table + "\n"
-    # 3. Prompts
-    markdown += "\n## Prompts\n"  # Add space before header for consistency
     prompt_columns = ["Plantings and Fields Prompt", "Interactions Prompt", "Treatments Prompt"]
     prompt_table = "| " + " | ".join(prompt_columns) + " |\n"
     prompt_table += "| " + " | ".join(["-" * len(col) for col in prompt_columns]) + " |\n"
@@ -395,44 +390,34 @@ def generate_markdown_output(df):
         prompt_table += f"| {row['Plantings_and_Fields_Prompt']} | {row['Interactions_Prompt']} | {row['Treatments_Prompt']} |\n"
     markdown += prompt_table + "\n"
-    # 4. Side-by-Side Comparisons
-    markdown += "\n## Gold Standard vs Machine Generated Key-Values\n"  # Add space before header for consistency
-    markdown += "| Key | Gold Standard | Machine Generated |\n"
-    markdown += "|-----|---------------|-------------------|\n"
-    for _, row in df.iterrows():
-        markdown += f"| {row['Recipe_ID']} | {row['Gold_Standard_Key_Values']} | {row['Machine_Generated_Key_Values']} |\n"
-    markdown += "\n"
-    # 5. Differences
-    markdown += "\n## Differences\n"  # Add space before header for consistency
-    markdown += "| Key | Difference |\n"
-    markdown += "|-----|------------|\n"
     for _, row in df.iterrows():
-        differences = row['Differences']
-        if isinstance(differences, list):
-            for diff in differences:
-                if isinstance(diff, dict) and 'values_changed' in diff:
-                    for path, change in diff['values_changed'].items():
-                        if 'old_value' in change and 'new_value' in change:
-                            markdown += f"| {path} | {change['old_value']} → {change['new_value']} |\n"
-        else:
-            markdown += "| No differences found | |\n"
-    # 6. YAML Comparisons
-    markdown += "\n## Gold Standard vs Machine Generated YAML\n"  # Add space before header for consistency
     for _, row in df.iterrows():
-        gold_yaml = yaml.safe_dump(yaml.safe_load(row['Gold_Standard_YAML']), default_flow_style=False)
-        machine_yaml = yaml.safe_dump(yaml.safe_load(row['Machine_Generated_YAML']), default_flow_style=False)
-        markdown += f"**Recipe ID {row['Recipe_ID']}**:\n\n"
-        markdown += "**Gold Standard YAML:**\n"
-        markdown += f"```yaml\n{gold_yaml}\n```\n"
-        markdown += "**Machine Generated YAML:**\n"
-        markdown += f"```yaml\n{machine_yaml}\n```\n\n"
-    # Ensure clean separation
-    markdown += "---\n\n"
     return markdown
 def drive_process():
     # this is to drive the processing process
@@ -475,36 +460,97 @@ def drive_process():
             print(input_data_piece)
             # Fill out a Surveystack submission
             #fill_out_survey(recipe_dict, input_data)
             # Prepare the data for the structured output setup
             proc_spec = get_data_ready(recipe_dict, input_data_piece)
             print("PROCESSING SPECIFICATIONS!!!!!!!!!!!!!!!")
-            completed_json = process_specifications(proc_spec)
             print("Gold Standard diff and stuff")
-            # Get the gold standard for this input_chunk (liz_carrot, ben_soybean, wally_squash)
-            # Compare the generated JSON to the gold standard
             gold_standard_json = gold_standards[key]
-            differences = list(diff(gold_standard_json, completed_json))
             print("yaml world")
             # Convert to yaml
-            gold_standard_json = sanitize_json_for_yaml(gold_standard_json)
-            completed_json = sanitize_json_for_yaml(completed_json)
-            gold_standard_yaml = yaml.dump(gold_standard_json, default_flow_style=False)
-            comparison_yaml = yaml.dump(completed_json, default_flow_style=False)
             try:
-                yaml.safe_load(gold_standard_yaml)
-                yaml.safe_load(comparison_yaml)
                 print("YAML output is valid!")
             except yaml.YAMLError as e:
                 print("YAML output is invalid:", e)
             recipe_id = recipe_dict.get("recipe_id", "N/A")
             output_rows.append({
                 "Recipe_ID": recipe_id,
@@ -518,9 +564,9 @@ def drive_process():
                 "Interactions_Prompt": recipe_dict.get("interactions_prompt", "N/A"),
                 "Treatments_Prompt": recipe_dict.get("treatments_prompt", "N/A"),
                 "Input_Transcript": input_chunks,
-                "Gold_Standard_Key_Values": gold_standard_json,
-                "Machine_Generated_Key_Values": completed_json,
-                "Differences": differences,
                 "Gold_Standard_YAML": gold_standard_yaml,
                 "Machine_Generated_YAML": comparison_yaml
             })

         }
         # How to retrieve this data
+        # liz_carrot_planting = gold_standards["liz_carrot"]["planting"]
         input_data = {
             "liz_carrot": {
     print("DID THAT NOW")
     return processed_data
 def format_json(json_data, truncate_length=500):
     try:
         # Try to load the JSON data
         # If it's not valid JSON, return the string as it is
         return json_data[:truncate_length] + "..." if len(json_data) > truncate_length else json_data
 def sanitize_json_for_yaml(data):
     if isinstance(data, dict):
     markdown = ""
     # 1. Input Transcript
+    markdown += "\n## Input Transcript\n"
     for _, row in df.iterrows():
         truncated_input = row['Input_Transcript'][:500] + "..." if len(row['Input_Transcript']) > 500 else row['Input_Transcript']
         markdown += f"**Recipe ID {row['Recipe_ID']}**:\n```\n{truncated_input}\n```\n\n"
     # 2. Recipe Fields
+    markdown += "\n## Recipe Fields\n"
     recipe_columns = [
         "Recipe ID", "Testing Strategy", "Schema Processing Model", "Pre-Processing Strategy",
         "Pre-Processing Text", "Pre-Processing Model", "Prompting Strategy"
         recipe_table += f"| {row['Recipe_ID']} | {row['Testing_Strategy_Text']} | {row['Schema_Processing_Model']} | {row['Pre_Processing_Strategy']} | {row['Pre_Processing_Text']} | {row['Pre_Processing_Model']} | {row['Prompting_Strategy']} |\n"
     markdown += recipe_table + "\n"
+    # 3. Differences
+    markdown += "\n## Differences\n"
+    for _, row in df.iterrows():
+        markdown += f"\n### Recipe ID: {row['Recipe_ID']}\n"
+        differences = row['Differences']
+        for key, diff in differences.items():
+            markdown += f"#### {key.capitalize()}\n```\n{json.dumps(diff, indent=2)}\n```\n"
+    # 4. Prompts
+    markdown += "\n## Prompts\n"
     prompt_columns = ["Plantings and Fields Prompt", "Interactions Prompt", "Treatments Prompt"]
     prompt_table = "| " + " | ".join(prompt_columns) + " |\n"
     prompt_table += "| " + " | ".join(["-" * len(col) for col in prompt_columns]) + " |\n"
         prompt_table += f"| {row['Plantings_and_Fields_Prompt']} | {row['Interactions_Prompt']} | {row['Treatments_Prompt']} |\n"
     markdown += prompt_table + "\n"
+    # 5. Side-by-Side JSON Comparisons
+    markdown += "\n## Gold Standard vs Machine Generated JSON\n"
     for _, row in df.iterrows():
+        markdown += f"\n### Recipe ID: {row['Recipe_ID']}\n"
+        for key in ["planting", "interactions", "trials"]:
+            gold = json.dumps(row['Gold_Standard_JSON'].get(key, {}), indent=2)
+            machine = json.dumps(row['Machine_Generated_JSON'].get(key, {}), indent=2)
+            markdown += f"#### {key.capitalize()}\n"
+            markdown += "| Type | JSON Content |\n"
+            markdown += "|------|--------------|\n"
+            markdown += f"| Gold Standard | ```json\n{gold}\n``` |\n"
+            markdown += f"| Machine Generated | ```json\n{machine}\n``` |\n"
+    # 6. Side-by-Side YAML Comparisons
+    markdown += "\n## Gold Standard vs Machine Generated YAML\n"
     for _, row in df.iterrows():
+        markdown += f"\n### Recipe ID: {row['Recipe_ID']}\n"
+        for key in ["planting", "interactions", "trials"]:
+            gold = yaml.dump(row['Gold_Standard_YAML'].get(key, {}), default_flow_style=False)
+            machine = yaml.dump(row['Machine_Generated_YAML'].get(key, {}), default_flow_style=False)
+            markdown += f"#### {key.capitalize()}\n"
+            markdown += "| Type | YAML Content |\n"
+            markdown += "|------|--------------|\n"
+            markdown += f"| Gold Standard | ```yaml\n{gold}\n``` |\n"
+            markdown += f"| Machine Generated | ```yaml\n{machine}\n``` |\n"
     return markdown
 def drive_process():
     # this is to drive the processing process
             print(input_data_piece)
             # Fill out a Surveystack submission
+            # This isn't accepted by the data
             #fill_out_survey(recipe_dict, input_data)
             # Prepare the data for the structured output setup
             proc_spec = get_data_ready(recipe_dict, input_data_piece)
             print("PROCESSING SPECIFICATIONS!!!!!!!!!!!!!!!")
+            processed_farm_activity_json, processed_interactions_json, processed_trials_json = process_specifications(proc_spec)
             print("Gold Standard diff and stuff")
+            # Get the gold standard for this input_chunk (key = liz_carrot, ben_soybean, wally_squash)
             gold_standard_json = gold_standards[key]
+            # "liz_carrot": {
+            #    "planting": liz_carrot_plantings_gold_standard,
+            #    "interactions": liz_carrot_interactions_gold_standard,
+            #    "trials": liz_carrot_trials_gold_standard,
+            # },
+            gold_standard_planting_json = gold_standard_json["planting"]
+            gold_standard_interactions_json = gold_standard_json["interactions"]
+            gold_standard_trials_json = gold_standard_json["trials"]
+            # Compare the generated JSON to the gold standard
+            differences_planting = list(diff(gold_standard_planting_json, processed_farm_activity_json))
+            differences_interactions = list(diff(gold_standard_interactions_json, processed_interactions_json))
+            differences_trials = list(diff(gold_standard_trials_json, processed_trials_json))
             print("yaml world")
             # Convert to yaml
+            completed_gold_standard_planting_json = sanitize_json_for_yaml(gold_standard_planting_json)
+            completed_gold_standard_interactions_json = sanitize_json_for_yaml(gold_standard_interactions_json)
+            completed_gold_standard_trials_json = sanitize_json_for_yaml(gold_standard_trials_json)
+            completed_processed_farm_activity_json = sanitize_json_for_yaml(processed_farm_activity_json)
+            completed_processed_interactions_json = sanitize_json_for_yaml(processed_interactions_json)
+            completed_processed_trials_json = sanitize_json_for_yaml(processed_trials_json)
+            completed_gold_standard_planting_yaml = yaml.dump(completed_gold_standard_planting_json, default_flow_style=False)
+            completed_gold_standard_interactions_yaml = yaml.dump(completed_gold_standard_interactions_json, default_flow_style=False)
+            completed_gold_standard_trials_yaml = yaml.dump(completed_gold_standard_trials_json, default_flow_style=False)
+            completed_comparison_planting_yaml = yaml.dump(completed_processed_farm_activity_json, default_flow_style=False)
+            completed_comparison_interactions_yaml = yaml.dump(completed_processed_interactions_json, default_flow_style=False)
+            completed_comparison_trials_yaml = yaml.dump(completed_processed_trials_json, default_flow_style=False)
             try:
+                yaml.safe_load(completed_gold_standard_planting_yaml)
+                yaml.safe_load(completed_gold_standard_interactions_yaml)
+                yaml.safe_load(completed_gold_standard_trials_yaml)
+                yaml.safe_load(completed_comparison_planting_yaml)
+                yaml.safe_load(completed_comparison_interactions_yaml)
+                yaml.safe_load(completed_comparison_trials_yaml)
                 print("YAML output is valid!")
             except yaml.YAMLError as e:
                 print("YAML output is invalid:", e)
+            json_diff = {
+                "planting": differences_planting,
+                "interactions": differences_interactions,
+                "trials": differences_trials
+            }
+            gold_standard_json = {
+                "planting": completed_gold_standard_planting_json,
+                "interactions": completed_gold_standard_interactions_json,
+                "trials": completed_gold_standard_trials_json
+            }
+            comparison_json = {
+                "planting": completed_processed_farm_activity_json,
+                "interactions": completed_processed_interactions_json,
+                "trials": completed_processed_trials_json
+            }
+            gold_standard_yaml = {
+                "planting": completed_gold_standard_planting_yaml,
+                "interactions": completed_gold_standard_interactions_yaml,
+                "trials": completed_gold_standard_trials_yaml
+            }
+            comparison_yaml = {
+                "planting": completed_comparison_planting_yaml,
+                "interactions": completed_comparison_interactions_yaml,
+                "trials": completed_comparison_trials_yaml
+            }
             recipe_id = recipe_dict.get("recipe_id", "N/A")
             output_rows.append({
                 "Recipe_ID": recipe_id,
                 "Interactions_Prompt": recipe_dict.get("interactions_prompt", "N/A"),
                 "Treatments_Prompt": recipe_dict.get("treatments_prompt", "N/A"),
                 "Input_Transcript": input_chunks,
+                "Gold_Standard_JSON": gold_standard_json,
+                "Machine_Generated_JSON": comparison_json,
+                "Differences": json_diff,
                 "Gold_Standard_YAML": gold_standard_yaml,
                 "Machine_Generated_YAML": comparison_yaml
             })