Spaces:

VyLala
/

BioMetadataAudit

Running

App Files Files Community

VyLala commited on Aug 9, 2025

Commit

2708f73

verified ·

1 Parent(s): e8eac38

Update model.py

Browse files

Files changed (1) hide show

model.py +16 -9

model.py CHANGED Viewed

@@ -865,13 +865,12 @@ def parse_multi_sample_llm_output(raw_response: str, output_format_str):
     metadata_list = {}
     explanation_lines = []
     output_answers = raw_response.split("\n")[0].split(", ")
-    print("raw explanation line: ",raw_response.split("\n")[1])
-    if ". " in raw_response.split("\n")[1] and len(raw_response.split("\n")[1].split(". ")) > 1:
-        explanation_lines =  [x for x in raw_response.split(". ")[1] if x.strip()]
-        print("explain line split by dot: ", explanation_lines)
-    else:
-        explanation_lines =  [x for x in raw_response.split("\n")[1:] if x.strip()]
-        print("explain line split by new line: ", explanation_lines)
     output_formats = output_format_str.split(", ")
     explain = ""
     # assign output format to its output answer and explanation
@@ -880,9 +879,17 @@ def parse_multi_sample_llm_output(raw_response: str, output_format_str):
       for o in range(len(outputs)):
         output = outputs[o]
         metadata_list[output] = {"answer":"",
-                                 output+"_explanation":""}
         # assign output answers
         if o < len(output_answers):
           metadata_list[output]["answer"] = output_answers[o]
           if "unknown" in metadata_list[output]["answer"].lower():
             metadata_list[output]["answer"] = "unknown"
@@ -1238,7 +1245,7 @@ def query_document_info(query_word, alternative_query_word, metadata, master_str
     f"If the text does not specify ancient or archaeological context, assume 'modern'. "
     f"Provide only {output_format_str}. "
     f"If any information is not explicitly present, use the fallback rules above before defaulting to 'unknown'. "
-    f"For each non-'unknown' field in {explain_list}, write one sentence explaining how it was inferred from the text (one sentence for each)."
     f"\n\nText Snippets:\n{context_for_llm}\n\n"
     f"Output Format: {output_format_str}"
 )

     metadata_list = {}
     explanation_lines = []
     output_answers = raw_response.split("\n")[0].split(", ")
+    explanation_lines =  [x for x in raw_response.split("\n")[1:] if x.strip()]
+    print("raw explanation line which split by new line: ", explanation_lines)
+    if len(explanation_lines) == 1:
+        if len(explanation_lines[0].split(". ")) > len(explanation_lines):
+          explanation_lines =  [x for x in explanation_lines[0].split(". ") if x.strip()]
+          print("explain line split by dot: ", explanation_lines)
     output_formats = output_format_str.split(", ")
     explain = ""
     # assign output format to its output answer and explanation
       for o in range(len(outputs)):
         output = outputs[o]
         metadata_list[output] = {"answer":"",
+                                  output+"_explanation":""}
         # assign output answers
         if o < len(output_answers):
+          # check if output_format unexpectedly in the answer such as:
+          #country_name: Europe, modern/ancient: modern
+          try:
+            if ": " in output_answers[o]:
+              output_answers[o] = output_answers[o].split(": ")[1]
+          except:
+            pass
+          # Europe, modern
           metadata_list[output]["answer"] = output_answers[o]
           if "unknown" in metadata_list[output]["answer"].lower():
             metadata_list[output]["answer"] = "unknown"
     f"If the text does not specify ancient or archaeological context, assume 'modern'. "
     f"Provide only {output_format_str}. "
     f"If any information is not explicitly present, use the fallback rules above before defaulting to 'unknown'. "
+    f"If the {explain_list} is not 'unknown', write 1 sentence after the output explaining how you inferred it from the text (one sentence for each)."
     f"\n\nText Snippets:\n{context_for_llm}\n\n"
     f"Output Format: {output_format_str}"
 )