Spaces:

oceddyyy
/

QandA_Generator

Build error

App Files Files Community

oceddyyy commited on May 8, 2025

Commit

b271287

verified ·

1 Parent(s): 4f309ed

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -9

app.py CHANGED Viewed

@@ -5,9 +5,9 @@ from transformers import pipeline, AutoModelForSeq2SeqLM, AutoTokenizer
 import gradio as gr
 from huggingface_hub import Repository
 from datetime import datetime
 from spacy.cli import download
 try:
     nlp = spacy.load("en_core_web_sm")
 except OSError:
@@ -15,6 +15,7 @@ except OSError:
     download("en_core_web_sm")
     nlp = spacy.load("en_core_web_sm")
 qg_model = AutoModelForSeq2SeqLM.from_pretrained("valhalla/t5-base-qa-qg-hl")
 qg_tokenizer = AutoTokenizer.from_pretrained("valhalla/t5-base-qa-qg-hl", use_fast=True)
 qg_pipeline = pipeline("text2text-generation", model=qg_model, tokenizer=qg_tokenizer)
@@ -22,6 +23,7 @@ qg_pipeline = pipeline("text2text-generation", model=qg_model, tokenizer=qg_toke
 # Global variable to accumulate Q&A
 batch_data = []
 def extract_paragraph_facts(raw_text):
     return [p.strip() for p in raw_text.strip().split("\n\n") if p.strip()]
@@ -63,7 +65,7 @@ def generate_single_qna(fact, noun_phrase, min_len, max_len, temperature, top_k,
 def generate_qna_all(input_text, selected_fact, selected_np, min_len, max_len, temperature, top_k, top_p):
     facts = extract_paragraph_facts(input_text)
-    global batch_data  # Access global batch_data
     if selected_fact:
         noun_phrase = selected_np if selected_np else auto_highlight_noun_phrase(selected_fact)
@@ -75,7 +77,7 @@ def generate_qna_all(input_text, selected_fact, selected_np, min_len, max_len, t
             result = generate_single_qna(fact, noun_phrase, min_len, max_len, temperature, top_k, top_p)
             batch_data.append(result)
-    return json.dumps(batch_data, indent=2, ensure_ascii=False)
 def save_json_to_dataset():
     try:
@@ -87,14 +89,14 @@ def save_json_to_dataset():
             return "❌ HF_TOKEN not found in environment."
         repo_id = "UniversityAIChatbot/University_Inquiries_AI_Chatbot"
-        target_file = "database.json"  # Or change to database.json if needed
         local_dir = "hf_repo"
         repo = Repository(
             local_dir=local_dir,
             clone_from=repo_id,
             use_auth_token=hf_token,
-            repo_type="space"  # ✅ THIS IS THE KEY FIX
         )
         repo.git_pull()
@@ -119,13 +121,32 @@ def save_json_to_dataset():
         repo.push_to_hub(commit_message="📥 Add new Q&A to database.json")
-        # Reset the batch_data after pushing
-        batch_data = []
         return "✅ Data with timestamp successfully pushed to Space!"
     except Exception as e:
         return f"❌ Error: {str(e)}"
 def on_extract_facts(text):
     facts = extract_paragraph_facts(text)
     default_fact = facts[0] if facts else None
@@ -135,6 +156,7 @@ def on_select_fact(fact):
     noun_phrases = extract_noun_phrases(fact)
     return gr.update(choices=noun_phrases, value=noun_phrases[0] if noun_phrases else None)
 def main():
     with gr.Blocks() as demo:
         gr.Markdown("## Paragraph-to-Question Generator (Auto Q&A for HF Dataset)")
@@ -172,17 +194,31 @@ def main():
             placeholder='[\n{\n"question": "Your question?",\n"answer": "Your answer."\n}\n]'
         )
         with gr.Row():
             generate_btn = gr.Button("Generate Q&A")
             send_btn = gr.Button("📤 Send to Dataset")
         generate_btn.click(
             fn=generate_qna_all,
             inputs=[input_text, fact_dropdown, np_dropdown, min_len, max_len, temperature, top_k, top_p],
-            outputs=output_json
         )
-        send_status = gr.Textbox(label="Save Status", interactive=False)
         send_btn.click(fn=save_json_to_dataset, inputs=None, outputs=send_status)
     demo.launch()

 import gradio as gr
 from huggingface_hub import Repository
 from datetime import datetime
 from spacy.cli import download
+# Load or download spaCy model
 try:
     nlp = spacy.load("en_core_web_sm")
 except OSError:
     download("en_core_web_sm")
     nlp = spacy.load("en_core_web_sm")
+# Load Question Generation model
 qg_model = AutoModelForSeq2SeqLM.from_pretrained("valhalla/t5-base-qa-qg-hl")
 qg_tokenizer = AutoTokenizer.from_pretrained("valhalla/t5-base-qa-qg-hl", use_fast=True)
 qg_pipeline = pipeline("text2text-generation", model=qg_model, tokenizer=qg_tokenizer)
 # Global variable to accumulate Q&A
 batch_data = []
+# Utility functions
 def extract_paragraph_facts(raw_text):
     return [p.strip() for p in raw_text.strip().split("\n\n") if p.strip()]
 def generate_qna_all(input_text, selected_fact, selected_np, min_len, max_len, temperature, top_k, top_p):
     facts = extract_paragraph_facts(input_text)
+    global batch_data
     if selected_fact:
         noun_phrase = selected_np if selected_np else auto_highlight_noun_phrase(selected_fact)
             result = generate_single_qna(fact, noun_phrase, min_len, max_len, temperature, top_k, top_p)
             batch_data.append(result)
+    return json.dumps(batch_data, indent=2, ensure_ascii=False), json.dumps(batch_data, indent=2, ensure_ascii=False)
 def save_json_to_dataset():
     try:
             return "❌ HF_TOKEN not found in environment."
         repo_id = "UniversityAIChatbot/University_Inquiries_AI_Chatbot"
+        target_file = "database.json"
         local_dir = "hf_repo"
         repo = Repository(
             local_dir=local_dir,
             clone_from=repo_id,
             use_auth_token=hf_token,
+            repo_type="space"
         )
         repo.git_pull()
         repo.push_to_hub(commit_message="📥 Add new Q&A to database.json")
+        batch_data.clear()
         return "✅ Data with timestamp successfully pushed to Space!"
     except Exception as e:
         return f"❌ Error: {str(e)}"
+# New: Preview function
+def preview_batch_data():
+    return json.dumps(batch_data, indent=2, ensure_ascii=False)
+# New: Append from manual JSON editor
+def append_json_to_batch(json_text):
+    global batch_data
+    try:
+        new_data = json.loads(json_text)
+        if isinstance(new_data, dict):
+            new_data = [new_data]
+        if not isinstance(new_data, list):
+            return "❌ Invalid format. Must be a list or object.", preview_batch_data()
+        batch_data.extend(new_data)
+        return "✅ Successfully appended to batch_data.", preview_batch_data()
+    except Exception as e:
+        return f"❌ Error: {str(e)}", preview_batch_data()
+# Dropdown callbacks
 def on_extract_facts(text):
     facts = extract_paragraph_facts(text)
     default_fact = facts[0] if facts else None
     noun_phrases = extract_noun_phrases(fact)
     return gr.update(choices=noun_phrases, value=noun_phrases[0] if noun_phrases else None)
+# UI
 def main():
     with gr.Blocks() as demo:
         gr.Markdown("## Paragraph-to-Question Generator (Auto Q&A for HF Dataset)")
             placeholder='[\n{\n"question": "Your question?",\n"answer": "Your answer."\n}\n]'
         )
+        preview_box = gr.Textbox(
+            lines=14,
+            label="📦 Preview batch_data (Global Variable)",
+            interactive=False
+        )
         with gr.Row():
             generate_btn = gr.Button("Generate Q&A")
+            append_btn = gr.Button("➕ Append JSON to Global Q&A List")
             send_btn = gr.Button("📤 Send to Dataset")
+        send_status = gr.Textbox(label="Save Status", interactive=False)
         generate_btn.click(
             fn=generate_qna_all,
             inputs=[input_text, fact_dropdown, np_dropdown, min_len, max_len, temperature, top_k, top_p],
+            outputs=[output_json, preview_box]
+        )
+        append_btn.click(
+            fn=append_json_to_batch,
+            inputs=output_json,
+            outputs=[send_status, preview_box]
         )
         send_btn.click(fn=save_json_to_dataset, inputs=None, outputs=send_status)
     demo.launch()