Spaces:

ArchCoder
/

basic_app

Sleeping

App Files Files Community

ArchCoder commited on Oct 11, 2025

Commit

c2c3825

verified ·

1 Parent(s): 02d77c2

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -113

app.py CHANGED Viewed

@@ -20,7 +20,7 @@ logger = logging.getLogger(__name__)
 logger.info("Loading Whisper-tiny...")
 whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8")
-logger.info("Loading SmolLM2-360M-Instruct (FASTEST)...")
 model_name = "HuggingFaceTB/SmolLM2-360M-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
@@ -32,7 +32,6 @@ model = AutoModelForCausalLM.from_pretrained(
 logger.info("All models loaded!")
-# API keys
 TAVILY_API_KEY = os.getenv('TAVILY_API_KEY', '')
 BRAVE_API_KEY = os.getenv('BRAVE_API_KEY', '')
@@ -170,10 +169,17 @@ def transcribe_audio_base64(audio_base64):
         return {"error": str(e)}
 def generate_answer(text_input):
-    logger.info(f"[AI] Question: {text_input[:60]}...")
     try:
-        if not text_input or not text_input.strip():
-            return "No input provided"
         current_date = datetime.now().strftime("%B %d, %Y")
@@ -183,7 +189,7 @@ def generate_answer(text_input):
         search_time = time.time() - search_start
         logger.info(f"[AI] Search completed in {search_time:.2f}s")
-        # Generate answer with SmolLM2-360M
         messages = [
             {
                 "role": "system",
@@ -195,7 +201,6 @@ def generate_answer(text_input):
             }
         ]
-        # SmolLM2 uses simple chat template
         prompt = f"<|im_start|>system\n{messages[0]['content']}<|im_end|>\n<|im_start|>user\n{messages[1]['content']}<|im_end|>\n<|im_start|>assistant\n"
         gen_start = time.time()
@@ -205,7 +210,7 @@ def generate_answer(text_input):
         with torch.no_grad():
             outputs = model.generate(
                 **inputs,
-                max_new_tokens=80,  # 60-80 words
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
@@ -219,11 +224,10 @@ def generate_answer(text_input):
         logger.info(f"[AI] Generation completed in {gen_time:.2f}s")
         answer = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True).strip()
-        # Add source attribution
         full_answer = f"{answer}\n\n**Source:** {search_engine}"
         logger.info("[AI] ✓ Complete")
         return full_answer
     except Exception as e:
@@ -235,7 +239,6 @@ def process_audio(audio_path, question_text):
     logger.info("="*50)
     logger.info("[MAIN] New request received")
-    # Transcribe audio if provided
     if audio_path:
         logger.info(f"[MAIN] Processing audio: {audio_path}")
         try:
@@ -255,14 +258,11 @@ def process_audio(audio_path, question_text):
     transcription_time = time.time() - start_time
-    # Generate answer (includes search)
     gen_start = time.time()
     answer = generate_answer(question)
     gen_time = time.time() - gen_start
     total_time = time.time() - start_time
-    # Time indicator
     time_emoji = "🟢" if total_time < 2.0 else "🟡" if total_time < 3.0 else "🔴"
     timing = f"\n\n{time_emoji} **Performance:** Trans={transcription_time:.2f}s | Search+Gen={gen_time:.2f}s | **Total={total_time:.2f}s**"
@@ -282,140 +282,71 @@ def text_handler(text_input):
 with gr.Blocks(title="Ultra-Fast Q&A - SmolLM2-360M", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # ⚡ Ultra-Fast Political Q&A System
-    **SmolLM2-360M** (250-400 tok/s) + **Parallel Search** (Optimized for <2s)
-    **Features:**
-    - Whisper-tiny for speech-to-text
-    - SmolLM2-360M-Instruct (20x faster than Qwen 0.5B)
-    - Multi-engine parallel search (Tavily → Brave → Searx → DDG)
-    - Search-grounded answers only
     """)
     with gr.Tab("🎙️ Audio Input"):
         with gr.Row():
             with gr.Column():
-                audio_input = gr.Audio(
-                    sources=["microphone", "upload"],
-                    type="filepath",
-                    label="Record or Upload Audio"
-                )
-                audio_submit = gr.Button("🚀 Submit Audio", variant="primary", size="lg")
             with gr.Column():
                 audio_output = gr.Textbox(label="Answer", lines=10, show_copy_button=True)
-                audio_time = gr.Number(label="Response Time (seconds)", precision=2)
-        audio_submit.click(
-            fn=audio_handler,
-            inputs=[audio_input],
-            outputs=[audio_output, audio_time],
-            api_name="audio_query"
-        )
     with gr.Tab("✍️ Text Input"):
         with gr.Row():
             with gr.Column():
-                text_input = gr.Textbox(
-                    label="Ask Your Question",
-                    placeholder="Is internet shut down in Bareilly today?",
-                    lines=3
-                )
-                text_submit = gr.Button("🚀 Submit Question", variant="primary", size="lg")
             with gr.Column():
                 text_output = gr.Textbox(label="Answer", lines=10, show_copy_button=True)
-                text_time = gr.Number(label="Response Time (seconds)", precision=2)
-        text_submit.click(
-            fn=text_handler,
-            inputs=[text_input],
-            outputs=[text_output, text_time],
-            api_name="text_query"
-        )
-        gr.Examples(
-            examples=[
-                ["Is internet shut down in Bareilly today?"],
-                ["Who won the 2024 US presidential election?"],
-                ["What is current India inflation rate?"],
-                ["What are the top 3 news stories today?"]
-            ],
-            inputs=text_input
-        )
     with gr.Tab("🔌 Pluely API"):
         gr.Markdown("""
-        ## API Endpoints for Pluely Integration
-        ### STT Endpoint (Audio Transcription)
         ```
-        curl -X POST https://archcoder-basic-app.hf.space/call/transcribe_stt \\
-          -H "Content-Type: application/json" \\
-          -d '{"data": ["BASE64_AUDIO_DATA"]}'
         ```
-        **Response Format:** `{"data": [{"text": "transcribed text"}]}`
-        ### AI Endpoint (Text to Answer)
         ```
-        curl -X POST https://archcoder-basic-app.hf.space/call/answer_ai \\
-          -H "Content-Type: application/json" \\
-          -d '{"data": ["Your question here"]}'
         ```
-        **Response Format:** `{"data": ["Answer with source attribution"]}`
-        ---
-        ## Pluely Configuration
-        ### Custom STT Provider:
-        **Curl Command:**
-        ```
-        curl https://archcoder-basic-app.hf.space/call/transcribe_stt -H "Content-Type: application/json" -d '{"data": ["{{AUDIO_BASE64}}"]}'
-        ```
-        **Response Content Path:** `data[0].text`
-        **Streaming:** OFF
-        ### Custom AI Provider:
-        **Curl Command:**
         ```
-        curl https://archcoder-basic-app.hf.space/call/answer_ai -H "Content-Type: application/json" -d '{"data": ["{{TEXT}}"]}'
         ```
-        **Response Content Path:** `data[0]`
-        **Streaming:** OFF
         """)
-        # Hidden API endpoint components
         with gr.Row(visible=False):
-            stt_input = gr.Textbox()
-            stt_output = gr.JSON()
-            ai_input = gr.Textbox()
-            ai_output = gr.Textbox()
-        stt_btn = gr.Button("STT", visible=False)
-        stt_btn.click(
-            fn=transcribe_audio_base64,
-            inputs=[stt_input],
-            outputs=[stt_output],
-            api_name="transcribe_stt"
-        )
-        ai_btn = gr.Button("AI", visible=False)
-        ai_btn.click(
-            fn=generate_answer,
-            inputs=[ai_input],
-            outputs=[ai_output],
-            api_name="answer_ai"
-        )
-    gr.Markdown("""
-    ---
-    **Model:** SmolLM2-360M-Instruct (250-400 tokens/second on CPU)
-    **Search:** Parallel multi-engine (Tavily → Brave → Searx → DDG)
-    **Expected Speed:** 1.5-2.5 seconds total
-    **All requests logged** - Check Logs tab in HF Space
-    🟢 < 2s | 🟡 2-3s | 🔴 > 3s
-    """)
 if __name__ == "__main__":
     demo.queue(max_size=5)

 logger.info("Loading Whisper-tiny...")
 whisper_model = WhisperModel("tiny", device="cpu", compute_type="int8")
+logger.info("Loading SmolLM2-360M-Instruct...")
 model_name = "HuggingFaceTB/SmolLM2-360M-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
 logger.info("All models loaded!")
 TAVILY_API_KEY = os.getenv('TAVILY_API_KEY', '')
 BRAVE_API_KEY = os.getenv('BRAVE_API_KEY', '')
         return {"error": str(e)}
 def generate_answer(text_input):
+    """Main answer generation - with debug logging"""
+    logger.info("="*60)
+    logger.info(f"[AI] Raw input: '{text_input}'")
+    logger.info(f"[AI] Input type: {type(text_input)}, Length: {len(text_input) if text_input else 0}")
     try:
+        # Handle literal {{TEXT}} from Pluely
+        if not text_input or text_input.strip() in ["", "{{TEXT}}", "{{text}}", "$TEXT"]:
+            error_msg = "❌ ERROR: No question received. Pluely sent empty/template variable.\n\nPluely Config Issue:\n- Check your curl command uses correct format\n- Make sure variable substitution is enabled"
+            logger.error(f"[AI] {error_msg}")
+            return error_msg
         current_date = datetime.now().strftime("%B %d, %Y")
         search_time = time.time() - search_start
         logger.info(f"[AI] Search completed in {search_time:.2f}s")
+        # Generate
         messages = [
             {
                 "role": "system",
             }
         ]
         prompt = f"<|im_start|>system\n{messages[0]['content']}<|im_end|>\n<|im_start|>user\n{messages[1]['content']}<|im_end|>\n<|im_start|>assistant\n"
         gen_start = time.time()
         with torch.no_grad():
             outputs = model.generate(
                 **inputs,
+                max_new_tokens=80,
                 temperature=0.7,
                 do_sample=True,
                 top_p=0.9,
         logger.info(f"[AI] Generation completed in {gen_time:.2f}s")
         answer = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True).strip()
         full_answer = f"{answer}\n\n**Source:** {search_engine}"
         logger.info("[AI] ✓ Complete")
+        logger.info("="*60)
         return full_answer
     except Exception as e:
     logger.info("="*50)
     logger.info("[MAIN] New request received")
     if audio_path:
         logger.info(f"[MAIN] Processing audio: {audio_path}")
         try:
     transcription_time = time.time() - start_time
     gen_start = time.time()
     answer = generate_answer(question)
     gen_time = time.time() - gen_start
     total_time = time.time() - start_time
     time_emoji = "🟢" if total_time < 2.0 else "🟡" if total_time < 3.0 else "🔴"
     timing = f"\n\n{time_emoji} **Performance:** Trans={transcription_time:.2f}s | Search+Gen={gen_time:.2f}s | **Total={total_time:.2f}s**"
 with gr.Blocks(title="Ultra-Fast Q&A - SmolLM2-360M", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # ⚡ Ultra-Fast Political Q&A System
+    **SmolLM2-360M** (250-400 tok/s) + **Parallel Search**
     """)
     with gr.Tab("🎙️ Audio Input"):
         with gr.Row():
             with gr.Column():
+                audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio")
+                audio_submit = gr.Button("🚀 Submit", variant="primary")
             with gr.Column():
                 audio_output = gr.Textbox(label="Answer", lines=10, show_copy_button=True)
+                audio_time = gr.Number(label="Time (s)", precision=2)
+        audio_submit.click(fn=audio_handler, inputs=[audio_input], outputs=[audio_output, audio_time], api_name="audio_query")
     with gr.Tab("✍️ Text Input"):
         with gr.Row():
             with gr.Column():
+                text_input = gr.Textbox(label="Question", placeholder="Ask anything...", lines=3)
+                text_submit = gr.Button("🚀 Submit", variant="primary")
             with gr.Column():
                 text_output = gr.Textbox(label="Answer", lines=10, show_copy_button=True)
+                text_time = gr.Number(label="Time (s)", precision=2)
+        text_submit.click(fn=text_handler, inputs=[text_input], outputs=[text_output, text_time], api_name="text_query")
+        gr.Examples(examples=[["Who is the US president?"]], inputs=text_input)
     with gr.Tab("🔌 Pluely API"):
         gr.Markdown("""
+        ## ⚠️ IMPORTANT: Pluely Configuration
+        ### If you see "{{TEXT}}" in logs, try these formats:
+        **Format 1 (Windows CMD - Use This First):**
         ```
+        curl -X POST https://archcoder-basic-app.hf.space/call/answer_ai -H "Content-Type: application/json" -d "{\\"data\\": [\\"TEXT_PLACEHOLDER\\"]}"
         ```
+        Then in Pluely, replace `TEXT_PLACEHOLDER` with `{{TEXT}}`
+        **Format 2 (Alternative):**
         ```
+        curl -X POST https://archcoder-basic-app.hf.space/call/answer_ai -H "Content-Type: application/json" --data-binary "{\\"data\\": [\\"{{TEXT}}\\"]}"
         ```
+        **Response Path:** `data[0]`
+        ---
+        ### STT Endpoint:
         ```
+        curl -X POST https://archcoder-basic-app.hf.space/call/transcribe_stt -H "Content-Type: application/json" -d "{\\"data\\": [\\"{{AUDIO_BASE64}}\\"]}"
         ```
+        **Response Path:** `data[0].text`
         """)
         with gr.Row(visible=False):
+            stt_in = gr.Textbox()
+            stt_out = gr.JSON()
+            ai_in = gr.Textbox()
+            ai_out = gr.Textbox()
+        gr.Button("STT", visible=False).click(fn=transcribe_audio_base64, inputs=[stt_in], outputs=[stt_out], api_name="transcribe_stt")
+        gr.Button("AI", visible=False).click(fn=generate_answer, inputs=[ai_in], outputs=[ai_out], api_name="answer_ai")
+    gr.Markdown("🟢 < 2s | 🟡 2-3s | 🔴 > 3s")
 if __name__ == "__main__":
     demo.queue(max_size=5)