Spaces:

hamxaameer
/

OutfitOrbit-Chatbot-Assistant

Running

App Files Files Community

hamxaameer commited on 6 days ago

Commit

9e4bdce

verified ·

1 Parent(s): c4e1d4a

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -13

app.py CHANGED Viewed

@@ -637,7 +637,8 @@ def generate_llm_answer(
     def call_model(prompt, max_new_tokens, temperature):
         """Generate with DistilGPT2 - simple and fast"""
         try:
-            formatted_prompt = f"Q: {prompt}\nA:"
             logger.info(f"    → Generating (max_tokens={max_new_tokens})")
@@ -647,7 +648,12 @@ def generate_llm_answer(
                 temperature=temperature,
                 do_sample=True,
                 return_full_text=False,
-                pad_token_id=llm_client.tokenizer.eos_token_id
             )
             if not out or not isinstance(out, list) or len(out) == 0:
@@ -656,8 +662,15 @@ def generate_llm_answer(
             generated = out[0].get('generated_text', '').strip()
             # Remove prompt if present
-            if formatted_prompt in generated:
-                generated = generated.replace(formatted_prompt, '').strip()
             word_count = len(generated.split())
             logger.info(f"    ✅ Generated {word_count} words")
@@ -667,20 +680,21 @@ def generate_llm_answer(
             logger.error(f"    ✗ Error: {e}")
             return ''
-    # ULTRA-SHORT prompt for speed
-    base_prompt = f"""Q: {query}
-{context_text[:300]}
-A:"""
-    # DistilGPT2 parameters
     if attempt == 1:
-        max_new_tokens = 100
-        temperature = 0.8
     else:
-        max_new_tokens = 120
-        temperature = 0.9
     logger.info(f"  → Starting generation with prompt: {base_prompt[:200]}...")
     initial_output = call_model(base_prompt, max_new_tokens, temperature)

     def call_model(prompt, max_new_tokens, temperature):
         """Generate with DistilGPT2 - simple and fast"""
         try:
+            # Better prompt format for DistilGPT2
+            formatted_prompt = f"Fashion advice: {prompt}\n\nAnswer:"
             logger.info(f"    → Generating (max_tokens={max_new_tokens})")
                 temperature=temperature,
                 do_sample=True,
                 return_full_text=False,
+                repetition_penalty=1.2,  # Prevent repetition
+                no_repeat_ngram_size=3,  # Prevent repeating 3-grams
+                top_k=50,
+                top_p=0.95,
+                pad_token_id=llm_client.tokenizer.eos_token_id,
+                eos_token_id=llm_client.tokenizer.eos_token_id
             )
             if not out or not isinstance(out, list) or len(out) == 0:
             generated = out[0].get('generated_text', '').strip()
             # Remove prompt if present
+            if "Answer:" in generated:
+                generated = generated.split("Answer:")[-1].strip()
+            # Clean up bad patterns
+            import re
+            # Remove patterns like "A: B: C:" or "I: I: I:"
+            generated = re.sub(r'\b([A-Z]):\s*\1:\s*', '', generated)
+            generated = re.sub(r'\b[A-Z]:\s*(?=[A-Z]:)', '', generated)
+            generated = generated.strip()
             word_count = len(generated.split())
             logger.info(f"    ✅ Generated {word_count} words")
             logger.error(f"    ✗ Error: {e}")
             return ''
+    # Better prompt format with context
+    base_prompt = f"""Question: {query}
+Context from fashion knowledge base:
+{context_text[:400]}
+Based on the above information, here is detailed fashion advice:"""
+    # DistilGPT2 parameters - adjusted for better quality
     if attempt == 1:
+        max_new_tokens = 150
+        temperature = 0.7
     else:
+        max_new_tokens = 200
+        temperature = 0.75
     logger.info(f"  → Starting generation with prompt: {base_prompt[:200]}...")
     initial_output = call_model(base_prompt, max_new_tokens, temperature)