Spaces:

david167
/

question-generation-api

Sleeping

App Files Files Community

david167 commited on Aug 7, 2025

Commit

342694d

1 Parent(s): 4ad994e

Improve model generation parameters and add logging - fix response truncation issues

Browse files

Files changed (1) hide show

gradio_app.py +15 -3

gradio_app.py CHANGED Viewed

@@ -224,15 +224,18 @@ def chat_with_model(message, history, temperature, json_mode=False, json_templat
         with torch.no_grad():
             outputs = model_manager.model.generate(
                 **inputs,
-                max_new_tokens=4096,
                 temperature=temperature,
                 top_p=0.95,
                 do_sample=True,
                 num_beams=1,
                 pad_token_id=model_manager.tokenizer.eos_token_id,
                 eos_token_id=model_manager.tokenizer.eos_token_id,
-                early_stopping=False,  # Disable early stopping to prevent premature truncation
-                repetition_penalty=1.1  # Add slight repetition penalty to improve quality
             )
         # Decode response
@@ -245,9 +248,18 @@ def chat_with_model(message, history, temperature, json_mode=False, json_templat
             # Fallback: try to remove the prompt by length
             response = generated_text[len(prompt):].strip()
         # Process JSON response if in JSON mode
         if json_mode and response:
             response = prettify_json_response(response)
         # Add to history
         history.append({"role": "user", "content": message})

         with torch.no_grad():
             outputs = model_manager.model.generate(
                 **inputs,
+                max_new_tokens=2048,  # Reduced but sufficient for JSON responses
                 temperature=temperature,
                 top_p=0.95,
                 do_sample=True,
                 num_beams=1,
                 pad_token_id=model_manager.tokenizer.eos_token_id,
                 eos_token_id=model_manager.tokenizer.eos_token_id,
+                early_stopping=False,  # Disable early stopping
+                repetition_penalty=1.05,  # Lighter repetition penalty
+                no_repeat_ngram_size=0,  # Disable n-gram repetition blocking
+                length_penalty=1.0,  # Neutral length penalty
+                min_new_tokens=50  # Ensure minimum response length
             )
         # Decode response
             # Fallback: try to remove the prompt by length
             response = generated_text[len(prompt):].strip()
+        # Log response length for debugging
+        logger.info(f"Generated response length: {len(response)} characters")
+        logger.info(f"Response preview: {response[:200]}...")
         # Process JSON response if in JSON mode
         if json_mode and response:
+            original_response = response
             response = prettify_json_response(response)
+            if response != original_response:
+                logger.info(f"JSON processing applied. New length: {len(response)}")
+            else:
+                logger.info("JSON processing had no effect - no valid JSON found")
         # Add to history
         history.append({"role": "user", "content": message})