Spaces:

david167
/

question-generation-api

Sleeping

david167 commited on Aug 7, 2025

Commit

1ba70a2

1 Parent(s): 342694d

Increase max_new_tokens to 8192 for unlimited length responses

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -222,21 +222,21 @@ def chat_with_model(message, history, temperature, json_mode=False, json_templat
             inputs = {k: v.to(model_device) for k, v in inputs.items()}
         with torch.no_grad():
-            outputs = model_manager.model.generate(
-                **inputs,
-                max_new_tokens=2048,  # Reduced but sufficient for JSON responses
-                temperature=temperature,
-                top_p=0.95,
-                do_sample=True,
-                num_beams=1,
-                pad_token_id=model_manager.tokenizer.eos_token_id,
-                eos_token_id=model_manager.tokenizer.eos_token_id,
-                early_stopping=False,  # Disable early stopping
-                repetition_penalty=1.05,  # Lighter repetition penalty
-                no_repeat_ngram_size=0,  # Disable n-gram repetition blocking
-                length_penalty=1.0,  # Neutral length penalty
-                min_new_tokens=50  # Ensure minimum response length
-            )
         # Decode response
         generated_text = model_manager.tokenizer.decode(outputs[0], skip_special_tokens=True)

             inputs = {k: v.to(model_device) for k, v in inputs.items()}
         with torch.no_grad():
+                    outputs = model_manager.model.generate(
+            **inputs,
+            max_new_tokens=8192,  # Much higher limit for complete responses
+            temperature=temperature,
+            top_p=0.95,
+            do_sample=True,
+            num_beams=1,
+            pad_token_id=model_manager.tokenizer.eos_token_id,
+            eos_token_id=model_manager.tokenizer.eos_token_id,
+            early_stopping=False,  # Disable early stopping
+            repetition_penalty=1.05,  # Lighter repetition penalty
+            no_repeat_ngram_size=0,  # Disable n-gram repetition blocking
+            length_penalty=1.0,  # Neutral length penalty
+            min_new_tokens=50  # Ensure minimum response length
+        )
         # Decode response
         generated_text = model_manager.tokenizer.decode(outputs[0], skip_special_tokens=True)