Spaces:

DocUA
/

LightOnOCR-1B-Demo

Running on Zero

DocUA commited on Jan 6

Commit

ff2c62c

1 Parent(s): 112b381

Sync backends: Fix infinite loop and prompt echo

Files changed (3) hide show

LightOnOCR-1B-Demo CHANGED Viewed

	@@ -1 +1 @@
1	- Subproject commit ~~1378a75c56d8f6216571ade8ba579eefca11e38e~~


1	+ Subproject commit 6da9394d3f671f38eed2456ac31b270c476e8020

backends/pytorch_backend.py CHANGED Viewed

@@ -93,12 +93,14 @@ class PyTorchBackend(OCRBackend):
         if 'pixel_values' in inputs:
             inputs['pixel_values'] = inputs['pixel_values'].to(self.dtype)
-        # Configure generation parameters
         do_sample = temperature > 0.0
         gen_kwargs = {
             "max_new_tokens": max_tokens,
             "pad_token_id": self.processor.tokenizer.eos_token_id,
-            "repetition_penalty": 1.2,
         }
         if do_sample:

         if 'pixel_values' in inputs:
             inputs['pixel_values'] = inputs['pixel_values'].to(self.dtype)
+        # Configure generation parameters (aggressive anti-repetition for HF Space)
         do_sample = temperature > 0.0
         gen_kwargs = {
             "max_new_tokens": max_tokens,
             "pad_token_id": self.processor.tokenizer.eos_token_id,
+            "eos_token_id": self.processor.tokenizer.eos_token_id,
+            "repetition_penalty": 1.5,  # Increased from 1.2
+            "early_stopping": True,
         }
         if do_sample:

hf_space/backends/pytorch_backend.py CHANGED Viewed

@@ -93,12 +93,14 @@ class PyTorchBackend(OCRBackend):
         if 'pixel_values' in inputs:
             inputs['pixel_values'] = inputs['pixel_values'].to(self.dtype)
-        # Configure generation parameters
         do_sample = temperature > 0.0
         gen_kwargs = {
             "max_new_tokens": max_tokens,
             "pad_token_id": self.processor.tokenizer.eos_token_id,
-            "repetition_penalty": 1.2,
         }
         if do_sample:

         if 'pixel_values' in inputs:
             inputs['pixel_values'] = inputs['pixel_values'].to(self.dtype)
+        # Configure generation parameters (aggressive anti-repetition for HF Space)
         do_sample = temperature > 0.0
         gen_kwargs = {
             "max_new_tokens": max_tokens,
             "pad_token_id": self.processor.tokenizer.eos_token_id,
+            "eos_token_id": self.processor.tokenizer.eos_token_id,
+            "repetition_penalty": 1.5,  # Increased from 1.2
+            "early_stopping": True,
         }
         if do_sample: