Spaces:

DocUA
/

Local_OCR_Demo

Sleeping

App Files Files Community

DocUA commited on Jan 30

Commit

4505c9a

1 Parent(s): 9efb9c8

fix: Ensure proper `pad_token_id` configuration and `attention_mask` generation for DeepSeek OCR model.

Browse files

Files changed (1) hide show

app_hf.py +16 -4

app_hf.py CHANGED Viewed

@@ -92,6 +92,8 @@ class ModelManager:
             print(f"Loading {model_name} to CPU...")
             if model_name == DEEPSEEK_MODEL:
                 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, cache_dir=_hf_cache_dir)
                 model = AutoModel.from_pretrained(
                     model_name,
                     trust_remote_code=True,
@@ -100,6 +102,8 @@ class ModelManager:
                     cache_dir=_hf_cache_dir,
                     torch_dtype=dtype
                 )
                 model.eval()
                 self.models[model_name] = model
                 self.processors[model_name] = tokenizer
@@ -222,13 +226,21 @@ def run_ocr(input_image, input_file, model_choice, custom_prompt):
                         return_dict=True,
                         return_tensors="pt"
                     ).to("cuda") # Ensure inputs are on cuda
                     with torch.no_grad(), _autocast_ctx:
-                        output = model.generate(**inputs, max_new_tokens=4096, do_sample=False)
-                    input_len = inputs["input_ids"].shape[-1]
-                    res = processor_or_tokenizer.decode(output[0][input_len:], skip_special_tokens=True)
-                    all_results.append(f"--- Page/Image {i+1} ---\n{res}")
             except Exception as e:
                 all_results.append(f"--- Page/Image {i+1} ---\nПомилка: {str(e)}")

             print(f"Loading {model_name} to CPU...")
             if model_name == DEEPSEEK_MODEL:
                 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, cache_dir=_hf_cache_dir)
+                if getattr(tokenizer, "pad_token_id", None) is None and getattr(tokenizer, "eos_token_id", None) is not None:
+                    tokenizer.pad_token_id = tokenizer.eos_token_id
                 model = AutoModel.from_pretrained(
                     model_name,
                     trust_remote_code=True,
                     cache_dir=_hf_cache_dir,
                     torch_dtype=dtype
                 )
+                if hasattr(model, "config") and getattr(model.config, "pad_token_id", None) is None and getattr(tokenizer, "pad_token_id", None) is not None:
+                    model.config.pad_token_id = tokenizer.pad_token_id
                 model.eval()
                 self.models[model_name] = model
                 self.processors[model_name] = tokenizer
                         return_dict=True,
                         return_tensors="pt"
                     ).to("cuda") # Ensure inputs are on cuda
+                    if "attention_mask" not in inputs:
+                        inputs["attention_mask"] = torch.ones_like(inputs["input_ids"], dtype=torch.long)
                     with torch.no_grad(), _autocast_ctx:
+                        output = model.generate(
+                            **inputs,
+                            max_new_tokens=4096,
+                            do_sample=False,
+                            pad_token_id=processor_or_tokenizer.tokenizer.pad_token_id,
+                        )
+                        input_len = inputs["input_ids"].shape[-1]
+                        res = processor_or_tokenizer.decode(output[0][input_len:], skip_special_tokens=True)
+                        all_results.append(f"--- Page/Image {i+1} ---\n{res}")
             except Exception as e:
                 all_results.append(f"--- Page/Image {i+1} ---\nПомилка: {str(e)}")