Spaces:

atamazian
/

sales_data_extraction

Sleeping

App Files Files Community

Araik Tamazian commited on Aug 3, 2025

Commit

e85c478

1 Parent(s): 9b5d461

fixed bug

Browse files

Files changed (1) hide show

app.py +29 -9

app.py CHANGED Viewed

@@ -38,7 +38,13 @@ class LLMSalesExtractor:
         try:
             # Initialize with CPU-only, optimized for 2 cores
-            self.tokenizer = AutoTokenizer.from_pretrained(self.model_name, padding_side='left')
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_name,
                 torch_dtype=torch.float32,
@@ -46,9 +52,9 @@ class LLMSalesExtractor:
                 low_cpu_mem_usage=True
             )
-            # Set pad token if not exists
-            if self.tokenizer.pad_token is None:
-                self.tokenizer.pad_token = self.tokenizer.eos_token
             self.llm_available = True
             print("LLM model loaded successfully")
@@ -206,21 +212,35 @@ JSON:"""
         try:
             prompt = self.generate_llm_prompt(text)
-            # Tokenize and generate
-            inputs = self.tokenizer.encode(prompt, return_tensors='pt', max_length=512, truncation=True)
             with torch.no_grad():
                 outputs = self.model.generate(
-                    inputs,
                     max_new_tokens=200,
                     temperature=0.1,
                     do_sample=True,
                     pad_token_id=self.tokenizer.eos_token_id,
                     num_return_sequences=1
                 )
-            # Decode response
-            response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             # Extract JSON from response
             json_start = response.find('{')

         try:
             # Initialize with CPU-only, optimized for 2 cores
+            self.tokenizer = AutoTokenizer.from_pretrained(self.model_name)
+            # Set pad token to avoid attention mask issues
+            if self.tokenizer.pad_token is None:
+                self.tokenizer.pad_token = self.tokenizer.unk_token if self.tokenizer.unk_token else "[PAD]"
+                self.tokenizer.pad_token_id = self.tokenizer.convert_tokens_to_ids(self.tokenizer.pad_token)
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_name,
                 torch_dtype=torch.float32,
                 low_cpu_mem_usage=True
             )
+            # Resize token embeddings if we added a new pad token
+            if self.tokenizer.pad_token != self.tokenizer.eos_token:
+                self.model.resize_token_embeddings(len(self.tokenizer))
             self.llm_available = True
             print("LLM model loaded successfully")
         try:
             prompt = self.generate_llm_prompt(text)
+            # Tokenize with proper attention mask
+            inputs = self.tokenizer(
+                prompt,
+                return_tensors='pt',
+                max_length=512,
+                truncation=True,
+                padding=True,
+                return_attention_mask=True
+            )
+            input_ids = inputs['input_ids']
+            attention_mask = inputs['attention_mask']
             with torch.no_grad():
                 outputs = self.model.generate(
+                    input_ids,
+                    attention_mask=attention_mask,
                     max_new_tokens=200,
                     temperature=0.1,
                     do_sample=True,
                     pad_token_id=self.tokenizer.eos_token_id,
+                    eos_token_id=self.tokenizer.eos_token_id,
                     num_return_sequences=1
                 )
+            # Decode response (skip the input tokens)
+            input_length = input_ids.shape[1]
+            generated_tokens = outputs[0][input_length:]
+            response = self.tokenizer.decode(generated_tokens, skip_special_tokens=True)
             # Extract JSON from response
             json_start = response.find('{')