Spaces:

diabolic6045
/

Sanskrit-Qwen2.5-VL-7B-Instruct-OCR

Sleeping

App Files Files Community

diabolic6045 commited on Sep 11

Commit

c9f8b16

verified ·

1 Parent(s): d70e615

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -14

app.py CHANGED Viewed

@@ -11,7 +11,6 @@ import io
 from PIL import Image
 from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
 from qwen_vl_utils import process_vision_info
-from peft import PeftModel
 import os
 import logging
 import spaces
@@ -22,13 +21,12 @@ logger = logging.getLogger(__name__)
 # Load model at module level (global scope)
-model_path = 'Qwen/Qwen2.5-VL-7B-Instruct'
-adapter_path = './outputs/out-qwen2-5-vl'
 logger.info("Loading processor...")
 processor = AutoProcessor.from_pretrained(model_path)
-logger.info("Loading base model...")
 # Check if CUDA is available, otherwise use CPU
 device_map = "auto" if torch.cuda.is_available() else "cpu"
 model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
@@ -37,12 +35,6 @@ model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     device_map=device_map
 )
-if adapter_path and os.path.exists(adapter_path):
-    logger.info("Loading LoRA adapters...")
-    model = PeftModel.from_pretrained(model, adapter_path)
-else:
-    logger.info("No adapter path found, using base model only")
 model.eval()
 device = next(model.parameters()).device
 logger.info(f"Model loaded on device: {device}")
@@ -134,7 +126,7 @@ def create_gradio_interface():
         gr.HTML("""
         <div class="main-header">
             <h1>🕉️ Sanskrit Text Transcription</h1>
-            <p>Upload an image containing Sanskrit text and get an accurate transcription using AI</p>
             <p><strong>🚀 Powered by ZeroGPU:</strong> Dynamic GPU allocation for efficient processing</p>
         </div>
         """)
@@ -189,13 +181,13 @@ def create_gradio_interface():
                 check_status_btn = gr.Button("🔄 Check Model Status", size="sm")
                 gr.Markdown("""
-                **Model:** Qwen2.5-VL-7B-Instruct with LoRA fine-tuning
                 **Features:**
                 - Multimodal vision-language model
-                - Fine-tuned on Sanskrit text data
                 - Supports various Sanskrit scripts
-                - High accuracy transcription
                 """)

 from PIL import Image
 from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
 from qwen_vl_utils import process_vision_info
 import os
 import logging
 import spaces
 # Load model at module level (global scope)
+model_path = 'diabolic6045/Sanskrit-Qwen2.5-VL-7B-Instruct-OCR'
 logger.info("Loading processor...")
 processor = AutoProcessor.from_pretrained(model_path)
+logger.info("Loading Sanskrit OCR model...")
 # Check if CUDA is available, otherwise use CPU
 device_map = "auto" if torch.cuda.is_available() else "cpu"
 model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     device_map=device_map
 )
 model.eval()
 device = next(model.parameters()).device
 logger.info(f"Model loaded on device: {device}")
         gr.HTML("""
         <div class="main-header">
             <h1>🕉️ Sanskrit Text Transcription</h1>
+            <p>Upload an image containing Sanskrit text and get an accurate transcription using the specialized Sanskrit OCR model</p>
             <p><strong>🚀 Powered by ZeroGPU:</strong> Dynamic GPU allocation for efficient processing</p>
         </div>
         """)
                 check_status_btn = gr.Button("🔄 Check Model Status", size="sm")
                 gr.Markdown("""
+                **Model:** diabolic6045/Sanskrit-Qwen2.5-VL-7B-Instruct-OCR
                 **Features:**
                 - Multimodal vision-language model
+                - Pre-trained specifically for Sanskrit OCR
                 - Supports various Sanskrit scripts
+                - High accuracy Sanskrit text transcription
                 """)