Spaces:

kalpniks
/

ASL_Translator

Sleeping

App Files Files Community

kalpniks commited on 24 days ago

Commit

00afd62

verified ·

1 Parent(s): 3cc0821

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +22 -18

app.py CHANGED Viewed

@@ -4,13 +4,13 @@ from collections import Counter
 import time
 import traceback
 from transformers import SiglipForImageClassification
-from transformers.image_processing_utils import AutoImageProcessor # Changed import path
 from PIL import Image
 import torch
 import cv2
-import numpy as np # Required for opencv and streamlit-webrtc frame processing
-import av # Required for streamlit-webrtc
-from streamlit_webrtc import webrtc_streamer, VideoProcessorBase, WebRtcMode # Import WebRtcMode
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.makedirs("/tmp/huggingface", exist_ok=True)
@@ -25,8 +25,6 @@ def load_model_and_processor():
     print("INFO: Model and processor loaded successfully.")
     return model, processor
-model, processor = load_model_and_processor()
 # Define the maximum number of consecutive repetitions allowed for predictions
 MAX_CONSECUTIVE_REPETITIONS = 3
@@ -37,11 +35,13 @@ labels = {
     "20": "U", "21": "V", "22": "W", "23": "X", "24": "Y", "25": "Z"
 }
-# Store model and processor in session state for access by VideoProcessor
-st.session_state.model_obj = model
-st.session_state.processor_obj = processor
-st.session_state.labels_dict = labels
-st.session_state.max_consecutive_repetitions_val = MAX_CONSECUTIVE_REPETITIONS
 # Initialize session state for live predictions if not already present
 if 'live_realtime_pred' not in st.session_state:
@@ -66,7 +66,7 @@ class SignLanguageVideoProcessor(VideoProcessorBase):
         inputs = self.processor(images=img_pil, return_tensors="pt")
         with torch.no_grad():
-            outputs = model(**inputs)
             logits = outputs.logits
         predicted_label_index = torch.argmax(logits, dim=1).item()
@@ -97,6 +97,12 @@ def sign_language_classification_streamlit(video_path):
     last_predicted_label = None
     consecutive_repetitions = 0
     try:
         cap = cv2.VideoCapture(video_path)
         if not cap.isOpened():
@@ -107,12 +113,12 @@ def sign_language_classification_streamlit(video_path):
             if not ret:
                 break
             image = Image.fromarray(frame).convert("RGB")
-            inputs = processor(images=image, return_tensors="pt")
             with torch.no_grad():
-                outputs = model(**inputs)
                 logits = outputs.logits
             predicted_label_index = torch.argmax(logits, dim=1).item()
-            current_predicted_label = labels[str(predicted_label_index)]
             # Apply repetition logic
             if current_predicted_label == last_predicted_label:
@@ -120,21 +126,19 @@ def sign_language_classification_streamlit(video_path):
             else:
                 consecutive_repetitions = 1
-            if consecutive_repetitions > MAX_CONSECUTIVE_REPETITIONS or last_predicted_label is None:
                 predicted_letters.append(current_predicted_label)
                 last_predicted_label = current_predicted_label
         cap.release()
         unique_predicted_letters = list(dict.fromkeys(predicted_letters))
         final_output_str = ", ".join(unique_predicted_letters)
-        # For 'Real-time Prediction' equivalent, let's use the last valid unique prediction or the most frequent
         realtime_equivalent_prediction = unique_predicted_letters[-1] if unique_predicted_letters else ""
         return realtime_equivalent_prediction, final_output_str
     except Exception as e:
         print(f"Error caught: {e}")
-        # Modify the return to ensure the traceback is flattened into a single line
         error_msg = f"Error processing video: {e}"
         full_traceback_flat = traceback.format_exc().replace('\n', ' | ').replace('\r', '')
         return error_msg, f"{{error_msg}} (Details: {{full_traceback_flat}})"

 import time
 import traceback
 from transformers import SiglipForImageClassification
+from transformers.image_processing_utils import AutoImageProcessor
 from PIL import Image
 import torch
 import cv2
+import numpy as np
+import av
+from streamlit_webrtc import webrtc_streamer, VideoProcessorBase, WebRtcMode
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.makedirs("/tmp/huggingface", exist_ok=True)
     print("INFO: Model and processor loaded successfully.")
     return model, processor
 # Define the maximum number of consecutive repetitions allowed for predictions
 MAX_CONSECUTIVE_REPETITIONS = 3
     "20": "U", "21": "V", "22": "W", "23": "X", "24": "Y", "25": "Z"
 }
+# Initialize all necessary session state variables using conditional checks
+if 'model_obj' not in st.session_state:
+    st.session_state.model_obj, st.session_state.processor_obj = load_model_and_processor()
+if 'labels_dict' not in st.session_state:
+    st.session_state.labels_dict = labels
+if 'max_consecutive_repetitions_val' not in st.session_state:
+    st.session_state.max_consecutive_repetitions_val = MAX_CONSECUTIVE_REPETITIONS
 # Initialize session state for live predictions if not already present
 if 'live_realtime_pred' not in st.session_state:
         inputs = self.processor(images=img_pil, return_tensors="pt")
         with torch.no_grad():
+            outputs = self.model(**inputs)
             logits = outputs.logits
         predicted_label_index = torch.argmax(logits, dim=1).item()
     last_predicted_label = None
     consecutive_repetitions = 0
+    # Access model, processor, labels, and MAX_CONSECUTIVE_REPETITIONS from session state
+    local_model = st.session_state.model_obj
+    local_processor = st.session_state.processor_obj
+    local_labels = st.session_state.labels_dict
+    local_max_consecutive_repetitions = st.session_state.max_consecutive_repetitions_val
     try:
         cap = cv2.VideoCapture(video_path)
         if not cap.isOpened():
             if not ret:
                 break
             image = Image.fromarray(frame).convert("RGB")
+            inputs = local_processor(images=image, return_tensors="pt")
             with torch.no_grad():
+                outputs = local_model(**inputs)
                 logits = outputs.logits
             predicted_label_index = torch.argmax(logits, dim=1).item()
+            current_predicted_label = local_labels[str(predicted_label_index)]
             # Apply repetition logic
             if current_predicted_label == last_predicted_label:
             else:
                 consecutive_repetitions = 1
+            if consecutive_repetitions > local_max_consecutive_repetitions or last_predicted_label is None:
                 predicted_letters.append(current_predicted_label)
                 last_predicted_label = current_predicted_label
         cap.release()
         unique_predicted_letters = list(dict.fromkeys(predicted_letters))
         final_output_str = ", ".join(unique_predicted_letters)
         realtime_equivalent_prediction = unique_predicted_letters[-1] if unique_predicted_letters else ""
         return realtime_equivalent_prediction, final_output_str
     except Exception as e:
         print(f"Error caught: {e}")
         error_msg = f"Error processing video: {e}"
         full_traceback_flat = traceback.format_exc().replace('\n', ' | ').replace('\r', '')
         return error_msg, f"{{error_msg}} (Details: {{full_traceback_flat}})"