embodied_explainer

ccclemenfff commited on Jul 19, 2025

Commit

6b701b8

1 Parent(s): 31f8561

ttt

Files changed (3) hide show

.idea/embodied_explainer.iml CHANGED Viewed

@@ -2,7 +2,7 @@
 <module type="PYTHON_MODULE" version="4">
   <component name="NewModuleRootManager">
     <content url="file://$MODULE_DIR$" />
-    <orderEntry type="inheritedJdk" />
     <orderEntry type="sourceFolder" forTests="false" />
   </component>
   <component name="PyDocumentationSettings">

 <module type="PYTHON_MODULE" version="4">
   <component name="NewModuleRootManager">
     <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="demo" jdkType="Python SDK" />
     <orderEntry type="sourceFolder" forTests="false" />
   </component>
   <component name="PyDocumentationSettings">

.idea/misc.xml ADDED Viewed

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="demo" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="demo" project-jdk-type="Python SDK" />
+</project>

handler.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import torch
 from PIL import Image
 from io import BytesIO
 from typing import Dict, Any
@@ -34,24 +35,28 @@ class EndpointHandler:
         )
     def __call__(self, data: Dict[str, Any]) -> Dict[str, str]:
-        # Hugging Face 会调用这个函数，data 是原始输入
         inputs = self.preprocess(data)
         prediction = self.inference(inputs)
         return self.postprocess(prediction)
     def preprocess(self, request: Dict[str, Any]) -> Dict[str, Any]:
         prompt = request["inputs"]
-        image = request.get("image", None)
-        video = request.get("video", None)
-        if image:
-            pixel_values = self._load_image(image).unsqueeze(0).to(self.device)
             prompt = prompt.replace("<image>", DEFAULT_IMG_START_TOKEN + DEFAULT_IMG_END_TOKEN)
-        elif video:
-            pixel_values = self._load_video(video).unsqueeze(0).to(self.device)
             prompt = prompt.replace("<video>", DEFAULT_VIDEO_START_TOKEN + DEFAULT_VIDEO_END_TOKEN)
-        else:
-            pixel_values = None
         return {
             "prompt": prompt,

 import os
 import torch
+import base64
 from PIL import Image
 from io import BytesIO
 from typing import Dict, Any
         )
     def __call__(self, data: Dict[str, Any]) -> Dict[str, str]:
         inputs = self.preprocess(data)
         prediction = self.inference(inputs)
         return self.postprocess(prediction)
     def preprocess(self, request: Dict[str, Any]) -> Dict[str, Any]:
         prompt = request["inputs"]
+        image_b64 = request.get("image", None)
+        video_b64 = request.get("video", None)
+        pixel_values = None
+        if image_b64:
+            # 关键改动：base64解码
+            image_bytes = base64.b64decode(image_b64)
+            pixel_values = self._load_image(image_bytes).unsqueeze(0).to(self.device)
             prompt = prompt.replace("<image>", DEFAULT_IMG_START_TOKEN + DEFAULT_IMG_END_TOKEN)
+        elif video_b64:
+            # 关键改动：base64解码
+            video_bytes = base64.b64decode(video_b64)
+            pixel_values = self._load_video(video_bytes).unsqueeze(0).to(self.device)
             prompt = prompt.replace("<video>", DEFAULT_VIDEO_START_TOKEN + DEFAULT_VIDEO_END_TOKEN)
         return {
             "prompt": prompt,