Spaces:

ake178178
/

pix2contenthuggingface

Paused

App Files Files Community

ake178178 commited on Aug 9, 2024

Commit

ded753e

verified ·

1 Parent(s): 0e2cad8

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -56

app.py CHANGED Viewed

@@ -1,70 +1,27 @@
 import streamlit as st
-import cv2
 from transformers import BlipProcessor, BlipForConditionalGeneration
 from PIL import Image
-import numpy as np
 # 加载BLIP模型和处理器
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
-def capture_image():
-    # 打开摄像头
-    cap = cv2.VideoCapture(0)
-    st.info("按下空格键拍照，按下'q'键退出摄像头")
-    img_name = None  # 初始化 img_name
-    while True:
-        # 读取摄像头帧
-        ret, frame = cap.read()
-        if not ret:
-            st.error("无法从摄像头读取帧")
-            break
-        # 显示摄像头的内容
-        cv2.imshow('摄像头', frame)
-        # 等待键盘输入
-        key = cv2.waitKey(1)
-        if key % 256 == 32:  # 空格键拍照
-            img_name = "captured_image.png"
-            cv2.imwrite(img_name, frame)
-            st.success(f"照片已保存为 {img_name}")
-            break
-        elif key % 256 == ord('q'):  # 按下 'q' 键退出
-            st.info("退出摄像头")
-            break
-    # 释放摄像头并关闭窗口
-    cap.release()
-    cv2.destroyAllWindows()
-    if img_name:
-        return img_name
-    else:
-        return None  # 如果没有拍照，返回 None
-def generate_caption(image_path):
-    image = Image.open(image_path).convert('RGB')
-    inputs = processor(image, return_tensors="pt")
-    out = model.generate(**inputs)
-    caption = processor.decode(out[0], skip_special_tokens=True)
-    return caption
 st.title("图像描述生成器")
 st.write("使用摄像头拍照并生成图像的描述。")
-# 拍照按钮
-if st.button("拍照"):
-    image_path = capture_image()
     # 显示拍摄的图像
-    if image_path:
-        st.image(image_path, caption="拍摄的图像")
-        # 生成图像描述
-        caption = generate_caption(image_path)
-        st.write(f"图像描述: {caption}")

 import streamlit as st
 from transformers import BlipProcessor, BlipForConditionalGeneration
 from PIL import Image
 # 加载BLIP模型和处理器
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 st.title("图像描述生成器")
 st.write("使用摄像头拍照并生成图像的描述。")
+# 使用Streamlit的camera_input来获取用户摄像头输入
+image_data = st.camera_input("请使用摄像头拍照")
+if image_data is not None:
+    # 将图像数据转换为PIL图像
+    image = Image.open(image_data)
     # 显示拍摄的图像
+    st.image(image, caption="拍摄的图像", use_column_width=True)
+    # 生成图像描述
+    inputs = processor(image, return_tensors="pt")
+    out = model.generate(**inputs)
+    caption = processor.decode(out[0], skip_special_tokens=True)
+    st.write(f"图像描述: {caption}")