Spaces:

123Sabrina
/

0521_gemini

Sleeping

App Files Files Community

123Sabrina commited on May 21, 2025

Commit

6f94d17

verified ·

1 Parent(s): 9b6d22e

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +0 -156

src/streamlit_app.py CHANGED Viewed

@@ -12,161 +12,6 @@ import base64
 import io
 from tqdm import tqdm
-# 設定日誌
-logging.basicConfig(
-    level=logging.INFO,
-    format='%(asctime)s - %(levelname)s - %(message)s',
-    handlers=[
-        logging.FileHandler("pdf_processing.log"),
-        logging.StreamHandler(sys.stdout)
-    ]
-)
-logger = logging.getLogger(__name__)
-# 設置頁面配置
-st.set_page_config(
-    page_title="PDF 翻譯與處理工具",
-    page_icon="📄",
-    layout="wide",
-    initial_sidebar_state="expanded",
-)
-# 應用標題
-st.title("PDF 翻譯與處理工具")
-# 初始化會話狀態
-if 'pdf_path' not in st.session_state:
-    st.session_state.pdf_path = None
-if 'pdf_content' not in st.session_state:
-    st.session_state.pdf_content = None
-if 'df' not in st.session_state:
-    st.session_state.df = None
-if 'total_pages' not in st.session_state:
-    st.session_state.total_pages = 0
-if 'model' not in st.session_state:
-    st.session_state.model = None
-if 'current_page' not in st.session_state:
-    st.session_state.current_page = 1
-if 'api_key' not in st.session_state:
-    st.session_state.api_key = "AIzaSyCZDHwY2rIArR3KHf7RpktvRZ4m1sr4PeQ"  # 默認API金鑰
-if 'results' not in st.session_state:
-    st.session_state.results = {}
-if 'processing_complete' not in st.session_state:
-    st.session_state.processing_complete = False
-def extract_text_from_pdf(pdf_file):
-    """從PDF文件中提取所有文本內容，以頁面為單位返回文本列表"""
-    try:
-        pdf_reader = PyPDF2.PdfReader(pdf_file)
-        total_pages = len(pdf_reader.pages)
-        logger.info(f"PDF共有 {total_pages} 頁")
-        pages_text = []
-        progress_bar = st.progress(0)
-        progress_text = st.empty()
-        for page_num in range(total_pages):
-            progress_text.text(f"正在提取PDF頁面 {page_num+1}/{total_pages}...")
-            progress_value = (page_num + 1) / total_pages
-            progress_bar.progress(progress_value)
-            page_text = pdf_reader.pages[page_num].extract_text()
-            pages_text.append(page_text)
-        progress_text.text("PDF提取完成!")
-        return pages_text, total_pages
-    except Exception as e:
-        logger.error(f"PDF文本提取錯誤: {e}")
-        st.error(f"PDF提取錯誤: {str(e)}")
-        return [], 0
-def pdf_to_dataframe(pages_text):
-    """將PDF頁面文本轉換為DataFrame，每頁內容作為一個單獨的欄位"""
-    try:
-        # 創建一個字典，每一頁的內容對應一個欄位
-        data_dict = {f'Page_{i+1}': [text] for i, text in enumerate(pages_text)}
-        # 創建DataFrame
-        return pd.DataFrame(data_dict)
-    except Exception as e:
-        logger.error(f"PDF轉DataFrame失敗: {e}")
-        st.error(f"轉換數據失敗: {str(e)}")
-        return None
-def setup_gemini_api(api_key):
-    """設置 Gemini API"""
-    try:
-        os.environ["GOOGLE_API_KEY"] = api_key
-        genai.configure(api_key=api_key)
-        return genai.GenerativeModel("gemini-1.5-flash")
-    except Exception as e:
-        logger.error(f"Gemini API 設置失敗: {e}")
-        st.error(f"API 設置失敗: {str(e)}")
-        return None
-def translate_with_gemini(model, text, target_language="繁體中文"):
-    """使用Gemini將文本翻譯成目標語言"""
-    try:
-        prompt = f"""
-        請將以下文本翻譯成{target_language}，保持專業和準確性：
-        {text}
-        只需要返回翻譯後的文本，不要加入其他解釋或備註。
-        """
-        response = model.generate_content(prompt)
-        return response.text.strip()
-    except Exception as e:
-        logger.error(f"Gemini翻譯失敗: {e}")
-        return f"翻譯失敗: {str(e)}"
-def process_with_gemini(model, text, instruction="請解釋以下內容"):
-    """使用Gemini處理文本"""
-    try:
-        # 如果文本太長，可能需要切分處理
-        if len(text) > 30000:  # 假設 Gemini 的輸入限制為 30000 字符
-            logger.info("文本過長，進行切分處理")
-            chunks = split_text(text, 25000)  # 切分為稍小的塊
-            results = []
-            progress_bar = st.progress(0)
-            progress_text = st.empty()
-            for i, chunk in enumerate(chunks):
-                progress_text.text(f"正在處理文本塊 {i+1}/{len(chunks)}...")
-                progress_value = (i + 1) / len(chunks)
-                progress_bar.progress(progress_value)
-                sub_prompt = f"{instruction} (部分 {i+1}/{len(chunks)}):\n\n{chunk}"
-                response = model.generate_content(sub_prompt)
-                results.append(response.text.strip())
-            progress_text.text("處理完成!")
-            return "\n\n".join(results)
-        else:
-            prompt = f"{instruction}:\n\n{text}"
-            response = model.generate_content(prompt)
-            return response.text.strip()
-    except Exception as e:
-        logger.error(f"Gemini處理失敗: {e}")
-        return f"處理失敗: {str(e)}"
-def split_text(text, max_length):
-    """將長文本切分為多個較小的塊"""import streamlit as st
-import PyPDF2
-import pandas as pd
-import os
-import google.generativeai as genai
-import csv
-from datetime import datetime
-import logging
-import sys
-import re
-import base64
-import io
-from tqdm import tqdm
 # 設定日誌 - 修改使用/tmp目錄，這在Hugging Face Space是可寫的
 try:
     logging.basicConfig(
@@ -190,7 +35,6 @@ except PermissionError:
 logger = logging.getLogger(__name__)
-# 其餘代碼保持不變...
 # 設置頁面配置
 st.set_page_config(
     page_title="PDF 翻譯與處理工具",

 import io
 from tqdm import tqdm
 # 設定日誌 - 修改使用/tmp目錄，這在Hugging Face Space是可寫的
 try:
     logging.basicConfig(
 logger = logging.getLogger(__name__)
 # 設置頁面配置
 st.set_page_config(
     page_title="PDF 翻譯與處理工具",