PDF_LLM_API

Paused

App Files Files Community

tomo2chin2 commited on Mar 2, 2025

Commit

5bb44a9

verified ·

1 Parent(s): 58ac360

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -19

app.py CHANGED Viewed

@@ -6,6 +6,11 @@ import google.generativeai as genai
 import tempfile
 import base64
 from concurrent.futures import ThreadPoolExecutor
 # Gemini APIの設定 (環境変数から取得)
 GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
@@ -13,12 +18,6 @@ if not GOOGLE_API_KEY:
     raise ValueError("環境変数 'GOOGLE_API_KEY' が設定されていません。")
 genai.configure(api_key=GOOGLE_API_KEY)
-import logging
-# ロギング設定
-logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 def split_pdf(pdf_path, output_dir, pages_per_chunk=5):
     """PDFを指定ページ数ごとに分割する関数"""
@@ -60,7 +59,7 @@ def ocr_pdf_with_gemini(pdf_path):
     pdf_base64 = encode_pdf_to_base64(pdf_path)
     # Geminiモデルの設定
-    model = genai.GenerativeModel('gemini-1.5-pro')  # モデル名を変更
     # プロンプトの設定
     prompt = """
@@ -83,37 +82,48 @@ def ocr_pdf_with_gemini(pdf_path):
         # 結果を返す
         return response.text
     except Exception as e:
-        print(f"Error during Gemini API call: {e}")  # エラーを出力
-        return f"エラーが発生しました: {e}" # ユーザー向けのエラーメッセージ
-def process_pdf(pdf_file):
     """PDFファイルを処理するメイン関数"""
-    logging.info(f"Received file: {pdf_file.name if hasattr(pdf_file, 'name') else pdf_file}") # ファイル名/オブジェクトのログ
     # 一時ディレクトリを作成
     with tempfile.TemporaryDirectory() as temp_dir:
-        # Gradioから渡されるのはNamedStringオブジェクトなので、.nameでファイルパスを取得
         temp_pdf_path = pdf_file.name
         logging.info(f"Temporary PDF path: {temp_pdf_path}")
-        # PDFを分割 (split_pdf に渡すパスは変更なし)
         split_pdf_paths = split_pdf(temp_pdf_path, temp_dir)
         logging.info(f"Split PDF paths: {split_pdf_paths}")
         # 並列処理でOCR変換
         markdown_results = []
         with ThreadPoolExecutor() as executor:
-            markdown_results = list(executor.map(ocr_pdf_with_gemini, split_pdf_paths))
-        logging.info(f"Markdown results length: {len(markdown_results)}")
         # 結果を結合
         combined_markdown = "\n\n".join(markdown_results)
         return combined_markdown
 # Gradioインターフェースの作成
 def create_interface():
     with gr.Blocks() as demo:
@@ -124,10 +134,22 @@ def create_interface():
             pdf_input = gr.File(label="PDFファイルをアップロード", file_types=[".pdf"])
         with gr.Row():
-            convert_btn = gr.Button("変換開始")
         with gr.Row():
-            markdown_output = gr.Markdown(label="変換結果")
         convert_btn.click(
             fn=process_pdf,
@@ -135,6 +157,31 @@ def create_interface():
             outputs=markdown_output
         )
     return demo

 import tempfile
 import base64
 from concurrent.futures import ThreadPoolExecutor
+import logging
+import time  # インポート追加
+# ロギング設定
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 # Gemini APIの設定 (環境変数から取得)
 GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
     raise ValueError("環境変数 'GOOGLE_API_KEY' が設定されていません。")
 genai.configure(api_key=GOOGLE_API_KEY)
 def split_pdf(pdf_path, output_dir, pages_per_chunk=5):
     """PDFを指定ページ数ごとに分割する関数"""
     pdf_base64 = encode_pdf_to_base64(pdf_path)
     # Geminiモデルの設定
+    model = genai.GenerativeModel('gemini-1.5-pro')  # または利用可能な他のモデル
     # プロンプトの設定
     prompt = """
         # 結果を返す
         return response.text
     except Exception as e:
+        logging.error(f"Error during Gemini API call: {e}")
+        return f"エラーが発生しました: {e}"
+def process_pdf(pdf_file, progress=gr.Progress()):
     """PDFファイルを処理するメイン関数"""
+    logging.info(f"Received file: {pdf_file.name if hasattr(pdf_file, 'name') else pdf_file}")
     # 一時ディレクトリを作成
     with tempfile.TemporaryDirectory() as temp_dir:
         temp_pdf_path = pdf_file.name
         logging.info(f"Temporary PDF path: {temp_pdf_path}")
+        # PDFを分割
         split_pdf_paths = split_pdf(temp_pdf_path, temp_dir)
         logging.info(f"Split PDF paths: {split_pdf_paths}")
+        progress(0.2, desc="PDFを分割中...") # 進捗更新
         # 並列処理でOCR変換
         markdown_results = []
         with ThreadPoolExecutor() as executor:
+            # futureオブジェクトのリストを作成し、進捗を追跡
+            futures = [executor.submit(ocr_pdf_with_gemini, path) for path in split_pdf_paths]
+            for i, future in enumerate(futures):
+                try:
+                    result = future.result()
+                    markdown_results.append(result)
+                    progress(0.2 + 0.6 * (i + 1) / len(futures), desc="OCR処理中...") # 進捗更新
+                except Exception as e:
+                    logging.error(f"Error processing split PDF: {e}")
+                    markdown_results.append(f"分割PDFの処理中にエラーが発生しました: {e}")
+        logging.info(f"Markdown results length: {len(markdown_results)}")
+        progress(0.8, desc="結果を結合中...")# 進捗更新
         # 結果を結合
         combined_markdown = "\n\n".join(markdown_results)
+        progress(1.0, desc="完了") # 進捗更新
+        time.sleep(0.5) #完了表示のため少し待つ
         return combined_markdown
 # Gradioインターフェースの作成
 def create_interface():
     with gr.Blocks() as demo:
             pdf_input = gr.File(label="PDFファイルをアップロード", file_types=[".pdf"])
         with gr.Row():
+            convert_btn = gr.Button("変換開始", variant="primary", elem_id="convert-button") # variantとelem_idを追加
+        with gr.Row():
+            markdown_output = gr.Textbox(label="変換結果", lines=10, max_lines=20) # MarkdownからTextboxに変更、行数を指定
         with gr.Row():
+          copy_btn = gr.Button("クリップボードにコピー")
+          download_btn = gr.Button("ダウンロード")
+        # スタイル設定 (CSS)
+        demo.load(None, None, None, _js="""
+        () => {
+          document.getElementById('convert-button').style.backgroundColor = 'orange';
+        }
+        """)
         convert_btn.click(
             fn=process_pdf,
             outputs=markdown_output
         )
+        # クリップボードにコピー
+        copy_btn.click(
+            None,
+            markdown_output,
+            [],
+            js=f"(x) => {{ navigator.clipboard.writeText(x); }}",
+        )
+        # ダウンロード
+        download_btn.click(
+          None,
+          markdown_output,
+          [],
+          js=f"""(x) =>{{
+            const blob = new Blob([x], {{type: 'text/markdown;charset=utf-8'}});
+            const url = URL.createObjectURL(blob);
+            const a = document.createElement('a');
+            a.href = url;
+            a.download = 'converted.md';
+            document.body.appendChild(a);
+            a.click();
+            document.body.removeChild(a);
+            URL.revokeObjectURL(url);
+          }}"""
+        )
     return demo