PDF_LLM_API

Paused

App Files Files Community

tomo2chin2 commited on Mar 2, 2025

Commit

b9aa4f2

verified ·

1 Parent(s): dd6c350

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -31

app.py CHANGED Viewed

@@ -7,50 +7,55 @@ import tempfile
 import base64
 from concurrent.futures import ThreadPoolExecutor
-# Gemini APIの設定
-GOOGLE_API_KEY = "あなたのGemini APIキーをここに入力"
 genai.configure(api_key=GOOGLE_API_KEY)
 def split_pdf(pdf_path, output_dir, pages_per_chunk=5):
     """PDFを指定ページ数ごとに分割する関数"""
     pdf_document = fitz.open(pdf_path)
     total_pages = len(pdf_document)
     split_pdfs = []
     for start_page in range(0, total_pages, pages_per_chunk):
         end_page = min(start_page + pages_per_chunk - 1, total_pages - 1)
         # 新しいPDFドキュメントを作成
         output_pdf = fitz.open()
         # 指定範囲のページを新しいPDFに追加
         for page_num in range(start_page, end_page + 1):
             output_pdf.insert_pdf(pdf_document, from_page=page_num, to_page=page_num)
         # 分割したPDFを保存
         output_path = os.path.join(output_dir, f"split_{start_page+1}_to_{end_page+1}.pdf")
         output_pdf.save(output_path)
         output_pdf.close()
         split_pdfs.append(output_path)
     pdf_document.close()
     return split_pdfs
 def encode_pdf_to_base64(pdf_path):
     """PDFファイルをbase64エンコードする関数"""
     with open(pdf_path, "rb") as pdf_file:
         return base64.b64encode(pdf_file.read()).decode('utf-8')
 def ocr_pdf_with_gemini(pdf_path):
     """GeminiモデルでPDFをOCRしてマークダウンに変換する関数"""
     # PDFをbase64エンコード
     pdf_base64 = encode_pdf_to_base64(pdf_path)
     # Geminiモデルの設定
-    model = genai.GenerativeModel('gemini-2.0-flash')
     # プロンプトの設定
     prompt = """
     このPDFに含まれるテキストをOCRで読み取り、整形されたマークダウン形式に変換してください。
@@ -62,15 +67,19 @@ def ocr_pdf_with_gemini(pdf_path):
     - 余分な改行やスペースは整理
     - 画像の内容は[画像: 内容の説明]と表記
     """
     # PDFをGeminiに送信
-    response = model.generate_content([
-        prompt,
-        {"mime_type": "application/pdf", "data": pdf_base64}
-    ])
-    # 結果を返す
-    return response.text
 def process_pdf(pdf_file):
     """PDFファイルを処理するメイン関数"""
@@ -79,45 +88,47 @@ def process_pdf(pdf_file):
         # アップロードされたPDFを一時ファイルとして保存
         temp_pdf_path = os.path.join(temp_dir, "uploaded.pdf")
         with open(temp_pdf_path, "wb") as f:
-            f.write(pdf_file)
         # PDFを分割
         split_pdf_paths = split_pdf(temp_pdf_path, temp_dir)
         # 並列処理でOCR変換
         markdown_results = []
         with ThreadPoolExecutor() as executor:
             markdown_results = list(executor.map(ocr_pdf_with_gemini, split_pdf_paths))
         # 結果を結合
         combined_markdown = "\n\n".join(markdown_results)
         return combined_markdown
 # Gradioインターフェースの作成
 def create_interface():
     with gr.Blocks() as demo:
         gr.Markdown("# PDF OCR & マークダウン変換ツール")
         gr.Markdown("PDFをアップロードすると、OCRでテキストを抽出しマークダウン形式に変換します。")
         with gr.Row():
             pdf_input = gr.File(label="PDFファイルをアップロード", file_types=[".pdf"])
         with gr.Row():
             convert_btn = gr.Button("変換開始")
         with gr.Row():
             markdown_output = gr.Markdown(label="変換結果")
         convert_btn.click(
             fn=process_pdf,
             inputs=pdf_input,
             outputs=markdown_output
         )
     return demo
 # アプリの起動
 if __name__ == "__main__":
     demo = create_interface()
-    demo.launch()

 import base64
 from concurrent.futures import ThreadPoolExecutor
+# Gemini APIの設定 (環境変数から取得)
+GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
+if not GOOGLE_API_KEY:
+    raise ValueError("環境変数 'GOOGLE_API_KEY' が設定されていません。")
 genai.configure(api_key=GOOGLE_API_KEY)
 def split_pdf(pdf_path, output_dir, pages_per_chunk=5):
     """PDFを指定ページ数ごとに分割する関数"""
     pdf_document = fitz.open(pdf_path)
     total_pages = len(pdf_document)
     split_pdfs = []
     for start_page in range(0, total_pages, pages_per_chunk):
         end_page = min(start_page + pages_per_chunk - 1, total_pages - 1)
         # 新しいPDFドキュメントを作成
         output_pdf = fitz.open()
         # 指定範囲のページを新しいPDFに追加
         for page_num in range(start_page, end_page + 1):
             output_pdf.insert_pdf(pdf_document, from_page=page_num, to_page=page_num)
         # 分割したPDFを保存
         output_path = os.path.join(output_dir, f"split_{start_page+1}_to_{end_page+1}.pdf")
         output_pdf.save(output_path)
         output_pdf.close()
         split_pdfs.append(output_path)
     pdf_document.close()
     return split_pdfs
 def encode_pdf_to_base64(pdf_path):
     """PDFファイルをbase64エンコードする関数"""
     with open(pdf_path, "rb") as pdf_file:
         return base64.b64encode(pdf_file.read()).decode('utf-8')
 def ocr_pdf_with_gemini(pdf_path):
     """GeminiモデルでPDFをOCRしてマークダウンに変換する関数"""
     # PDFをbase64エンコード
     pdf_base64 = encode_pdf_to_base64(pdf_path)
     # Geminiモデルの設定
+    model = genai.GenerativeModel('gemini-1.5-pro')  # モデル名を変更
     # プロンプトの設定
     prompt = """
     このPDFに含まれるテキストをOCRで読み取り、整形されたマークダウン形式に変換してください。
     - 余分な改行やスペースは整理
     - 画像の内容は[画像: 内容の説明]と表記
     """
     # PDFをGeminiに送信
+    try:
+        response = model.generate_content([
+            prompt,
+            {"mime_type": "application/pdf", "data": pdf_base64}
+        ])
+        # 結果を返す
+        return response.text
+    except Exception as e:
+        print(f"Error during Gemini API call: {e}")  # エラーを出力
+        return f"エラーが発生しました: {e}" # ユーザー向けのエラーメッセージ
 def process_pdf(pdf_file):
     """PDFファイルを処理するメイン関数"""
         # アップロードされたPDFを一時ファイルとして保存
         temp_pdf_path = os.path.join(temp_dir, "uploaded.pdf")
         with open(temp_pdf_path, "wb") as f:
+            f.write(pdf_file.read()) # bytesではなく、.read()で読み込んだ内容を書き込む
         # PDFを分割
         split_pdf_paths = split_pdf(temp_pdf_path, temp_dir)
         # 並列処理でOCR変換
         markdown_results = []
         with ThreadPoolExecutor() as executor:
             markdown_results = list(executor.map(ocr_pdf_with_gemini, split_pdf_paths))
         # 結果を結合
         combined_markdown = "\n\n".join(markdown_results)
         return combined_markdown
 # Gradioインターフェースの作成
 def create_interface():
     with gr.Blocks() as demo:
         gr.Markdown("# PDF OCR & マークダウン変換ツール")
         gr.Markdown("PDFをアップロードすると、OCRでテキストを抽出しマークダウン形式に変換します。")
         with gr.Row():
             pdf_input = gr.File(label="PDFファイルをアップロード", file_types=[".pdf"])
         with gr.Row():
             convert_btn = gr.Button("変換開始")
         with gr.Row():
             markdown_output = gr.Markdown(label="変換結果")
         convert_btn.click(
             fn=process_pdf,
             inputs=pdf_input,
             outputs=markdown_output
         )
     return demo
 # アプリの起動
 if __name__ == "__main__":
     demo = create_interface()
+    demo.launch()