PDF_LLM_API

Paused

App Files Files Community

tomo2chin2 commited on Mar 1, 2025

Commit

dd6c350

verified ·

1 Parent(s): 445dd97

Create app.py

Browse files

Files changed (1) hide show

app.py +123 -0

app.py ADDED Viewed

	@@ -0,0 +1,123 @@

+import os
+import gradio as gr
+import fitz  # PyMuPDF
+from pathlib import Path
+import google.generativeai as genai
+import tempfile
+import base64
+from concurrent.futures import ThreadPoolExecutor
+# Gemini APIの設定
+GOOGLE_API_KEY = "あなたのGemini APIキーをここに入力"
+genai.configure(api_key=GOOGLE_API_KEY)
+def split_pdf(pdf_path, output_dir, pages_per_chunk=5):
+    """PDFを指定ページ数ごとに分割する関数"""
+    pdf_document = fitz.open(pdf_path)
+    total_pages = len(pdf_document)
+    split_pdfs = []
+    for start_page in range(0, total_pages, pages_per_chunk):
+        end_page = min(start_page + pages_per_chunk - 1, total_pages - 1)
+        # 新しいPDFドキュメントを作成
+        output_pdf = fitz.open()
+        # 指定範囲のページを新しいPDFに追加
+        for page_num in range(start_page, end_page + 1):
+            output_pdf.insert_pdf(pdf_document, from_page=page_num, to_page=page_num)
+        # 分割したPDFを保存
+        output_path = os.path.join(output_dir, f"split_{start_page+1}_to_{end_page+1}.pdf")
+        output_pdf.save(output_path)
+        output_pdf.close()
+        split_pdfs.append(output_path)
+    pdf_document.close()
+    return split_pdfs
+def encode_pdf_to_base64(pdf_path):
+    """PDFファイルをbase64エンコードする関数"""
+    with open(pdf_path, "rb") as pdf_file:
+        return base64.b64encode(pdf_file.read()).decode('utf-8')
+def ocr_pdf_with_gemini(pdf_path):
+    """GeminiモデルでPDFをOCRしてマークダウンに変換する関数"""
+    # PDFをbase64エンコード
+    pdf_base64 = encode_pdf_to_base64(pdf_path)
+    # Geminiモデルの設定
+    model = genai.GenerativeModel('gemini-2.0-flash')
+    # プロンプトの設定
+    prompt = """
+    このPDFに含まれるテキストをOCRで読み取り、整形されたマークダウン形式に変換してください。
+    以下の点に注意してください：
+    - 見出しは適切なマークダウン見出し記法（#, ##, ###など）を使用
+    - 箇条書きリストは適切に変換
+    - 表はマークダウン表形式に変換
+    - 段落構造を維持
+    - 余分な改行やスペースは整理
+    - 画像の内容は[画像: 内容の説明]と表記
+    """
+    # PDFをGeminiに送信
+    response = model.generate_content([
+        prompt,
+        {"mime_type": "application/pdf", "data": pdf_base64}
+    ])
+    # 結果を返す
+    return response.text
+def process_pdf(pdf_file):
+    """PDFファイルを処理するメイン関数"""
+    # 一時ディレクトリを作成
+    with tempfile.TemporaryDirectory() as temp_dir:
+        # アップロードされたPDFを一時ファイルとして保存
+        temp_pdf_path = os.path.join(temp_dir, "uploaded.pdf")
+        with open(temp_pdf_path, "wb") as f:
+            f.write(pdf_file)
+        # PDFを分割
+        split_pdf_paths = split_pdf(temp_pdf_path, temp_dir)
+        # 並列処理でOCR変換
+        markdown_results = []
+        with ThreadPoolExecutor() as executor:
+            markdown_results = list(executor.map(ocr_pdf_with_gemini, split_pdf_paths))
+        # 結果を結合
+        combined_markdown = "\n\n".join(markdown_results)
+        return combined_markdown
+# Gradioインターフェースの作成
+def create_interface():
+    with gr.Blocks() as demo:
+        gr.Markdown("# PDF OCR & マークダウン変換ツール")
+        gr.Markdown("PDFをアップロードすると、OCRでテキストを抽出しマークダウン形式に変換します。")
+        with gr.Row():
+            pdf_input = gr.File(label="PDFファイルをアップロード", file_types=[".pdf"])
+        with gr.Row():
+            convert_btn = gr.Button("変換開始")
+        with gr.Row():
+            markdown_output = gr.Markdown(label="変換結果")
+        convert_btn.click(
+            fn=process_pdf,
+            inputs=pdf_input,
+            outputs=markdown_output
+        )
+    return demo
+# アプリの起動
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.launch()