Spaces:

Corin1998
/

HFResumeIntakeSystem

Runtime error

App Files Files Community

Corin1998 commited on Nov 23, 2025

Commit

7864b3b

verified ·

1 Parent(s): 058ed07

Update pipelines/openai_ingest.py

Browse files

Files changed (1) hide show

pipelines/openai_ingest.py +6 -17

pipelines/openai_ingest.py CHANGED Viewed

@@ -14,11 +14,9 @@ _client = None
 def _client_lazy():
     global _client
     if _client is None:
-        key = os.environ.get("OPENAI_API_KEY") or os.environ.get("OPENAI_APIKEY")  # ← フォールバック追加
         if not key:
-            raise RuntimeError(
-                "OPENAI_API_KEY (または OPENAI_APIKEY) が未設定です。Spaces > Settings > Variables and secrets で追加してください。"
-            )
         _client = OpenAI(api_key=key)
     return _client
@@ -35,7 +33,6 @@ def _pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 10) -> Lis
 def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> str:
-    """画像/PDFは画像化してVisionに渡す。テキストは整形依頼してきれいな本文を返す。"""
     client = _client_lazy()
     images: List[Image.Image] = []
@@ -43,11 +40,9 @@ def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> st
         images = _pdf_to_images(payload)
     elif filetype == "image":
         images = [Image.open(io.BytesIO(payload)).convert("RGB")]
-    else:  # txt/docxから来たテキストbytes
         text = payload.decode("utf-8", errors="ignore")
-        prompt = (
-            "以下は履歴書/職務経歴書の本文です。レイアウトノイズを除去し、見出しや箇条書きを維持しつつ読みやすいテキストに整形して返してください。"
-        )
         resp = client.responses.create(
             model=MODEL_TEXT,
             input=[
@@ -61,15 +56,9 @@ def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> st
         {"type": "input_text", "text": "日本語の履歴書/職務経歴書の画像です。OCRして本文を日本語テキストで忠実に返してください。"}
     ]
     for img in images:
-        content.append({
-            "type": "input_image",
-            "image_data": _img_to_base64(img),
-        })
-    resp = client.responses.create(
-        model=MODEL_VISION,
-        input=[{"role": "user", "content": content}],
-    )
     return resp.output_text

 def _client_lazy():
     global _client
     if _client is None:
+        key = os.environ.get("OPENAI_API_KEY") or os.environ.get("OPENAI_APIKEY")  # ← フォールバック
         if not key:
+            raise RuntimeError("OPENAI_API_KEY (または OPENAI_APIKEY) が未設定です。SpacesのSecretsに追加してください。")
         _client = OpenAI(api_key=key)
     return _client
 def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> str:
     client = _client_lazy()
     images: List[Image.Image] = []
         images = _pdf_to_images(payload)
     elif filetype == "image":
         images = [Image.open(io.BytesIO(payload)).convert("RGB")]
+    else:
         text = payload.decode("utf-8", errors="ignore")
+        prompt = "以下は履歴書/職務経歴書の本文です。レイアウトノイズを除去し、見出しや箇条書きを維持しつつ読みやすいテキストに整形して返してください。"
         resp = client.responses.create(
             model=MODEL_TEXT,
             input=[
         {"type": "input_text", "text": "日本語の履歴書/職務経歴書の画像です。OCRして本文を日本語テキストで忠実に返してください。"}
     ]
     for img in images:
+        content.append({"type": "input_image", "image_data": _img_to_base64(img)})
+    resp = client.responses.create(model=MODEL_VISION, input=[{"role": "user", "content": content}])
     return resp.output_text