Spaces:

Corin1998
/

HFResumeIntakeSystem_DC

Paused

App Files Files Community

Corin1998 commited on Nov 23, 2025

Commit

3447c9a

verified ·

1 Parent(s): e199664

Update pipelines/openai_ingest.py

Browse files

Files changed (1) hide show

pipelines/openai_ingest.py +7 -16

pipelines/openai_ingest.py CHANGED Viewed

@@ -30,7 +30,6 @@ def _pdf_to_images(pdf_bytes: bytes, dpi: int = 220, max_pages: int = 10) -> Lis
 def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> str:
-    """画像/PDFは画像化してVisionに渡す。テキストは整形依頼してきれいな本文を返す。"""
     client = _client_lazy()
     images: List[Image.Image] = []
@@ -38,11 +37,9 @@ def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> st
         images = _pdf_to_images(payload)
     elif filetype == "image":
         images = [Image.open(io.BytesIO(payload)).convert("RGB")]
-    else:
         text = payload.decode("utf-8", errors="ignore")
-        prompt = (
-            "以下は履歴書/職務経歴書の本文です。レイアウトノイズを除去し、見出しや箇条書きを維持しつつ読みやすいテキストに整形して返してください。"
-        )
         resp = client.responses.create(
             model=MODEL_TEXT,
             input=[
@@ -56,15 +53,9 @@ def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> st
         {"type": "input_text", "text": "日本語の履歴書/職務経歴書の画像です。OCRして本文を日本語テキストで忠実に返してください。"}
     ]
     for img in images:
-        content.append({
-            "type": "input_image",
-            "image_data": _img_to_base64(img),
-        })
-    resp = client.responses.create(
-        model=MODEL_VISION,
-        input=[{"role": "user", "content": content}],
-    )
     return resp.output_text
@@ -107,7 +98,7 @@ def summarize_with_openai(text: str) -> dict:
     )
     full = resp.output_text
     return {
-        "300chars": full[:600] if len(full) > 0 else "",
-        "100chars": full[:120] if len(full) > 0 else "",
-        "onesent": full.split("。")[0] + "。" if "。" in full else full,
     }

 def extract_text_with_openai(payload: bytes, filename: str, filetype: str) -> str:
     client = _client_lazy()
     images: List[Image.Image] = []
         images = _pdf_to_images(payload)
     elif filetype == "image":
         images = [Image.open(io.BytesIO(payload)).convert("RGB")]
+    else:  # txt/docxから来たテキストbytes
         text = payload.decode("utf-8", errors="ignore")
+        prompt = "以下は履歴書/職務経歴書の本文です。レイアウトノイズを除去し、見出しや箇条書きを維持しつつ読みやすいテキストに整形して返してください。"
         resp = client.responses.create(
             model=MODEL_TEXT,
             input=[
         {"type": "input_text", "text": "日本語の履歴書/職務経歴書の画像です。OCRして本文を日本語テキストで忠実に返してください。"}
     ]
     for img in images:
+        content.append({"type": "input_image", "image_data": _img_to_base64(img)})
+    resp = client.responses.create(model=MODEL_VISION, input=[{"role": "user", "content": content}])
     return resp.output_text
     )
     full = resp.output_text
     return {
+        "300chars": full[:600] if full else "",
+        "100chars": full[:120] if full else "",
+        "onesent": (full.split("。")[0] + "。") if ("。" in full) else full,
     }