Spaces:
Runtime error
Runtime error
| title: Resume Intake & Normalization (OpenAI) | |
| emoji: 📝 | |
| colorFrom: green | |
| colorTo: indigo | |
| sdk: gradio | |
| sdk_version: "4.44.0" | |
| app_file: app.py | |
| pinned: false | |
| # HF Resume Intake System (OpenAI版) | |
| ## 必須のSecrets/Env | |
| - `OPENAI_API_KEY` : OpenAI API Key | |
| - `HF_TOKEN` : Hugging Faceへの書き込み権限トークン | |
| - `DATASET_REPO` : 保存先プライベートDataset (`<org-or-user>/candidates`) | |
| - (任意)`OPENAI_VISION_MODEL` / `OPENAI_TEXT_MODEL` : 既定は `gpt-4o-mini` | |
| ## 使い方 | |
| - Spaceで本リポジトリを起動し、複数ファイル(PDF/画像/Word/テキスト)をドロップ→「実行」 | |
| - OpenAIでOCR/構造化/要約を行い、複数資料を**統合**して1つの候補者JSONを生成 | |
| - 匿名PDFを作成し、Parquet/JSON/PDFをDatasetsへアップロード | |
| ## カスタマイズ | |
| - `pipelines/merge.py` で統合ロジック(重複判定/ソート)を調整 | |
| - `pipelines/skills.py` の辞書を業界用語で拡張 | |
| - OpenAIプロンプトは `pipelines/openai_ingest.py` の `structure_with_openai` / `summarize_with_openai` を編集 | |
| ## 注意 | |
| - Vision OCRはページ数カット(既定10p)。長大PDFは上限を増やすとコスト増。 | |
| - 個人情報は**プライベート**で運用し、匿名化PDFの共有を推奨。 | |