File size: 1,299 Bytes
e90e690
 
 
 
 
 
 
 
 
 
 
67a8e17
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
---
title: Resume Intake & Normalization (OpenAI)
emoji: 📝
colorFrom: green
colorTo: indigo
sdk: gradio
sdk_version: "4.44.0"
app_file: app.py
pinned: false
---

# HF Resume Intake System (OpenAI版)

## 必須のSecrets/Env
- `OPENAI_API_KEY` : OpenAI API Key
- `HF_TOKEN` : Hugging Faceへの書き込み権限トークン
- `DATASET_REPO` : 保存先プライベートDataset (`<org-or-user>/candidates`)
- (任意)`OPENAI_VISION_MODEL` / `OPENAI_TEXT_MODEL` : 既定は `gpt-4o-mini`

## 使い方
- Spaceで本リポジトリを起動し、複数ファイル(PDF/画像/Word/テキスト)をドロップ→「実行」
- OpenAIでOCR/構造化/要約を行い、複数資料を**統合**して1つの候補者JSONを生成
- 匿名PDFを作成し、Parquet/JSON/PDFをDatasetsへアップロード

## カスタマイズ
- `pipelines/merge.py` で統合ロジック(重複判定/ソート)を調整
- `pipelines/skills.py` の辞書を業界用語で拡張
- OpenAIプロンプトは `pipelines/openai_ingest.py``structure_with_openai` / `summarize_with_openai` を編集

## 注意
- Vision OCRはページ数カット(既定10p)。長大PDFは上限を増やすとコスト増。
- 個人情報は**プライベート**で運用し、匿名化PDFの共有を推奨。