Spaces:
Runtime error
Runtime error
Update README.md
Browse files
README.md
CHANGED
|
@@ -1,12 +1,21 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
| 4 |
-
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# HF Resume Intake System (OpenAI版)
|
| 2 |
+
|
| 3 |
+
## 必須のSecrets/Env
|
| 4 |
+
- `OPENAI_API_KEY` : OpenAI API Key
|
| 5 |
+
- `HF_TOKEN` : Hugging Faceへの書き込み権限トークン
|
| 6 |
+
- `DATASET_REPO` : 保存先プライベートDataset (`<org-or-user>/candidates`)
|
| 7 |
+
- (任意)`OPENAI_VISION_MODEL` / `OPENAI_TEXT_MODEL` : 既定は `gpt-4o-mini`
|
| 8 |
+
|
| 9 |
+
## 使い方
|
| 10 |
+
- Spaceで本リポジトリを起動し、複数ファイル(PDF/画像/Word/テキスト)をドロップ→「実行」
|
| 11 |
+
- OpenAIでOCR/構造化/要約を行い、複数資料を**統合**して1つの候補者JSONを生成
|
| 12 |
+
- 匿名PDFを作成し、Parquet/JSON/PDFをDatasetsへアップロード
|
| 13 |
+
|
| 14 |
+
## カスタマイズ
|
| 15 |
+
- `pipelines/merge.py` で統合ロジック(重複判定/ソート)を調整
|
| 16 |
+
- `pipelines/skills.py` の辞書を業界用語で拡張
|
| 17 |
+
- OpenAIプロンプトは `pipelines/openai_ingest.py` の `structure_with_openai` / `summarize_with_openai` を編集
|
| 18 |
+
|
| 19 |
+
## 注意
|
| 20 |
+
- Vision OCRはページ数カット(既定10p)。長大PDFは上限を増やすとコスト増。
|
| 21 |
+
- 個人情報は**プライベート**で運用し、匿名化PDFの共有を推奨。
|