Spaces:
Sleeping
Sleeping
Upload README.md
Browse files
README.md
CHANGED
|
@@ -1,71 +1,41 @@
|
|
| 1 |
-
|
| 2 |
-
# DocSummarizer_Jimmy
|
| 3 |
-
|
| 4 |
-
🚀 這是一個簡單易用的 PDF 與文字文件摘要工具,支援 OCR 模式與簡單文字轉換模式,提供使用者選擇性處理繁體中文文件,並以 Gradio 介面展示。
|
| 5 |
-
|
| 6 |
---
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
---
|
| 17 |
-
|
| 18 |
-
## 📂 專案結構
|
| 19 |
-
|
| 20 |
-
```
|
| 21 |
-
DocSummarizer_Jimmy/
|
| 22 |
-
├── app.py # 主程式
|
| 23 |
-
├── summarize.py # 摘要處理模組
|
| 24 |
-
├── pdf2text.py # OCR 與 PDF 處理
|
| 25 |
-
├── utils.py # 工具模組
|
| 26 |
-
├── requirements.txt # 安裝依賴
|
| 27 |
-
├── examples/
|
| 28 |
-
│ └── example1.txt # 範例測試文件
|
| 29 |
-
```
|
| 30 |
-
|
| 31 |
---
|
| 32 |
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
1. 安裝依賴:
|
| 36 |
-
|
| 37 |
-
```bash
|
| 38 |
-
pip install -r requirements.txt
|
| 39 |
-
```
|
| 40 |
|
| 41 |
-
|
| 42 |
|
| 43 |
-
|
| 44 |
-
|
| 45 |
-
|
|
|
|
| 46 |
|
| 47 |
-
|
|
|
|
|
|
|
| 48 |
|
| 49 |
-
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
---
|
| 55 |
-
|
| 56 |
-
## 🧠 使用模型
|
| 57 |
-
|
| 58 |
-
- 🤖 `pszemraj/bart-large-summary-map-reduce`:適用於長文本摘要
|
| 59 |
-
- 📄 `doctr`:OCR 模型,用於解析圖像 PDF
|
| 60 |
-
|
| 61 |
-
---
|
| 62 |
|
| 63 |
-
##
|
|
|
|
|
|
|
|
|
|
|
|
|
| 64 |
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
- 若遇模型下載失敗,請檢查網路或手動下載 HuggingFace 模型。
|
| 68 |
|
| 69 |
---
|
| 70 |
|
| 71 |
-
Jimmy 工程師專案 — 持續優化中。歡迎反饋建議。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
+
title: DocSummarizer-Jimmy
|
| 3 |
+
emoji: 📝
|
| 4 |
+
colorFrom: indigo
|
| 5 |
+
colorTo: blue
|
| 6 |
+
sdk: gradio
|
| 7 |
+
sdk_version: "4.16.0"
|
| 8 |
+
app_file: app.py
|
| 9 |
+
pinned: true
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 10 |
---
|
| 11 |
|
| 12 |
+
# DocSummarizer-Jimmy
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 13 |
|
| 14 |
+
一個專為中英文文件摘要設計的工具,支援 PDF 與純文字檔案(包含 OCR 光學辨識功能),並提供摘要長度選擇與多模型整合。
|
| 15 |
|
| 16 |
+
## 📂 支援輸入格式
|
| 17 |
+
- `.pdf`:可選擇使用 OCR(適合掃描檔)
|
| 18 |
+
- `.txt`:純文字檔案
|
| 19 |
+
- 手動輸入文字也可支援
|
| 20 |
|
| 21 |
+
## 🔍 模式選擇
|
| 22 |
+
- **簡單摘要**:適合快速擷取重點
|
| 23 |
+
- **OCR 模式**:針對掃描圖像型 PDF,自動轉換為可讀文字進行摘要
|
| 24 |
|
| 25 |
+
## 🛠 使用方式
|
| 26 |
+
1. 上傳 PDF 或 TXT 檔案,或貼上原文
|
| 27 |
+
2. 選擇模式與語言
|
| 28 |
+
3. 點選「產生摘要」
|
| 29 |
+
4. 可選擇不同模型以獲得多樣輸出
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 30 |
|
| 31 |
+
## 🤖 支援模型
|
| 32 |
+
- `pszemraj/bart-large-summary-cnn`
|
| 33 |
+
- `pszemraj/bart-large-summary-map-reduce`
|
| 34 |
+
- `facebook/bart-large-cnn`
|
| 35 |
+
- `falconsai/text_summarization`(中文)
|
| 36 |
|
| 37 |
+
## 📜 範例
|
| 38 |
+
請參考 `examples/example1.txt` 作為輸入示範。
|
|
|
|
| 39 |
|
| 40 |
---
|
| 41 |
|
|
|