File size: 3,502 Bytes
a4e7427
0bde93f
 
 
a4e7427
 
 
0bde93f
a4e7427
 
0bde93f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
---
title: PDF to HTML Converter
emoji: 📄
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
license: mit
---

# 📄 PDF to HTML Converter

แปลง PDF เป็น HTML ที่รักษา layout เหมือนต้นฉบับ พร้อม embedded fonts, images, CSS ในไฟล์เดียว

## ✨ Features

-**รักษา Layout** - HTML ที่ได้เหมือน PDF ต้นฉบับ
-**Embed ทุกอย่าง** - Fonts, Images, CSS, JavaScript อยู่ในไฟล์เดียว
-**ข้อความเลือกได้** - Select/Copy ข้อความได้
-**เปิดได้ทุก Browser** - ไม่ต้องติดตั้งอะไรเพิ่ม
-**ปรับแต่งได้** - Zoom, DPI, Font Format

## 🚀 วิธีใช้งาน

1. **อัปโหลด PDF** - ลากไฟล์หรือคลิกเลือก
2. **ปรับตั้งค่า** (optional)
   - Zoom: ความคมชัด (1.5 = 150%)
   - DPI: ความละเอียด (144 แนะนำ)
   - Embed Fonts: ฝัง fonts ไว้ใน HTML
   - Embed Images: ฝังรูปภาพเป็น Base64
3. **กด "แปลงเป็น HTML"**
4. **ดาวน์โหลด** ไฟล์ HTML

## ⚙️ Options

| Option | Default | Description |
|--------|---------|-------------|
| Zoom | 1.5 | ความคมชัด (0.5 - 3.0) |
| DPI | 144 | ความละเอียด (72 - 300) |
| Embed Fonts | ✅ | ฝัง fonts ใน HTML |
| Embed Images | ✅ | ฝังรูปภาพเป็น Base64 |
| Font Format | woff | woff, woff2, ttf, svg |

## 🔧 เทคโนโลยี

- **[pdf2htmlEX](https://github.com/pdf2htmlEX/pdf2htmlEX)** - แปลง PDF เป็น HTML
- **[Gradio](https://gradio.app)** - Web UI Framework
- **[Hugging Face Spaces](https://huggingface.co/spaces)** - Hosting

## 📋 Tabs

### 📄 PDF → HTML
แปลง PDF เป็น HTML ที่รักษา layout ทั้งหมด

### 📝 ดึงข้อความ  
ดึงเฉพาะข้อความจาก PDF (ไม่รักษา layout)

## ⚠️ ข้อจำกัด

- ไฟล์ขนาดใหญ่ (>50 หน้า) อาจใช้เวลานาน
- PDF ที่เป็นรูปภาพ (scanned) จะไม่มีข้อความให้ดึง
- บาง fonts พิเศษอาจแสดงผลไม่ถูกต้อง
- ขนาดไฟล์ HTML อาจใหญ่กว่า PDF (เพราะ embed ทุกอย่าง)

## 🐳 Local Development

```bash
# Clone
git clone https://huggingface.co/spaces/YOUR_USERNAME/pdf2html

# Build Docker
docker build -t pdf2html .

# Run
docker run -p 7860:7860 pdf2html

# Open http://localhost:7860
```

## 📁 Files

```
├── app.py              # Main Gradio application
├── requirements.txt    # Python dependencies
├── Dockerfile          # Docker configuration with pdf2htmlEX
└── README.md           # This file
```

## 🔗 Links

- [pdf2htmlEX GitHub](https://github.com/pdf2htmlEX/pdf2htmlEX)
- [Gradio Documentation](https://gradio.app/docs/)
- [Hugging Face Spaces Docs](https://huggingface.co/docs/hub/spaces)

## 📄 License

MIT License

---

Made with ❤️ using Gradio & pdf2htmlEX