| --- |
| title: PDF to HTML Converter |
| emoji: 📄 |
| colorFrom: blue |
| colorTo: purple |
| sdk: docker |
| pinned: false |
| license: mit |
| --- |
| |
| # 📄 PDF to HTML Converter |
|
|
| แปลง PDF เป็น HTML ที่รักษา layout เหมือนต้นฉบับ พร้อม embedded fonts, images, CSS ในไฟล์เดียว |
|
|
| ## ✨ Features |
|
|
| - ✅ **รักษา Layout** - HTML ที่ได้เหมือน PDF ต้นฉบับ |
| - ✅ **Embed ทุกอย่าง** - Fonts, Images, CSS, JavaScript อยู่ในไฟล์เดียว |
| - ✅ **ข้อความเลือกได้** - Select/Copy ข้อความได้ |
| - ✅ **เปิดได้ทุก Browser** - ไม่ต้องติดตั้งอะไรเพิ่ม |
| - ✅ **ปรับแต่งได้** - Zoom, DPI, Font Format |
|
|
| ## 🚀 วิธีใช้งาน |
|
|
| 1. **อัปโหลด PDF** - ลากไฟล์หรือคลิกเลือก |
| 2. **ปรับตั้งค่า** (optional) |
| - Zoom: ความคมชัด (1.5 = 150%) |
| - DPI: ความละเอียด (144 แนะนำ) |
| - Embed Fonts: ฝัง fonts ไว้ใน HTML |
| - Embed Images: ฝังรูปภาพเป็น Base64 |
| 3. **กด "แปลงเป็น HTML"** |
| 4. **ดาวน์โหลด** ไฟล์ HTML |
|
|
| ## ⚙️ Options |
|
|
| | Option | Default | Description | |
| |--------|---------|-------------| |
| | Zoom | 1.5 | ความคมชัด (0.5 - 3.0) | |
| | DPI | 144 | ความละเอียด (72 - 300) | |
| | Embed Fonts | ✅ | ฝัง fonts ใน HTML | |
| | Embed Images | ✅ | ฝังรูปภาพเป็น Base64 | |
| | Font Format | woff | woff, woff2, ttf, svg | |
|
|
| ## 🔧 เทคโนโลยี |
|
|
| - **[pdf2htmlEX](https://github.com/pdf2htmlEX/pdf2htmlEX)** - แปลง PDF เป็น HTML |
| - **[Gradio](https://gradio.app)** - Web UI Framework |
| - **[Hugging Face Spaces](https://huggingface.co/spaces)** - Hosting |
|
|
| ## 📋 Tabs |
|
|
| ### 📄 PDF → HTML |
| แปลง PDF เป็น HTML ที่รักษา layout ทั้งหมด |
|
|
| ### 📝 ดึงข้อความ |
| ดึงเฉพาะข้อความจาก PDF (ไม่รักษา layout) |
|
|
| ## ⚠️ ข้อจำกัด |
|
|
| - ไฟล์ขนาดใหญ่ (>50 หน้า) อาจใช้เวลานาน |
| - PDF ที่เป็นรูปภาพ (scanned) จะไม่มีข้อความให้ดึง |
| - บาง fonts พิเศษอาจแสดงผลไม่ถูกต้อง |
| - ขนาดไฟล์ HTML อาจใหญ่กว่า PDF (เพราะ embed ทุกอย่าง) |
|
|
| ## 🐳 Local Development |
|
|
| ```bash |
| # Clone |
| git clone https://huggingface.co/spaces/YOUR_USERNAME/pdf2html |
| |
| # Build Docker |
| docker build -t pdf2html . |
| |
| # Run |
| docker run -p 7860:7860 pdf2html |
| |
| # Open http://localhost:7860 |
| ``` |
|
|
| ## 📁 Files |
|
|
| ``` |
| ├── app.py # Main Gradio application |
| ├── requirements.txt # Python dependencies |
| ├── Dockerfile # Docker configuration with pdf2htmlEX |
| └── README.md # This file |
| ``` |
|
|
| ## 🔗 Links |
|
|
| - [pdf2htmlEX GitHub](https://github.com/pdf2htmlEX/pdf2htmlEX) |
| - [Gradio Documentation](https://gradio.app/docs/) |
| - [Hugging Face Spaces Docs](https://huggingface.co/docs/hub/spaces) |
|
|
| ## 📄 License |
|
|
| MIT License |
|
|
| --- |
|
|
| Made with ❤️ using Gradio & pdf2htmlEX |