export / README.md
doeqoth's picture
Upload 4 files
0bde93f verified
metadata
title: PDF to HTML Converter
emoji: 📄
colorFrom: blue
colorTo: purple
sdk: docker
pinned: false
license: mit

📄 PDF to HTML Converter

แปลง PDF เป็น HTML ที่รักษา layout เหมือนต้นฉบับ พร้อม embedded fonts, images, CSS ในไฟล์เดียว

✨ Features

  • รักษา Layout - HTML ที่ได้เหมือน PDF ต้นฉบับ
  • Embed ทุกอย่าง - Fonts, Images, CSS, JavaScript อยู่ในไฟล์เดียว
  • ข้อความเลือกได้ - Select/Copy ข้อความได้
  • เปิดได้ทุก Browser - ไม่ต้องติดตั้งอะไรเพิ่ม
  • ปรับแต่งได้ - Zoom, DPI, Font Format

🚀 วิธีใช้งาน

  1. อัปโหลด PDF - ลากไฟล์หรือคลิกเลือก
  2. ปรับตั้งค่า (optional)
    • Zoom: ความคมชัด (1.5 = 150%)
    • DPI: ความละเอียด (144 แนะนำ)
    • Embed Fonts: ฝัง fonts ไว้ใน HTML
    • Embed Images: ฝังรูปภาพเป็น Base64
  3. กด "แปลงเป็น HTML"
  4. ดาวน์โหลด ไฟล์ HTML

⚙️ Options

Option Default Description
Zoom 1.5 ความคมชัด (0.5 - 3.0)
DPI 144 ความละเอียด (72 - 300)
Embed Fonts ฝัง fonts ใน HTML
Embed Images ฝังรูปภาพเป็น Base64
Font Format woff woff, woff2, ttf, svg

🔧 เทคโนโลยี

📋 Tabs

📄 PDF → HTML

แปลง PDF เป็น HTML ที่รักษา layout ทั้งหมด

📝 ดึงข้อความ

ดึงเฉพาะข้อความจาก PDF (ไม่รักษา layout)

⚠️ ข้อจำกัด

  • ไฟล์ขนาดใหญ่ (>50 หน้า) อาจใช้เวลานาน
  • PDF ที่เป็นรูปภาพ (scanned) จะไม่มีข้อความให้ดึง
  • บาง fonts พิเศษอาจแสดงผลไม่ถูกต้อง
  • ขนาดไฟล์ HTML อาจใหญ่กว่า PDF (เพราะ embed ทุกอย่าง)

🐳 Local Development

# Clone
git clone https://huggingface.co/spaces/YOUR_USERNAME/pdf2html

# Build Docker
docker build -t pdf2html .

# Run
docker run -p 7860:7860 pdf2html

# Open http://localhost:7860

📁 Files

├── app.py              # Main Gradio application
├── requirements.txt    # Python dependencies
├── Dockerfile          # Docker configuration with pdf2htmlEX
└── README.md           # This file

🔗 Links

📄 License

MIT License


Made with ❤️ using Gradio & pdf2htmlEX