Spaces:

guifav
/

pdftomd_mule

Build error

App Files Files Community

guifav commited on Oct 11, 2024

Commit

837e13b

1 Parent(s): a97042a

add app file

Browse files

Files changed (2) hide show

README.md +84 -3
requirements.txt +54 -0

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
 title: Pdftomd Mule
 emoji: 👁
-colorFrom: gray
-colorTo: green
 sdk: gradio
 sdk_version: 5.0.1
 app_file: app.py
@@ -11,4 +11,85 @@ license: mit
 short_description: Conversor de PDF para Markdown com OCR (compreensão de image
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Pdftomd Mule
 emoji: 👁
+colorFrom: pink
+colorTo: yellow
 sdk: gradio
 sdk_version: 5.0.1
 app_file: app.py
 short_description: Conversor de PDF para Markdown com OCR (compreensão de image
 ---
+# PDFtoText Pro Mule: Conversor de PDF para Markdown com OCR
+**Hospedado no Hugging Face Spaces: [PDFtoText Pro Mule](https://huggingface.co/spaces/guifav/pdftomd_mule)**
+## Descrição
+PDFtoText Pro Mule é um aplicativo web robusto e eficiente que converte arquivos PDF em formato Markdown. Assim como uma mula é conhecida por sua força e persistência, este aplicativo trabalha incansavelmente para preservar a estrutura do documento, extrair imagens e realizar OCR (Reconhecimento Óptico de Caracteres) em texto contido em imagens. É a ferramenta ideal para quem precisa transformar conteúdo de PDFs em um formato mais flexível e editável.
+## Características Principais
+- Conversão de PDF para Markdown
+- Extração e preservação de imagens
+- OCR para texto em imagens
+- Detecção e formatação de blocos de código
+- Geração de arquivo ZIP contendo Markdown e imagens extraídas
+## Tecnologias Utilizadas
+- Python
+- Gradio (interface web)
+- PyMuPDF (processamento de PDF)
+- Tesseract OCR (reconhecimento de texto em imagens)
+- Pillow (manipulação de imagens)
+## Acesso ao Aplicativo
+Você pode acessar e usar o PDFtoText Pro Mule diretamente através do Hugging Face Spaces:
+[https://huggingface.co/spaces/guifav/pdftomd_mule](https://huggingface.co/spaces/guifav/pdftomd_mule)
+## Uso
+1. Acesse o link do Hugging Face Spaces fornecido acima.
+2. Faça upload de um arquivo PDF usando a interface.
+3. Clique no botão para iniciar a conversão.
+4. Faça o download do arquivo ZIP resultante contendo o Markdown e as imagens extraídas.
+## Instalação Local (para desenvolvimento)
+Se você deseja executar ou desenvolver o aplicativo localmente:
+1. Clone o repositório:
+   ```
+   git clone https://huggingface.co/spaces/guifav/pdftomd_mule
+   cd pdftomd_mule
+   ```
+2. Crie um ambiente virtual e ative-o:
+   ```
+   python -m venv venv
+   source venv/bin/activate  # No Windows use `venv\Scripts\activate`
+   ```
+3. Instale as dependências:
+   ```
+   pip install -r requirements.txt
+   ```
+4. Instale o Tesseract OCR:
+   - Para macOS: `brew install tesseract`
+   - Para Linux: `sudo apt-get install tesseract-ocr`
+   - Para Windows: Baixe o instalador do [site oficial do Tesseract](https://github.com/UB-Mannheim/tesseract/wiki)
+5. Ajuste o caminho do Tesseract no arquivo `app.py` se necessário:
+   ```python
+   pytesseract.pytesseract.tesseract_cmd = r'/caminho/para/tesseract'
+   ```
+6. Execute o aplicativo localmente:
+   ```
+   python app.py
+   ```
+## Contribuindo
+Contribuições são bem-vindas! Se você tem sugestões para melhorar este aplicativo, sinta-se à vontade para fazer um fork do repositório, fazer suas alterações e submeter um pull request.
+## Feedback e Suporte
+Se você encontrar algum problema ou tiver sugestões de melhoria, por favor, abra uma issue no repositório do Hugging Face Spaces ou entre em contato através do Guilherme Favaron no [LinkedIn](https://www.linkedin.com/in/guilhermefavaron/).
+## Licença
+Este projeto está licenciado sob a Licença MIT - veja o arquivo [LICENSE](LICENSE) para detalhes.
+## Autor
+[Guilherme Favaron](https://www.guilhermefavaron.com.br)
+---
+Desenvolvido com ❤️ e a persistência de uma "mula" 🐴

requirements.txt ADDED Viewed

	@@ -0,0 +1,54 @@

+aiofiles==23.2.1
+annotated-types==0.7.0
+anyio==4.6.0
+certifi==2024.8.30
+charset-normalizer==3.4.0
+click==8.1.7
+fastapi==0.115.0
+ffmpy==0.4.0
+filelock==3.16.1
+fsspec==2024.9.0
+gradio==5.0.1
+gradio_client==1.4.0
+h11==0.14.0
+httpcore==1.0.6
+httpx==0.27.2
+huggingface-hub==0.25.2
+idna==3.10
+Jinja2==3.1.4
+Markdown==3.7
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+mdurl==0.1.2
+numpy==2.1.2
+orjson==3.10.7
+packaging==24.1
+pandas==2.2.3
+pdf2image==1.17.0
+pillow==10.4.0
+pydantic==2.9.2
+pydantic_core==2.23.4
+pydub==0.25.1
+Pygments==2.18.0
+PyMuPDF==1.24.11
+pytesseract==0.3.13
+python-dateutil==2.9.0.post0
+python-multipart==0.0.12
+pytz==2024.2
+PyYAML==6.0.2
+requests==2.32.3
+rich==13.9.2
+ruff==0.6.9
+semantic-version==2.10.0
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.1
+starlette==0.38.6
+tomlkit==0.12.0
+tqdm==4.66.5
+typer==0.12.5
+typing_extensions==4.12.2
+tzdata==2024.2
+urllib3==2.2.3
+uvicorn==0.31.1
+websockets==12.0