Spaces:

PedroM2626
/

Watsonx_AI-Intelligent_Document_Analysis

Sleeping

App Files Files Community

PedroM2626 commited on Jan 28

Commit

c1b16e4

1 Parent(s): 5e680ad

chore: add project configuration, tests, and documentation

Browse files

Files changed (9) hide show

.env.example +7 -0
.gitignore +33 -0
Dockerfile +4 -3
README.md +79 -1
app.py +1 -1
requirements.txt +8 -6
tests/test_acceptance.py +54 -0
tests/test_integration.py +41 -0
tests/test_unit.py +29 -0

.env.example ADDED Viewed

	@@ -0,0 +1,7 @@

+# IBM Watson Natural Language Understanding
+IBM_WATSON_API_KEY=seu_api_key_aqui
+IBM_WATSON_URL=sua_url_do_servico_aqui
+# IBM Watsonx AI
+IBM_WATSONX_API_KEY=seu_api_key_aqui_se_diferente
+IBM_WATSONX_PROJECT_ID=seu_id_do_projeto_aqui

.gitignore ADDED Viewed

	@@ -0,0 +1,33 @@

+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+env/
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+# Environment variables
+.env
+# IDEs
+.vscode/
+.idea/
+# OS
+.DS_Store
+Thumbs.db

Dockerfile CHANGED Viewed

@@ -1,5 +1,5 @@
 # Usar uma imagem base leve de Python
-FROM python:3.9-slim
 # Definir variáveis de ambiente para o Python não gerar arquivos .pyc e não usar buffer para logs
 ENV PYTHONDONTWRITEBYTECODE=1
@@ -16,8 +16,9 @@ RUN apt-get update && apt-get install -y --no-install-recommends \
 # Copiar o arquivo de dependências
 COPY requirements.txt .
-# Instalar as dependências do Python
-RUN pip install --no-cache-dir -r requirements.txt
 # Copiar o restante do código do projeto
 COPY . .

 # Usar uma imagem base leve de Python
+FROM python:3.10-slim
 # Definir variáveis de ambiente para o Python não gerar arquivos .pyc e não usar buffer para logs
 ENV PYTHONDONTWRITEBYTECODE=1
 # Copiar o arquivo de dependências
 COPY requirements.txt .
+# Atualizar o pip e instalar as dependências do Python
+RUN pip install --no-cache-dir --upgrade pip && \
+    pip install --no-cache-dir -r requirements.txt
 # Copiar o restante do código do projeto
 COPY . .

README.md CHANGED Viewed

@@ -8,4 +8,82 @@ pinned: false
 license: mit
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 license: mit
 ---
+# 📑 Watsonx AI - Análise Inteligente de Documentos
+Este projeto é uma aplicação web construída com **Gradio** que utiliza os serviços da **IBM Watson** e **Watsonx AI** para analisar documentos (PDF, DOCX, TXT), extrair informações relevantes, gerar resumos e permitir um chat inteligente baseado no conteúdo do documento (RAG - Retrieval-Augmented Generation).
+## 🚀 Funcionalidades
+- **Extração de Texto:** Suporte para arquivos PDF, DOCX e TXT.
+- **Análise de NLU:** Geração de resumos automáticos, extração de tópicos-chave e classificação temática usando IBM Watson Natural Language Understanding.
+- **Localizador de Trechos:** Busca inteligente de parágrafos relevantes baseada em termos da pergunta.
+- **Chat Inteligente (RAG):** Diálogo interativo com o modelo **Llama-3-70B** via Watsonx AI, focado exclusivamente no conteúdo do documento enviado.
+## 🛠️ Tecnologias Utilizadas
+- [Gradio](https://gradio.app/) - Interface Web
+- [IBM Watson NLU](https://www.ibm.com/cloud/watson-natural-language-understanding) - Processamento de Linguagem Natural
+- [IBM Watsonx AI](https://www.ibm.com/watsonx) - Modelos de Fundação (Llama-3)
+- [Python 3.10](https://www.python.org/)
+- [Docker](https://www.docker.com/)
+## 📋 Pré-requisitos
+Antes de começar, você precisará de:
+1. Uma conta na [IBM Cloud](https://cloud.ibm.com/).
+2. Instâncias dos serviços **Natural Language Understanding** e **Watsonx.ai**.
+3. Suas chaves de API e URLs dos serviços.
+## ⚙️ Instalação e Configuração
+### Localmente
+1. Clone o repositório:
+   ```bash
+   git clone https://huggingface.co/spaces/seu-usuario/Watsonx_AI-Intelligent_Document_Analysis
+   cd Watsonx_AI-Intelligent_Document_Analysis
+   ```
+2. Crie um ambiente virtual e instale as dependências:
+   ```bash
+   python -m venv venv
+   source venv/bin/activate  # No Windows: venv\Scripts\activate
+   pip install -r requirements.txt
+   ```
+3. Configure as variáveis de ambiente:
+   - Copie o arquivo `.env.example` para `.env`.
+   - Preencha com suas credenciais da IBM Cloud.
+4. Execute a aplicação:
+   ```bash
+   python app.py
+   ```
+### Via Docker
+1. Construa a imagem:
+   ```bash
+   docker build -t watson-doc-analysis .
+   ```
+2. Execute o container:
+   ```bash
+   docker run -p 7860:7860 --env-file .env watson-doc-analysis
+   ```
+## 🧪 Testes
+Para executar os testes unitários e de integração:
+```bash
+pytest
+```
+## 📄 Licença
+Este projeto está sob a licença MIT. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.
+---
+Desenvolvido para demonstração de capacidades de IA com Watsonx e Gradio.

app.py CHANGED Viewed

@@ -312,7 +312,7 @@ def criar_interface():
                 chat_input = gr.Textbox(label="Sua Pergunta para a IA", placeholder="Ex: Qual o tema principal do documento?")
                 botao_chat = gr.Button("Gerar Resposta com IA", variant="primary")
-            chat_output = gr.Markdown(label="Resposta da IA (Markdown)")
         # Definição dos eventos
         def executar_fluxo_analise(arquivo):

                 chat_input = gr.Textbox(label="Sua Pergunta para a IA", placeholder="Ex: Qual o tema principal do documento?")
                 botao_chat = gr.Button("Gerar Resposta com IA", variant="primary")
+            chat_output = gr.Markdown()
         # Definição dos eventos
         def executar_fluxo_analise(arquivo):

requirements.txt CHANGED Viewed

@@ -1,6 +1,8 @@
-gradio
-ibm-watson
-python-docx
-PyPDF2
-python-dotenv
-pytest

+gradio>=4.44.1
+huggingface-hub>=0.19.0
+ibm-watson>=7.0.0
+python-docx>=0.8.11
+PyPDF2>=3.0.0
+python-dotenv>=1.0.0
+requests>=2.31.0
+pytest>=7.4.0

tests/test_acceptance.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import unittest
+from unittest.mock import patch, MagicMock
+from app import extrair_texto, processar_texto, chat_inteligente
+import os
+class TestAcceptance(unittest.TestCase):
+    """
+    Simula o fluxo completo do usuário:
+    1. Upload de arquivo
+    2. Extração de texto
+    3. Processamento de NLU
+    4. Pergunta via Chat
+    """
+    @patch('app.nlu.analyze')
+    @patch('app.obter_iam_token')
+    @patch('app.requests.post')
+    def test_full_user_flow(self, mock_post, mock_token, mock_analyze):
+        # 1. Setup
+        test_filename = "user_doc.txt"
+        content = "Este é um documento de teste sobre Watsonx AI."
+        with open(test_filename, "w", encoding="utf-8") as f:
+            f.write(content)
+        try:
+            # 2. Extração
+            texto = extrair_texto(test_filename)
+            self.assertEqual(texto, content)
+            # 3. Análise NLU (Mocking)
+            mock_analyze.side_effect = [
+                MagicMock(get_result=lambda: {'summarization': {'text': 'Resumo'}}),
+                MagicMock(get_result=lambda: {'keywords': [{'text': 'watsonx'}]}),
+                MagicMock(get_result=lambda: {'categories': [{'label': '/tech'}]})
+            ]
+            resumo, topicos, classificacao = processar_texto(texto)
+            self.assertEqual(resumo, "Resumo")
+            # 4. Chat (Mocking)
+            mock_token.return_value = "token123"
+            mock_resp = MagicMock()
+            mock_resp.status_code = 200
+            mock_resp.json.return_value = {'choices': [{'message': {'content': 'Resposta da IA'}}]}
+            mock_post.return_value = mock_resp
+            resposta = chat_inteligente("O que é Watsonx?", texto)
+            self.assertEqual(resposta, "Resposta da IA")
+        finally:
+            if os.path.exists(test_filename):
+                os.remove(test_filename)
+if __name__ == "__main__":
+    unittest.main()

tests/test_integration.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import unittest
+from unittest.mock import patch, MagicMock
+from app import processar_texto, chat_inteligente
+class TestIntegration(unittest.TestCase):
+    @patch('app.nlu.analyze')
+    def test_processar_texto_mock(self, mock_analyze):
+        # Configurar o mock para o Watson NLU
+        mock_resumo = {'summarization': {'text': 'Este é um resumo.'}}
+        mock_topicos = {'keywords': [{'text': 'ia'}, {'text': 'tecnologia'}]}
+        mock_classificacao = {'categories': [{'label': '/technology'}]}
+        mock_analyze.side_effect = [
+            MagicMock(get_result=lambda: mock_resumo),
+            MagicMock(get_result=lambda: mock_topicos),
+            MagicMock(get_result=lambda: mock_classificacao)
+        ]
+        resumo, topicos, classificacao = processar_texto("Texto de teste com tamanho suficiente.")
+        self.assertEqual(resumo, "Este é um resumo.")
+        self.assertIn("ia", topicos)
+        self.assertIn("/technology", classificacao)
+    @patch('app.obter_iam_token')
+    @patch('app.requests.post')
+    def test_chat_inteligente_mock(self, mock_post, mock_token):
+        mock_token.return_value = "fake_token"
+        mock_response = MagicMock()
+        mock_response.status_code = 200
+        mock_response.json.return_value = {
+            'choices': [{'message': {'content': 'Resposta mockada da IA.'}}]
+        }
+        mock_post.return_value = mock_response
+        resposta = chat_inteligente("Qual o tema?", "O documento fala sobre IA.")
+        self.assertEqual(resposta, "Resposta mockada da IA.")
+if __name__ == "__main__":
+    unittest.main()

tests/test_unit.py ADDED Viewed

	@@ -0,0 +1,29 @@

+import unittest
+from app import normalizar_texto, extrair_texto
+import os
+class TestUnit(unittest.TestCase):
+    def test_normalizar_texto(self):
+        self.assertEqual(normalizar_texto("Olá Mundo!"), "ola mundo")
+        self.assertEqual(normalizar_texto("Ação e Reação"), "acao e reacao")
+        self.assertEqual(normalizar_texto(""), "")
+        self.assertEqual(normalizar_texto(None), "")
+    def test_extrair_texto_txt(self):
+        test_file = "test.txt"
+        with open(test_file, "w", encoding="utf-8") as f:
+            f.write("Conteúdo de teste")
+        try:
+            texto = extrair_texto(test_file)
+            self.assertEqual(texto, "Conteúdo de teste")
+        finally:
+            if os.path.exists(test_file):
+                os.remove(test_file)
+    def test_extrair_texto_invalido(self):
+        resultado = extrair_texto("arquivo_inexistente.pdf")
+        self.assertTrue(resultado.startswith("Erro ao extrair texto"))
+if __name__ == "__main__":
+    unittest.main()