Spaces:

13ze
/

complex-html-to-markdown-llm

Running

App Files Files Community

13ze commited on Apr 17, 2025

Commit

cb892f1

verified ·

1 Parent(s): f77b98e

Update app.py

Browse files

Files changed (1) hide show

app.py +103 -15

app.py CHANGED Viewed

@@ -1,34 +1,122 @@
 import gradio as gr
 import html2text
-def html_para_markdown(html_input):
     """
-    Converte HTML para Markdown usando html2text.
     :param html_input: String contendo o código HTML vindo da interface Gradio.
     :return: String convertida para Markdown.
     """
-    if not html_input: # Verifica se a entrada está vazia
         return "Por favor, insira algum código HTML."
     try:
         converter = html2text.HTML2Text()
-        converter.ignore_links = False  # Mantém a configuração original (não ignorar links)
-        markdown_output = converter.handle(html_input)
         return markdown_output
     except Exception as e:
-        return f"Ocorreu um erro durante a conversão: {str(e)}"
-# Cria a interface Gradio
 iface = gr.Interface(
-    fn=html_para_markdown,       # Função a ser executada
-    inputs=gr.Textbox(lines=15, label="Insira o HTML aqui", placeholder="<html>...</html>"), # Componente de entrada: caixa de texto
-    outputs=gr.Textbox(lines=15, label="Markdown Resultante"), # Componente de saída: caixa de texto
-    title="Conversor HTML para Markdown", # Título da aplicação
-    description="Cole seu código HTML na caixa de texto à esquerda para vê-lo convertido em Markdown na caixa à direita.", # Descrição
-    allow_flagging='never' # Desabilita a opção de "flag"
 )
-# Lança a interface
 if __name__ == "__main__":
     iface.launch()

 import gradio as gr
 import html2text
+from bs4 import BeautifulSoup
+# --- Função de Limpeza de HTML ---
+def limpar_html(html_bruto):
     """
+    Limpa o HTML, mantendo tags específicas e removendo outras,
+    incluindo scripts, estilos e atributos desnecessários.
+    :param html_bruto: String contendo o código HTML original.
+    :return: String contendo o HTML limpo.
+    """
+    if not html_bruto:
+        return ""
+    soup = BeautifulSoup(html_bruto, 'html.parser')
+    # 1. Tags para remover completamente (incluindo conteúdo)
+    tags_para_remover = ['script', 'style', 'header', 'footer', 'nav', 'aside', 'form', 'meta', 'link', 'noscript']
+    for tag_nome in tags_para_remover:
+        for tag in soup.find_all(tag_nome):
+            tag.decompose() # Remove a tag e seu conteúdo
+    # 2. Tags permitidas (vamos manter estas e seus conteúdos)
+    #    Todas as outras tags serão removidas, mas seu conteúdo será mantido (unwrap)
+    tags_permitidas = {
+        'html', 'body', 'head', 'title', # Estrutura básica (head/title podem ser removidos pelo html2text depois)
+        'h1', 'h2', 'h3', 'h4', 'h5', 'h6', # Cabeçalhos
+        'p', 'br', # Parágrafos e quebras de linha
+        'a', # Links
+        'strong', 'b', 'em', 'i', 'u', 's', 'strike', 'del', # Ênfase/Formatação
+        'ul', 'ol', 'li', # Listas
+        'img', # Imagens
+        'table', 'thead', 'tbody', 'tr', 'th', 'td', # Tabelas
+        'blockquote', # Citações
+        'pre', 'code' # Código
+    }
+    # 3. Atributos permitidos por tag (outros serão removidos)
+    atributos_permitidos = {
+        'a': ['href', 'title'],
+        'img': ['src', 'alt', 'title', 'width', 'height'], # Manter width/height pode ser útil
+        '*': ['class', 'id'] # Permitir class e id em qualquer tag pode ser útil para CSS/JS, mas para conversão para Markdown talvez não. Remova se não precisar.
+        # Adicione mais tags e seus atributos permitidos aqui se necessário
+    }
+    # Itera por todas as tags no documento
+    for tag in soup.find_all(True): # True encontra todas as tags
+        if tag.name not in tags_permitidas:
+            # Se a tag não é permitida, remove a tag mas mantém o conteúdo
+            tag.unwrap()
+        else:
+            # Se a tag é permitida, limpa os atributos não permitidos
+            atributos_para_manter = atributos_permitidos.get(tag.name, []) + atributos_permitidos.get('*', [])
+            # Cria um dicionário apenas com os atributos permitidos
+            attrs_mantidos = {}
+            for attr, value in tag.attrs.items():
+                if attr in atributos_para_manter:
+                    attrs_mantidos[attr] = value
+            # Define os atributos da tag para serem apenas os mantidos
+            tag.attrs = attrs_mantidos
+    # Retorna o HTML limpo como string
+    # O pretty print pode ajudar na depuração, mas str(soup) é mais direto
+    return str(soup)
+# --- Função Principal (adaptada) ---
+def html_para_markdown_com_limpeza(html_input):
+    """
+    Limpa o HTML e depois converte para Markdown.
     :param html_input: String contendo o código HTML vindo da interface Gradio.
     :return: String convertida para Markdown.
     """
+    if not html_input:
         return "Por favor, insira algum código HTML."
     try:
+        # 1. Limpa o HTML primeiro
+        html_limpo = limpar_html(html_input)
+        if not html_limpo:
+             return "O HTML resultante após a limpeza está vazio."
+        # 2. Converte o HTML limpo para Markdown
         converter = html2text.HTML2Text()
+        converter.ignore_links = False
+        # Configurações adicionais do html2text (opcional):
+        converter.ignore_images = False # Garante que imagens sejam processadas
+        converter.body_width = 0 # Evita quebra de linha automática baseada na largura
+        # converter.skip_internal_links = True
+        # converter.inline_links = True # Usa links inline em vez de referências no final
+        markdown_output = converter.handle(html_limpo)
+        # html2text pode incluir o conteúdo de <title> por padrão.
+        # Se quiser remover especificamente o conteúdo do <title> do Markdown final:
+        # (Isso é um pós-processamento, pode ser necessário ajustar)
+        soup_limpo = BeautifulSoup(html_limpo, 'html.parser')
+        titulo = soup_limpo.title
+        if titulo and titulo.string:
+             markdown_output = markdown_output.replace(titulo.string, '', 1).strip()
         return markdown_output
     except Exception as e:
+        return f"Ocorreu um erro durante o processo: {str(e)}"
+# --- Cria a interface Gradio ---
 iface = gr.Interface(
+    fn=html_para_markdown_com_limpeza, # Função principal atualizada
+    inputs=gr.Textbox(lines=15, label="Insira o HTML bruto aqui", placeholder="<html><head><title>Título</title><script>...</script></head><body><h1>Cabeçalho</h1>...</body></html>"),
+    outputs=gr.Textbox(lines=15, label="Markdown Resultante (após limpeza)"),
+    title="Conversor HTML para Markdown com Limpeza",
+    description="Cole seu código HTML na caixa da esquerda. O código será limpo (removendo scripts, estilos, tags e atributos desnecessários) e depois convertido para Markdown na caixa da direita. Tags como <h1>, <p>, <a> e <img> (com src/alt) são preservadas.",
+    allow_flagging='never'
 )
+# --- Lança a interface ---
 if __name__ == "__main__":
     iface.launch()