Spaces:

13ze
/

complex-html-to-markdown-llm

Sleeping

App Files Files Community

13ze commited on Apr 17, 2025

Commit

90d2399

verified ·

1 Parent(s): 762a5b1

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -42

app.py CHANGED Viewed

@@ -1,47 +1,34 @@
 import gradio as gr
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-checkpoint = "jinaai/reader-lm-0.5b"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# Carrega tokenizer e modelo
-tokenizer = AutoTokenizer.from_pretrained(checkpoint)
-model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
-def process_html(html_content):
-    messages = [{"role": "user", "content": html_content}]
-    input_text = tokenizer.apply_chat_template(messages, tokenize=False)
-    encoded = tokenizer.encode_plus(
-        input_text,
-        return_tensors="pt",
-        padding=True,
-        truncation=True
-    )
-    input_ids = encoded["input_ids"].to(device)
-    attention_mask = encoded["attention_mask"].to(device)
-    outputs = model.generate(
-        input_ids=input_ids,
-        attention_mask=attention_mask,
-        max_new_tokens=1024,
-        do_sample=False,  # deterministic
-        repetition_penalty=1.08
-    )
-    decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return decoded_output
-# Interface Gradio
 iface = gr.Interface(
-    fn=process_html,
-    inputs=gr.Textbox(lines=10, placeholder="Insira conteúdo HTML aqui...", label="HTML"),
-    outputs=gr.Textbox(label="Resposta do modelo"),
-    title="HTML Reader com jinaai/reader-lm-0.5b",
-    description="Insira conteúdo HTML para que o modelo processe e interprete.",
 )
 if __name__ == "__main__":
-    iface.launch(share=True)  # Habilita link público

 import gradio as gr
+import html2text
+def html_para_markdown(html_input):
+    """
+    Converte HTML para Markdown usando html2text.
+    :param html_input: String contendo o código HTML vindo da interface Gradio.
+    :return: String convertida para Markdown.
+    """
+    if not html_input: # Verifica se a entrada está vazia
+        return "Por favor, insira algum código HTML."
+    try:
+        converter = html2text.HTML2Text()
+        converter.ignore_links = False  # Mantém a configuração original (não ignorar links)
+        markdown_output = converter.handle(html_input)
+        return markdown_output
+    except Exception as e:
+        return f"Ocorreu um erro durante a conversão: {str(e)}"
+# Cria a interface Gradio
 iface = gr.Interface(
+    fn=html_para_markdown,       # Função a ser executada
+    inputs=gr.Textbox(lines=15, label="Insira o HTML aqui", placeholder="<html>...</html>"), # Componente de entrada: caixa de texto
+    outputs=gr.Textbox(lines=15, label="Markdown Resultante"), # Componente de saída: caixa de texto
+    title="Conversor HTML para Markdown", # Título da aplicação
+    description="Cole seu código HTML na caixa de texto à esquerda para vê-lo convertido em Markdown na caixa à direita.", # Descrição
+    allow_flagging='never' # Desabilita a opção de "flag"
 )
+# Lança a interface
 if __name__ == "__main__":
+    iface.launch()