Spaces:

BugZoid
/

text-humanizer

Running

App Files Files Community

BugZoid commited on Jan 11, 2025

Commit

223938e

verified ·

1 Parent(s): 8bf558e

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -19

app.py CHANGED Viewed

@@ -18,37 +18,52 @@ if 'models_loaded' not in st.session_state:
     st.session_state.models_loaded = True
-def paraphrase_text(text):
     """
     Apply paraphrasing to the input text using BART model
     """
     inputs = st.session_state.paraphrase_tokenizer.encode(
         text,
         return_tensors="pt",
-        max_length=1024,  # Aumentado para textos maiores
         truncation=True
     )
     outputs = st.session_state.paraphrase_model.generate(
         inputs,
         max_length=1024,
-        min_length=len(text.split()) - 10,  # Garante tamanho mínimo próximo ao original
         do_sample=True,
-        temperature=0.3,  # Reduzido para manter mais fiel ao original
-        top_p=0.95,      # Aumentado para mais diversidade controlada
-        repetition_penalty=1.2  # Evita repetições
     )
-    return st.session_state.paraphrase_tokenizer.decode(outputs[0], skip_special_tokens=True)
 def humanize_text(text):
     """
     Humanize the input text using T5 model
     """
-    # Modificado o prompt para enfatizar português e manter o contexto
     prompt = (
         f"reescreva o seguinte texto em português de forma mais natural e humana, "
-        f"mantendo todas as informações originais: {text}"
     )
     input_ids = st.session_state.t5_tokenizer(
@@ -61,17 +76,18 @@ def humanize_text(text):
     outputs = st.session_state.t5_model.generate(
         input_ids,
         max_length=1024,
-        min_length=len(text.split()) - 10,  # Garante tamanho mínimo próximo ao original
         do_sample=True,
-        temperature=0.3,  # Reduzido para manter mais fiel ao original
-        top_p=0.95,      # Aumentado para mais diversidade controlada
-        num_beams=5,     # Aumentado para melhor qualidade
-        no_repeat_ngram_size=3,  # Evita repetições de trigramas
-        repetition_penalty=1.2,  # Penalidade para repetições
-        length_penalty=1.0   # Incentiva manter o tamanho similar
     )
-    return st.session_state.t5_tokenizer.decode(outputs[0], skip_special_tokens=True)
 # UI Components
 st.set_page_config(page_title="Advanced Text Humanizer", page_icon="🤖")
@@ -79,7 +95,8 @@ st.set_page_config(page_title="Advanced Text Humanizer", page_icon="🤖")
 st.title("🤖 → 🧑 Humanizador de Texto Avançado")
 st.markdown("""
 Este aplicativo transforma textos robotizados em linguagem mais natural e humana,
-mantendo todas as informações originais.
 """)
 # Input area with expanded capabilities
@@ -94,6 +111,11 @@ with st.sidebar:
     st.header("Configurações Avançadas")
     use_paraphrase = st.checkbox("Ativar Paráfrase", value=True)
     show_original = st.checkbox("Mostrar Texto Original", value=False)
 # Process button with error handling
 if st.button("Humanizar", type="primary"):
@@ -107,7 +129,7 @@ if st.button("Humanizar", type="primary"):
                 # Optional paraphrasing pass
                 if use_paraphrase:
-                    final_text = paraphrase_text(humanized_text)
                 else:
                     final_text = humanized_text
@@ -116,8 +138,10 @@ if st.button("Humanizar", type="primary"):
                 if show_original:
                     st.text("Texto original:")
                     st.info(input_text)
                 st.markdown("**Resultado:**")
                 st.write(final_text)
             except Exception as e:
                 st.error(f"❌ Ocorreu um erro durante o processamento: {str(e)}")

     st.session_state.models_loaded = True
+def ensure_minimum_length(text, original_text):
+    """
+    Garante que o texto gerado tenha pelo menos o mesmo tamanho do original
+    """
+    while len(text.split()) < len(original_text.split()):
+        missing_words = len(original_text.split()) - len(text.split())
+        if missing_words > 0:
+            text = text + " " + original_text[-missing_words:]
+    return text
+def paraphrase_text(text, original_text):
     """
     Apply paraphrasing to the input text using BART model
     """
+    min_length = len(original_text.split())
     inputs = st.session_state.paraphrase_tokenizer.encode(
         text,
         return_tensors="pt",
+        max_length=1024,
         truncation=True
     )
     outputs = st.session_state.paraphrase_model.generate(
         inputs,
         max_length=1024,
+        min_length=min_length,  # Força o tamanho mínimo igual ao original
         do_sample=True,
+        temperature=0.3,
+        top_p=0.95,
+        repetition_penalty=1.2,
+        length_penalty=2.0  # Aumentado para favorecer textos mais longos
     )
+    result = st.session_state.paraphrase_tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return ensure_minimum_length(result, original_text)
 def humanize_text(text):
     """
     Humanize the input text using T5 model
     """
+    min_length = len(text.split())
     prompt = (
         f"reescreva o seguinte texto em português de forma mais natural e humana, "
+        f"mantendo todas as informações e expandindo com detalhes relevantes: {text}"
     )
     input_ids = st.session_state.t5_tokenizer(
     outputs = st.session_state.t5_model.generate(
         input_ids,
         max_length=1024,
+        min_length=min_length,  # Força o tamanho mínimo igual ao original
         do_sample=True,
+        temperature=0.3,
+        top_p=0.95,
+        num_beams=5,
+        no_repeat_ngram_size=3,
+        repetition_penalty=1.2,
+        length_penalty=2.0  # Aumentado para favorecer textos mais longos
     )
+    result = st.session_state.t5_tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return ensure_minimum_length(result, text)
 # UI Components
 st.set_page_config(page_title="Advanced Text Humanizer", page_icon="🤖")
 st.title("🤖 → 🧑 Humanizador de Texto Avançado")
 st.markdown("""
 Este aplicativo transforma textos robotizados em linguagem mais natural e humana,
+mantendo todas as informações originais e garantindo que o texto final seja pelo menos
+do mesmo tamanho que o original.
 """)
 # Input area with expanded capabilities
     st.header("Configurações Avançadas")
     use_paraphrase = st.checkbox("Ativar Paráfrase", value=True)
     show_original = st.checkbox("Mostrar Texto Original", value=False)
+    # Adicionar informações sobre o texto
+    if input_text:
+        st.write("Informações do texto:")
+        st.write(f"Palavras no original: {len(input_text.split())}")
 # Process button with error handling
 if st.button("Humanizar", type="primary"):
                 # Optional paraphrasing pass
                 if use_paraphrase:
+                    final_text = paraphrase_text(humanized_text, input_text)
                 else:
                     final_text = humanized_text
                 if show_original:
                     st.text("Texto original:")
                     st.info(input_text)
+                    st.write(f"Palavras no original: {len(input_text.split())}")
                 st.markdown("**Resultado:**")
                 st.write(final_text)
+                st.write(f"Palavras no resultado: {len(final_text.split())}")
             except Exception as e:
                 st.error(f"❌ Ocorreu um erro durante o processamento: {str(e)}")