Spaces:

BugZoid
/

text-humanizer

Running

App Files Files Community

text-humanizer / app.py

BugZoid

Update app.py

36a6cb1 verified about 1 year ago

raw

history blame contribute delete

10.2 kB

	import streamlit as st
	from transformers import T5ForConditionalGeneration, T5Tokenizer
	import torch
	from torch.utils.data import Dataset, DataLoader
	import json
	import os
	from datetime import datetime
	import tempfile

	# Custom dataset for fine-tuning
	class TextHumanizerDataset(Dataset):
	def __init__(self, data, tokenizer, max_length=512):
	self.data = data
	self.tokenizer = tokenizer
	self.max_length = max_length

	def __len__(self):
	return len(self.data)

	def __getitem__(self, idx):
	item = self.data[idx]
	input_encoding = self.tokenizer(
	f"reescreva em português natural, mantendo todas as informações: {item['input_text']}",
	max_length=self.max_length,
	padding='max_length',
	truncation=True,
	return_tensors='pt'
	)

	target_encoding = self.tokenizer(
	item['output_text'],
	max_length=self.max_length,
	padding='max_length',
	truncation=True,
	return_tensors='pt'
	)

	return {
	'input_ids': input_encoding['input_ids'].squeeze(),
	'attention_mask': input_encoding['attention_mask'].squeeze(),
	'labels': target_encoding['input_ids'].squeeze()
	}

	def get_storage_path():
	"""Retorna o caminho correto para armazenamento no Hugging Face Spaces"""
	if os.environ.get('SPACE_ID'): # Verifica se está rodando no Spaces
	return '/data' # Diretório persistente no Spaces
	else:
	# Fallback para desenvolvimento local
	temp_dir = tempfile.gettempdir()
	feedback_dir = os.path.join(temp_dir, 'feedback_data')
	os.makedirs(feedback_dir, exist_ok=True)
	return feedback_dir

	def save_feedback(input_text, output_text, rating):
	"""Salva o feedback do usuário para futuro treinamento"""
	feedback_data = {
	'input_text': input_text,
	'output_text': output_text,
	'rating': rating,
	'timestamp': datetime.now().isoformat()
	}

	storage_path = get_storage_path()
	feedback_file = os.path.join(storage_path, 'feedback.json')

	try:
	# Cria arquivo se não existir
	if not os.path.exists(feedback_file):
	with open(feedback_file, 'w') as f:
	f.write('')

	# Append do novo feedback
	with open(feedback_file, 'a') as f:
	f.write(json.dumps(feedback_data) + '\n')

	return True
	except Exception as e:
	st.error(f"Erro ao salvar feedback: {str(e)}")
	return False

	def fine_tune_model():
	"""Realiza fine-tuning do modelo com dados de feedback positivo"""
	storage_path = get_storage_path()
	feedback_file = os.path.join(storage_path, 'feedback.json')

	if not os.path.exists(feedback_file):
	return

	try:
	# Carrega dados de feedback
	positive_examples = []
	with open(feedback_file, 'r') as f:
	for line in f:
	if line.strip(): # Ignora linhas vazias
	feedback = json.loads(line)
	if feedback['rating'] >= 4: # Usa apenas feedback positivo
	positive_examples.append({
	'input_text': feedback['input_text'],
	'output_text': feedback['output_text']
	})

	if not positive_examples:
	return

	# Cria dataset e dataloader
	dataset = TextHumanizerDataset(positive_examples, st.session_state.tokenizer)
	dataloader = DataLoader(dataset, batch_size=4, shuffle=True)

	# Configura otimizador
	optimizer = torch.optim.AdamW(st.session_state.model.parameters(), lr=1e-5)

	# Fine-tuning
	st.session_state.model.train()
	for batch in dataloader:
	optimizer.zero_grad()
	outputs = st.session_state.model(
	input_ids=batch['input_ids'],
	attention_mask=batch['attention_mask'],
	labels=batch['labels']
	)
	loss = outputs.loss
	loss.backward()
	optimizer.step()

	st.session_state.model.eval()
	return True

	except Exception as e:
	st.error(f"Erro durante o fine-tuning: {str(e)}")
	return False

	def clean_generated_text(text):
	"""Remove comandos e limpa o texto gerado"""
	text = text.strip()

	# Lista de prefixos de comando para remover
	prefixes = [
	"reescreva o seguinte texto",
	"reescreva este texto",
	"reescreva o texto",
	"traduza",
	"humanize:",
	"humanizar:",
	"em português",
	"de forma mais natural"
	]

	# Remove os prefixos de comando
	text_lower = text.lower()
	for prefix in prefixes:
	if text_lower.startswith(prefix):
	text = text[len(prefix):].strip()
	text_lower = text.lower()

	# Capitaliza a primeira letra
	if text:
	text = text[0].upper() + text[1:]

	return text

	def humanize_text(text):
	"""Humaniza o texto mantendo coerência e tamanho"""
	prompt = f"reescreva em português natural, mantendo todas as informações: {text}"

	# Tokenização com padding
	inputs = st.session_state.tokenizer(
	prompt,
	return_tensors="pt",
	max_length=512, # Reduzido para evitar problemas de memória
	padding=True,
	truncation=True
	)

	# Parâmetros mais conservadores para geração
	try:
	outputs = st.session_state.model.generate(
	inputs.input_ids,
	max_length=512, # Reduzido para maior estabilidade
	min_length=int(len(text.split()) * 0.8), # Garante pelo menos 80% do tamanho original
	do_sample=False, # Desativa amostragem para maior estabilidade
	num_beams=2, # Reduzido para evitar problemas de memória
	repetition_penalty=1.1, # Reduzido para evitar instabilidades
	length_penalty=1.0, # Valor neutro
	early_stopping=True, # Ativa early stopping
	no_repeat_ngram_size=2 # Evita repetições de bigramas
	)

	result = st.session_state.tokenizer.decode(outputs[0], skip_special_tokens=True)
	result = clean_generated_text(result)

	# Garante tamanho mínimo de forma mais suave
	if len(result.split()) < len(text.split()):
	missing_words = len(text.split()) - len(result.split())
	original_words = text.split()[-missing_words:]
	result = result + " " + " ".join(original_words)

	return result

	except Exception as e:
	st.error(f"Erro durante a geração: {str(e)}")
	# Fallback: retorna o texto original em caso de erro
	return text

	# Initialize session state
	if 'model_loaded' not in st.session_state:
	st.session_state.tokenizer = T5Tokenizer.from_pretrained("t5-base")
	st.session_state.model = T5ForConditionalGeneration.from_pretrained("t5-base")
	st.session_state.model_loaded = True

	# UI Components
	st.set_page_config(page_title="Advanced Text Humanizer", page_icon="🤖")

	st.title("🤖 → 🧑 Humanizador de Texto Avançado")
	st.markdown("""
	Este aplicativo transforma textos robotizados em linguagem mais natural e humana,
	mantendo todas as informações originais e incluindo sistema de feedback para melhoria contínua.
	""")

	# Input area
	input_text = st.text_area(
	"Cole seu texto de robô aqui:",
	height=150,
	help="Cole seu texto aqui para transformá-lo em uma versão mais natural e humana."
	)

	# Process button and results
	if st.button("Humanizar", type="primary"):
	if not input_text:
	st.warning("⚠️ Por favor, cole um texto primeiro!")
	else:
	with st.spinner("Processando o texto..."):
	try:
	final_text = humanize_text(input_text)

	# Display results
	st.success("✨ Texto humanizado:")
	col1, col2 = st.columns(2)

	with col1:
	st.text("Original:")
	st.info(input_text)
	st.write(f"Palavras: {len(input_text.split())}")

	with col2:
	st.text("Resultado:")
	st.info(final_text)
	st.write(f"Palavras: {len(final_text.split())}")

	# Feedback section
	st.markdown("### Feedback")
	rating = st.slider(
	"Como você avalia a qualidade do texto humanizado?",
	min_value=1,
	max_value=5,
	value=3,
	help="1 = Muito ruim, 5 = Excelente"
	)

	if st.button("Enviar Feedback"):
	if save_feedback(input_text, final_text, rating):
	st.success("Feedback salvo com sucesso! Obrigado pela contribuição.")

	# Trigger fine-tuning if we have enough positive feedback
	if rating >= 4:
	with st.spinner("Atualizando modelo com seu feedback..."):
	if fine_tune_model():
	st.success("Modelo atualizado com sucesso!")
	else:
	st.warning("Não foi possível atualizar o modelo neste momento.")
	else:
	st.error("Não foi possível salvar o feedback. Tente novamente mais tarde.")

	except Exception as e:
	st.error(f"❌ Erro no processamento: {str(e)}")

	# Footer
	st.markdown("---")
	st.markdown(
	"""
	<div style='text-align: center'>
	<small>Desenvolvido com ❤️ usando Streamlit e Transformers</small>
	</div>
	""",
	unsafe_allow_html=True
	)