Spaces:

fmr34
/

reformulatee

Sleeping

fmrod

deploy: docs atualizadas

c31002d 12 days ago

25.9 kB

	"""
	Fase 3 — Inferencia guiada por EE (best-of-N sampling).

	Estrategia:
	1. Policy model gera N candidatos para q_bad
	2. Cada candidato passa pelo Filtro Stage 1: EE(q_cand) > EE(q_bad) + epsilon
	3. Entre os aprovados, seleciona o de maior score(alpha)
	4. Fallback: se nenhum aprovado, retorna o de maior EE entre todos

	Policy backends suportados:
	- hf_inference : HuggingFace Inference API (gratuita, zero-cost) — PADRAO
	- gguf : modelo GGUF local via llama-cpp-python (opcional)
	- claude : Claude API (requer ANTHROPIC_API_KEY)
	- local : modelo PEFT local (DPO checkpoint) com transformers + PEFT

	Traducao pt-br:
	- Padrao: Helsinki-NLP MarianMT local (zero-cost, ~300 MB por modelo)
	- Fallback: Claude API (se ANTHROPIC_API_KEY definida)

	Otimizacoes (Onda 1):
	- Geracao paralela: 8 chamadas simultaneas via ThreadPoolExecutor
	- Scoring paralelo: 8 scores EE simultaneos via ThreadPoolExecutor
	- Prompt caching: cache_control ephemeral (Claude API)
	- Cache de tratabilidade: in-memory + SQLite

	Configuracao via .env:
	INFERENCE_BACKEND = hf_inference \| gguf \| claude \| local (default: auto)
	INFERENCE_MODEL_DIR = data/models/dpo_policy/tier3/final
	DPO_MODEL = gpt2 (base model para backend local)
	INFERENCE_N = 8 (candidatos por query)
	INFERENCE_ALPHA = 0.5 (peso EE vs proximidade no ranking)
	INFERENCE_MAX_NEW_TOKENS = 80
	INFERENCE_TEMPERATURE = 1.1
	INFERENCE_TOP_P = 0.95
	TRANSLATE_BACKEND = local \| claude (default: local)

	Uso (ingles):
	.venv\\Scripts\\python -m src.rl.inference "What is the essence of life?"
	.venv\\Scripts\\python -m src.rl.inference --batch caminho/para/perguntas.txt
	.venv\\Scripts\\python -m src.rl.inference --demo

	Uso (portugues — traducao automatica):
	.venv\\Scripts\\python -m src.rl.inference --pt "O que e a consciencia?"
	.venv\\Scripts\\python -m src.rl.inference --pt --batch caminho/para/perguntas_pt.txt
	.venv\\Scripts\\python -m src.rl.inference --pt --demo
	"""

	from __future__ import annotations

	import json
	import os
	import sys
	from concurrent.futures import ThreadPoolExecutor
	from concurrent.futures import as_completed
	from dataclasses import dataclass
	from dataclasses import field
	from pathlib import Path

	from dotenv import load_dotenv

	load_dotenv(override=True)

	# ---------------------------------------------------------------------------
	# Configuracao
	# ---------------------------------------------------------------------------

	BACKEND = os.getenv("INFERENCE_BACKEND", "auto")
	TRANSLATE_BACKEND = os.getenv("TRANSLATE_BACKEND", "local")
	MODEL_DIR = Path(os.getenv("INFERENCE_MODEL_DIR", "data/models/dpo_policy/tier3/final"))
	BASE_MODEL = os.getenv("DPO_MODEL", "gpt2")


	def _env_int(key: str, default: int) -> int:
	try:
	return int(os.getenv(key, str(default)))
	except ValueError:
	return default


	def _env_float(key: str, default: float) -> float:
	try:
	return float(os.getenv(key, str(default)))
	except ValueError:
	return default


	N_CANDIDATES = _env_int("INFERENCE_N", 8)
	ALPHA = _env_float("INFERENCE_ALPHA", 0.5)
	MAX_NEW_TOKENS = _env_int("INFERENCE_MAX_NEW_TOKENS", 80)
	TEMPERATURE = _env_float("INFERENCE_TEMPERATURE", 1.1)
	TOP_P = _env_float("INFERENCE_TOP_P", 0.95)
	CORPUS_DIR = Path(os.getenv("CORPUS_DIR", "data/corpus"))

	PROMPT_TEMPLATE = (
	"You are an expert in philosophy of science. "
	"Reformulate the following research question to make it more epistemically tractable: "
	"operationalizable, methodologically grounded, and answerable with existing tools.\n\n"
	"Original question: {q_bad}\n\n"
	"Reformulated question:"
	)

	# System prompts extraídos como constantes para reutilização com cache_control
	_GENERATION_SYSTEM = (
	"You are an expert in philosophy of science. "
	"Your task is to reformulate research questions to make them more epistemically tractable: "
	"operationalizable, methodologically grounded, and answerable with existing tools. "
	"The user's question is enclosed in <question> tags. "
	"Respond with ONLY the reformulated question — no explanation, no preamble, no tags."
	)

	_TRANSLATE_SYSTEMS = {
	"pt_to_en": (
	"Translate the research question enclosed in <question> tags from Portuguese to English. "
	"Preserve the exact meaning and academic tone. "
	"Respond with ONLY the translated question, nothing else."
	),
	"en_to_pt": (
	"Translate the research question enclosed in <question> tags from English to Portuguese (Brazilian). "
	"Preserve the exact meaning and academic tone. "
	"Respond with ONLY the translated question, nothing else."
	),
	}

	# Cliente Anthropic compartilhado (thread-safe)
	_claude_client = None


	def _get_claude_client():
	global _claude_client
	if _claude_client is None:
	import anthropic

	api_key = os.getenv("ANTHROPIC_API_KEY")
	if not api_key:
	raise RuntimeError(
	"ANTHROPIC_API_KEY nao definido no .env. "
	"Configure-o ou use INFERENCE_BACKEND=local."
	)
	_claude_client = anthropic.Anthropic(api_key=api_key)
	return _claude_client


	def pr(text: str) -> None:
	try:
	print(text)
	except UnicodeEncodeError:
	sys.stdout.buffer.write((text + "\n").encode("utf-8", errors="replace"))


	# ---------------------------------------------------------------------------
	# Resultado de inferencia
	# ---------------------------------------------------------------------------


	@dataclass
	class InferenceResult:
	q_bad: str
	best: str
	ee_bad: float
	ee_best: float
	score_best: float
	stage1_pass: bool
	candidates: list[dict] = field(default_factory=list)

	def summary(self) -> str:
	lines = [
	f" Input : {self.q_bad[:80]}",
	f" Output : {self.best[:80]}",
	f" EE : {self.ee_bad:.3f} -> {self.ee_best:.3f} "
	f"({'PASS' if self.stage1_pass else 'FALLBACK'})",
	f" Score : {self.score_best:.3f} (alpha={ALPHA})",
	f" N cand : {len(self.candidates)}",
	]
	return "\n".join(lines)


	# ---------------------------------------------------------------------------
	# Corpus index (lazy)
	# ---------------------------------------------------------------------------

	_corpus_index = None


	def _get_index():
	global _corpus_index
	if _corpus_index is None:
	from src.corpus.index import build_index

	try:
	_corpus_index = build_index(CORPUS_DIR)
	except FileNotFoundError:
	pr(" [aviso] Corpus nao encontrado — respondibilidade sera 0.")
	_corpus_index = _NullIndex()
	return _corpus_index


	class _NullIndex:
	"""Fallback quando corpus nao esta disponivel."""

	def search(self, args, *kwargs):
	return []


	# ---------------------------------------------------------------------------
	# EE scoring
	# ---------------------------------------------------------------------------


	def _score_candidate(q_cand: str, q_bad: str) -> dict:
	"""Retorna dict com ee, score, prox para um candidato."""
	from src.ee.reward import compute_ee
	from src.ee.reward import compute_score

	index = _get_index()
	try:
	result = compute_ee(q_cand, q_bad, index)
	score = compute_score(result, alpha=ALPHA)
	return {
	"text": q_cand,
	"ee": result.ee,
	"score": score,
	"prox": result.prox,
	"resp": result.respondibilidade,
	"tract": result.tratabilidade,
	"nt": result.nao_trivialidade,
	}
	except Exception as exc:
	return {
	"text": q_cand,
	"ee": 0.0,
	"score": 0.0,
	"prox": 0.0,
	"resp": 0.0,
	"tract": 0.0,
	"nt": 0.0,
	"error": str(exc),
	}


	# ---------------------------------------------------------------------------
	# Backend LOCAL (PEFT + transformers)
	# ---------------------------------------------------------------------------

	_local_pipeline = None


	def _load_local_pipeline():
	global _local_pipeline
	if _local_pipeline is not None:
	return _local_pipeline

	import torch
	from transformers import AutoModelForCausalLM
	from transformers import AutoTokenizer
	from transformers import pipeline

	pr(f" Carregando modelo local: {MODEL_DIR}")

	# Tenta carregar PEFT adapter; fallback para base model
	if (MODEL_DIR / "adapter_config.json").exists():
	from peft import PeftModel

	tokenizer = AutoTokenizer.from_pretrained(str(MODEL_DIR))
	base = AutoModelForCausalLM.from_pretrained(
	BASE_MODEL,
	device_map="auto" if torch.cuda.is_available() else None,
	)
	model = PeftModel.from_pretrained(base, str(MODEL_DIR))
	model = model.merge_and_unload()
	pr(" PEFT adapter carregado e mesclado.")
	elif MODEL_DIR.exists():
	tokenizer = AutoTokenizer.from_pretrained(str(MODEL_DIR))
	model = AutoModelForCausalLM.from_pretrained(
	str(MODEL_DIR),
	device_map="auto" if torch.cuda.is_available() else None,
	)
	pr(" Modelo completo carregado.")
	else:
	pr(f" [aviso] MODEL_DIR nao encontrado: {MODEL_DIR.name}")
	pr(f" Usando modelo base: {BASE_MODEL}")
	tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
	model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)

	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token
	tokenizer.pad_token_id = tokenizer.eos_token_id

	device = 0 if torch.cuda.is_available() else -1
	_local_pipeline = pipeline(
	"text-generation",
	model=model,
	tokenizer=tokenizer,
	device=device,
	)
	return _local_pipeline


	def _generate_local(q_bad: str, n: int) -> list[str]:
	"""Gera n candidatos usando modelo local."""
	from transformers import GenerationConfig

	pipe = _load_local_pipeline()
	prompt = PROMPT_TEMPLATE.format(q_bad=q_bad)

	gen_config = GenerationConfig(
	max_new_tokens=MAX_NEW_TOKENS,
	do_sample=True,
	temperature=TEMPERATURE,
	top_p=TOP_P,
	num_return_sequences=n,
	pad_token_id=pipe.tokenizer.eos_token_id,
	)

	outputs = pipe(prompt, generation_config=gen_config)

	candidates = []
	for out in outputs:
	text = out["generated_text"]
	# Remove o prompt, ficando apenas a reformulacao
	if "Reformulated question:" in text:
	text = text.split("Reformulated question:")[-1]
	text = text.strip().split("\n")[0].strip()
	if text:
	candidates.append(text)

	return candidates


	# ---------------------------------------------------------------------------
	# Backend CLAUDE (Anthropic API)
	# ---------------------------------------------------------------------------


	def _generate_claude(q_bad: str, n: int) -> list[str]:
	"""
	Gera n candidatos usando Claude API em paralelo (ThreadPoolExecutor).
	Usa prompt caching no system prompt para reduzir custo.
	"""
	client = _get_claude_client()
	system = [
	{
	"type": "text",
	"text": _GENERATION_SYSTEM,
	"cache_control": {"type": "ephemeral"},
	}
	]
	user_msg = [{"role": "user", "content": f"<question>{q_bad}</question>"}]

	def _single_call(_):
	msg = client.messages.create(
	model="claude-haiku-4-5",
	max_tokens=100,
	temperature=1.0,
	system=system,
	messages=user_msg,
	)
	return msg.content[0].text.strip().split("\n")[0].strip()

	candidates = []
	with ThreadPoolExecutor(max_workers=n) as ex:
	futures = [ex.submit(_single_call, i) for i in range(n)]
	for f in as_completed(futures):
	try:
	text = f.result()
	if text:
	candidates.append(text)
	except Exception as exc:
	pr(f" [aviso] Erro na API Claude: {exc}")

	return candidates


	# ---------------------------------------------------------------------------
	# Interface principal
	# ---------------------------------------------------------------------------


	def _score_all(candidates_text: list[str], q_bad: str) -> list[dict]:
	"""
	Pontua todos os candidatos em paralelo via ThreadPoolExecutor.
	Cada score chama tratabilidade() (API Claude), que usa cache interno.
	"""
	with ThreadPoolExecutor(max_workers=len(candidates_text)) as ex:
	futures = {ex.submit(_score_candidate, c, q_bad): c for c in candidates_text}
	results = []
	for f in as_completed(futures):
	try:
	results.append(f.result())
	except Exception as exc:
	q = futures[f]
	pr(f" [aviso] Erro ao pontuar candidato: {exc}")
	results.append(
	{
	"text": q,
	"ee": 0.0,
	"score": 0.0,
	"prox": 0.0,
	"resp": 0.0,
	"tract": 0.0,
	"nt": 0.0,
	}
	)
	return results


	def gerar_candidatos(q_bad: str, n: int = N_CANDIDATES) -> list[str]:
	"""
	Gera n reformulacoes candidatas para q_bad.

	Hierarquia de backends:
	auto/hf_inference/gguf → generate_free.generate() (zero-cost)
	claude → _generate_claude() (requer API key)
	local → _generate_local() (modelo PEFT local)
	"""
	if BACKEND == "claude":
	return _generate_claude(q_bad, n)
	elif BACKEND == "local":
	return _generate_local(q_bad, n)
	else:
	# auto, hf_inference, gguf — delega ao módulo zero-cost
	from src.rl.generate_free import generate as _generate_free

	return _generate_free(q_bad, n)


	def reformular(q_bad: str, n: int = N_CANDIDATES) -> InferenceResult:
	"""
	Pipeline completo: gera N candidatos, pontua, filtra e retorna o melhor.

	Args:
	q_bad: Pergunta de pesquisa original (pouco tratavel)
	n: Numero de candidatos a gerar

	Returns:
	InferenceResult com o melhor candidato e metricas
	"""
	from src.ee.reward import compute_ee

	# Score da pergunta original
	index = _get_index()
	r_bad = compute_ee(q_bad, q_bad, index)
	ee_bad = r_bad.ee

	# Gera candidatos
	candidates_text = gerar_candidatos(q_bad, n)
	if not candidates_text:
	# Fallback: devolve a pergunta original
	return InferenceResult(
	q_bad=q_bad,
	best=q_bad,
	ee_bad=ee_bad,
	ee_best=ee_bad,
	score_best=0.0,
	stage1_pass=False,
	candidates=[],
	)

	# Pontua todos os candidatos em paralelo
	scored = _score_all(candidates_text, q_bad)

	# Filtro Stage 1: EE(cand) > EE(q_bad) + epsilon
	from src.ee.reward import _EPSILON

	approved = [s for s in scored if s["ee"] > ee_bad + _EPSILON]

	if approved:
	best = max(approved, key=lambda s: s["score"])
	stage1_pass = True
	else:
	# Fallback: melhor EE entre todos
	best = max(scored, key=lambda s: s["ee"])
	stage1_pass = False

	return InferenceResult(
	q_bad=q_bad,
	best=best["text"],
	ee_bad=ee_bad,
	ee_best=best["ee"],
	score_best=best["score"],
	stage1_pass=stage1_pass,
	candidates=scored,
	)


	# ---------------------------------------------------------------------------
	# Traducao automatica pt-br (MarianMT local por padrao; Claude como fallback)
	# ---------------------------------------------------------------------------


	def _translate_claude(text: str, direction: str) -> str:
	"""Traduz via Claude API com prompt caching. direction: 'pt_to_en' \| 'en_to_pt'."""
	client = _get_claude_client()
	system = [
	{
	"type": "text",
	"text": _TRANSLATE_SYSTEMS[direction],
	"cache_control": {"type": "ephemeral"},
	}
	]
	msg = client.messages.create(
	model="claude-haiku-4-5",
	max_tokens=150,
	system=system,
	messages=[{"role": "user", "content": f"<question>{text}</question>"}],
	)
	return msg.content[0].text.strip()


	def _translate(text: str, direction: str) -> str:
	"""
	Traduz texto pt-br <-> en.
	Usa MarianMT local por padrao (zero-cost); fallback para Claude API.

	direction: 'pt_to_en' \| 'en_to_pt'
	"""
	if TRANSLATE_BACKEND == "claude":
	return _translate_claude(text, direction)

	# Backend local (padrao)
	try:
	from src.ee.translate_local import is_available
	from src.ee.translate_local import translate as _translate_local

	if is_available():
	return _translate_local(text, direction)
	# transformers nao instalado — tenta Claude
	if os.getenv("ANTHROPIC_API_KEY"):
	pr(" [translate] transformers nao disponivel, usando Claude API...")
	return _translate_claude(text, direction)
	raise RuntimeError(
	"Nenhum backend de traducao disponivel. "
	"Instale transformers+sentencepiece ou defina ANTHROPIC_API_KEY."
	)
	except ImportError:
	if os.getenv("ANTHROPIC_API_KEY"):
	pr(" [translate] translate_local nao encontrado, usando Claude API...")
	return _translate_claude(text, direction)
	raise


	@dataclass
	class PtBrResult:
	q_bad_pt: str # pergunta original em pt-br
	q_bad_en: str # traducao para ingles
	best_en: str # melhor reformulacao em ingles
	best_pt: str # melhor reformulacao em pt-br
	ee_bad: float
	ee_best: float
	score_best: float
	stage1_pass: bool
	candidates: list[dict] = field(default_factory=list)

	def summary(self) -> str:
	lines = [
	f" Entrada : {self.q_bad_pt[:80]}",
	f" (ingles) : {self.q_bad_en[:80]}",
	f" Resultado: {self.best_pt[:80]}",
	f" (ingles) : {self.best_en[:80]}",
	f" EE : {self.ee_bad:.3f} -> {self.ee_best:.3f} "
	f"({'PASS' if self.stage1_pass else 'FALLBACK'})",
	f" Score : {self.score_best:.3f} (alpha={ALPHA})",
	f" N cand : {len(self.candidates)}",
	]
	return "\n".join(lines)


	def reformular_ptbr(q_bad_pt: str, n: int = N_CANDIDATES) -> PtBrResult:
	"""
	Pipeline completo com suporte a portugues:
	1. Traduz q_bad_pt (pt-br) -> ingles
	2. Roda reformular() em ingles
	3. Traduz o melhor resultado de volta para pt-br

	Args:
	q_bad_pt: Pergunta em portugues (pt-br)
	n: Numero de candidatos a gerar

	Returns:
	PtBrResult com entrada e saida em pt-br e ingles
	"""
	pr(" [1/3] Traduzindo entrada (pt -> en)...")
	q_bad_en = _translate(q_bad_pt, "pt_to_en")
	pr(f" -> {q_bad_en[:80]}")

	pr(" [2/3] Reformulando (pipeline EE)...")
	result = reformular(q_bad_en, n)

	pr(" [3/3] Traduzindo resultado (en -> pt)...")
	best_pt = _translate(result.best, "en_to_pt")
	pr(f" -> {best_pt[:80]}")

	return PtBrResult(
	q_bad_pt=q_bad_pt,
	q_bad_en=q_bad_en,
	best_en=result.best,
	best_pt=best_pt,
	ee_bad=result.ee_bad,
	ee_best=result.ee_best,
	score_best=result.score_best,
	stage1_pass=result.stage1_pass,
	candidates=result.candidates,
	)


	# ---------------------------------------------------------------------------
	# Demo interativa
	# ---------------------------------------------------------------------------

	DEMO_QUESTIONS = [
	"What is the meaning of life?",
	"What is consciousness?",
	"Does free will exist?",
	"What is the nature of time?",
	"Is there a theory of everything in physics?",
	]

	DEMO_QUESTIONS_PT = [
	"O que e a consciencia?",
	"O livre-arbitrio existe?",
	"Qual e a natureza do tempo?",
	"O que causa o envelhecimento biologico?",
	"Como surgiu a vida na Terra?",
	]


	def run_demo() -> None:
	pr("=" * 65)
	pr(" Fase 3 — Demo Inferencia DPO (best-of-N + EE scoring)")
	pr("=" * 65)
	from src.rl.generate_free import _detect_backend as _det

	_resolved = _det() if BACKEND not in ("claude", "local") else BACKEND
	_blabel = f"{BACKEND} → {_resolved}" if BACKEND not in ("claude", "local") else BACKEND
	pr(f"\n Backend : {_blabel}")
	pr(f" N candid.: {N_CANDIDATES}")
	pr(f" Alpha : {ALPHA}")
	pr(f" Temp : {TEMPERATURE}")
	pr(f" Model dir: {MODEL_DIR.name}")

	pr("\n Carregando pipeline de scoring...")
	_get_index() # pre-carrega o corpus index

	for i, q in enumerate(DEMO_QUESTIONS, 1):
	pr(f"\n[{i}/{len(DEMO_QUESTIONS)}] Reformulando...")
	result = reformular(q)
	pr(result.summary())

	# Top-3 candidatos
	sorted_cands = sorted(result.candidates, key=lambda s: s["score"], reverse=True)
	pr("\n Top-3 candidatos:")
	for j, c in enumerate(sorted_cands[:3], 1):
	pr(f" {j}. EE={c['ee']:.3f} \| Score={c['score']:.3f} \| {c['text'][:70]}")

	pr(f"\n{'='*65}")
	pr(" Demo concluida.")
	pr(f"{'='*65}")


	def run_demo_pt() -> None:
	pr("=" * 65)
	pr(" Fase 3 — Demo pt-br (traducao automatica + EE scoring)")
	pr("=" * 65)
	from src.rl.generate_free import _detect_backend as _det_pt

	_resolved_pt = _det_pt() if BACKEND not in ("claude", "local") else BACKEND
	_blabel_pt = f"{BACKEND} → {_resolved_pt}" if BACKEND not in ("claude", "local") else BACKEND
	pr(f"\n Backend : {_blabel_pt}")
	pr(f" N candid.: {N_CANDIDATES}")
	translate_info = "Claude Haiku" if TRANSLATE_BACKEND == "claude" else "MarianMT local"
	pr(f" Traducao : {translate_info} (pt <-> en)")

	_get_index()

	for i, q in enumerate(DEMO_QUESTIONS_PT, 1):
	pr(f"\n[{i}/{len(DEMO_QUESTIONS_PT)}] ----------------------------------------")
	result = reformular_ptbr(q)
	pr("\n" + result.summary())

	pr(f"\n{'='*65}")
	pr(" Demo pt-br concluida.")
	pr(f"{'='*65}")


	def run_batch(path: str, ptbr: bool = False) -> None:
	"""Processa um arquivo .txt com uma pergunta por linha."""
	questions = [
	l.strip()
	for l in Path(path).read_text(encoding="utf-8").splitlines()
	if l.strip() and not l.startswith("#")
	]
	pr(f" Processando {len(questions)} perguntas de {path}...")

	results = []
	for i, q in enumerate(questions, 1):
	pr(f"\n[{i}/{len(questions)}]")
	if ptbr:
	r = reformular_ptbr(q)
	pr(r.summary())
	results.append(
	{
	"q_bad_pt": r.q_bad_pt,
	"q_bad_en": r.q_bad_en,
	"best_en": r.best_en,
	"best_pt": r.best_pt,
	"ee_bad": round(r.ee_bad, 4),
	"ee_best": round(r.ee_best, 4),
	"score_best": round(r.score_best, 4),
	"stage1_pass": r.stage1_pass,
	}
	)
	else:
	r = reformular(q)
	pr(r.summary())
	results.append(
	{
	"q_bad": r.q_bad,
	"best": r.best,
	"ee_bad": round(r.ee_bad, 4),
	"ee_best": round(r.ee_best, 4),
	"score_best": round(r.score_best, 4),
	"stage1_pass": r.stage1_pass,
	}
	)

	out_path = Path(path).with_suffix(".results.jsonl")
	with out_path.open("w", encoding="utf-8") as f:
	for r in results:
	f.write(json.dumps(r, ensure_ascii=False) + "\n")
	pr(f"\n Resultados salvos em: {out_path}")


	# ---------------------------------------------------------------------------
	# Entrypoint CLI
	# ---------------------------------------------------------------------------

	if __name__ == "__main__":
	args = sys.argv[1:]
	ptbr = "--pt" in args
	if ptbr:
	args = [a for a in args if a != "--pt"]

	if "--demo" in args:
	if ptbr:
	run_demo_pt()
	else:
	run_demo()

	elif "--batch" in args:
	idx = args.index("--batch")
	if idx + 1 >= len(args):
	pr("Uso: python -m src.rl.inference [--pt] --batch caminho/para/arquivo.txt")
	sys.exit(1)
	run_batch(args[idx + 1], ptbr=ptbr)

	elif args and not args[0].startswith("--"):
	q = " ".join(args)
	pr(f"\n Entrada: {q}")
	if ptbr:
	result = reformular_ptbr(q)
	pr("\n" + result.summary())
	pr("\n Top candidatos (decrescente por score):")
	for j, c in enumerate(
	sorted(result.candidates, key=lambda s: s["score"], reverse=True), 1
	):
	status = "PASS" if c["ee"] > result.ee_bad + 0.05 else "FAIL"
	pr(f" {j:2}. [{status}] EE={c['ee']:.3f} Sc={c['score']:.3f} \| {c['text'][:75]}")
	else:
	result = reformular(q)
	pr(result.summary())
	pr("\n Todos os candidatos (decrescente por score):")
	for j, c in enumerate(
	sorted(result.candidates, key=lambda s: s["score"], reverse=True), 1
	):
	status = "PASS" if c["ee"] > result.ee_bad + 0.05 else "FAIL"
	pr(f" {j:2}. [{status}] EE={c['ee']:.3f} Sc={c['score']:.3f} \| {c['text'][:75]}")
	else:
	pr(__doc__)
	sys.exit(0)