Spaces:

caarleexx
/

IZAaa-C

Runtime error

App Files Files Community

caarleexx commited on Nov 27, 2025

Commit

22df6b5

verified ·

1 Parent(s): 0b4c98b

Update app.py

Browse files

Files changed (1) hide show

app.py +125 -79

app.py CHANGED Viewed

@@ -1,113 +1,159 @@
 import json
-import random
 import time
 from datetime import datetime
-DATASET_PATH = "dataset_castelos.jsonl"
-# -----------------------------
-# Funções auxiliares
-# -----------------------------
-def gerar_pergunta():
-    temas = [
-        "Como construir um castelo?",
-        "Como plantar uma árvore?",
-        "Como organizar uma festa?",
-        "Como iniciar um projeto?",
-        "Como aprender rápido?",
-        "Como montar uma estratégia?",
-        "Como resolver um problema complexo?"
-    ]
-    return random.choice(temas)
-def gerar_respostas_possiveis(pergunta, n):
-    moldes = [
-        "Planeje cuidadosamente, estabeleça uma base sólida e avance com estratégia.",
-        "Comece pelos fundamentos, eleve a estrutura e finalize com precisão.",
-        "Prepare o terreno, organize os elementos e execute cada etapa com clareza.",
-        "Defina o objetivo, estruture fases e avance de forma consistente.",
-        "Analise o contexto, construa a base e reforce cada camada do processo."
-    ]
-    respostas = random.sample(moldes, n)
-    return respostas
-def escolher_resposta_mais_provavel(respostas):
-    # Critério simples: escolhe a mais "genérica" (menor divergência aparente)
-    return min(respostas, key=len)
-def calcular_divergencia(base, resposta):
-    # Divergência = diferença de tamanho + diferença lexical superficial
-    return abs(len(resposta) - len(base)) + random.randint(1, 5)
-# -----------------------------
-# Loop principal de geração
-# -----------------------------
-def gerar_dataset_loop(iteracoes=20, intervalo=1.5):
-    print("\n===== INICIANDO GERADOR DE DATASET =====\n")
-    for i in range(iteracoes):
-        print(f"\n========= CICLO {i+1}/{iteracoes} =========")
-        print("Gerando pergunta...")
-        pergunta = gerar_pergunta()
-        n = random.randint(2, 5)
-        print(f"N de respostas alternativas: {n}")
-        respostas = gerar_respostas_possiveis(pergunta, n)
-        print("\nRespostas geradas:")
-        for r in respostas:
-            print(" -", r)
-        mais_provavel = escolher_resposta_mais_provavel(respostas)
-        print(f"\nResposta mais provável selecionada:\n -> {mais_provavel}")
-        divergencias = {
-            resp: calcular_divergencia(mais_provavel, resp)
-            for resp in respostas
-        }
-        print("\nDivergências calculadas:")
-        for r, d in divergencias.items():
-            print(f" - {d}: {r}")
-        registro = {
-            "timestamp": str(datetime.now()),
-            "pergunta": pergunta,
-            "n_respostas": n,
-            "resposta_mais_provavel": mais_provavel,
-            "outras_respostas": [
-                {"resposta": r, "divergencia": divergencias[r]}
-                for r in respostas if r != mais_provavel
-            ],
-            "explicacao": (
-                "Perguntas abertas podem gerar múltiplas respostas válidas. "
-                "A variação ocorre devido a diferentes interpretações, níveis "
-                "de abstração e estratégias possíveis incluídas nos moldes de resposta."
-            )
-        }
-        print("\nSalvando no dataset...")
-        with open(DATASET_PATH, "a", encoding="utf-8") as f:
-            f.write(json.dumps(registro, ensure_ascii=False) + "\n")
-        print("✓ Salvo.")
-        print("Aguardando próxima iteração...")
         time.sleep(intervalo)
-    print("\n===== FINALIZADO =====")
-# Executar
-gerar_dataset_loop(iteracoes=10, intervalo=1.2)

+import os
 import json
 import time
+import random
 from datetime import datetime
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from huggingface_hub import HfApi, CommitOperationAdd
+# =====================================================================
+# CONFIGURAÇÕES DO DATASET E MODELO
+# =====================================================================
+DATASET_REPO = "caarleexx/AM"
+HF_TOKEN = os.getenv("HF_TOKEN")
+MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+DEVICE = "cpu"   # Forçamos CPU
+# =====================================================================
+# CARREGAR MODELO
+# =====================================================================
+print("\n📥 Baixando TinyLlama… (CPU mode)\n")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float32,     # CPU mode
+    device_map={"": DEVICE}
+)
+print("✅ TinyLlama carregado com sucesso na CPU!\n")
+# =====================================================================
+# FUNÇÃO DE GERAÇÃO LOCAL
+# =====================================================================
+def gerar_texto(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=600,
+            temperature=0.9,
+            top_p=0.92,
+            do_sample=True
+        )
+    text = tokenizer.decode(output[0], skip_special_tokens=True)
+    # Remover prompt do início
+    return text[len(prompt):].strip()
+# =====================================================================
+# PROMPT FIXO
+# =====================================================================
+PROMPT_TEMPLATE = """
+Gere um único item de dataset em formato JSON válido.
+Regras:
+- Crie uma pergunta curta.
+- Gere N aleatório entre 2 e 5.
+- Gere a resposta principal.
+- Gere N respostas alternativas.
+- Para cada alternativa gere um valor "divergencia" de 0 a 1.
+- Explique por que a pergunta pode ter múltiplas respostas.
+- Devolva SOMENTE o JSON. Nada fora do JSON.
+Formato exato:
+{
+  "pergunta": "...",
+  "n": 3,
+  "resposta_principal": "...",
+  "respostas_alternativas": [
+    { "resposta": "...", "divergencia": 0.42 },
+    { "resposta": "...", "divergencia": 0.13 },
+    { "resposta": "...", "divergencia": 0.88 }
+  ],
+  "explicacao": "..."
+}
+"""
+# =====================================================================
+# SALVAR NO DATASET HF
+# =====================================================================
+def salvar_no_dataset(registro):
+    api = HfApi()
+    filename = f"item_{int(time.time()*1000)}.json"
+    content = json.dumps(registro, indent=2, ensure_ascii=False)
+    op = CommitOperationAdd(
+        path_in_repo=filename,
+        path_or_fileobj=content.encode("utf-8")
+    )
+    api.create_commit(
+        repo_id=DATASET_REPO,
+        repo_type="dataset",
+        operations=[op],
+        commit_message=f"add {filename}",
+        token=HF_TOKEN
+    )
+    print(f"💾 Salvo no dataset: {filename}")
+# =====================================================================
+# LOOP PRINCIPAL DE GERAÇÃO
+# =====================================================================
+def gerar_dataset_loop(total=50000, intervalo=1):
+    print("\n🚀 Iniciando loop de geração com TinyLlama/CPU…\n")
+    time.sleep(3)   # evita timeout do HF
+    for i in range(1, total + 1):
+        print("\n=================================================")
+        print(f"🔄 Iteração {i}/{total}")
+        print("=================================================")
+        print("📤 Gerando item…")
+        resposta = gerar_texto(PROMPT_TEMPLATE)
+        print("\n📥 Resposta crua:")
+        print(resposta)
+        # Tentar interpretar JSON
+        try:
+            data = json.loads(resposta)
+        except Exception as e:
+            print(f"❌ JSON inválido. Erro: {e}\nRetornando próxima iteração…")
+            continue
+        print("\n📌 JSON final:")
+        print(json.dumps(data, indent=2, ensure_ascii=False))
+        salvar_no_dataset(data)
+        print("⏳ Aguardando próxima geração…")
         time.sleep(intervalo)
+# =====================================================================
+# EXECUÇÃO
+# =====================================================================
+if __name__ == "__main__":
+    gerar_dataset_loop()