Spaces:

handaru2002
/

LLMRAG

Sleeping

App Files Files Community

LLMRAG / app.py

handaru2002

Update app.py

a590ca6 verified about 2 months ago

raw

history blame contribute delete

5.23 kB

	# ============================================================
	# FINAL 16GB SAFE TRANSLATION SYSTEM
	# NLLB + RAG + LLM (POST-EDITOR)
	# Jawa → Indonesia → English
	# ============================================================

	import torch
	import faiss
	import pandas as pd
	import gradio as gr
	from sentence_transformers import SentenceTransformer
	from transformers import (
	AutoTokenizer,
	AutoModelForSeq2SeqLM,
	AutoModelForCausalLM
	)

	device = "cuda" if torch.cuda.is_available() else "cpu"

	# ============================================================
	# NLLB MODEL
	# ============================================================

	NLLB = "facebook/nllb-200-distilled-600M"

	nllb_tok = AutoTokenizer.from_pretrained(NLLB)
	nllb = AutoModelForSeq2SeqLM.from_pretrained(NLLB).to(device)
	nllb.eval()

	JV = "jav_Latn"
	ID = "ind_Latn"
	EN = "eng_Latn"


	from transformers import AutoTokenizer, AutoModelForCausalLM


	# ============================================================
	# LIGHTWEIGHT LLM (POST-EDITOR)
	# ============================================================

	LLM = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

	# =========================
	# 1. LOAD TOKENIZER
	# =========================
	llm_tok = AutoTokenizer.from_pretrained(LLM)

	# =========================
	# 2. FIX PAD TOKEN (WAJIB)
	# =========================
	llm_tok.pad_token = llm_tok.eos_token
	llm_tok.pad_token_id = llm_tok.eos_token_id

	# =========================
	# 3. LOAD MODEL
	# =========================

	llm = AutoModelForCausalLM.from_pretrained(
	LLM,
	torch_dtype=torch.float16 if device == "cuda" else torch.float32,
	low_cpu_mem_usage=True
	).to(device)

	llm.eval()

	# ============================================================
	# KNOWLEDGE BASE
	# ============================================================

	kb = pd.read_csv("kb_jawa_ngoko_krama_indonesia_100k.csv")
	kb["jv"] = kb["jv"].astype(str)
	kb["id"] = kb["id"].astype(str)

	pairs = list(zip(kb["jv"], kb["id"]))



	# ============================================================
	# RAG INDEX
	# ============================================================

	embedder = SentenceTransformer(
	"sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
	)

	emb = embedder.encode(
	kb["jv"].tolist(),
	batch_size=128,
	convert_to_numpy=True,
	show_progress_bar=True
	)


	index = faiss.IndexFlatL2(emb.shape[1])
	index.add(emb)

	def retrieve(text, k=5):
	v = embedder.encode([text])
	_, I = index.search(v, k)
	return "\n".join(
	f"{pairs[i][0]} → {pairs[i][1]}" for i in I[0]
	)




	# ============================================================
	# TRANSLATION CORE
	# ============================================================

	def nllb_translate(text, src, tgt):
	nllb_tok.src_lang = src
	inputs = nllb_tok(
	text,
	return_tensors="pt",
	truncation=True,
	max_length=512
	).to(device)

	out = nllb.generate(
	**inputs,
	forced_bos_token_id=nllb_tok.convert_tokens_to_ids(tgt),
	max_length=256
	)

	return nllb_tok.decode(out[0], skip_special_tokens=True)


	# ============================================================
	# POST-EDITING (NO LEAK)
	# ============================================================

	def refine_id(text, context):

	prompt = f"""
	Perbaiki hasil terjemahan Bahasa Indonesia agar alami dan baku.

	Jangan menerjemahkan ulang.
	Jangan menambahkan informasi baru.
	Jangan menampilkan referensi.

	Kalimat:
	{text}

	Versi yang lebih alami:
	"""

	inp = llm_tok(prompt, return_tensors="pt").to(device)

	out = llm.generate(
	**inp,
	max_new_tokens=80,
	temperature=0.15,
	do_sample=False
	)

	return llm_tok.decode(
	out[0],
	skip_special_tokens=True
	).split("alami:")[-1].strip()

	# ============================================================
	# FULL PIPELINE
	# ============================================================

	def pipeline(text):

	# Jawa → Indonesia
	id_raw = nllb_translate(text, JV, ID)

	# RAG grounding (hidden)
	ctx = retrieve(text)

	# Post-edit
	id_final = refine_id(id_raw, ctx)

	# Indonesia → English
	en_final = nllb_translate(id_final, ID, EN)

	return id_final, en_final

	# ============================================================
	# GRADIO UI
	# ============================================================

	with gr.Blocks(title="Mesin Translasi Bahasa Jawa") as demo:
	gr.Markdown(
	"""
	## 🌾 Mesin Translasi Bahasa Jawa
	Jawa → Indonesia → English

	✔ NLLB-200 (Meta)
	✔ RAG Parallel Corpus (hidden)
	✔ LLM post-editor (linguistic refinement)
	✔ Output bersih tanpa referensi
	✔ Aman 16GB

	---
	"""
	)

	inp = gr.Textbox(
	label="Input Bahasa Jawa",
	lines=4,
	placeholder="Contoh: Aku arep lunga menyang pasar sesuk."
	)

	with gr.Row():
	out_id = gr.Textbox(label="Bahasa Indonesia", lines=4)
	out_en = gr.Textbox(label="English Translation", lines=4)

	gr.Button("🔄 Terjemahkan").click(
	pipeline,
	inp,
	[out_id, out_en]
	)

	demo.launch()