Spaces:

Hokeno
/

EthicalAITextGenerator

Sleeping

App Files Files Community

Hokeno commited on Jul 17, 2025

Commit

2b04a5d

verified ·

1 Parent(s): a486c98

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -109

app.py CHANGED Viewed

@@ -2,157 +2,81 @@ import gradio as gr
 import torch
 from transformers import GPT2Tokenizer, GPT2LMHeadModel
 import os
-import re # Import regular expression module
-# --- 1. Load the Fine-tuned Model and Tokenizer ---
-# Pastikan jalur ini sesuai dengan lokasi model yang telah Anda simpan
 MODEL_DIR = "./gpt2-finetuned-ai-ethics-final"
 try:
-    # Memuat tokenizer
     tokenizer = GPT2Tokenizer.from_pretrained(MODEL_DIR)
-    # Menambahkan token padding jika belum ada (penting untuk GPT-2)
     if tokenizer.pad_token is None:
         tokenizer.add_special_tokens({'pad_token': '[PAD]'})
-        # Setelah menambahkan, pastikan embedding model diubah ukurannya
-        model = GPT2LMHeadModel.from_pretrained(MODEL_DIR) # Muat ulang model setelah tokenizer diubah
-        model.resize_token_embeddings(len(tokenizer))
-    else:
-        model = GPT2LMHeadModel.from_pretrained(MODEL_DIR) # Muat model jika tidak perlu resize
-    # Secara eksplisit atur pad_token_id untuk konfigurasi generasi model dan tokenizer
-    # Gunakan tokenizer.convert_tokens_to_ids untuk memastikan kita mendapatkan ID integer
-    tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
     model.config.pad_token_id = tokenizer.pad_token_id
-    # Pastikan eos_token_id juga diatur, biasanya <|endoftext|> untuk GPT-2
-    if tokenizer.eos_token_id is None:
-        # Jika eos_token tidak diatur, atur dan tambahkan sebagai special token
-        tokenizer.eos_token = "<|endoftext|>"
-        tokenizer.add_special_tokens({'eos_token': '<|endoftext|>'})
-        # Ubah ukuran embedding lagi jika token baru ditambahkan
-        model.resize_token_embeddings(len(tokenizer))
-    # Secara eksplisit atur eos_token_id untuk konfigurasi generasi model dan tokenizer
-    tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids(tokenizer.eos_token)
-    model.config.eos_token_id = tokenizer.eos_token_id
-    # Memindahkan model ke GPU jika tersedia
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     model.to(device)
-    model.eval() # Set model ke mode evaluasi
-    print(f"Model dan tokenizer berhasil dimuat dari {MODEL_DIR} ke {device}.")
-    print(f"DEBUG: tokenizer.pad_token_id: {tokenizer.pad_token_id}")
-    print(f"DEBUG: model.config.pad_token_id: {model.config.pad_token_id}")
-    print(f"DEBUG: tokenizer.eos_token_id: {tokenizer.eos_token_id}")
-    print(f"DEBUG: model.config.eos_token_id: {model.config.eos_token_id}")
 except Exception as e:
-    print(f"Error saat memuat model atau tokenizer: {e}")
-    print("Pastikan Anda telah menjalankan proses fine-tuning dan model tersimpan di direktori yang benar.")
-    # Keluar dari aplikasi jika model tidak dapat dimuat
     exit()
-# --- 2. Define the Text Generation Function ---
 def generate_text(prompt, max_length=100, temperature=0.7, top_k=50, top_p=0.95, no_repeat_ngram_size=2):
-    """
-    Fungsi untuk menghasilkan teks menggunakan model GPT-2 yang telah di-fine-tune.
-    Menambahkan pasca-pemrosesan untuk menghentikan output pada akhir kalimat yang masuk akal.
-    """
     if not prompt:
-        return "Silakan masukkan prompt untuk menghasilkan teks."
     try:
         input_ids = tokenizer.encode(prompt, return_tensors='pt').to(device)
-        # Menghasilkan teks
-        # Tambahkan sedikit buffer pada max_length untuk memberi kesempatan model menyelesaikan kalimat
-        # Ini akan dipotong nanti jika tidak ada tanda baca yang ditemukan dalam buffer
-        generation_max_length = max_length + 30 # Tambahkan 30 token sebagai buffer yang lebih besar
         output = model.generate(
             input_ids,
-            max_length=generation_max_length, # Gunakan panjang yang lebih besar untuk generasi awal
             num_return_sequences=1,
             no_repeat_ngram_size=no_repeat_ngram_size,
             top_k=top_k,
             top_p=top_p,
             temperature=temperature,
-            pad_token_id=tokenizer.pad_token_id, # Penting untuk generasi
-            eos_token_id=tokenizer.eos_token_id # Penting untuk sinyal akhir teks
         )
         generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
-        # --- Pasca-pemrosesan untuk penghentian yang lebih baik ---
-        # Hapus prompt dari teks yang dihasilkan jika prompt ada di awal
-        if generated_text.startswith(prompt):
-            text_after_prompt = generated_text[len(prompt):].strip()
-            # Jika teks setelah prompt dimulai dengan tanda baca atau spasi berlebih, hapus
-            text_after_prompt = re.sub(r'^[.,!?\s]+', '', text_after_prompt)
-            processed_text = prompt + " " + text_after_prompt
-        else:
-            processed_text = generated_text
-        # Strategi: Cari kalimat lengkap terakhir yang berada dalam atau sedikit di atas max_length
-        # Definisikan batas atas yang fleksibel untuk pemotongan, memungkinkan kalimat selesai
-        # Ini mencegah pemotongan terlalu dini jika sebuah kalimat berakhir sedikit di atas max_length
-        flexible_max_length = max_length + 20 # Izinkan hingga 20 karakter ekstra untuk penyelesaian kalimat
-        # Temukan semua kemunculan tanda baca akhir kalimat
-        sentence_end_indices = [m.end() for m in re.finditer(r'[.!?](?=\s|$)', processed_text)]
-        final_cut_index = -1
-        # Iterasi melalui akhir kalimat untuk menemukan yang terakhir yang berada dalam flexible_max_length
-        for end_idx in sentence_end_indices:
-            if end_idx <= flexible_max_length:
-                final_cut_index = end_idx
-            else:
-                # Jika kita telah melewati batas fleksibel, kita berhenti mencari akhir kalimat
-                # Yang terakhir valid yang ditemukan (jika ada) adalah kandidat terbaik kita
-                break
-        if final_cut_index != -1:
-            # Jika akhir kalimat yang sesuai ditemukan, potong di sana
-            processed_text = processed_text[:final_cut_index]
-        else:
-            # Jika tidak ada akhir kalimat yang sesuai ditemukan dalam batas fleksibel,
-            # potong ke max_length dan pastikan berakhir pada batas kata
-            if len(processed_text) > max_length:
-                temp_text = processed_text[:max_length]
-                last_space_in_limit = temp_text.rfind(' ')
-                if last_space_in_limit != -1:
-                    processed_text = temp_text[:last_space_in_limit]
-                else:
-                    processed_text = temp_text # Jika tidak ada spasi, potong saja
-            # Jika processed_text sudah lebih pendek dari max_length dan tidak memiliki tanda baca,
-            # kita kembalikan apa adanya.
-        return processed_text.strip() # Hapus spasi di awal/akhir
     except Exception as e:
-        return f"Terjadi kesalahan saat menghasilkan teks: {e}"
-# --- 3. Create the Gradio Interface ---
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
-        gr.Textbox(lines=5, label="Masukkan Prompt Anda", placeholder="Contoh: The ethical implications of AI are..."),
-        gr.Slider(minimum=50, maximum=300, value=100, label="Panjang Teks Maksimal"),
-        gr.Slider(minimum=0.1, maximum=1.0, value=0.7, label="Temperature (Keacakan)"),
-        gr.Slider(minimum=0, maximum=100, value=50, step=1, label="Top-K (Pembatasan Kata)"),
-        gr.Slider(minimum=0.0, maximum=1.0, value=0.95, label="Top-P (Probabilitas Kumulatif)"),
-        gr.Slider(minimum=1, maximum=5, value=2, step=1, label="Ukuran N-Gram Tanpa Pengulangan")
     ],
-    outputs=gr.Textbox(label="Teks yang Dihasilkan", lines=10),
-    title="Aplikasi Generasi Teks Etika AI (GPT-2 Fine-tuned)",
-    description="Masukkan prompt dan model GPT-2 yang telah di-fine-tune akan menghasilkan teks terkait etika AI.",
-    theme="soft" # Tema Gradio yang lebih lembut
 )
-# --- 4. Launch the Gradio App ---
 if __name__ == "__main__":
-    print("Meluncurkan aplikasi Gradio...")
     iface.launch(share=False)

 import torch
 from transformers import GPT2Tokenizer, GPT2LMHeadModel
 import os
 MODEL_DIR = "./gpt2-finetuned-ai-ethics-final"
 try:
     tokenizer = GPT2Tokenizer.from_pretrained(MODEL_DIR)
     if tokenizer.pad_token is None:
         tokenizer.add_special_tokens({'pad_token': '[PAD]'})
+    model = GPT2LMHeadModel.from_pretrained(MODEL_DIR)
     model.config.pad_token_id = tokenizer.pad_token_id
     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     model.to(device)
+    model.eval()
+    print(f"Model and tokenizer successfully loaded from {MODEL_DIR} to {device}.")
 except Exception as e:
+    print(f"Error loading model or tokenizer: {e}")
+    print("Make sure you have run the fine-tuning process and the model is saved in the correct directory.")
     exit()
 def generate_text(prompt, max_length=100, temperature=0.7, top_k=50, top_p=0.95, no_repeat_ngram_size=2):
     if not prompt:
+        return "Enter prompt here."
     try:
         input_ids = tokenizer.encode(prompt, return_tensors='pt').to(device)
         output = model.generate(
             input_ids,
+            max_length=max_length,
             num_return_sequences=1,
             no_repeat_ngram_size=no_repeat_ngram_size,
             top_k=top_k,
             top_p=top_p,
             temperature=temperature,
+            pad_token_id=tokenizer.pad_token_id
         )
         generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
+        last_period_index = generated_text.rfind('.')
+        if last_period_index != -1:
+            generated_text = generated_text[:last_period_index + 1]
+        return generated_text
     except Exception as e:
+        return f"An error occurred while generating text: {e}"
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
+        gr.Textbox(lines=5, label="Enter your prompt", placeholder="Example: The ethical implications of AI"),
+        gr.Slider(minimum=50, maximum=300, value=100, label="Maximum Text Length"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.7, label="Temperature (Randomness)"),
+        gr.Slider(minimum=0, maximum=100, value=50, step=1, label="Top-K (Word Restriction)"),
+        gr.Slider(minimum=0.0, maximum=1.0, value=0.95, label="Top-P (Cumulative Probability)"),
+        gr.Slider(minimum=1, maximum=5, value=2, step=1, label="N-Gram Size Without Repetition")
     ],
+    outputs=gr.Textbox(label="Generated Text", lines=10),
+    title="AI Ethical Text Generation Application (GPT-2 Fine-tuned)",
+    description="Enter a prompt and the fine-tuned GPT-2 model will generate text related to AI ethics.",
+    theme="soft",
+    examples=[
+        ['The ethical implications of AI'],
+        ["Transparency and explainability in AI systems are important"],
+        ["Ethical challenges in AI"],
+        ["Privacy and data protection in AI involve"],
+        ["The ethical implications of AI are significant and require careful consideration"]
+    ]
 )
 if __name__ == "__main__":
+    print("Launching the Gradio app...")
     iface.launch(share=False)