Spaces:

MLCraftsman
/

TextGeneration

Runtime error

App Files Files Community

MLCraftsman commited on Feb 10

Commit

7c2f77f

verified ·

1 Parent(s): 484b963

Upload 2 files

Browse files

Files changed (2) hide show

app.py +124 -0
untitled9.py +139 -0

app.py ADDED Viewed

	@@ -0,0 +1,124 @@

+import streamlit as st
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# -----------------------------
+# Page Configuration
+# -----------------------------
+st.set_page_config(
+    page_title="AI Text Generator",
+    page_icon="🤖",
+    layout="wide"
+)
+# -----------------------------
+# Sidebar Settings
+# -----------------------------
+st.sidebar.title("⚙️ Settings")
+model_path = st.sidebar.text_input(
+    "Model Path",
+    value="gpt2"   # Change to "./results" if using fine-tuned model
+)
+max_length = st.sidebar.slider("Max Length", 50, 500, 150)
+temperature = st.sidebar.slider("Temperature (Creativity)", 0.5, 1.5, 0.8)
+top_k = st.sidebar.slider("Top-K", 10, 100, 50)
+top_p = st.sidebar.slider("Top-P", 0.5, 1.0, 0.95)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+st.sidebar.write(f"Device: **{device.upper()}**")
+# -----------------------------
+# Title
+# -----------------------------
+st.title("🤖 Professional AI Text Generator")
+st.markdown(
+    "Generate creative and grammatically correct text using a GPT-based model."
+)
+# -----------------------------
+# Load Model (Cached)
+# -----------------------------
+@st.cache_resource
+def load_model(path):
+    tokenizer = AutoTokenizer.from_pretrained(path)
+    tokenizer.pad_token = tokenizer.eos_token
+    model = AutoModelForCausalLM.from_pretrained(path)
+    model.to(device)
+    model.eval()
+    return tokenizer, model
+# Load model safely
+try:
+    tokenizer, model = load_model(model_path)
+except Exception as e:
+    st.error(f"Error loading model: {e}")
+    st.stop()
+# -----------------------------
+# Input Area
+# -----------------------------
+col1, col2 = st.columns([2, 1])
+with col1:
+    prompt = st.text_area(
+        "Enter your prompt:",
+        height=200,
+        placeholder="Example: Alice was walking through the forest when..."
+    )
+with col2:
+    st.info(
+        "Tips:\n"
+        "- Higher temperature = more creative\n"
+        "- Lower temperature = more accurate\n"
+        "- Use your fine-tuned model for best results"
+    )
+# -----------------------------
+# Generate Text
+# -----------------------------
+if st.button("✨ Generate Text", use_container_width=True):
+    if prompt.strip() == "":
+        st.warning("Please enter a prompt.")
+    else:
+        with st.spinner("Generating..."):
+            inputs = tokenizer(prompt, return_tensors="pt").to(device)
+            output = model.generate(
+                **inputs,
+                max_length=max_length,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                do_sample=True,
+                pad_token_id=tokenizer.eos_token_id
+            )
+            generated_text = tokenizer.decode(
+                output[0],
+                skip_special_tokens=True
+            )
+        st.subheader("Generated Output")
+        st.write(generated_text)
+        # Download Button
+        st.download_button(
+            label="📥 Download Text",
+            data=generated_text,
+            file_name="generated_text.txt",
+            mime="text/plain"
+        )
+# -----------------------------
+# Footer
+# -----------------------------
+st.markdown("---")
+st.markdown("Built with ❤️ using Streamlit + Transformers")

untitled9.py ADDED Viewed

	@@ -0,0 +1,139 @@

+# -*- coding: utf-8 -*-
+"""Untitled9.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1foYg-5deMEmFrMZhgelziyR_ei_gEDrG
+"""
+import torch
+print("GPU Available:", torch.cuda.is_available())
+print("Device:", torch.device("cuda" if torch.cuda.is_available() else "cpu"))
+!pip install transformers datasets nltk -q
+from datasets import load_dataset
+ds = load_dataset("Dwaraka/Testing_Dataset_of_Project_Gutebberg_Gothic_Fiction")
+with open("dataset.txt", "w", encoding="utf-8") as f:
+    f.write(text)
+import re
+with open("dataset.txt", "r", encoding="utf-8") as f:
+    text = f.read()
+# Remove Gutenberg header/footer
+start = text.find("CHAPTER I")
+end = text.find("End of the Project Gutenberg")
+text = text[start:end]
+# Basic cleaning
+text = re.sub(r'\n+', '\n', text)
+text = text.lower()
+with open("clean_text.txt", "w", encoding="utf-8") as f:
+    f.write(text)
+print("Cleaned text length:", len(text))
+from datasets import load_dataset
+dataset = load_dataset("text", data_files={"train": "clean_text.txt"})
+print(dataset)
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("gpt2")
+tokenizer.pad_token = tokenizer.eos_token
+def tokenize_function(examples):
+    return tokenizer(examples["text"], truncation=True, max_length=128, padding="max_length")
+tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=["text"])
+# Split the dataset into training and evaluation sets
+tokenized_dataset = tokenized_dataset["train"].train_test_split(test_size=0.1)
+train_dataset = tokenized_dataset["train"]
+eval_dataset = tokenized_dataset["test"]
+from transformers import AutoModelForCausalLM
+model = AutoModelForCausalLM.from_pretrained("gpt2")
+from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
+training_args = TrainingArguments(
+    output_dir="./results",
+    num_train_epochs=1,          # increase to 3 for better results
+    per_device_train_batch_size=2,
+    save_steps=500,
+    save_total_limit=2,
+    logging_steps=100,
+    fp16=True                   # GPU acceleration
+)
+data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+train_dataset.set_format("torch", columns=["input_ids", "attention_mask"])
+eval_dataset.set_format("torch", columns=["input_ids", "attention_mask"])
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=eval_dataset,
+    data_collator=data_collator,
+)
+# Verify the lengths of input_ids in the tokenized_dataset
+inconsistent_lengths = []
+expected_length = 128
+for i, example in enumerate(tokenized_dataset["train"]):
+    if len(example["input_ids"]) != expected_length:
+        inconsistent_lengths.append((i, len(example["input_ids"])))
+if inconsistent_lengths:
+    print(f"Found {len(inconsistent_lengths)} examples with inconsistent input_ids lengths:")
+    for idx, length in inconsistent_lengths[:10]: # Print first 10 inconsistent examples
+        print(f"  Example index {idx}: length {length}")
+else:
+    print(f"All input_ids in the training dataset have the expected length of {expected_length}.")
+# Also check for unexpected columns
+print("\nFeatures in tokenized_dataset['train']:")
+print(tokenized_dataset["train"].features)
+trainer.train()
+import torch
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+prompt = "alice was feeling"
+inputs = tokenizer(prompt, return_tensors="pt").to(device)
+output = model.generate(
+    **inputs,
+    max_length=100,
+    temperature=0.8,
+    top_k=50,
+    top_p=0.95,
+    do_sample=True
+)
+print(tokenizer.decode(output[0], skip_special_tokens=True))
+import math
+eval_results = trainer.evaluate()
+perplexity = math.exp(eval_results["eval_loss"])
+print("Perplexity:", perplexity)