Spaces:

MLCraftsman
/

TextGeneration

Runtime error

App Files Files Community

Upload 3 files

by MLCraftsman - opened Feb 10

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+238

-0

Files changed (3) hide show

Untitled-1.py +0 -0
app.py +99 -0
untitled9.py +139 -0

Untitled-1.py ADDED Viewed

File without changes

app.py ADDED Viewed

	@@ -0,0 +1,99 @@

+import streamlit as st
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Page Config
+st.set_page_config(
+page_title="AI Text Generator",
+page_icon="🤖",
+layout="wide"
+)
+# Sidebar
+st.sidebar.title("⚙️ Settings")
+model_path = st.sidebar.text_input(
+"Model Path",
+value="gpt2"   # change to ./results if fine-tuned
+)
+max_length = st.sidebar.slider("Max Length", 50, 500, 150)
+temperature = st.sidebar.slider("Temperature (Creativity)", 0.5, 1.5, 0.8)
+top_k = st.sidebar.slider("Top-K", 10, 100, 50)
+top_p = st.sidebar.slider("Top-P", 0.5, 1.0, 0.95)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+st.sidebar.write(f"Device: **{device.upper()}**")
+# Title
+st.title("🤖 Professional AI Text Generator")
+st.markdown("Generate creative and grammatically correct text using a GPT-based model.")
+# Load Model (cached)
+@st.cache_resource
+def load_model(path):
+tokenizer = AutoTokenizer.from_pretrained(path)
+tokenizer.pad_token = tokenizer.eos_token
+model = AutoModelForCausalLM.from_pretrained(path)
+model.to(device)
+model.eval()
+return tokenizer, model
+tokenizer, model = load_model(model_path)
+# Input Area
+col1, col2 = st.columns([2, 1])
+with col1:
+prompt = st.text_area(
+"Enter your prompt:",
+height=200,
+placeholder="Example: Alice was walking through the forest when..."
+)
+with col2:
+st.info("Tips:\n- Higher temperature = more creative\n- Lower temperature = more accurate\n- Use your fine-tuned model for best results")
+# Generate Button
+if st.button("✨ Generate Text", use_container_width=True):
+if prompt.strip() == "":
+st.warning("Please enter a prompt.")
+else:
+with st.spinner("Generating..."):
+inputs = tokenizer(prompt, return_tensors="pt").to(device)
+```
+        output = model.generate(
+            **inputs,
+            max_length=max_length,
+            temperature=temperature,
+            top_k=top_k,
+            top_p=top_p,
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id
+        )
+        generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
+    st.subheader("Generated Output")
+    st.write(generated_text)
+    # Download option
+    st.download_button(
+        label="📥 Download Text",
+        data=generated_text,
+        file_name="generated_text.txt",
+        mime="text/plain"
+    )
+```
+# Footer
+st.markdown("---")
+st.markdown("Built with ❤️ using Streamlit + Transformers")

untitled9.py ADDED Viewed

	@@ -0,0 +1,139 @@

+# -*- coding: utf-8 -*-
+"""Untitled9.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1foYg-5deMEmFrMZhgelziyR_ei_gEDrG
+"""
+import torch
+print("GPU Available:", torch.cuda.is_available())
+print("Device:", torch.device("cuda" if torch.cuda.is_available() else "cpu"))
+!pip install transformers datasets nltk -q
+from datasets import load_dataset
+ds = load_dataset("Dwaraka/Testing_Dataset_of_Project_Gutebberg_Gothic_Fiction")
+with open("dataset.txt", "w", encoding="utf-8") as f:
+    f.write(text)
+import re
+with open("dataset.txt", "r", encoding="utf-8") as f:
+    text = f.read()
+# Remove Gutenberg header/footer
+start = text.find("CHAPTER I")
+end = text.find("End of the Project Gutenberg")
+text = text[start:end]
+# Basic cleaning
+text = re.sub(r'\n+', '\n', text)
+text = text.lower()
+with open("clean_text.txt", "w", encoding="utf-8") as f:
+    f.write(text)
+print("Cleaned text length:", len(text))
+from datasets import load_dataset
+dataset = load_dataset("text", data_files={"train": "clean_text.txt"})
+print(dataset)
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("gpt2")
+tokenizer.pad_token = tokenizer.eos_token
+def tokenize_function(examples):
+    return tokenizer(examples["text"], truncation=True, max_length=128, padding="max_length")
+tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=["text"])
+# Split the dataset into training and evaluation sets
+tokenized_dataset = tokenized_dataset["train"].train_test_split(test_size=0.1)
+train_dataset = tokenized_dataset["train"]
+eval_dataset = tokenized_dataset["test"]
+from transformers import AutoModelForCausalLM
+model = AutoModelForCausalLM.from_pretrained("gpt2")
+from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
+training_args = TrainingArguments(
+    output_dir="./results",
+    num_train_epochs=1,          # increase to 3 for better results
+    per_device_train_batch_size=2,
+    save_steps=500,
+    save_total_limit=2,
+    logging_steps=100,
+    fp16=True                   # GPU acceleration
+)
+data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+train_dataset.set_format("torch", columns=["input_ids", "attention_mask"])
+eval_dataset.set_format("torch", columns=["input_ids", "attention_mask"])
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=eval_dataset,
+    data_collator=data_collator,
+)
+# Verify the lengths of input_ids in the tokenized_dataset
+inconsistent_lengths = []
+expected_length = 128
+for i, example in enumerate(tokenized_dataset["train"]):
+    if len(example["input_ids"]) != expected_length:
+        inconsistent_lengths.append((i, len(example["input_ids"])))
+if inconsistent_lengths:
+    print(f"Found {len(inconsistent_lengths)} examples with inconsistent input_ids lengths:")
+    for idx, length in inconsistent_lengths[:10]: # Print first 10 inconsistent examples
+        print(f"  Example index {idx}: length {length}")
+else:
+    print(f"All input_ids in the training dataset have the expected length of {expected_length}.")
+# Also check for unexpected columns
+print("\nFeatures in tokenized_dataset['train']:")
+print(tokenized_dataset["train"].features)
+trainer.train()
+import torch
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+prompt = "alice was feeling"
+inputs = tokenizer(prompt, return_tensors="pt").to(device)
+output = model.generate(
+    **inputs,
+    max_length=100,
+    temperature=0.8,
+    top_k=50,
+    top_p=0.95,
+    do_sample=True
+)
+print(tokenizer.decode(output[0], skip_special_tokens=True))
+import math
+eval_results = trainer.evaluate()
+perplexity = math.exp(eval_results["eval_loss"])
+print("Perplexity:", perplexity)