Spaces:

jbest2007
/

PersonalFinanceAssistant

Runtime error

John Best commited on Mar 16, 2023

Commit

37a267f

1 Parent(s): 65db162

First Draft

Files changed (8) hide show

About.MD ADDED Viewed

File without changes

app.py ADDED Viewed

+import streamlit as st
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Load the fine-tuned model
+model_name = "your_fine_tuned_model_directory"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+def generate_response(prompt):
+    inputs = tokenizer.encode(prompt, return_tensors="pt")
+    outputs = model.generate(inputs, max_length=150, num_return_sequences=1)
+    response = tokenizer.decode(outputs[0])
+    return response
+st.title("Fine-Tuned Personal Finance Assistant")
+prompt = st.text_input("Ask a question:")
+response = ""
+if st.button("Generate"):
+    response = generate_response(prompt)
+st.write(response)

data.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

finetune.py ADDED Viewed

+import torch
+from transformers import AutoModelForCausalLM, AutoConfig, AutoTokenizer, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments
+# Load the pre-trained model and its configuration
+config = AutoConfig.from_pretrained("togethercomputer/GPT-JT-6B-v1", output_hidden_states=True)
+model = AutoModelForCausalLM.from_pretrained("togethercomputer/GPT-JT-6B-v1", config=config)
+tokenizer = AutoTokenizer.from_pretrained("togethercomputer/GPT-JT-6B-v1")
+# Prepare the dataset
+train_dataset = TextDataset(
+    tokenizer=tokenizer,
+    file_path="training_data.txt",
+    block_size=128
+)
+data_collator = DataCollatorForLanguageModeling(
+    tokenizer=tokenizer, mlm=False,
+)
+# Configure the training arguments
+training_args = TrainingArguments(
+    output_dir="models",
+    overwrite_output_dir=True,
+    num_train_epochs=3,
+    per_device_train_batch_size=4,
+    save_steps=10_000,
+    save_total_limit=2,
+)
+# Fine-tune the model
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    data_collator=data_collator,
+    train_dataset=train_dataset,
+)
+trainer.train()
+# Save the fine-tuned model
+model.save_pretrained("trained_model")
+tokenizer.save_pretrained("trained_tokenizer")

requirements.txt ADDED Viewed

+streamlit==1.20.0
+pandas==1.5.3
+transformers==4.27.1
+torch==2.0.0

run_all.py ADDED Viewed

+import os
+# Execute train.py
+os.system("python train.py")
+# Execute finetune.py
+os.system("python finetune.py")
+# Run the Streamlit app using app.py
+os.system("streamlit run app.py")

train.py ADDED Viewed

+import pandas as pd
+def preprocess_data(file_path):
+    df = pd.read_csv(file_path)
+    text_data = []
+    for index, row in df.iterrows():
+        text_data.append(f"Date: {row['Date']}\nDescription: {row['Description']}\nCheck Number: {row['Check Number']}\nAmount: {row['Amount']}\nBalance: {row['Balance']}\n\n")
+    with open("training_data.txt", "w") as f:
+        f.writelines(text_data)
+if __name__ == "__main__":
+    preprocess_data("data.csv")

training_data.txt ADDED Viewed

The diff for this file is too large to render. See raw diff