Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 1, 2024

Commit

adba430

verified ·

1 Parent(s): 12b3267

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -75

app.py CHANGED Viewed

@@ -1,10 +1,12 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
 import PyPDF2
-client = InferenceClient(
-    "mistralai/Mixtral-8x7B-Instruct-v0.1"
-)
 def format_prompt(message, history):
     prompt = "<s>"
@@ -14,13 +16,29 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
-def generate(
-    prompt, history, system_prompt, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0, file=None
-):
-    temperature = float(temperature)
-    if temperature < 1e-2:
-        temperature = 1e-2
-    top_p = float(top_p)
     generate_kwargs = dict(
         temperature=temperature,
@@ -31,75 +49,28 @@ def generate(
         seed=42,
     )
-    if file:
-        text = extract_text_from_pdf(file)
-        prompt = text
-    formatted_prompt = format_prompt(f"{system_prompt}, {prompt}", history)
-    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-    output = ""
-    for response in stream:
-        output += response.token.text
-        yield output
-    return output
-def extract_text_from_pdf(file):
-    pdf_reader = PyPDF2.PdfReader(file)
-    text = ""
-    for page in range(len(pdf_reader.pages)):
-        text += pdf_reader.pages[page].extract_text()
-    return text
-additional_inputs=[
-    gr.Textbox(
-        label="System Prompt",
-        max_lines=1,
-        interactive=True,
-    ),
-    gr.Slider(
-        label="Temperature",
-        value=0.9,
-        minimum=0.0,
-        maximum=1.0,
-        step=0.05,
-        interactive=True,
-        info="Higher values produce more diverse outputs",
-    ),
-    gr.Slider(
-        label="Max new tokens",
-        value=256,
-        minimum=0,
-        maximum=5120,
-        step=64,
-        interactive=True,
-        info="The maximum numbers of new tokens",
-    ),
-    gr.Slider(
-        label="Top-p (nucleus sampling)",
-        value=0.90,
-        minimum=0.0,
-        maximum=1,
-        step=0.05,
-        interactive=True,
-        info="Higher values sample more low-probability tokens",
-    ),
-    gr.Slider(
-        label="Repetition penalty",
-        value=1.2,
-        minimum=1.0,
-        maximum=2.0,
-        step=0.05,
-        interactive=True,
-        info="Penalize repeated tokens",
-    ),
     gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]),
 ]
-gr.ChatInterface(
     fn=generate,
-    chatbot=gr.Chatbot(show_label=False, show_share_button=False, show_copy_button=True, likeable=True, layout="panel"),
     additional_inputs=additional_inputs,
-    title="Synthetic-data-generation-aze",
-    concurrency_limit=20,
-).launch(show_api=False)

 from huggingface_hub import InferenceClient
 import gradio as gr
 import PyPDF2
+import random
+import pandas as pd
+from io import StringIO
+# Initialize the inference client with your chosen model
+client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
 def format_prompt(message, history):
     prompt = "<s>"
     prompt += f"[INST] {message} [/INST]"
     return prompt
+def extract_text_from_pdf(file):
+    pdf_reader = PyPDF2.PdfReader(file)
+    text = ""
+    for page in range(len(pdf_reader.pages)):
+        text += pdf_reader.pages[page].extract_text()
+    return text
+def generate_synthetic_data(sentences, generate_kwargs):
+    synthetic_data = []
+    for sentence in sentences:
+        formatted_prompt = format_prompt(sentence, [])
+        stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
+        output = ""
+        for response in stream:
+            output += response.token.text
+        synthetic_data.append(output)
+    return synthetic_data
+def generate(file, system_prompt, temperature, max_new_tokens, top_p, repetition_penalty):
+    # Extract text and split into sentences
+    text = extract_text_from_pdf(file)
+    sentences = text.split('.')
+    random.shuffle(sentences)  # Shuffle sentences
     generate_kwargs = dict(
         temperature=temperature,
         seed=42,
     )
+    synthetic_data = generate_synthetic_data(sentences, generate_kwargs)
+    # Convert synthetic data to CSV
+    df = pd.DataFrame(synthetic_data, columns=["Synthetic Data"])
+    csv_buffer = StringIO()
+    df.to_csv(csv_buffer, index=False)
+    return gr.File(value=csv_buffer.getvalue(), file_name="synthetic_data.csv")
+additional_inputs = [
+    gr.Slider(label="Temperature", value=0.9, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Higher values produce more diverse outputs"),
+    gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
+    gr.Slider(label="Top-p (nucleus sampling)", value=0.90, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),
+    gr.Slider(label="Repetition penalty", value=1.2, minimum=1.0, maximum=2.0, step=0.05, interactive=True, info="Penalize repeated tokens"),
     gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]),
 ]
+gr.Interface(
     fn=generate,
+    inputs=[gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]), "state", "number", "number", "number", "number"],
+    outputs="file",
     additional_inputs=additional_inputs,
+    title="Synthetic Data Generation",
+    description="This tool generates synthetic data from the sentences in your PDF.",
+    allow_flagging="never",
+).launch()