Spaces:

Bonosa2
/

notes

Sleeping

App Files Files Community

Bonosa2 commited on Jul 26, 2025

Commit

761fe09

verified ·

1 Parent(s): 15efba0

Create app.py

Browse files

Files changed (1) hide show

app.py +90 -0

app.py ADDED Viewed

	@@ -0,0 +1,90 @@

+import os
+import torch
+import pandas as pd
+import easyocr
+import gradio as gr
+from transformers import (
+    AutoConfig,
+    AutoProcessor,
+    AutoTokenizer,
+    AutoModelForImageTextToText
+)
+MODEL_ID = "google/gemma-3n-e2b-it"
+HF_TOKEN = os.environ.get("HF_TOKEN")  # set via Space secrets
+# 1) Load the model and OCR reader
+config    = AutoConfig.from_pretrained(MODEL_ID, trust_remote_code=True, use_auth_token=HF_TOKEN)
+processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True, use_auth_token=HF_TOKEN)
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True, use_auth_token=HF_TOKEN)
+model     = AutoModelForImageTextToText.from_pretrained(
+    MODEL_ID,
+    config=config,
+    trust_remote_code=True,
+    use_auth_token=HF_TOKEN,
+    load_in_8bit=True,
+    device_map="auto"
+)
+device = next(model.parameters()).device
+ocr_reader = easyocr.Reader(['en'], gpu=torch.cuda.is_available(), verbose=False)
+def generate_soap_note(text: str) -> str:
+    prompt = f"""You are a medical AI assistant. Convert these notes into a SOAP note:
+{text}
+Format as:
+S - SUBJECTIVE:
+O - OBJECTIVE:
+A - ASSESSMENT:
+P - PLAN:
+Produce the complete SOAP."""
+    inputs = processor.apply_chat_template(
+        [
+            {"role":"system","content":[{"type":"text","text":"Expert medical AI assistant."}]},
+            {"role":"user",  "content":[{"type":"text","text":prompt}]}
+        ],
+        add_generation_prompt=True,
+        tokenize=True,
+        return_dict=True,
+        return_tensors="pt"
+    ).to(device)
+    input_len = inputs["input_ids"].shape[-1]
+    with torch.no_grad():
+        out = model.generate(
+            **inputs,
+            max_new_tokens=400,
+            do_sample=True,
+            top_p=0.95,
+            temperature=0.1,
+            pad_token_id=processor.tokenizer.eos_token_id,
+            disable_compile=True
+        )
+    return processor.batch_decode(out[:, input_len:], skip_special_tokens=True)[0].strip()
+# 2) On startup: generate 100 synthetic note pairs and save TSVs
+docs, soaps = [], []
+for i in range(1, 101):
+    doc = generate_soap_note("Generate a realistic, concise doctor's progress note for a single patient encounter.")
+    docs.append(doc)
+    soaps.append(generate_soap_note(doc))
+    if i % 10 == 0:
+        print(f"Generated {i}/100")
+pd.DataFrame({"doc_note": docs}).to_csv("doc_notes.tsv", sep="\t", index=False)
+pd.DataFrame({"soap_note": soaps}).to_csv("ground_truth_soap.tsv", sep="\t", index=False)
+print("✅ Saved doc_notes.tsv & ground_truth_soap.tsv")
+# 3) Blank Gradio UI placeholder
+def noop():
+    return "Data generated — check TSV files in the repo."
+with gr.Blocks() as demo:
+    gr.Markdown("# SOAP Generator Space")
+    gr.Button("Generate Completed (see logs)").click(noop, [], "output")
+    gr.Textbox(label="Status", interactive=False, lines=2, placeholder="Ready", elem_id="output")
+if __name__ == "__main__":
+    demo.queue().launch(server_name="0.0.0.0", server_port=7860)