Spaces:

Seanyoon
/

HackHPC

Runtime error

Seanyoon commited on Mar 4, 2023

Commit

2774ca7

1 Parent(s): 5d44f4d

Create app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,47 +1,38 @@
-import transformers
-import pandas as pd
 import streamlit as st
-from preprocess import preprocess_data
-def anonymize_text(text):
-    model_name = "distilbert-base-uncased"
-    tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
-    model = transformers.AutoModelForMaskedLM.from_pretrained(model_name)
-    input_ids = tokenizer.encode(text, return_tensors="pt")
-    mask_token_index = torch.where(input_ids == tokenizer.mask_token_id)[1]
-    token_logits = model(input_ids)[0]
-    mask_token_logits = token_logits[0, mask_token_index, :]
-    top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
-    anonymized_text = []
-    for token in top_5_tokens:
-        token = tokenizer.decode([token])
-        anonymized_text.append(token)
-    return anonymized_text
-def run_app():
-    st.title("Text Anonymization App")
-    # File upload
-    st.subheader("Upload your data")
-    file = st.file_uploader("Upload CSV", type=["csv"])
-    if file is not None:
-        # Read the file
-        data = pd.read_csv(file)
-        # Preprocess the data
-        preprocessed_data = preprocess_data(data)
-        # Column selection
-        st.subheader("Select columns to anonymize")
-        selected_columns = []
-        for col in preprocessed_data.columns:
-            if st.checkbox(col):
-                selected_columns.append(col)
-        #

 import streamlit as st
+import process
+import pandas as pd
+st.set_page_config(page_title="Data Anonymizer App")
+st.title("Data Anonymizer App")
+st.sidebar.title("Data Upload")
+uploaded_file = st.sidebar.file_uploader("Choose a CSV file", type="csv")
+if uploaded_file:
+    df = pd.read_csv(uploaded_file)
+    st.write("Original Data:")
+    st.write(df)
+    # process the data
+    processed_df, sensitive_cols = process.process_data(df)
+    # display processed data
+    st.write("Processed Data:")
+    st.write(processed_df)
+    # ask for sensitive columns removal
+    if sensitive_cols:
+        st.write(f"The following columns contain sensitive data: {', '.join(sensitive_cols)}")
+        if st.checkbox("Remove sensitive columns"):
+            processed_df.drop(columns=sensitive_cols, inplace=True)
+        else:
+            st.write("Sensitive columns will not be removed.")
+    # ask for k-anonymity
+    if st.checkbox("Apply k-anonymity"):
+        k = st.number_input("Enter the value of k", min_value=1)
+        processed_df = process.apply_k_anonymity(processed_df, k)
+    st.write("Final Processed Data:")
+    st.write(processed_df)