Spaces:

NghiTran1009
/

annotator-tool

Sleeping

App Files Files Community

NghiTran1009 commited on May 28, 2025

Commit

8f43a80

verified ·

1 Parent(s): 66ecfdf

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -17

app.py CHANGED Viewed

@@ -2,70 +2,63 @@ import streamlit as st
 import pandas as pd
 import joblib
 import io
-# Load mô hình CRF đã train
 @st.cache_resource
 def load_model():
     return joblib.load("chunking_crf_model.pkl")
 crf = load_model()
-# Hàm trích xuất feature
 def extract_features(sentence):
     return [{"word": token, "pos": pos} for token, pos in zip(sentence["Token"], sentence["POS"])]
 st.title("📝 Preprocessing tool")
-# Upload file
 uploaded_file = st.file_uploader("📤 Tải lên file CSV hoặc Excel chứa dữ liệu cần gán nhãn", type=["csv", "xlsx"])
 if uploaded_file:
-    # Kiểm tra định dạng file
     file_type = uploaded_file.name.split(".")[-1]
     try:
         if file_type == "csv":
             df_test = pd.read_csv(uploaded_file)
-        else:  # file_type == "xlsx"
-            df_test = pd.read_excel(uploaded_file, engine="openpyxl")  # Đọc Excel an toàn
-        # Kiểm tra nếu thiếu cột cần thiết
         required_columns = {"Sentence_ID", "Token", "POS"}
         if not required_columns.issubset(df_test.columns):
             st.error(f"⚠️ File phải chứa các cột: {', '.join(required_columns)}")
         else:
-            # Xóa cột Chunk nếu tồn tại
             if "Chunk" in df_test.columns:
                 df_test = df_test.drop(columns=["Chunk"])
-            # Nhóm theo câu
             sentences = [group.copy() for _, group in df_test.groupby("Sentence_ID")]
-            # Gán nhãn chunking
             all_sentences = []
             for sentence in sentences:
                 X_test = [extract_features(sentence)]
                 y_pred = crf.predict(X_test)[0]
-                sentence.loc[:, "Chunk"] = y_pred  # Gán nhãn an toàn
                 all_sentences.append(sentence)
-            # Ghép lại thành dataframe
             df_chunked = pd.concat(all_sentences)
-            # Tạo file CSV để tải xuống
             csv_buffer = io.StringIO()
             df_chunked.to_csv(csv_buffer, index=False, encoding="utf-8")
             csv_data = csv_buffer.getvalue()
-            # Tạo file Excel để tải xuống
             excel_buffer = io.BytesIO()
             with pd.ExcelWriter(excel_buffer, engine="openpyxl") as writer:
                 df_chunked.to_excel(writer, index=False, sheet_name="Chunked Data")
             excel_data = excel_buffer.getvalue()
-            # Hiển thị nút tải xuống
-            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (CSV)", csv_data, "chunked_data.csv", "text/csv")
-            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (Excel)", excel_data, "chunked_data.xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")
     except Exception as e:
         st.error(f"❌ Lỗi khi xử lý file: {e}")

 import pandas as pd
 import joblib
 import io
+import os
 @st.cache_resource
 def load_model():
     return joblib.load("chunking_crf_model.pkl")
 crf = load_model()
 def extract_features(sentence):
     return [{"word": token, "pos": pos} for token, pos in zip(sentence["Token"], sentence["POS"])]
 st.title("📝 Preprocessing tool")
 uploaded_file = st.file_uploader("📤 Tải lên file CSV hoặc Excel chứa dữ liệu cần gán nhãn", type=["csv", "xlsx"])
 if uploaded_file:
     file_type = uploaded_file.name.split(".")[-1]
     try:
         if file_type == "csv":
             df_test = pd.read_csv(uploaded_file)
+        else:
+            df_test = pd.read_excel(uploaded_file, engine="openpyxl")
         required_columns = {"Sentence_ID", "Token", "POS"}
         if not required_columns.issubset(df_test.columns):
             st.error(f"⚠️ File phải chứa các cột: {', '.join(required_columns)}")
         else:
             if "Chunk" in df_test.columns:
                 df_test = df_test.drop(columns=["Chunk"])
             sentences = [group.copy() for _, group in df_test.groupby("Sentence_ID")]
             all_sentences = []
             for sentence in sentences:
                 X_test = [extract_features(sentence)]
                 y_pred = crf.predict(X_test)[0]
+                sentence.loc[:, "Chunk"] = y_pred
                 all_sentences.append(sentence)
             df_chunked = pd.concat(all_sentences)
             csv_buffer = io.StringIO()
             df_chunked.to_csv(csv_buffer, index=False, encoding="utf-8")
             csv_data = csv_buffer.getvalue()
             excel_buffer = io.BytesIO()
             with pd.ExcelWriter(excel_buffer, engine="openpyxl") as writer:
                 df_chunked.to_excel(writer, index=False, sheet_name="Chunked Data")
             excel_data = excel_buffer.getvalue()
+            file_base_name = os.path.splitext(uploaded_file.name)[0]
+            csv_filename = f"{file_base_name}_chunked.csv"
+            excel_filename = f"{file_base_name}_chunked.xlsx"
+            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (CSV)", csv_data, csv_filename, "text/csv")
+            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (Excel)", excel_data, excel_filename, "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")
     except Exception as e:
         st.error(f"❌ Lỗi khi xử lý file: {e}")