Spaces:

NghiTran1009
/

annotator-tool

Sleeping

App Files Files Community

NghiTran1009 commited on Mar 27, 2025

Commit

4ba1af3

verified ·

1 Parent(s): df65ee5

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -37

app.py CHANGED Viewed

@@ -23,40 +23,49 @@ if uploaded_file:
     # Kiểm tra định dạng file
     file_type = uploaded_file.name.split(".")[-1]
-    if file_type == "csv":
-        df_test = pd.read_csv(uploaded_file)
-    else:  # file_type == "xlsx"
-        df_test = pd.read_excel(uploaded_file)
-    # Xóa cột Chunk nếu tồn tại
-    if "Chunk" in df_test.columns:
-        df_test = df_test.drop(columns=["Chunk"])
-    # Nhóm theo câu
-    sentences = [group for _, group in df_test.groupby("Sentence_ID")]
-    # Gán nhãn chunking
-    all_sentences = []
-    for sentence in sentences:
-        X_test = [extract_features(sentence)]
-        y_pred = crf.predict(X_test)[0]
-        sentence["Chunk"] = y_pred  # Gán nhãn dự đoán
-        all_sentences.append(sentence)
-    # Ghép lại thành dataframe
-    df_chunked = pd.concat(all_sentences)
-    # Tạo file CSV để tải xuống
-    csv_buffer = io.StringIO()
-    df_chunked.to_csv(csv_buffer, index=False, encoding="utf-8")
-    csv_data = csv_buffer.getvalue()
-    # Tạo file Excel để tải xuống
-    excel_buffer = io.BytesIO()
-    with pd.ExcelWriter(excel_buffer, engine="xlsxwriter") as writer:
-        df_chunked.to_excel(writer, index=False, sheet_name="Chunked Data")
-    excel_data = excel_buffer.getvalue()
-    # Hiển thị nút tải xuống
-    st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (CSV)", csv_data, "chunked_data.csv", "text/csv")
-    st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (Excel)", excel_data, "chunked_data.xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")

     # Kiểm tra định dạng file
     file_type = uploaded_file.name.split(".")[-1]
+    try:
+        if file_type == "csv":
+            df_test = pd.read_csv(uploaded_file)
+        else:  # file_type == "xlsx"
+            df_test = pd.read_excel(uploaded_file, engine="openpyxl")  # Đọc Excel an toàn
+        # Kiểm tra nếu thiếu cột cần thiết
+        required_columns = {"Sentence_ID", "Token", "POS"}
+        if not required_columns.issubset(df_test.columns):
+            st.error(f"⚠️ File phải chứa các cột: {', '.join(required_columns)}")
+        else:
+            # Xóa cột Chunk nếu tồn tại
+            if "Chunk" in df_test.columns:
+                df_test = df_test.drop(columns=["Chunk"])
+            # Nhóm theo câu
+            sentences = [group.copy() for _, group in df_test.groupby("Sentence_ID")]
+            # Gán nhãn chunking
+            all_sentences = []
+            for sentence in sentences:
+                X_test = [extract_features(sentence)]
+                y_pred = crf.predict(X_test)[0]
+                sentence.loc[:, "Chunk"] = y_pred  # Gán nhãn an toàn
+                all_sentences.append(sentence)
+            # Ghép lại thành dataframe
+            df_chunked = pd.concat(all_sentences)
+            # Tạo file CSV để tải xuống
+            csv_buffer = io.StringIO()
+            df_chunked.to_csv(csv_buffer, index=False, encoding="utf-8")
+            csv_data = csv_buffer.getvalue()
+            # Tạo file Excel để tải xuống
+            excel_buffer = io.BytesIO()
+            with pd.ExcelWriter(excel_buffer, engine="openpyxl") as writer:
+                df_chunked.to_excel(writer, index=False, sheet_name="Chunked Data")
+            excel_data = excel_buffer.getvalue()
+            # Hiển thị nút tải xuống
+            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (CSV)", csv_data, "chunked_data.csv", "text/csv")
+            st.download_button("📥 Tải xuống dữ liệu đã gán nhãn (Excel)", excel_data, "chunked_data.xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")
+    except Exception as e:
+        st.error(f"❌ Lỗi khi xử lý file: {e}")