Spaces:

NghiTran1009
/

annotator-tool

Sleeping

App Files Files Community

NghiTran1009 commited on Mar 12, 2025

Commit

03ea370

verified ·

1 Parent(s): f2ec44a

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -8

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ def extract_features(sentence):
 df_test = pd.read_csv("vi-chunk-test.csv")
 # Nhóm dữ liệu theo câu
-sentences = [group.drop(columns=["Chunk"]) for _, group in df_test.groupby("Sentence_ID")]  # Xóa cột `Chunk`
 # Giao diện Annotator
 st.title("📝 Tool Annotator - Chỉnh sửa dữ liệu chunking")
@@ -33,7 +33,7 @@ y_pred = crf.predict(X_test)[0]
 # Thêm nhãn dự đoán vào dataframe
 sentence["Predicted_Chunk"] = y_pred
-sentence["Is_Correct"] = sentence["Predicted_Chunk"] == sentence["Predicted_Chunk"]  # Kiểm tra dự đoán
 # Highlight lỗi: Màu đỏ nếu `Predicted_Chunk` sai
 def highlight_errors(row):
@@ -45,13 +45,14 @@ num_wrong = len(sentence) - num_correct
 st.write(f"✅ **Số token đúng**: {num_correct} / {len(sentence)}")
 st.write(f"❌ **Số token sai**: {num_wrong}")
-# **🔹 Bảng hiển thị với highlight lỗi**
-st.write("🔹 **Câu gốc**")
-st.dataframe(sentence.style.apply(highlight_errors, axis=1))
 # **🔹 Annotator chỉnh sửa `Predicted_Chunk`**
 edited_df = st.data_editor(
-    sentence[["Token", "POS", "Predicted_Chunk"]],  # Chỉ hiển thị 3 cột
     num_rows="dynamic",  # Cho phép thêm hàng ở bất kỳ đâu
     key=f"edit_table_{sentence_id}"
 )
@@ -61,7 +62,8 @@ if os.path.exists("corrected_data.csv"):
     with open("corrected_data.csv", "rb") as file:
         st.download_button("📥 Tải xuống corrected_data.csv", file, "corrected_data.csv")
-# Lưu lại dữ liệu chỉnh sửa
 if st.button("Lưu chỉnh sửa"):
-    edited_df.to_csv("corrected_data.csv", index=False, encoding="utf-8")
     st.success("✅ Dữ liệu đã được lưu thành corrected_data.csv!")

 df_test = pd.read_csv("vi-chunk-test.csv")
 # Nhóm dữ liệu theo câu
+sentences = [group for _, group in df_test.groupby("Sentence_ID")]
 # Giao diện Annotator
 st.title("📝 Tool Annotator - Chỉnh sửa dữ liệu chunking")
 # Thêm nhãn dự đoán vào dataframe
 sentence["Predicted_Chunk"] = y_pred
+sentence["Is_Correct"] = sentence["Chunk"] == sentence["Predicted_Chunk"]  # Kiểm tra dự đoán
 # Highlight lỗi: Màu đỏ nếu `Predicted_Chunk` sai
 def highlight_errors(row):
 st.write(f"✅ **Số token đúng**: {num_correct} / {len(sentence)}")
 st.write(f"❌ **Số token sai**: {num_wrong}")
+# **🔹 Hiển thị bảng đầy đủ (bao gồm `Chunk` nhưng không hiển thị trong Annotator)**
+sentence_display = sentence.copy()
+st.write("🔹 **Câu gốc (Highlight lỗi màu đỏ)**")
+st.dataframe(sentence_display.style.apply(highlight_errors, axis=1))
 # **🔹 Annotator chỉnh sửa `Predicted_Chunk`**
 edited_df = st.data_editor(
+    sentence_display.drop(columns=["Chunk"]),  # Ẩn cột `Chunk`
     num_rows="dynamic",  # Cho phép thêm hàng ở bất kỳ đâu
     key=f"edit_table_{sentence_id}"
 )
     with open("corrected_data.csv", "rb") as file:
         st.download_button("📥 Tải xuống corrected_data.csv", file, "corrected_data.csv")
+# Lưu lại dữ liệu chỉnh sửa (bao gồm `Chunk`, nhưng không hiển thị)
 if st.button("Lưu chỉnh sửa"):
+    sentence_display.update(edited_df)  # Cập nhật lại dữ liệu chỉnh sửa
+    sentence_display.to_csv("corrected_data.csv", index=False, encoding="utf-8")
     st.success("✅ Dữ liệu đã được lưu thành corrected_data.csv!")