Spaces:

twinkle-ai
/

data-contribute

Sleeping

App Files Files Community

lianghsun commited on Nov 17, 2025

Commit

6121bfa

1 Parent(s): 760a2df

Update app.py

Browse files

Files changed (1) hide show

app.py +143 -72

app.py CHANGED Viewed

@@ -33,61 +33,58 @@ uploaded_at = datetime.now(tz_utc8).isoformat()
 tab_jsonl, tab_pdf = st.tabs(["對話資料 (.jsonl)", "預訓練 PDF"])
 # ---------- Tab 1: JSONL ----------
 with tab_jsonl:
     st.subheader("上傳對話資料")
-    sample_prompt = """你現在是一個資料標註助手，請幫我產生一組適合用來微調聊天模型的對話資料，輸出格式必須是 `.jsonl`。
 格式要求：
 - 每一行是一個獨立的 JSON 物件。
-- 每個 JSON 物件必須包含一個 `messages` 欄位。
-- `messages` 是一個陣列，元素為依照 OpenAI Chat API 格式的訊息物件：
-  - `{"role": "system" | "user" | "assistant", "content": "文字內容"}`
-- `content` 一律使用純文字字串（不要使用多段 content / 不要使用 function_call）。
-- 不要輸出程式碼區塊標記 ```，只輸出純文字內容。
 - 不要在檔案中加入註解或說明文字，每一行只能是 JSON。
 範例（僅供格式參考）：
-{"messages": [
   {"role": "system", "content": "你是一個友善的客服人員。"},
   {"role": "user", "content": "請問我要如何申請退貨？"},
-  {"role": "assistant", "content": "您好，若您要申請退貨，請先登入會員中心，在「訂單管理」中選擇欲退貨的訂單，點選「申請退貨」，依指示填寫原因並送出。"}
-]}
-{"messages": [
-  {"role": "system", "content": "你是一個勞動法規諮詢助手。"},
-  {"role": "user", "content": "加班費要怎麼算？"},
-  {"role": "assistant", "content": "依據勞動基準法第24條，加班工資應依平日或休息日的不同，分別以正常工資的一又三分之一、二又三分之一等倍數計算。實務上請再確認公司內部規章。"}
-]}
-請依照以上規格輸出多行 `.jsonl` 對話資料。"""
     st.markdown("##### 請將以下的 prompt 貼到你的對話生成模型中，產生符合格式的對話資料：")
     st.code(sample_prompt, language="markdown")
-    jsonl_file = st.file_uploader(
-        "上傳對話資料 `.jsonl` 檔",
-        type=["jsonl"],
-        accept_multiple_files=False
     )
-    jsonl_valid = False
-    parsed_lines = []
-    if jsonl_file is not None:
-        st.markdown("#### 檔案檢查結果")
-        content = jsonl_file.read().decode("utf-8")
-        f = StringIO(content)
         errors = []
         allowed_roles = {"system", "user", "assistant"}
-        for idx, line in enumerate(f, start=1):
             line = line.strip()
             if not line:
                 continue
             try:
                 obj = json.loads(line)
             except json.JSONDecodeError as e:
@@ -109,54 +106,128 @@ with tab_jsonl:
                 if not isinstance(msg_content, str):
                     errors.append(f"第 {idx} 行第 {m_idx+1} 則 content 需為字串。")
-            parsed_lines.append(obj)
-        if errors:
-            st.error("格式檢查失敗，請修正後重新上傳：")
-            for e in errors[:20]:
-                st.write("- " + e)
-            if len(errors) > 20:
-                st.write(f"... 還有 {len(errors) - 20} 筆錯誤未顯示")
-        else:
-            jsonl_valid = True
-            st.success(f"檢查通過！共 {len(parsed_lines)} 筆對話。")
-            st.markdown("#### 範例預覽（前 2 筆）")
-            for i, obj in enumerate(parsed_lines[:2], start=1):
-                st.json(obj)
-    # 上傳按鈕：會在送出前幫每一筆加上 metadata
-    if st.button("上傳對話資料", disabled=not (jsonl_file and jsonl_valid or BACKEND_URL is None)):
-        if BACKEND_URL is None:
-            st.warning("尚未設定 BACKEND_URL，無法實際送出，請在 `st.secrets` 中配置。")
-        else:
-            with st.spinner("正在上傳對話資料並檢查，請稍候…"):
-                # 準備 metadata（會附加在每一行 JSON 物件上）
-                meta = {
-                    "uploaded_at": uploaded_at,  # UTC+8 ISO 字串
-                    "contributor_email": contributor_email if contributor_email.strip() else None,
-                    "share_permission": bool(share_permission),
-                }
-                # 重新組一份帶 metadata 的 jsonl 內容
-                enriched_lines = []
-                for obj in parsed_lines:
-                    obj_with_meta = {
-                        **obj,
-                        "metadata": meta,
                     }
-                    enriched_lines.append(json.dumps(obj_with_meta, ensure_ascii=False))
-                payload = "\n".join(enriched_lines).encode("utf-8")
-                files = {"file": ("contrib.jsonl", payload, "application/jsonl")}
-                try:
-                    resp = requests.post(f"{BACKEND_URL}/upload-jsonl", files=files)
-                    if resp.ok:
-                        st.success("已成功送交後端伺服器，等待後端進一步檢查與處理。")
-                    else:
-                        st.error(f"後端回傳錯誤：{resp.status_code} {resp.text}")
-                except Exception as e:
-                    st.error(f"送出時發生錯誤：{e}")
 # ---------- Tab 2: PDF ----------

 tab_jsonl, tab_pdf = st.tabs(["對話資料 (.jsonl)", "預訓練 PDF"])
+# ---------- Tab 1: JSONL ----------
 # ---------- Tab 1: JSONL ----------
 with tab_jsonl:
     st.subheader("上傳對話資料")
+    sample_prompt = """
+    請將我們上述對話的內容（但不包含本問題），整理成 OpenAI Messages Format，輸出格式必須是 .jsonl。
 格式要求：
 - 每一行是一個獨立的 JSON 物件。
+- 每個 JSON 物件必須包含一個 messages 欄位。
 - 不要在檔案中加入註解或說明文字，每一行只能是 JSON。
 範例（僅供格式參考）：
+[{"messages": [
   {"role": "system", "content": "你是一個友善的客服人員。"},
   {"role": "user", "content": "請問我要如何申請退貨？"},
+  {"role": "assistant", "content": "您好，若您要申請退貨，請先登入會員中心，在「訂單管理」中選擇欲退貨的訂單，點選「申請退貨」，依指示填寫原因並送出。"},  {"role": "user", "content": "..."},
+  {"role": "assistant", "content": "..."},]
+請依照以上規格輸出一筆 .jsonl 對話資料（保持為一列，好讓我可以方便貼上），並用 markdown 表示。
+    """
     st.markdown("##### 請將以下的 prompt 貼到你的對話生成模型中，產生符合格式的對話資料：")
     st.code(sample_prompt, language="markdown")
+    st.markdown("#### 選擇輸入方式")
+    input_mode = st.radio(
+        "選擇要如何提供 `.jsonl` 內容",
+        ["上傳檔案", "貼上文字"],
+        horizontal=True,
     )
+    # 共用的檢查函式：給「檔案模式」和「貼上模式」共用
+    def validate_jsonl_lines(lines):
+        """lines: list[str] (每一行一個 JSON) → 回傳 (parsed_objs, errors)"""
+        parsed = []
         errors = []
         allowed_roles = {"system", "user", "assistant"}
+        for idx, line in enumerate(lines, start=1):
             line = line.strip()
             if not line:
                 continue
+            # 如果使用者是從 ChatGPT 貼出來的，有可能含 ``` 之類的標記，先跳過
+            if line.startswith("```") and line.endswith("```"):
+                continue
+            if line.startswith("```") or line == "```":
+                continue
             try:
                 obj = json.loads(line)
             except json.JSONDecodeError as e:
                 if not isinstance(msg_content, str):
                     errors.append(f"第 {idx} 行第 {m_idx+1} 則 content 需為字串。")
+            parsed.append(obj)
+        return parsed, errors
+    # ---------- 模式 A：上傳檔案 ----------
+    if input_mode == "上傳檔案":
+        jsonl_file = st.file_uploader(
+            "上傳對話資料 `.jsonl` 檔",
+            type=["jsonl"],
+            accept_multiple_files=False
+        )
+        file_jsonl_valid = False
+        file_parsed_lines = []
+        if jsonl_file is not None:
+            st.markdown("#### 檔案檢查結果")
+            content = jsonl_file.read().decode("utf-8")
+            lines = content.splitlines()
+            file_parsed_lines, errors = validate_jsonl_lines(lines)
+            if errors:
+                st.error("格式檢查失敗，請修正後重新上傳：")
+                for e in errors[:20]:
+                    st.write("- " + e)
+                if len(errors) > 20:
+                    st.write(f"... 還有 {len(errors) - 20} 筆錯誤未顯示")
+                st.info("若多次調整仍無法通過檢查，建議先在本地編輯好 `.jsonl` 檔，再重新上傳。")
+            else:
+                file_jsonl_valid = True
+                st.success(f"檢查通過！共 {len(file_parsed_lines)} 筆對話。")
+                st.markdown("#### 範例預覽（前 2 筆）")
+                for i, obj in enumerate(file_parsed_lines[:2], start=1):
+                    st.json(obj)
+        if st.button("上傳對話資料（檔案）", disabled=not (BACKEND_URL and file_jsonl_valid)):
+            if BACKEND_URL is None:
+                st.warning("尚未設定 BACKEND_URL，無法實際送出，請在 `st.secrets` 中配置。")
+            else:
+                with st.spinner("正在上傳對話資料並檢查，請稍候…"):
+                    meta = {
+                        "uploaded_at": uploaded_at,  # UTC+8 ISO 字串
+                        "contributor_email": contributor_email if contributor_email.strip() else None,
+                        "share_permission": bool(share_permission),
                     }
+                    enriched_lines = []
+                    for obj in file_parsed_lines:
+                        obj_with_meta = {**obj, "metadata": meta}
+                        enriched_lines.append(json.dumps(obj_with_meta, ensure_ascii=False))
+                    payload = "\n".join(enriched_lines).encode("utf-8")
+                    files = {"file": ("contrib.jsonl", payload, "application/jsonl")}
+                    try:
+                        resp = requests.post(f"{BACKEND_URL}/upload-jsonl", files=files)
+                        if resp.ok:
+                            st.success("已成功送交後端伺服器，等待後端進一步檢查與處理。")
+                        else:
+                            st.error(f"後端回傳錯誤：{resp.status_code} {resp.text}")
+                    except Exception as e:
+                        st.error(f"送出時發生錯誤：{e}")
+    # ---------- 模式 B：貼上文字 ----------
+    else:
+        st.markdown("請將 `.jsonl` 內容貼在下方，每一行必須是一個 JSON 物件：")
+        pasted_text = st.text_area(
+            "貼上 `.jsonl` 內容",
+            placeholder='例如：\n{"messages": [...]}',
+            height=240,
+        )
+        pasted_jsonl_valid = False
+        pasted_parsed_lines = []
+        if pasted_text.strip():
+            st.markdown("#### 貼上內容檢查結果")
+            lines = pasted_text.splitlines()
+            pasted_parsed_lines, errors = validate_jsonl_lines(lines)
+            if errors:
+                st.error("格式檢查失敗，請依錯誤訊息調整貼上的內容：")
+                for e in errors[:20]:
+                    st.write("- " + e)
+                if len(errors) > 20:
+                    st.write(f"... 還有 {len(errors) - 20} 筆錯誤未顯示")
+                st.info("若多次調整仍無法通過檢查，建議先在本地編輯好 `.jsonl` 檔案，再使用「上傳檔案」模式上傳。")
+            else:
+                pasted_jsonl_valid = True
+                st.success(f"檢查通過！共 {len(pasted_parsed_lines)} 筆對話。")
+                st.markdown("#### 範例預覽（前 2 筆）")
+                for i, obj in enumerate(pasted_parsed_lines[:2], start=1):
+                    st.json(obj)
+        if st.button("上傳對話資料（貼上內容）", disabled=not (BACKEND_URL and pasted_jsonl_valid)):
+            if BACKEND_URL is None:
+                st.warning("尚未設定 BACKEND_URL，無法實際送出，請在 `st.secrets` 中配置。")
+            else:
+                with st.spinner("正在上傳貼上內容並檢查，請稍候…"):
+                    meta = {
+                        "uploaded_at": uploaded_at,  # UTC+8 ISO 字串
+                        "contributor_email": contributor_email if contributor_email.strip() else None,
+                        "share_permission": bool(share_permission),
+                    }
+                    enriched_lines = []
+                    for obj in pasted_parsed_lines:
+                        obj_with_meta = {**obj, "metadata": meta}
+                        enriched_lines.append(json.dumps(obj_with_meta, ensure_ascii=False))
+                    payload = "\n".join(enriched_lines).encode("utf-8")
+                    files = {"file": ("contrib_pasted.jsonl", payload, "application/jsonl")}
+                    try:
+                        resp = requests.post(f"{BACKEND_URL}/upload-jsonl", files=files)
+                        if resp.ok:
+                            st.success("已成功送交後端伺服器，等待後端進一步檢查與處理。")
+                        else:
+                            st.error(f"後端回傳錯誤：{resp.status_code} {resp.text}")
+                    except Exception as e:
+                        st.error(f"送出時發生錯誤：{e}")
 # ---------- Tab 2: PDF ----------