--- title: TranslationError Gradio emoji: 🌝 colorFrom: yellow colorTo: blue sdk: gradio sdk_version: 5.12.0 app_file: app.py pinned: false --- # 翻譯標記工具使用規則 ## 1. 介紹 - 本專案旨在透過人工評估,提升機器翻譯系統的效能。 - 此資料集欲使用一個全面的人工翻譯品質評估框架,根據不同的**錯誤類型、嚴重程度和分數**,提供了一個標準化的方式來衡量翻譯的品質 - **錯誤類型** : **`正確性`、`流暢度`、`專有名詞`、`風格`、`在地化`、`純正性`** ,每個類別都還有它的子類別。 - **嚴重程度** :分為兩個等級, 分別是 **`Minor`、`Major`** - **分數**:對機器翻譯的文本(「翻譯文本」欄位內容)進行評分。 - **評估流程:** 1. 我們會提供給您原文和多個機器翻譯系統產生的翻譯後的句子。 2. 您需要仔細閱讀原文和譯文,找出翻譯中的錯誤區間。 3. 對於每個錯誤區間,您需要標記其**錯誤類型**和**嚴重程度**。 4. 標記完所有錯誤區間以後,對每個翻譯文本的整體品質進行**評分** (0-100分,0分最差,100分最好)。 ---- ## 2. 評估設置細節 若機器翻譯的文本(「翻譯文本」欄位內容)無錯誤,則直接選擇按鈕【完全正確】,無需標註錯誤。 **⚠️請注意**:即使選擇了【完全正確】也只表示此句沒有任何可見錯誤,不代表譯文已達 100 分的通順水準,因此仍須進行評分,請勿直接跳過。 若翻譯句子中翻譯錯誤的太嚴重,無法識別出各個錯誤,則直接選擇按鈕【錯誤過多】,無需標註錯誤,但仍需評分。 - **錯誤區間 :** - 發現翻譯錯誤時,將錯誤部分標註到「錯誤區間」欄位。 - 將錯誤連接成最長的可能區間。 - 若中間有正確的翻譯,需分段標註,不可連續標記。 - **範例:** > **句子:私人滑雪場決定了條件,但沒有什麼能阻止滑雪者去那裡,因為該房產毗鄰貝克山-斯諾誇米國家森林的公共土地。** > 而你認為**決定了條件**與**該房產**均有語句不通順的問題,則你可以在「錯誤區間」欄位分別輸入**決定了條件**,選擇完錯誤類別與嚴重程度後,按下【保存並繼續標記當前資料】按鈕,再進行錯誤區間**該房產**的標註 - **錯誤類別 :** 子類別並非完全固定,標記者可以根據具體情況,在「其他子類別」進行調整或補充 - **正確性 : 翻譯是否準確地傳達了原文的意思** - 誤譯:錯譯或曲解,翻譯結果與原文的意思不符。 - 多譯:加入原文中不存在的內容。 - 漏譯:省略了原文中的重要資訊。 - **流暢度 : 翻譯是否自然流暢,符合目標語言(翻譯後的語言)的語法和習慣用法** - 文法:文法錯誤,譯文不符合目標語言的語法規則。 - 拼字:拼字錯誤,譯文中有錯別字或拼寫錯誤。 - 標點符號:標點符號錯誤或使用不當。 - 前後不一致:譯文內部或與上下文的表達不一致。例如:同一術語「car」在前後文翻譯為「汽車」與「車輛」。 - 語域:語氣不合適,譯文的語調不符合原文的正式或非正式風格。例如:原文為正式語氣,翻譯卻過於口語化。 - **專有名詞 : 翻譯中使用的術語(專業用語)是否準確、一致,並符合目標領域的慣例** - 使用不當:使用不正確的術語,未考慮專業領域慣例。例如:法律文本中的「contract」翻譯為「協議」而非「契約」。 - 不一致:術語翻譯不一致,影響專業性和連貫性。 - **風格 : 翻譯的風格是否恰當,是否符合讀者的期望** - 用字尷尬:表達不自然或拗口,影響可讀性。 - **在地化 : 翻譯是否考慮了目標文化的特定要求,例如日期、時間、貨幣、度量衡等** - 貨幣格式:貨幣格式是否正確。 - 時間格式:時間格式是否符合地區習慣。 - 姓名格式:姓名格式是否正確。 - 日期格式:日期格式是否正確。 - 地址格式:地址格式是否正確。 - **純正性 : 部分翻譯使用中文詞彙而非台語(致使台語純正度下降)** - 將「很方便」直接用華語,而未改成台語常用的「真方便」。 > 原文(華語):「用手機付款很方便。」, > 建議台語譯文:「用手機付款真方便。」 - **嚴重程度級別** 每個錯誤都會被分配一個嚴重程度級別,用於表示**錯誤對翻譯質量的影響程度**。嚴重程度級別分為兩級: - **嚴重 :** 實際翻譯錯誤或語法錯誤。 - **輕微 :** 較小的瑕疵。 - **整體評分** 在標記完所有錯誤範圍並設定嚴重程度後,標註者需要對整個翻譯段落給予一個0-6的整體評分。 評分標準大致如下: - 0:幾乎失去所有原文資訊,無法理解其意義,語法可忽略。 - 2:翻譯保留了原文部分意思,但漏失重要資訊,語意不清,語法可能也有錯。 - 4:大部分原文意思保留,僅有少量語法或脈絡錯誤。 - 6:意思完全正確,與原文一致且語法也無誤。