Spaces:

rubentsui
/

TTBook

Sleeping

App Files Files Community

Ruben Tsui commited on 6 days ago

Commit

c278a4b

1 Parent(s): 7476873

Fix mangled markdown grid tables

Browse files

Files changed (4) hide show

fix_other_tables.py +96 -0
fix_table.py +61 -0
src/index.qmd +51 -147
src/media/messed_up_regex_summary_table.png +3 -0

fix_other_tables.py ADDED Viewed

	@@ -0,0 +1,96 @@

+import re
+file_path = 'src/index.qmd'
+with open(file_path, 'r', encoding='utf-8') as f:
+    text = f.read()
+replacements = {
+    # Table 1: Opus
+    """+-----------------------------------------------------------------------+
+| Opus Corpus 首頁                                                      |
+|                                                                       |
+| ![](media/image5.png)                               |
++=======================================================================+
++-----------------------------------------------------------------------+""":
+    """::: {.callout-note appearance="minimal"}
+Opus Corpus 首頁
+![](media/image5.png)
+:::""",
+    # Table 2: Alice
+    """+-----------------------------------------------------------------------+
+| ![](media/AliceWonderland_search.png)                              |
+|                                                                       |
+| 輸入 down the rabbit 可以搜尋到2筆：目錄及第一章的標題。                    |
+|                                                                       |
+| ![](media/AliceWonderland_Ch01.png)                               |
++=======================================================================+
++-----------------------------------------------------------------------+""":
+    """::: {.callout-note appearance="minimal"}
+![](media/AliceWonderland_search.png)
+輸入 down the rabbit 可以搜尋到2筆：目錄及第一章的標題。
+![](media/AliceWonderland_Ch01.png)
+:::""",
+    # Table 3: Zed
+    """  ----------------------------------------------------------------------- ![](media/Zed_start_screen.png) -----------------------------------------------------------------------
+  -----------------------------------------------------------------------""":
+    "![](media/Zed_start_screen.png)",
+    # Table 4: Li Qingzhao
+    """  ----------------------------------------------------------------------- ![](media/Li_Qingzho.png) -----------------------------------------------------------------------
+  -----------------------------------------------------------------------""":
+    "![](media/Li_Qingzho.png)",
+    # Table 5: Regex search image
+    """+-----------------------------------------------------------------------+
+| 在搜尋方塊輸入：`\d+`(\\.`\d+`)?\\s?(km\|GB\|%)                         |
+|                                                                       |
+| ![](media/image3.png){width="5.854166666666667in"   |
+| height="2.736111111111111in"}                                         |
++=======================================================================+
++-----------------------------------------------------------------------+""":
+    """::: {.callout-note appearance="minimal"}
+在搜尋方塊輸入：`\d+(\.\d+)?\s?(km|GB|%)`
+![](media/image3.png){width="5.854166666666667in" height="2.736111111111111in"}
+:::""",
+    # Table 6: Regex explanation
+    """+--------------+-------------------------------------------------------+
+| `\d`          | 數字(1或多個；代表整                                  |
+| +(\\.`\d+`)?\ | 數部分），後面有「可有可無」的小數點及1或多個數字」\  |
+| \\s?\        | 空格「可有可無」\                                     |
+| (km\|GB\|%)  | 3選1: km 或 GB 或 %                                   |
+|              |                                                       |
+| 解釋以上要出 |                                                       |
+| 現在同一行:  |                                                       |
+| 分 3 rows    |                                                       |
++==============+=======================================================+
++--------------+-------------------------------------------------------+""":
+    """
+| Regex 部分 | 解釋 |
+| :--- | :--- |
+| `\d+` | 數字（1或多個；代表整數部分） |
+| `(\.\d+)?` | 後面有「可有可無」的小數點及1或多個數字 |
+| `\s?` | 空格「可有可無」 |
+| `(km|GB|%)` | 3選1：km 或 GB 或 % |
+""",
+    # Table 7: Throw under the bus image
+    """  ----------------------------------------------------------------------- ![](media/image4.png){width="5.854166666666667in" height="2.2916666666666665in"} -----------------------------------------------------------------------""":
+    "![](media/image4.png){width=\"5.854166666666667in\" height=\"2.2916666666666665in\"}"
+}
+for old, new in replacements.items():
+    text = text.replace(old, new)
+with open(file_path, 'w', encoding='utf-8') as f:
+    f.write(text)

fix_table.py ADDED Viewed

	@@ -0,0 +1,61 @@

+import re
+file_path = 'src/index.qmd'
+with open(file_path, 'r', encoding='utf-8') as f:
+    text = f.read()
+# We need to find the section between "## 正規表示式摘要\n\n" and "\n\n例如，若欲找出文件中"
+start_marker = "## 正規表示式摘要"
+end_marker = "例如，若欲找出文件中"
+start_idx = text.find(start_marker)
+end_idx = text.find(end_marker)
+if start_idx != -1 and end_idx != -1:
+    before = text[:start_idx + len(start_marker)]
+    after = text[end_idx:]
+    clean_table = """
+| 字元 | 意義 / 用法 | 備註 |
+| :--- | :--- | :--- |
+| **字面意義的字元**<br>(literal characters) | 例如：`a` `b` `1` `2` `_` `"` `<` `>` | |
+| **特殊字元**<br>**metacharacters** | | |
+| `\\t` | **t**ab（定位字元） | |
+| `\\n` | **n**ewline（換行字元）；<br>Windows：`\\r\\n`（CR LF）<br>UNIX/Linux/macOS：`\\n`（LF） | |
+| `\\s` | white **s**pace（空白字元） | 包含空格（space）及 tab 等 |
+| `.`（*句點*） | 比對任意字元（`\\n` 除外） | |
+| **元字元**<br>（必須以 `\\` 跳脫才能進行文字比對） | | |
+| `\\` | 跳脫 (escape) 字元 | |
+| `|` | 替代（或） | |
+| `()` | 群組；`(?:)` 為非擷取群組 | |
+| `[]` | 字元類別；恰好比對一個字元 | 範例：比對任一英文母音字母 `[aeiou]` |
+| `{}` `*` `?` `+` | 量詞 | |
+| `^` `$` | 錨點（零寬度） | |
+| `?` | (1) 作為量詞時，作用於緊鄰其左方的一個字元、字元類別或群組；<br>(2) 作為非貪婪 non-greedy 或懶惰 lazy 指定符 | |
+| **錨點 anchor**<br>（零寬度：僅比對位置，不比對字元） | | |
+| `\\b` | 詞邊界 | 範例：空白字元（或標點符號）與文字字元之間的位置 |
+| `^` | 脫字符號：字串開頭 | |
+| `$` | 錢字符號：字串結尾 | |
+| **量詞 quantifier**<br>（作用於緊鄰其左方的一個字元、字元類別或群組） | | |
+| `*` | 零次或多次 | |
+| `+` | 一次或多次 | 亦即「至少出現一次」 |
+| `?` | 零次或一次 | 亦即「可有可無」 |
+| `{n}` | 恰好 *n* 次 | |
+| `{n,m}` | 至少 *n* 次，至多 *m* 次 | |
+| `{n,}` | 至少 *n* 次，無上限 | |
+| **字元類別** | 以 `[]` 括起的字元 ── 恰好比對一個字元 | |
+| **範圍** | `[a-z]` 比對任一英文小寫字母；<br>`\\p{Han}`（最完整的寫法）或 `[一-龥]` 或 `[\\u4E00-\\u9FFF]` 或 `[\\x{4E00}-\\x{9FFF}]`，共 20,992 個基本中文字元 | 起始字元的 Unicode 碼位必須較小；中日韓統一表意文字（CJK Unified Ideographs）涵蓋最常見的 CJK 字元；Zed 及 Calibre ebook-viewer 皆可接受；CudaText 使用最後一種格式處理一般 Unicode 範圍 |
+| **快捷寫法** | `^` 在 `[]` 中表示該類別的「相反」（也就是所有此類別以外的字元） | 範例：比對*任何*非英文母音的字元 `[^aeiou]` |
+| `\\d` | 數字，等同於 `[0-9]` | |
+| `\\w` | 「文字」字元；`\\d` 加上 `[a-zA-Z]` 加上 `_`（底線字元；underscore），對於非英文字母書寫的語言可能還包含更多字元 | `\\w` 的定義取決於特定的正規表示式引擎；部分引擎會納入中日韓字元及含附加符號的字元（如 é、ç、ü）；其他引擎則不會。 |
+| `\\D` `\\S` `\\W`<br>`\\P{Han}`<br>（相反集合） | 代表對應小寫字元類別之**否定**的字元類別 | `\\D`、`\\S`、`\\W`、`\\P{Han}` 分別為非數字、非空白、非文字及非中日韓字元 |
+"""
+    with open(file_path, 'w', encoding='utf-8') as f:
+        f.write(before + clean_table + after)
+    print("Table 1 fixed.")
+else:
+    print("Markers not found.")

src/index.qmd CHANGED Viewed

@@ -21,12 +21,11 @@ title: "第三章 從使用工具到建立資源：語料、檢索與雙語平
 在公開的平行語料資源中，OPUS 是很值得譯者認識的一個入口。OPUS 網站（Open Parallel Corpora, 公開平行語料庫，網址:https://opus.nlpl.eu）長年彙整各種可公開取得的平行語料與多語資料。截至 2026 年初，其官方首頁顯示已收錄超過一千個語料集、超過一千種語言，以及上千億級的句對。雖然這個數量本身不代表品質一定好，但至少說明了一件事：譯者若學會搜尋與篩選，其實可以接觸到遠比過去多的雙語材料，有助於擴大其翻譯的視野與能力。
-+-----------------------------------------------------------------------+
-| Opus Corpus 首頁                                                      |
-|                                                                       |
-| ![](media/image5.png)                               |
-+=======================================================================+
-+-----------------------------------------------------------------------+
 OPUS 的優點，不只是量大，也在於來源多樣。其收錄的語料包含字幕、技術文件、開源軟體在地化資料、政府與國際組織文件、新聞評論、教育內容等。這代表譯者不必只停留在「有沒有例句」的層次，而是可以進一步問：「這些例句來自哪種文本？」「是否符合我的領域需求？」「是否接近我要交付的文體？」例如在翻譯口語對話、影視字幕或遊戲文本時，字幕型語料可能比法律文件更有參考價值；反之，若在翻譯技術說明、使用者介面或開發者文件，像 Mozilla、MDN Web Docs 這類來源就可能比電影字幕有用。
@@ -52,7 +51,7 @@ OPUS 的優點，不只是量大，也在於來源多樣。其收錄的語料包
 對照查詢的核心價值，在於能把「語言單位」放回「語言環境」。譯者很少只翻一個詞，而是翻一個出現在特定句型中的詞。例如 account 不一定都是「帳號」；在會計文本裡可能是「帳戶」，在敘事語境裡可能是「敘述」、「說法」。若只查閱字典，很容易被高頻義項誤導；若觀察 concordance line，便能了解這個詞與哪些動詞、介系詞、修飾語反覆出現，進一步判斷這個詞在目前文本中的功能。
-這種檢索能力，不必依賴昂貴平台才能做到。傳統的「對照檢索軟體」（concordancer[^1]）可以勝任，很多日常工具也可以部分完成同樣的工作。以 Calibre 的 ebook-viewer 為例，這套工具原本是電子書閱讀器，卻很適合被譯者挪用為中小型語料檢索介面。官方文件指出，ebook-viewer 不只支援一般搜尋，也支援 whole words、nearby words 與 regex搜尋模式，並提供 Reference mode 方便定位段落，以及 highlight 與 annotation 功能協助做人工標記。若將整理好的雙語文件或單語參考資料做成 EPUB、或匯入為可閱讀文本，calibre 其實能成為相當順手的例句檢索工具。
 Calibre **Regex 工具使用方式**
@@ -71,14 +70,13 @@ Calibre 為一開源 （open source）電子書及文件格式轉換軟體，內
 Ctrl-F (Windows) 或 ⌘F (macOS)可進入搜尋。搜尋方塊下方的下拉式選單中可點選以 regex 搜尋。
-+-----------------------------------------------------------------------+
-| ![](media/AliceWonderland_search.png)                              |
-|                                                                       |
-| 輸入 down the rabbit 可以搜尋到2筆：目錄及第一章的標題。                    |
-|                                                                       |
-| ![](media/AliceWonderland_Ch01.png)                               |
-+=======================================================================+
-+-----------------------------------------------------------------------+
 同樣地，許多支援正規表示式搜尋的文字編輯器，也能扮��輕量 concordancer的角色。例如 VS Code、CudaText、Zed、Sublime Text等，都可以對單檔或整個資料夾做全文檢索。對譯者來說，這很有用，因為實務上的目的並非進行大型語言研究，而是要在一批已知資料裡快速找到某種形式的句子、標記或對應模式。若資料來自一套雙語網站、一批舊譯稿或特定客戶過去的中英對照文件，那麼文字編輯器加上 regex，通常便足以解決多數問題。
@@ -86,17 +84,13 @@ Regex 工具 (2)：Zed (開源文字編輯軟體；下載網址：[[https://zed.
 安裝完成後可以編輯純文字檔案 (.txt)。按下 Ctrl-F (Windows) 或 ⌘F (macOS) 顯示搜尋方塊，再按下 **.\*** 圖示進入 regex 搜尋模式。
-  ----------------------------------------------------------------------- ![](media/Zed_start_screen.png) -----------------------------------------------------------------------
-  -----------------------------------------------------------------------
 關鍵詞檢索、對照查詢與 regex 的關係可以如此理解：關鍵詞搜尋是找字串，concordancing 是看上下文，而regex 係將搜尋條件表達得更精準。當檢索需求從「找這個詞」變成「找所有帶有百分比與括號的句子」、「找所有未翻譯的英文字串」、「找所有第 X 條、第 X 項」，甚至是如「戚戚然」、「營營役役」的疊詞時，regex 就會變得非常有用。
-下載《李清照集》（[[https://www.degruyterbrill.com/document/doi/10.1515/9781501504518/html]{.underline}](https://www.degruyterbrill.com/document/doi/10.1515/9781501504518/html)）英譯 EPUB 檔，以 Calibre ebook-viewer 搜尋 regex: ``(\p{Han})\1(\p{Han})\2`` 可找到9筆AABB式疊詞：
-  ----------------------------------------------------------------------- ![](media/Li_Qingzho.png) -----------------------------------------------------------------------
-  -----------------------------------------------------------------------
 正規表示式本質上是一種在文本中尋找特定文字出現形式、次序或規律（pattern）的語言。正規表示式通常不是在找某一個固定詞（不過一定要如此也可以），而是在描述一類字串長什麼樣子。舉例來說，若欲尋找所有阿拉伯數字，可以用`\d+`；若欲尋找小數，可以用 `\d+`(?:\\.`\d+`)?；若欲尋找百分比，可以在後面再接 %。這種寫法看起來像程式語言，但其實只要抓住幾個核心符號，譯者就已經能處理很多工作。
@@ -104,129 +98,39 @@ Regex 工具 (2)：Zed (開源文字編輯軟體；下載網址：[[https://zed.
 ## 正規表示式摘要
-+-----------------+-----------------------------+---------------------+
-| 字元            |                             | 備註                |
-+=================+=============================+=====================+
-| **字            | 例如：a b 1 2 \_ \" \< \>   |                     |
-| 面意義的字元**  | 翻                          |                     |
-|                 |                             |                     |
-| (literal        |                             |                     |
-| characters)     |                             |                     |
-+-----------------+-----------------------------+---------------------+
-| **特殊字元      |                             |                     |
-|                |                             |                     |
-| metacharacters** |                             |                     |
-+-----------------+-----------------------------+---------------------+
-| `\t`             | **t**ab（定位字元）         |                     |
-+-----------------+-----------------------------+---------------------+
-| `\n`             | **n**ewline（換行字元）；\  |                     |
-|                 | Windows：`\r\n`（CR LF）    |                     |
-+-----------------+-----------------------------+---------------------+
-|                 | UNIX/Linux/macOS：\\n（LF） |                     |
-+-----------------+-----------------------------+---------------------+
-| `\s`             | white **s**pace（空白字元） | 包含空格（space）及 |
-|                 |                             | tab 等              |
-+-----------------+-----------------------------+---------------------+
-| .（*句點*）     | 比對任意字元（`\n` 除外）    |                     |
-+-----------------+-----------------------------+---------------------+
-| **元            |                             |                     |
-| 字元**（必須以  |                             |                     |
-| `\`              |                             |                     |
-| 跳脫才能        |                             |                     |
-| 進行文字比對）  |                             |                     |
-+-----------------+-----------------------------+---------------------+
-| `\`              | 跳脫 (espace) 字元          |                     |
-+-----------------+-----------------------------+---------------------+
-| `|`              | 替代（或）                  |                     |
-+-----------------+-----------------------------+---------------------+
-| `()`              | 群組；(?:) 為非擷取群組     |                     |
-+-----------------+-----------------------------+---------------------+
-| `[]`            | 字元類別；恰好比對一個字元  | 範例：比對任一英    |
-|                 |                             | 文母音字母\[aeiou\] |
-+-----------------+-----------------------------+---------------------+
-| `{}` `*` `?` `+`       | 量詞                        |                     |
-+-----------------+-----------------------------+---------------------+
-| `^` `$`           | 錨點（零寬度）              |                     |
-+-----------------+-----------------------------+---------------------+
-| ?               | \(1\)                       |                     |
-|                 | 作為                        |                     |
-|                 | 量詞時，作用於緊鄰其左方的  |                     |
-|                 | 一個字元、字元類別或群組；  |                     |
-|                 |                             |                     |
-|                 | \(2\) 作為非貪婪 non-greedy |                     |
-|                 | 或懶惰 lazy 指定符          |                     |
-+-----------------+-----------------------------+---------------------+
-| **錨點          |                             |                     |
-| anchor**（零寬  |                             |                     |
-| 度：僅比對位置  |                             |                     |
-| ，不比對字元）  |                             |                     |
-+-----------------+-----------------------------+---------------------+
-| `\b`             | 詞邊界                      | 範例：空白字        |
-|                 |                             | 元（或標點符號）與  |
-|                 |                             | 文字字元之間的位置  |
-+-----------------+-----------------------------+---------------------+
-| `^`             | 脫字符號：字串開頭          |                     |
-+-----------------+-----------------------------+---------------------+
-| `$`             | 錢字符號：字串結尾          |                     |
-+-----------------+-----------------------------+---------------------+
-| **量詞          |                             |                     |
-| q               |                             |                     |
-| uantifier**（作 |                             |                     |
-| 用於緊鄰其左方  |                             |                     |
-| 的一個字元、字  |                             |                     |
-| 元類別或群組）  |                             |                     |
-+-----------------+-----------------------------+---------------------+
-| `*`             | 零次或多次                  |                     |
-+-----------------+-----------------------------+---------------------+
-| `+`             | 一次或多次                  | 亦                  |
-|                 |                             | 即「至少出現一次」  |
-+-----------------+-----------------------------+---------------------+
-| ?               | 零次或一次                  | 亦即「可有可無」    |
-+-----------------+-----------------------------+---------------------+
-| {*n*}           | 恰好 *n* 次                 |                     |
-+-----------------+-----------------------------+---------------------+
-| {*n*,*m*}       | 至少 *n* 次，至多 *m* 次    |                     |
-+-----------------+-----------------------------+---------------------+
-| {*n*,}          | 至少 *n* 次，無上限         |                     |
-+-----------------+-----------------------------+---------------------+
-| **字元類別**    | 以 \[\] 括起的字元 ──       |                     |
-|                 | 恰好比對一個字元            |                     |
-+-----------------+-----------------------------+---------------------+
-| **範圍**        | \[a-z\]                     | 起始字元的 Unicode  |
-|                 | 比對任一英文小寫字母；      | 碼位必須較小；中日  |
-|                 |                             | 韓統一表意文字（CJK |
-|                 | `\p{Han}`（最完整的寫法）或  | Unified             |
-|                 | `[一-龥]` 或                | Ideog               |
-|                 | \[\\u4E00-\\u9FFF\] 或      | raphs）涵蓋最常見的 |
-|                 | \[\\x{4E00}-\\x{9FFF}\]，共 | CJK 字元；Zed 及    |
-|                 | 20,992 個基本中文字元       | Calibre             |
-|                 |                             | ebook-viewer        |
-|                 |                             | 皆可接受；CudaText  |
-|                 |                             | 使用最              |
-|                 |                             | 後一種格式處理一般  |
-|                 |                             | Unicode 範圍        |
-+-----------------+-----------------------------+---------------------+
-| **快捷寫法**    | \^ 在 \[\]                  | 範例：比對*任       |
-|                 | 中表示該類別的「相反」（也  | 何*非英文母音的字元 |
-|                 | 就是所有此類別以外的字元）  | `[^aeiou]`         |
-+-----------------+-----------------------------+---------------------+
-| `\d`             | 數字，等同於 \[0-9\]        |                     |
-+-----------------+-----------------------------+---------------------+
-| `\w`             | 「文字」字元；`\d` 加上      | `\w`                 |
-|                 | \[a-zA-Z\] 加上             | 的定義取            |
-|                 | \_（底線字元；und           | 決於特定的正規表示  |
-|                 | erscore），對於非英文字母書 | 式引擎；部分引擎會  |
-|                 | 寫的語言可能還包含更多字元  | 納入中日韓字元及含  |
-|                 |                             | 附加符號的字元（如  |
-|                 |                             | é、ç、ü）           |
-|                 |                             | ；其他引擎則不會。  |
-+-----------------+-----------------------------+---------------------+
-| \\D \\S \\W     | 代表對應小寫字              | \\D、               |
-| \\P{Han}\       | 元類別之**否定**的字元類別  | \\S、\\W、\\P{Han}  |
-| （相反集合）    |                             | 分別為              |
-|                 |                             | 非數字、非空白、非  |
-|                 |                             | 文字及非中日韓字元  |
-+-----------------+-----------------------------+---------------------+
 例如，若欲找出文件中所有可能的變數或 placeholder，可以用\\{\[\^}\]+\\} 或 \\{\\{\[\^}\]+\\}\\}之類的模式。若欲找出所有數值加單位的表達，例如 5 km、3.5 GB、20%，可以寫成`\d+`(\\.`\d+`)?\\s?(km\|GB\|%)。若欲擷取英文術語後面緊接中文括號說明的寫法，例如Application Programming Interface（API） 或workspace（工作區），可以針對英文字串與全形括號組合設計模式。這些檢索方式之所以有用，是因為這些模式不是把文字當作一串字，而是把文字當成一種可辨識的形式。
@@ -287,7 +191,7 @@ Regex 工具 (2)：Zed (開源文字編輯軟體；下載網址：[[https://zed.
 ... **throwing** *you* under the bus.\ ... **throw** *me* under the bus!\ I **threw** *four people* under the bus for \$35,000, ... 等等
-  ----------------------------------------------------------------------- ![](media/image4.png){width="5.854166666666667in" height="2.2916666666666665in"} -----------------------------------------------------------------------
   -----------------------------------------------------------------------
@@ -435,7 +339,7 @@ Regex 工具 (2)：Zed (開源文字編輯軟體；下載網址：[[https://zed.
 自建資源若要變成長期資產，還需要定期除污。所謂除污，包括刪除版本過時內容、移除低品質OCR 句對、合併重複資料、標記已棄用用詞、區分不同客戶或品牌的 style guide，並避免把明顯不該重用的材料一路保留。例如短期促銷文案、活動slogan、一次性公告、錯誤頁訊息的舊版本，都可能在某個時點失去重用價值。若不定期整理，資料庫只會越來越大，卻越來越不可信。
-在這裡，Excel、TMX與其他格式之間其實不是互斥關係，而是不同層次的配合。很多譯者可以先用Excel 做整理與人工作業，等品質穩定後再匯出成 TMX 匯入CAT；同時又保留原始 HTML、TXT、EPUB 或 Markdown檔作為檢索層。這種多層結構雖然看起來麻煩，但長期而言反而最穩。因為這種分層做法尊重不同格式的用途：表格適合管理、純文字適合搜尋、TMX適合 CAT。
 若要把這件事具體化，可以把「從雙語網站到CAT」想成一條最小可行流程。第一步，挑選一組可信網站，先人工確認二十組中英文頁面是真正翻譯關係。第二步，保留原始HTML 或 PDF，另外抽出正文成為 raw_text。第三步，用 regex與人工檢查去掉導覽列、頁尾、重複標題與格式噪音。第四步，把每份文本依標題、段落、列表項切成較穩定的單位。第五步，再進入句子層對齊，並把可疑項標記為待驗證。第六步，把人工看過的一批高品質句對先放進Excel 或CSV，補齊來源、語區、領域與版本資訊。第七步，只有在這一批資料已經足夠乾淨時，才匯出成TMX 並導入 CAT工具。這條流程看起來保守，但優點在於每一層都能回頭修正，不會因為一次匯入就把污染擴散到整個工作環境。

 在公開的平行語料資源中，OPUS 是很值得譯者認識的一個入口。OPUS 網站（Open Parallel Corpora, 公開平行語料庫，網址:https://opus.nlpl.eu）長年彙整各種可公開取得的平行語料與多語資料。截至 2026 年初，其官方首頁顯示已收錄超過一千個語料集、超過一千種語言，以及上千億級的句對。雖然這個數量本身不代表品質一定好，但至少說明了一件事：譯者若學會搜尋與篩選，其實可以接觸到遠比過去多的雙語材料，有助於擴大其翻譯的視野與能力。
+::: {.callout-note appearance="minimal"}
+Opus Corpus 首頁
+![](media/image5.png)
+:::
 OPUS 的優點，不只是量大，也在於來源多樣。其收錄的語料包含字幕、技術文件、開源軟體在地化資料、政府與國際組織文件、新聞評論、教育內容等。這代表譯者不必只停留在「有沒有例句」的層次，而是可以進一步問：「這些例句來自哪種文本？」「是否符合我的領域需求？」「是否接近我要交付的文體？」例如在翻譯口語對話、影視字幕或遊戲文本時，字幕型語料可能比法律文件更有參考價值；反之，若在翻譯技術說明、使用者介面或開發者文件，像 Mozilla、MDN Web Docs 這類來源就可能比電影字幕有用。
 對照查詢的核心價值，在於能把「語言單位」放回「語言環境」。譯者很少只翻一個詞，而是翻一個出現在特定句型中的詞。例如 account 不一定都是「帳號」；在會計文本裡可能是「帳戶」，在敘事語境裡可能是「敘述」、「說法」。若只查閱字典，很容易被高頻義項誤導；若觀察 concordance line，便能了解這個詞與哪些動詞、介系詞、修飾語反覆出現，進一步判斷這個詞在目前文本中的功能。
+這種檢索能力，不必依賴昂貴平台才能做到。傳統的「對照檢索軟體」（concordancer[^1]）可以勝任，很多日常工具也可以部分完成同樣的工作。以 Calibre 的 ebook-viewer 為例，這套工具原本是電子書閱讀器，卻很適合被譯者挪用為中小型語料檢索介面。官方文件指出，ebook-viewer 不只支援一般搜尋，也支援 whole words、nearby words 與 regex搜尋模式，並提供 Reference mode 方便定位段落，以及 highlight 與 annotation 功能協助做人工標記。若將整理好的雙語文件或單語參考資料做成 ePub、或匯入為可閱讀文本，calibre 其實能成為相當順手的例句檢索工具。
 Calibre **Regex 工具使用方式**
 Ctrl-F (Windows) 或 ⌘F (macOS)可進入搜尋。搜尋方塊下方的下拉式選單中可點選以 regex 搜尋。
+::: {.callout-note appearance="minimal"}
+![](media/AliceWonderland_search.png)
+輸入 down the rabbit 可以搜尋到2筆：目錄及第一章的標題。
+![](media/AliceWonderland_Ch01.png)
+:::
 同樣地，許多支援正規表示式搜尋的文字編輯器，也能扮��輕量 concordancer的角色。例如 VS Code、CudaText、Zed、Sublime Text等，都可以對單檔或整個資料夾做全文檢索。對譯者來說，這很有用，因為實務上的目的並非進行大型語言研究，而是要在一批已知資料裡快速找到某種形式的句子、標記或對應模式。若資料來自一套雙語網站、一批舊譯稿或特定客戶過去的中英對照文件，那麼文字編輯器加上 regex，通常便足以解決多數問題。
 安裝完成後可以編輯純文字檔案 (.txt)。按下 Ctrl-F (Windows) 或 ⌘F (macOS) 顯示搜尋方塊，再按下 **.\*** 圖示進入 regex 搜尋模式。
+![](media/Zed_start_screen.png)
 關鍵詞檢索、對照查詢與 regex 的關係可以如此理解：關鍵詞搜尋是找字串，concordancing 是看上下文，而regex 係將搜尋條件表達得更精準。當檢索需求從「找這個詞」變成「找所有帶有百分比與括號的句子」、「找所有未翻譯的英文字串」、「找所有第 X 條、第 X 項」，甚至是如「戚戚然」、「營營役役」的疊詞時，regex 就會變得非常有用。
+下載《李清照集》（[[https://www.degruyterbrill.com/document/doi/10.1515/9781501504518/html]{.underline}](https://www.degruyterbrill.com/document/doi/10.1515/9781501504518/html)）英譯 ePub 檔，以 Calibre ebook-viewer 搜尋 regex: ``(\p{Han})\1(\p{Han})\2`` 可找到9筆AABB式疊詞：
+![](media/Li_Qingzho.png)
 正規表示式本質上是一種在文本中尋找特定文字出現形式、次序或規律（pattern）的語言。正規表示式通常不是在找某一個固定詞（不過一定要如此也可以），而是在描述一類字串長什麼樣子。舉例來說，若欲尋找所有阿拉伯數字，可以用`\d+`；若欲尋找小數，可以用 `\d+`(?:\\.`\d+`)?；若欲尋找百分比，可以在後面再接 %。這種寫法看起來像程式語言，但其實只要抓住幾個核心符號，譯者就已經能處理很多工作。
 ## 正規表示式摘要
+| 字元 | 意義 / 用法 | 備註 |
+| :--- | :--- | :--- |
+| **字面意義的字元**<br>(literal characters) | 例如：`a` `b` `1` `2` `_` `"` `<` `>` | |
+| **特殊字元**<br>**metacharacters** | | |
+| `\t` | **t**ab（定位字元） | |
+| `\n` | **n**ewline（換行字元）；<br>Windows：`\r\n`（CR LF）<br>UNIX/Linux/macOS：`\n`（LF） | |
+| `\s` | white **s**pace（空白字元） | 包含空格（space）及 tab 等 |
+| `.`（*句點*） | 比對任意字元（`\n` 除外） | |
+| **元字元**<br>（必須以 `\` 跳脫才能進行文字比對） | | |
+| `\` | 跳脫 (escape) 字元 | |
+| `|` | 替代（或） | |
+| `()` | 群組；`(?:)` 為非擷取群組 | |
+| `[]` | 字元類別；恰好比對一個字元 | 範例：比對任一英文母音字母 `[aeiou]` |
+| `{}` `*` `?` `+` | 量詞 | |
+| `^` `$` | 錨點（零寬度） | |
+| `?` | (1) 作為量詞時，作用於緊鄰其左方的一個字元、字元類別或群組；<br>(2) 作為非貪婪 non-greedy 或懶惰 lazy 指定符 | |
+| **錨點 anchor**<br>（零寬度：僅比對位置，不比對字元） | | |
+| `\b` | 詞邊界 | 範例：空白字元（或標點符號）與文字字元之間的位置 |
+| `^` | 脫字符號：字串開頭 | |
+| `$` | 錢字符號：字串結尾 | |
+| **量詞 quantifier**<br>（作用於緊鄰其左方的一個字元、字元類別或群組） | | |
+| `*` | 零次或多次 | |
+| `+` | 一次或多次 | 亦即「至少出現一次」 |
+| `?` | 零次或一次 | 亦即「可有可無」 |
+| `{n}` | 恰好 *n* 次 | |
+| `{n,m}` | 至少 *n* 次，至多 *m* 次 | |
+| `{n,}` | 至少 *n* 次，無上限 | |
+| **字元類別** | 以 `[]` 括起的字元 ── 恰好比對一個字元 | |
+| **範圍** | `[a-z]` 比對任一英文小寫字母；<br>`\p{Han}`（最完整的寫法）或 `[一-龥]` 或 `[\u4E00-\u9FFF]` 或 `[\x{4E00}-\x{9FFF}]`，共 20,992 個基本中文字元 | 起始字元的 Unicode 碼位必須較小；中日韓統一表意文字（CJK Unified Ideographs）涵蓋最常見的 CJK 字元；Zed 及 Calibre ebook-viewer 皆可接受；CudaText 使用最後一種格式處理一般 Unicode 範圍 |
+| **快捷寫法** | `^` 在 `[]` 中表示該類別的「相反」（也就是所有此類別以外的字元） | 範例：比對*任何*非英文母音的字元 `[^aeiou]` |
+| `\d` | 數字，等同於 `[0-9]` | |
+| `\w` | 「文字」字元；`\d` 加上 `[a-zA-Z]` 加上 `_`（底線字元；underscore），對於非英文字母書寫的語言可能還包含更多字元 | `\w` 的定義取決於特定的正規表示式引擎；部分引擎會納入中日韓字元及含附加符號的字元（如 é、ç、ü）；其他引擎則不會。 |
+| `\D` `\S` `\W`<br>`\P{Han}`<br>（相反集合） | 代表對應小寫字元類別之**否定**的字元類別 | `\D`、`\S`、`\W`、`\P{Han}` 分別為非數字、非空白、非文字及非中日韓字元 |
 例如，若欲找出文件中所有可能的變數或 placeholder，可以用\\{\[\^}\]+\\} 或 \\{\\{\[\^}\]+\\}\\}之類的模式。若欲找出所有數值加單位的表達，例如 5 km、3.5 GB、20%，可以寫成`\d+`(\\.`\d+`)?\\s?(km\|GB\|%)。若欲擷取英文術語後面緊接中文括號說明的寫法，例如Application Programming Interface（API） 或workspace（工作區），可以針對英文字串與全形括號組合設計模式。這些檢索方式之所以有用，是因為這些模式不是把文字當作一串字，而是把文字當成一種可辨識的形式。
 ... **throwing** *you* under the bus.\ ... **throw** *me* under the bus!\ I **threw** *four people* under the bus for \$35,000, ... 等等
+![](media/image4.png){width="5.854166666666667in" height="2.2916666666666665in"}
   -----------------------------------------------------------------------
 自建資源若要變成長期資產，還需要定期除污。所謂除污，包括刪除版本過時內容、移除低品質OCR 句對、合併重複資料、標記已棄用用詞、區分不同客戶或品牌的 style guide，並避免把明顯不該重用的材料一路保留。例如短期促銷文案、活動slogan、一次性公告、錯誤頁訊息的舊版本，都可能在某個時點失去重用價值。若不定期整理，資料庫只會越來越大，卻越來越不可信。
+在這裡，Excel、TMX與其他格式之間其實不是互斥關係，而是不同層次的配合。很多譯者可以先用Excel 做整理與人工作業，等品質穩定後再匯出成 TMX 匯入CAT；同時又保留原始 HTML、TXT、ePub 或 Markdown檔作為檢索層。這種多層結構雖然看起來麻煩，但長期而言反而最穩。因為這種分層做法尊重不同格式的用途：表格適合管理、純文字適合搜尋、TMX適合 CAT。
 若要把這件事具體化，可以把「從雙語網站到CAT」想成一條最小可行流程。第一步，挑選一組可信網站，先人工確認二十組中英文頁面是真正翻譯關係。第二步，保留原始HTML 或 PDF，另外抽出正文成為 raw_text。第三步，用 regex與人工檢查去掉導覽列、頁尾、重複標題與格式噪音。第四步，把每份文本依標題、段落、列表項切成較穩定的單位。第五步，再進入句子層對齊，並把可疑項標記為待驗證。第六步，把人工看過的一批高品質句對先放進Excel 或CSV，補齊來源、語區、領域與版本資訊。第七步，只有在這一批資料已經足夠乾淨時，才匯出成TMX 並導入 CAT工具。這條流程看起來保守，但優點在於每一層都能回頭修正，不會因為一次匯入就把污染擴散到整個工作環境。

src/media/messed_up_regex_summary_table.png ADDED Viewed

Git LFS Details

SHA256: 7d5214fd9fdb600b202eb55b690bd9125c547669c26305df98e964f2670bf843
Pointer size: 131 Bytes
Size of remote file: 207 kB