Spaces:
Sleeping
Sleeping
| # -*- coding: utf-8 -*- | |
| # ===================================================== | |
| # UNIFIED PATTERNS AND CONSTANTS | |
| # Module-level constants for better pickle compatibility | |
| # ===================================================== | |
| import re | |
| import os | |
| from bs4 import BeautifulSoup | |
| # Move all patterns to module level for ProcessPoolExecutor compatibility | |
| CHAPTER_PATTERNS = [ | |
| # English patterns | |
| (r'chapter[\s_-]*(\d+)', re.IGNORECASE, 'english_chapter'), | |
| (r'\bch\.?\s*(\d+)\b', re.IGNORECASE, 'english_ch'), | |
| (r'part[\s_-]*(\d+)', re.IGNORECASE, 'english_part'), | |
| (r'episode[\s_-]*(\d+)', re.IGNORECASE, 'english_episode'), | |
| # Chinese patterns | |
| (r'็ฌฌ\s*(\d+)\s*[็ซ ่่ฉฑ่ฏๅ]', 0, 'chinese_chapter'), | |
| (r'็ฌฌ\s*([ไธไบไธๅไบๅ ญไธๅ ซไนๅ็พๅไธ]+)\s*[็ซ ่่ฉฑ่ฏๅ]', 0, 'chinese_chapter_cn'), | |
| (r'(\d+)[็ซ ่่ฉฑ่ฏๅ]', 0, 'chinese_short'), | |
| # Japanese patterns | |
| (r'็ฌฌ\s*(\d+)\s*่ฉฑ', 0, 'japanese_wa'), | |
| (r'็ฌฌ\s*(\d+)\s*็ซ ', 0, 'japanese_chapter'), | |
| (r'ใใฎ\s*(\d+)', 0, 'japanese_sono'), | |
| (r'(\d+)่ฉฑ็ฎ', 0, 'japanese_wame'), | |
| # Korean patterns | |
| (r'์ \s*(\d+)\s*[์ฅํ๊ถ๋ถํธ]', 0, 'korean_chapter'), | |
| (r'(\d+)\s*[์ฅํ๊ถ๋ถํธ]', 0, 'korean_short'), | |
| (r'์ํผ์๋\s*(\d+)', 0, 'korean_episode'), | |
| # Generic numeric patterns | |
| (r'^\s*(\d+)\s*[-โโ.\:]', re.MULTILINE, 'generic_numbered'), | |
| (r'_(\d+)\.x?html?$', re.IGNORECASE, 'filename_number'), | |
| (r'/(\d+)\.x?html?$', re.IGNORECASE, 'path_number'), | |
| (r'(\d+)', 0, 'any_number'), | |
| ] | |
| FILENAME_EXTRACT_PATTERNS = [ | |
| # IMPORTANT: More specific patterns MUST come first | |
| r'^\d{3}(\d)_(\d{2})_\.x?html?$', # Captures both parts for decimal: group1.group2 | |
| r'^\d{4}_(\d+)\.x?html?$', # "0000_1.xhtml" - extracts 1, not 0000 | |
| r'^\d+_(\d+)[_\.]', # Any digits followed by underscore then capture next digits | |
| r'^(\d+)[_\.]', # Standard: "0249_" or "0249." | |
| r'response_(\d+)_', # Standard pattern: response_001_ | |
| r'response_(\d+)\.', # Pattern: response_001. | |
| r'(\d{3,5})[_\.]', # 3-5 digit pattern with padding | |
| r'[Cc]hapter[_\s]*(\d+)', # Chapter word pattern | |
| r'[Cc]h[_\s]*(\d+)', # Ch abbreviation | |
| r'No(\d+)Chapter', # No prefix with Chapter - matches "No00013Chapter.xhtml" | |
| r'No(\d+)Section', # No prefix with Section - matches "No00013Section.xhtml" | |
| r'No(\d+)(?=\.|_|$)', # No prefix followed by end, dot, or underscore (not followed by text) | |
| r'็ฌฌ(\d+)[็ซ ่ฏๅ]', # Chinese chapter markers | |
| r'_(\d+)(?:_|\.|$)', # Number between underscores or at end | |
| r'^(\d+)(?:_|\.|$)', # Starting with number | |
| r'(\d+)', # Any number (fallback) | |
| ] | |
| CJK_HONORIFICS = { | |
| 'korean': [ | |
| # Modern honorifics | |
| '๋', '์จ', '์ ๋ฐฐ', 'ํ๋ฐฐ', '๋๊ธฐ', 'ํ', '๋๋', '์ธ๋', '์ค๋น ', '๋์', | |
| '์ ์๋', '๊ต์๋', '๋ฐ์ฌ๋', '์ฌ์ฅ๋', 'ํ์ฅ๋', '๋ถ์ฅ๋', '๊ณผ์ฅ๋', '๋๋ฆฌ๋', | |
| 'ํ์ฅ๋', '์ค์ฅ๋', '์ด์ฌ๋', '์ ๋ฌด๋', '์๋ฌด๋', '๋ถ์ฌ์ฅ๋', '๊ณ ๋ฌธ๋', | |
| '๋ํ๋', '์์ฅ๋', '๊ตญ์ฅ๋', '์ฐจ์ฅ๋', '์ฃผ์๋', '๋ฐ์ฅ๋', | |
| '์๊ฐ๋', '๊ธฐ์๋', 'ํผ๋๋', '๊ฐ๋ ๋', '๋งค๋์ ๋', '์ฝ์น๋', | |
| # Classical/formal honorifics | |
| '๊ณต', '์น', '๊ตฐ', '์', '๋ญ', '๋', '์', '์', '๋ถ', '๋ชจ', '์', '์ ', '์กฑํ', | |
| # Royal/noble address forms | |
| '๋ง๋ง', '๋ง๋ ธ๋ผ', '๋๊ฐ', '์๊ฐ', '๋๋ฆฌ', '๋๋ น', '๋ญ์', '์์จ', '๊ท์', | |
| '๊ฐํ', '์ ํ', 'ํํ', '์ ํ', 'ํฉํ', '๋๋น', '๋์', '์์', '๊ณต์ฃผ', | |
| '๋น๊ถ', '์ค์ ', '์ธ์', '๊ตฐ์ฃผ', 'ํ์', '์ฑ๊ตฐ', | |
| # Buddhist/religious | |
| '์ค๋', '์ฌ๋ถ๋', '์กฐ์ฌ๋', 'ํฐ์ค๋', 'ํ์', '๋๋', '๋์ฌ', '๋ฒ์ฌ', | |
| '์ ์ฌ', '์จ์ฌ', '๋ณด์ด๋', '๊ฑฐ์ฌ๋', '์ ๋ถ๋', '๋ชฉ์ฌ๋', '์ฅ๋ก๋', '์ง์ฌ๋', | |
| '์ ๋์ฌ๋', '์๋ ๋', '๊ตํฉ๋', '์ฃผ๊ต๋', | |
| # Confucian/scholarly | |
| '๋ถ์', '์ ์', '๋์ธ', '์ด๋ฅธ', '์ด๋ฅด์ ', '์กด์', 'ํ์', '๊ตฐ์', '๋๋ถ', | |
| 'ํ์ฌ', '์ง์ฌ', '๋ฌธํ์', '์ ์', '์ ์', '์ ๋น', | |
| # Kinship honorifics | |
| '์ด๋ฅด์ ', 'ํ ์๋ฒ๋', 'ํ ๋จธ๋', '์๋ฒ๋', '์ด๋จธ๋', 'ํ๋', '๋๋', | |
| '์์ฃผ๋ฒ๋', '์์ฃผ๋จธ๋', '์ผ์ด', '์ด๋ชจ๋', '๊ณ ๋ชจ๋', '์ธ์ผ์ด', '์ฅ์ธ์ด๋ฅธ', | |
| '์ฅ๋ชจ๋', '์์๋ฒ๋', '์์ด๋จธ๋', '์ฒ๋จ', '์ฒํ', '๋งคํ', '์๋', | |
| '์ฌ๋', '๋ฐฑ๋ถ๋', '์๋ถ๋', | |
| # Verb-based honorific endings and speech levels (expanded) | |
| '์ต๋๋ค', 'ใ ๋๋ค', '์ต๋๊น', 'ใ ๋๊น', '์๋ค', '์ธ์', '์ ์', '์ญ์์ค', '์์ค', | |
| '์ด์์', '์์', '์ด์์', '์์', '์ด์', '์์', '์ฌ์', 'ํด์', '์ด์ธ์', '์ผ์ธ์', | |
| '์ผ์', '์', '์ผ์ญ๋๋ค', '์ญ๋๋ค', '์ผ์ญ๋๊น', '์ญ๋๊น', '์ผ์ จ', '์ จ', | |
| '๋๋ฆฝ๋๋ค', '๋๋ ค์', '๋๋ฆด๊ฒ์', '๋๋ฆฌ๊ฒ ์ต๋๋ค', '์ฌ๋ฆฝ๋๋ค', '์ฌ๋ ค์', | |
| '์ฌ์ต๋๋ค', '์ฌ๋ขฐ', '์ฌ์ญ๋๋ค', '์ฌ์ญค์', '์๋ขฐ', '๋ต๋๋ค', '๋ต์', '๋ชจ์ญ๋๋ค', | |
| '์์ง์', '์์ฃ ', '์๋ค์', '์๋๊ตฐ์', '์๋๊ตฌ๋', '์ผ์ค', '์ค', | |
| '๋์๋ค', '์ก์์๋ค', '์ฃผ๋ฌด์๋ค', '๊ณ์๋ค', '๊ฐ์๋ค', '์ค์๋ค', | |
| # Common verb endings with ์๋ค/์๋ค/ํ๋ค | |
| '์์ด์', '์์ต๋๋ค', '์์ผ์ธ์', '์์ผ์ญ๋๊น', '์์ด์', '์์ต๋๋ค', '์์ผ์ธ์', | |
| 'ํด์', 'ํฉ๋๋ค', 'ํ์ธ์', 'ํ์ญ์์ค', 'ํ์์ฃ ', 'ํ์๋ค์', 'ํ์ด์', 'ํ์ต๋๋ค', | |
| '๋์ธ์', '๋์ จ์ด์', '๋์ญ๋๋ค', '๋ฉ๋๋ค', '๋์', '๋ผ์', | |
| '์ด์ผ', '์ด๋ค', '์ด๊ตฌ๋', '์ด๊ตฐ', '์ด๋ค์', '์ธ๊ฐ์', '์ธ๊ฐ', '์ผ๊น์', '์ผ๊น', | |
| '๊ฑฐ์์', '๊ฑฐ์์', '๊ฒ๋๋ค', '๊ฑด๊ฐ์', '๊ฒ์', '์๊ฒ์', '์๊น์', '์์ด์', '์์ต๋๋ค', | |
| '๊ฒ ์ต๋๋ค', '๊ฒ ์ด์', '๊ฒ ๋ค์', '์๊ฒ๋๋ค', '์๊ฑฐ์์', '์๊ฑฐ์์', | |
| # Common endings | |
| '์', '์ฃ ', '๋ค์', '๋๋ฐ์', '๊ฑฐ๋ ์', '๋๊น', '์ผ๋๊น', '๋๊ฑธ์', '๊ตฐ์', '๊ตฌ๋', | |
| '๋๊ตฌ๋', '๋๊ตฐ์', '๋๋ผ๊ณ ์', '๋๊ตฐ์', '๋๋ฐ์', '๋์', '๊ฐ์', '๊น์', | |
| '๋ผ๊ณ ์', '๋ค๊ณ ์', '๋๊ณ ์', '์๊ณ ์', '๋๋ค', '๋จ๋ค', '๋๋ค', '์๋ค', | |
| # Formal archaic endings | |
| '๋์ด๋ค', '์ฌ์ต๋์ด๋ค', '์ต๋๋ค', '์ค', '์์', '์ผ์ค', '์ผ์ต์์', '์ฌ์ด๋ค', | |
| '์ผ์์ต๋๋ค', '์์ต๋๋ค', '์ผ์์ต๋๊น', '์์ต๋๊น', '๋์ด๊น', '๋ฆฌ์ด๊น', '๋ฆฌ์ด๋ค', | |
| '์ต์์', '์ผ์์', '์์ด๋ค', '๋ก์์ด๋ค', '์ด์ต๋๋ค', '์ด์ฌ์๋ค', 'ํ์ต๋๋ค' | |
| ], | |
| 'japanese': [ | |
| # Modern honorifics | |
| 'ใใ', 'ใกใใ', 'ๅ', 'ใใ', 'ๆง', 'ใใพ', 'ๅ ็', 'ใใใใ', 'ๆฎฟ', 'ใฉใฎ', 'ๅ ่ผฉ', 'ใใใฑใ', | |
| # Classical/historical | |
| 'ๆฐ', 'ใ', 'ๆ่ฃ', 'ใใใ', 'ๅฎฟ็ฆฐ', 'ใใใญ', '้ฃ', 'ใใใ', '่ฃ', 'ใใฟ', 'ๅ', 'ใใฟ', | |
| '็ไบบ', 'ใพใฒใจ', '้ๅธซ', 'ใฟใกใฎใ', '็จฒ็ฝฎ', 'ใใชใ', '็ด', 'ใใใ', '้ ', 'ใฟใใคใ', | |
| # Court titles | |
| 'ๅฟ', 'ใใใ', 'ๅคงๅคซ', 'ใใใต', '้', 'ใใ', 'ๅฒ', 'ใ', 'ไธปๅ ธ', 'ใใใ', | |
| # Buddhist titles | |
| 'ๅๅฐ', 'ใใใใ', '็ฆ ๅธซ', 'ใใใ', 'ไธไบบ', 'ใใใใซใ', '่ไบบ', 'ใใใใซใ', | |
| 'ๆณๅธซ', 'ใปใใ', '้ฟ้ๆขจ', 'ใใใใ', 'ๅคงๅๅฐ', 'ใ ใใใใใ', | |
| # Shinto titles | |
| 'ๅคงๅฎฎๅธ', 'ใ ใใใใ', 'ๅฎฎๅธ', 'ใใใ', '็ฆฐๅฎ', 'ใญใ', '็ฅ', 'ใฏใตใ', | |
| # Samurai era | |
| 'ๅฎ', 'ใใฟ', 'ไป', 'ใใ', 'ๆพ', 'ใใใ', '็ฎ', 'ใใใ', 'ไธ', 'ใใใ', | |
| # Keigo (honorific language) verb forms | |
| 'ใงใ', 'ใพใ', 'ใใใใพใ', 'ใใใฃใใใ', 'ใใใฃใใใใพใ', 'ใใฃใใใ', 'ใใฃใใใใพใ', | |
| 'ใชใใ', 'ใชใใใพใ', 'ใใ ใใ', 'ใใ ใใใพใ', 'ใใใ ใ', 'ใใใ ใใพใ', | |
| 'ใใใพใ', 'ใงใใใใพใ', 'ใใใใพใใ', 'ใใใใพใ', 'ใใใใพใใ', | |
| '็ณใ', '็ณใใพใ', '็ณใไธใใ', '็ณใไธใใพใ', 'ๅญใใ', 'ๅญใใพใ', 'ๅญใไธใใ', | |
| 'ไผบใ', 'ไผบใใพใ', 'ๅใ', 'ๅใใพใ', 'ใ็ฎใซใใใ', 'ใ็ฎใซใใใใพใ', | |
| 'ๆ่ฆ', 'ๆ่ฆใใพใ', 'ๆ่ด', 'ๆ่ดใใพใ', 'ๆฟใ', 'ๆฟใใพใ', | |
| # Respectful prefixes/suffixes | |
| 'ใ', 'ใ', 'ๅพก', 'ใฟ', '็พ', '่ฒด', 'ๅฐ' | |
| ], | |
| 'chinese': [ | |
| # Modern forms | |
| 'ๅ ็', 'ๅฐๅง', 'ๅคซไบบ', 'ๅ ฌๅญ', 'ๅคงไบบ', '่ๅธ', 'ๅธ็ถ', 'ๅธๅ ', 'ๅๅฟ', 'ๅๅญฆ', | |
| # Ancient/classical forms | |
| 'ๅญ', 'ไธ', '็ฟ', 'ๅ ฌ', 'ไพฏ', 'ไผฏ', 'ๅ', 'ไปฒ', 'ๅญฃ', '็ถ', '็ซ', 'ๅฟ', 'ๅ', '็', | |
| # Imperial court | |
| '้ไธ', 'ๆฎฟไธ', 'ๅๅฒ', 'ไธๅฒ', 'ๅฃไธ', '็ไธ', 'ๅคฉๅญ', '่ณๅฐ', 'ๅพกๅ', '็ท', | |
| # Nobility/officials | |
| '้ไธ', 'ๅคงไบบ', '่็ท', '็ธๅ ฌ', 'ๅฎไบบ', '้ๅ', 'ๅจๅญ', 'ๅคซๅญ', '่ถณไธ', | |
| # Religious titles | |
| 'ไธไบบ', 'ๆณๅธ', '็ฆ ๅธ', 'ๅคงๅธ', '้ซๅง', 'ๅฃๅง', '็ฅๅง', 'ๆดปไฝ', 'ไปๆณขๅ', | |
| '็ไบบ', 'ๅคฉๅธ', '้้ฟ', '้ๅ', 'ไป้ฟ', 'ไธไป', '็ฅๅธ', 'ๆๆ', | |
| # Scholarly/Confucian | |
| 'ๅคซๅญ', 'ๅฃไบบ', '่ดคไบบ', 'ๅๅญ', 'ๅคงๅ', '้ธฟๅ', 'ๅฎๅธ', 'ๆณฐๆ', 'ๅทจๆ', | |
| # Martial arts | |
| 'ไพ ๅฃซ', 'ๅคงไพ ', 'ๅฐไพ ', 'ๅฅณไพ ', '่ฑ้', '่ฑชๆฐ', 'ๅฃฎๅฃซ', 'ไนๅฃซ', | |
| # Family/kinship | |
| 'ไปคๅฐ', 'ไปคๅ ', 'ไปค้', 'ไปค็ฑ', '่ดคๅผ', '่ดคไพ', 'ๆๅ ', 'ๅฐๅผ', 'ๅฎถ็ถ', 'ๅฎถๆฏ', | |
| # Humble forms | |
| 'ๅจไธ', 'ๅฐไบบ', '้ไบบ', 'ไธๆ', 'ๆ', 'ๆ', 'ไป', 'ๅฆพ', 'ๅฅด', 'ๅฉข', | |
| # Polite verbal markers | |
| '่ฏท', '่ฏท้ฎ', 'ๆข้ฎ', 'ๆญ่ฏท', 'ๆฌ่ฏท', '็ฆ่ฏท', 'ๆ่ฏท', '่ฏทๆ', '่ตๆ', | |
| 'ๆ ้กพ', 'ๆ ่ต', 'ๆ ๅญ', '็ฌ็บณ', '้ ๆญฃ', 'ๆๆญฃ', 'ๆงๆญฃ', 'ๅ่ฏข', | |
| 'ๆ', 'ๆ่ง', 'ๆ่ฎฟ', 'ๆ่ฏป', 'ๆๆ', 'ๆ่ฐข', 'ๆฌไธ', '่ฐจไธ', '้กฟ้ฆ' | |
| ], | |
| 'english': [ | |
| # Modern Korean romanizations (Revised Romanization of Korean - 2000) | |
| '-nim', '-ssi', '-seonbae', '-hubae', '-donggi', '-hyeong', '-nuna', | |
| '-eonni', '-oppa', '-dongsaeng', '-seonsaengnim', '-gyosunim', | |
| '-baksanim', '-sajangnim', '-hoejangnim', '-bujangnim', '-gwajangnim', | |
| '-daerim', '-timjangnim', '-siljangnim', '-isanim', '-jeonmunim', | |
| '-sangmunim', '-busajangnim', '-gomunnim', | |
| # Classical/formal Korean romanizations | |
| '-gong', '-ong', '-gun', '-yang', '-nang', '-rang', '-saeng', '-ja', | |
| '-bu', '-mo', '-si', '-je', '-jokha', | |
| # Royal/noble Korean romanizations | |
| '-mama', '-manora', '-daegam', '-yeonggam', '-nari', '-doryeong', | |
| '-nangja', '-assi', '-gyusu', '-gakha', '-jeonha', '-pyeha', '-jeoha', | |
| '-hapka', '-daebi', '-daewang', '-wangja', '-gongju', | |
| # Buddhist/religious Korean romanizations | |
| '-seunim', '-sabunim', '-josanim', '-keunseunim', '-hwasang', | |
| '-daedeok', '-daesa', '-beopsa', '-seonsa', '-yulsa', '-bosalnim', | |
| '-geosanim', '-sinbunim', '-moksanim', '-jangnonim', '-jipsanim', | |
| # Confucian/scholarly Korean romanizations | |
| '-buja', '-seonsaeng', '-daein', '-eoreun', '-eoreusin', '-jonja', | |
| '-hyeonja', '-gunja', '-daebu', '-haksa', '-jinsa', '-munhasaeng', '-jeja', | |
| # Kinship Korean romanizations | |
| '-harabeonim', '-halmeonim', '-abeonim', '-eomeonim', '-hyeongnim', | |
| '-nunim', '-ajubeonim', '-ajumeonim', '-samchon', '-imonim', '-gomonim', | |
| '-oesamchon', '-jangineoreun', '-jangmonim', '-siabeonim', '-sieomeonim', | |
| '-cheonam', '-cheohyeong', '-maehyeong', '-sonnim', | |
| # Korean verb endings romanized (Revised Romanization) | |
| '-seumnida', '-mnida', '-seumnikka', '-mnikka', '-sida', '-seyo', | |
| '-syeoyo', '-sipsio', '-sio', '-ieyo', '-yeyo', '-iyeyo', '-eyo', | |
| '-eoyo', '-ayo', '-yeoyo', '-haeyo', '-iseyo', '-euseyo', | |
| '-eusi', '-si', '-eusimnida', '-simnida', '-eusimnikka', '-simnikka', | |
| '-eusyeot', '-syeot', '-deurimnida', '-deuryeoyo', '-deurilgeyo', | |
| '-deurigesseumnida', '-ollimnida', '-ollyeoyo', '-saomnida', '-saroe', | |
| '-yeojjumnida', '-yeojjwoyo', '-aroe', '-boemnida', '-boeyo', '-mosimnida', | |
| '-sijiyo', '-sijyo', '-sineyo', '-sineungunyo', '-sineunguna', '-eusil', '-sil', | |
| '-deusida', '-japsusida', '-jumusida', '-gyesida', '-gasida', '-osida', | |
| # Common Korean verb endings romanized | |
| '-isseoyo', '-isseumnida', '-isseuseyo', '-isseusimnikka', | |
| '-eopseoyo', '-eopseumnida', '-eopseuseyo', '-hamnida', '-haseyo', | |
| '-hasipsio', '-hasijyo', '-hasineyo', '-haesseoyo', '-haesseumnida', | |
| '-doeseyo', '-doesyeosseoyo', '-doesimnida', '-doemnida', '-doeyo', '-dwaeyo', | |
| '-iya', '-ine', '-iguna', '-igun', '-ineyo', '-ingayo', '-inga', | |
| '-ilkkayo', '-ilkka', '-geoyeyo', '-geoeyo', '-geomnida', '-geongayo', | |
| '-geyo', '-eulgeyo', '-eulkkayo', '-eosseoyo', '-eosseumnida', | |
| '-gesseumnida', '-gesseoyo', '-genneyo', '-eulgeommida', '-eulgeoyeyo', '-eulgeoeyo', | |
| # Common Korean endings romanized | |
| '-yo', '-jyo', '-neyo', '-neundeyo', '-geodeunyo', '-nikka', | |
| '-eunikka', '-neungeolyo', '-gunyo', '-guna', '-neunguna', '-neungunyo', | |
| '-deoragoyo', '-deogunyo', '-deondeyo', '-nayo', '-gayo', '-kkayo', | |
| '-ragoyo', '-dagoyo', '-nyagoyo', '-jagoyo', '-randa', '-danda', | |
| '-nyanda', '-janda', | |
| # Formal archaic Korean romanized | |
| '-naida', '-saomnaida', '-omnida', '-o', '-soseo', '-euo', | |
| '-euopsoseo', '-saida', '-eusiomnida', '-siomnida', '-eusiomnikka', | |
| '-siomnikka', '-naikka', '-riikka', '-riida', '-opsoseo', '-eusoseo', | |
| '-soida', '-rosoida', '-iomnida', '-iolsida', '-haomnida', | |
| # Japanese keigo romanized (keeping existing) | |
| '-san', '-chan', '-kun', '-sama', '-sensei', '-senpai', '-dono', | |
| '-shi', '-tan', '-chin', '-desu', '-masu', '-gozaimasu', | |
| '-irassharu', '-irasshaimasu', '-ossharu', '-osshaimasu', | |
| '-nasaru', '-nasaimasu', '-kudasaru', '-kudasaimasu', '-itadaku', | |
| '-itadakimasu', '-orimasu', '-degozaimasu', '-gozaimasen', | |
| '-itashimasu', '-itashimashita', '-mousu', '-moushimasu', | |
| '-moushiageru', '-moushiagemasu', '-zonjiru', '-zonjimasu', | |
| '-ukagau', '-ukagaimasu', '-mairu', '-mairimasu', '-haiken', | |
| '-haikenshimasu', | |
| # Chinese romanizations (keeping existing) | |
| '-xiong', '-di', '-ge', '-gege', '-didi', '-jie', '-jiejie', | |
| '-meimei', '-shixiong', '-shidi', '-shijie', '-shimei', '-gongzi', | |
| '-guniang', '-xiaojie', '-daren', '-qianbei', '-daoyou', '-zhanglao', | |
| '-shibo', '-shishu', '-shifu', '-laoshi', '-xiansheng', '-daxia', | |
| '-shaoxia', '-nvxia', '-jushi', '-shanren', '-dazhang', '-zhenren', | |
| 'benzuo', 'bengong', 'benwang', 'benshao', 'zhen', 'gu', 'laozi', 'zaixia', | |
| 'pindao', 'xiaodao', 'nucai', 'chen', 'qie', 'wanbei', | |
| 'bixia', 'dianxia', 'niangniang', 'laoda', 'laoban', 'zhanggui', 'xiaoer', | |
| 'shizhu', | |
| # Ancient Chinese romanizations | |
| '-zi', '-gong', '-hou', '-bo', '-jun', '-qing', '-weng', '-fu', | |
| '-sheng', '-lang', '-langjun', '-niangzi', '-furen', '-gege', | |
| '-jiejie', '-yeye', '-nainai', | |
| # Chinese politeness markers romanized | |
| '-qing', '-jing', '-gong', '-hui', '-ci', '-bai', '-gan', '-chui', | |
| 'qingwen', 'ganwen', 'gongjing', 'jingjing', 'baijian', 'baifang', | |
| 'baituo' | |
| ] | |
| } | |
| TITLE_PATTERNS = { | |
| 'korean': [ | |
| # Modern titles | |
| r'\b(์|์ฌ์|์์|๊ณต์ฃผ|ํฉ์ |ํฉํ|๋์|๋๊ณต|๊ณต์|๋ฐฑ์|์์|๋จ์|๊ธฐ์ฌ|์ฅ๊ตฐ|๋์ฅ|์์|์ ๋ |ํจ์ฅ|๋์ |์ฌ์|์ด๋ฆฌ|๋ํต๋ น|์์ฅ|์ง์ฌ|๊ฒ์ฌ|ํ์ฌ|๋ณํธ์ฌ|์์ฌ|๋ฐ์ฌ|๊ต์|์ ๋ถ|๋ชฉ์ฌ|์ค๋|๋์ฌ)\b', | |
| r'\b(ํํ|์ ํ|๊ฐํ|์ํ|๋|๋๊ฐ|์๊ฐ|๋๋ฆฌ|๋๋ จ๋|์๊ฐ์จ|๋ถ์ธ|์ ์)\b', | |
| # Historical/classical titles | |
| r'\b(๋์|ํ์|์๋น|์ํ|์ธ์|์ธ์๋น|๋๊ตฐ|๊ตฐ|์น์ฃผ|๊ณต์ฃผ|๋ถ๋ง|์์|์์)\b', | |
| r'\b(์์์ |์ข์์ |์ฐ์์ |ํ์|์ฐธํ|์ฐธ์|์ ์น|ํ์ฌ|์ฌ๋|ํ๋ น|๊ตฐ์|๋ชฉ์ฌ|๋ถ์ฌ)\b', | |
| r'\b(๋์ ํ|์ ํ|๋์ฌ๊ฐ|์ฌ๊ฐ|๋์ฌํ|์ฌํ|๋์น์ง|์น์ง|ํ๋ฆผ|์ฌ๊ด|๋ด์|ํ๊ด)\b', | |
| r'\b(๋ณ์กฐํ์|์ด์กฐํ์|ํธ์กฐํ์|์์กฐํ์|ํ์กฐํ์|๊ณต์กฐํ์)\b', | |
| r'\b(๋์์|๋ถ์์|๋ณ๋ง์ ๋์ฌ|์๊ตฐ์ ๋์ฌ|์ฒจ์ ์ ์ฌ|๋งํธ|์ฒํธ|๋ฐฑํธ)\b', | |
| r'\b(์ ์ผํ|์ข ์ผํ|์ ์ดํ|์ข ์ดํ|์ ์ผํ|์ข ์ผํ|์ ์ฌํ|์ข ์ฌํ|์ ์คํ|์ข ์คํ)\b', | |
| # Korean honorific verb endings patterns | |
| r'(์ต๋๋ค|ใ ๋๋ค|์ต๋๊น|ใ ๋๊น|์ธ์|์ ์|์ญ์์ค|์์ค)$', | |
| r'(์ด์์|์์|์ด์์|์์|์ด์|์์|์ฌ์|ํด์)$', | |
| r'(์ผ์|์)(์|๊ฒ |ใน|์|๋|๋)*(์ต๋๋ค|ใ ๋๋ค|์ด์|์์|์ธ์)', | |
| r'(๋๋ฆฝ๋๋ค|๋๋ ค์|๋๋ฆด๊ฒ์|๋๋ฆฌ๊ฒ ์ต๋๋ค|์ฌ๋ฆฝ๋๋ค|์ฌ๋ ค์)$', | |
| r'(์ฌ์ต๋๋ค|์ฌ์ญ๋๋ค|์ฌ์ญค์|๋ต๋๋ค|๋ต์|๋ชจ์ญ๋๋ค)$', | |
| r'(๋์ด๋ค|์ฌ์ต๋์ด๋ค|์ต๋๋ค|์ผ์ค|์ผ์ต์์|์ฌ์ด๋ค)$' | |
| ], | |
| 'japanese': [ | |
| # Modern titles | |
| r'\b(็|ๅฅณ็|็ๅญ|ๅงซ|็ๅธ|็ๅ|ๅคฉ็|็ๅคชๅญ|ๅคง็|ๅคงๅ ฌ|ๅ ฌ็ต|ไผฏ็ต|ๅญ็ต|็ท็ต|้จๅฃซ|ๅฐ่ป|ๅคงๅฐ|ๅ ๅธฅ|ๆ็ฃ|่ฆ้ท|ๅคง่ฃ|ๅฎฐ็ธ|็ท็|ๅคง็ตฑ้ |ๅธ้ท|็ฅไบ|ๆคไบ|่ฃๅคๅฎ|ๅผ่ญทๅฃซ|ๅป่ |ๅๅฃซ|ๆๆ|็ฅ็ถ|็งๅธซ|ๅงไพถ|้ๅฃซ)\b', | |
| r'\b(้ไธ|ๆฎฟไธ|้ฃไธ|็ไธ|ๆง|ๅคงไบบ|ๆฎฟ|ๅฟ|ๅ|ๆฐ)\b', | |
| # Historical titles | |
| r'\b(ๅคฉ็|็ๅ|็ๅคชๅญ|่ฆช็|ๅ ่ฆช็|็|ๅฅณ็|ๅคชๆฟๅคง่ฃ|ๅทฆๅคง่ฃ|ๅณๅคง่ฃ|ๅ ๅคง่ฃ|ๅคง็ด่จ|ไธญ็ด่จ|ๅ่ญฐ)\b', | |
| r'\b(้ข็ฝ|ๆๆฟ|ๅพๅคทๅคงๅฐ่ป|็ฎก้ |ๅทๆจฉ|ๅฎ่ญท|ๅฐ้ ญ|ไปฃๅฎ|ๅฅ่ก|ไธๅ|ๅๅฟ)\b', | |
| r'\b(ๅคชๆฟๅฎ|็ฅ็ฅๅฎ|ๅผ้จ็|ๆฒป้จ็|ๆฐ้จ็|ๅ ต้จ็|ๅ้จ็|ๅคง่ต็|ๅฎฎๅ ็)\b', | |
| r'\b(ๅคงๅงๆญฃ|ๅงๆญฃ|ๅคงๅง้ฝ|ๅง้ฝ|ๅพๅธซ|ๅคงๆณๅธซ|ๆณๅธซ|ๅคง็ฆ ๅธซ|็ฆ ๅธซ)\b', | |
| r'\b(ๆญฃไธไฝ|ๅพไธไฝ|ๆญฃไบไฝ|ๅพไบไฝ|ๆญฃไธไฝ|ๅพไธไฝ|ๆญฃๅไฝ|ๅพๅไฝ|ๆญฃไบไฝ|ๅพไบไฝ)\b', | |
| r'\b(ๅคงๅๅฎ|ๅฑฑๅๅฎ|ๆๆดฅๅฎ|ๆฒณๅ ๅฎ|ๅๆณๅฎ|ไผ่ณๅฎ|ไผๅขๅฎ|ๅฐพๅผตๅฎ|ไธๆฒณๅฎ|้ ๆฑๅฎ)\b', | |
| # Japanese keigo (honorific language) patterns | |
| r'(ใงใ|ใพใ|ใใใใพใ)$', | |
| r'(ใใใฃใใ|ใใฃใใ|ใชใ|ใใ ใ)(ใใพใ|ใใพใใ|ใ|ใฃใ)$', | |
| r'(ใใใ |ใ|ใ|ๅพก)(ใ|ใใพใ|ใใพใใ|ใ|ใใ|ใใพใ)', | |
| r'(็ณใไธใ|็ณใ|ๅญใไธใ|ๅญใ|ไผบใ|ๅใ)(ใพใ|ใพใใ|ใ)$', | |
| r'(ๆ่ฆ|ๆ่ด|ๆฟใ|ๆฟ)(ใใพใ|ใใพใใ|ใใใใพใ|ใใใใพใใ)$', | |
| r'ใ[^ใ-ใ]+[ใซใชใ|ใซใชใใพใ|ใใ ใใ|ใใ ใใใพใ]' | |
| ], | |
| 'chinese': [ | |
| # Modern titles | |
| r'\b(็|ๅฅณ็|็ๅญ|ๅ ฌไธป|็ๅธ|็ๅ|ๅคง็|ๅคงๅ ฌ|ๅ ฌ็ต|ไผฏ็ต|ๅญ็ต|็ท็ต|้ชๅฃซ|ๅฐๅ|ๅคงๅฐ|ๅ ๅธ |ๆ็ฃ|่ฐ้ฟ|ๅคง่ฃ|ๅฎฐ็ธ|ๆป็|ๅคงๆป็ป|ๅธ้ฟ|็ฅไบ|ๆฃๅฏๅฎ|ๆณๅฎ|ๅพๅธ|ๅป็|ๅๅฃซ|ๆๆ|็ฅ็ถ|็งๅธ|ๅๅฐ|้ๅฃซ)\b', | |
| r'\b(้ไธ|ๆฎฟไธ|้ไธ|ๅคงไบบ|่็ท|ๅคซไบบ|ๅฐๅง|ๅ ฌๅญ|ๅฐ็ท|ๅงๅจ|ๅ ็)\b', | |
| # Imperial titles | |
| r'\b(ๅคฉๅญ|ๅฃไธ|็ไธ|ไธๅฒ|ไธๅฒ็ท|ๅคชไธ็|็ๅคชๅ|ๅคชๅ|็ๅ|่ดตๅฆ|ๅฆ|ๅซ|่ดตไบบ|ๅธธๅจ|็ญๅบ)\b', | |
| r'\b(ๅคชๅญ|็ๅญ|็ๅญ|ไบฒ็|้ก็|่ดๅ|่ดๅญ|ๅ ฌไธป|ๆ ผๆ ผ|้กไธป|ๅฟไธป|้กๅ|ๅฟๅ)\b', | |
| # Ancient official titles | |
| r'\b(ไธ็ธ|็ธๅฝ|ๅคชๅธ|ๅคชๅ |ๅคชไฟ|ๅคชๅฐ|ๅธๅพ|ๅธ็ฉบ|ๅคงๅธ้ฉฌ|ๅคงๅธๅ|ๅคงๅธๅฏ)\b', | |
| r'\b(ๅฐไนฆ|ไพ้|้ไธญ|ๅๅค้|ไธปไบ|็ฅๅบ|็ฅๅท|็ฅๅฟ|ๅ็ฅ|้ๅค|ๆจๅฎ|ๅทกๆ|ๆป็ฃ)\b', | |
| r'\b(ๅพกๅฒๅคงๅคซ|ๅพกๅฒไธญไธ|็ๅฏๅพกๅฒ|็ปไบไธญ|้ฝๅฏ้ข|็ฟฐๆ้ข|ๅฝๅญ็|้ฆๅคฉ็)\b', | |
| r'\b(ๅคงๅญฆๅฃซ|ๅญฆๅฃซ|ไพ่ฏป|ไพ่ฎฒ|็ผไฟฎ|ๆฃ่ฎจ|ๅบถๅๅฃซ|ไธพไบบ|่ฟๅฃซ|็ถๅ |ๆฆ็ผ|ๆข่ฑ)\b', | |
| # Military ranks | |
| r'\b(ๅคงๅ ๅธ |ๅ ๅธ |ๅคงๅฐๅ|ๅฐๅ|้ฝ็ฃ|้ฝๆๆฅไฝฟ|ๆๆฅไฝฟ|ๅๆท|็พๆท|ๆปๅ ต|ๅฏๅฐ|ๅๅฐ|ๆธธๅป|้ฝๅธ|ๅฎๅค)\b', | |
| r'\b(ๆ็ฃ|ๆปๅ ตๅฎ|ๅฏๆปๅ ต|ๅๅฐ|ๆธธๅปๅฐๅ|้ฝๅธ|ๅฎๅค|ๅๆป|ๆๆป|ๅคๅง)\b', | |
| # Religious titles | |
| r'\b(ๅฝๅธ|ๅธๅธ|ๆณ็|ๆดปไฝ|ๅ ชๅธ|ไปๆณขๅ|ๅคงๅๅฐ|ๆนไธ|ไฝๆ|้ฆๅบง|็ปด้ฃ|็ฅๅฎข)\b', | |
| r'\b(ๅคฉๅธ|็ไบบ|้้ฟ|ๆๆ|็้ข|้ซๅ|้ฝ่ฎฒ|ๆป็|ๆ็น|็ฅ่ง)\b', | |
| # Nobility ranks | |
| r'\b(ๅ ฌ|ไพฏ|ไผฏ|ๅญ|็ท|ๅผๅฝๅ ฌ|้กๅ ฌ|ๅฝๅ ฌ|้กไพฏ|ๅฟไพฏ|้กไผฏ|ๅฟไผฏ|ๅฟๅญ|ๅฟ็ท)\b', | |
| r'\b(ไธๅ|ไบๅ|ไธๅ|ๅๅ|ไบๅ|ๅ ญๅ|ไธๅ|ๅ ซๅ|ไนๅ|ๆญฃไธๅ|ไปไธๅ|ๆญฃไบๅ|ไปไบๅ)\b', | |
| # Chinese politeness markers | |
| r'(่ฏท|ๆข|ๆญ|ๆฌ|็ฆ|ๆ)(้ฎ|่ฏท|่ต|ๆ|ๅ|็คบ)', | |
| r'(ๆ|ๆ |่ต|ๅ|้ |็ฌ)(่ง|่ฎฟ|่ฏป|ๆ|่ฐข|้กพ|่ต|ๅญ|็บณ|ๆญฃ|่ฏข)', | |
| r'(ๆฌ|่ฐจ|้กฟ)(ไธ|ๅ|ๅฏ|็ฝ|้ฆ)' | |
| ], | |
| 'english': [ | |
| # Western titles | |
| r'\b(King|Queen|Prince|Princess|Emperor|Empress|Duke|Duchess|Marquis|Marquess|Earl|Count|Countess|Viscount|Viscountess|Baron|Baroness|Knight|Lord|Lady|Sir|Dame|General|Admiral|Captain|Major|Colonel|Commander|Lieutenant|Sergeant|Minister|Chancellor|President|Mayor|Governor|Judge|Doctor|Professor|Father|Reverend|Master|Mistress)\b', | |
| r'\b(His|Her|Your|Their)\s+(Majesty|Highness|Grace|Excellency|Honor|Worship|Lordship|Ladyship)\b', | |
| # Romanized historical titles | |
| r'\b(Tianzi|Huangdi|Huanghou|Taizi|Qinwang|Junwang|Beile|Beizi|Gongzhu|Gege|Bixia|Dianxia|Niangniang|Fuma|Wangye)\b', | |
| r'\b(Chengxiang|Zaixiang|Taishi|Taifu|Taibao|Taiwei|Situ|Sikong|Dasima)\b', | |
| r'\b(Shogun|Daimyo|Samurai|Ronin|Ninja|Tenno|Mikado|Kampaku|Sessho)\b', | |
| r'\b(Taewang|Wangbi|Wanghu|Seja|Daegun|Gun|Ongju|Gongju|Buma)\b' | |
| ] | |
| } | |
| # Expanded Chinese numbers including classical forms | |
| # Chinese compound surnames (two-character surnames) | |
| CHINESE_COMPOUND_SURNAMES = { | |
| 'ๅธ้ฉฌ', 'ๆฌง้ณ', 'ไธๅฎ', '่ฏธ่', 'ๆ ๅฎน', '็็ซ', 'ๅฐ่ฟ', 'ๅ ฌๅญ', | |
| '่ฝฉ่พ', 'ไปค็', 'ๅๅฎซ', 'ไธๆน', '่ฅฟ้จ', '็ฌๅญค', 'ๅฎ้ข', '่ตซ่ฟ', | |
| 'ๆพนๅฐ', 'ๅ ฌ็พ', '้็ฆป', '้ฟๅญ', 'ๅฎๆ', '็พ้', 'ๅผๅปถ', 'ไธ้ญ', | |
| 'ๅ้จ', '็พ่', 'ๅพฎ็', 'ๆขไธ', 'ๅทฆไธ', 'ๆฎตๅนฒ', '็ซฏๆจ', 'ๅคไพฏ' | |
| } | |
| # Common single-character Chinese surnames | |
| CHINESE_SINGLE_SURNAMES = { | |
| '่ตต', '้ฑ', 'ๅญ', 'ๆ', 'ๅจ', 'ๅด', '้', '็', 'ๅฏ', '้', | |
| '่ค', 'ๅซ', '่', 'ๆฒ', '้ฉ', 'ๆจ', 'ๆฑ', '็งฆ', 'ๅฐค', '่ฎธ', | |
| 'ไฝ', 'ๅ', 'ๆฝ', 'ๅผ ', 'ๅญ', 'ๆน', 'ไธฅ', 'ๅ', '้', '้ญ', | |
| '้ถ', 'ๅง', 'ๆ', '่ฐข', '้น', 'ๅป', 'ๆ', 'ๆฐด', '็ชฆ', '็ซ ', | |
| 'ไบ', '่', 'ๆฝ', '่', 'ๅฅ', '่', 'ๅฝญ', '้', '้ฒ', '้ฆ', | |
| 'ๆ', '้ฉฌ', '่', 'ๅค', '่ฑ', 'ๆน', 'ไฟ', 'ไปป', '่ข', 'ๆณ', | |
| '้ ', '้ฒ', 'ๅฒ', 'ๅ', '่ดน', 'ๅป', 'ๅฒ', '่', '้ท', '่ดบ', | |
| 'ๅช', 'ๆฑค', 'ๆป', 'ๆฎท', '็ฝ', 'ๆฏ', '้', '้ฌ', 'ๅฎ', 'ๅธธ', | |
| 'ไน', 'ไบ', 'ๆถ', 'ๅ ', '็ฎ', 'ๅ', '้ฝ', 'ๅบท', 'ไผ', 'ไฝ', | |
| 'ๅ ', 'ๅ', '้กพ', 'ๅญ', 'ๅนณ', '้ป', 'ๅ', '็ฉ', '่ง', 'ๅฐน', | |
| 'ๅง', '้ต', 'ๆน', 'ๆฑช', '็ฅ', 'ๆฏ', '็ฆน', '็', '็ฑณ', '่ด', | |
| 'ๆ', '่ง', '่ฎก', 'ไผ', 'ๆ', 'ๆด', '่ฐ', 'ๅฎ', '่ ', 'ๅบ', | |
| '็', '็บช', '่', 'ๅฑ', '้กน', '็ฅ', '่ฃ', 'ๆข', 'ๆ', '้ฎ', | |
| '่', '้ต', 'ๅธญ', 'ๅญฃ', '้บป', 'ๅผบ', '่ดพ', '่ทฏ', 'ๅจ', 'ๅฑ' | |
| } | |
| # Chinese cultivation/xianxia terms (common in web novels) | |
| CHINESE_CULTIVATION_TERMS = { | |
| 'realms': [ | |
| '็ปๆฐ', '็ญๅบ', '้ไธน', 'ๅ ๅฉด', 'ๅ็ฅ', '็ผ่', 'ๅไฝ', 'ๆธกๅซ', 'ๅคงไน', | |
| 'ๅๆฐ', 'ๅผๅ ', '่ๅ', 'ๅฟๅจ', '็ตๅฏ', 'ๅบ็ช', 'ๅ็ฅ', 'ๅ่', 'ๅคฉๅซ', | |
| 'ๅ ๅคฉ', 'ๅๅคฉ', 'ๆญฆๅพ', 'ๆญฆ่ ', 'ๆญฆๅธ', 'ๅคงๆญฆๅธ', 'ๆญฆ็ต', 'ๆญฆ็', 'ๆญฆ็', 'ๆญฆๅธ', 'ๆญฆๅฃ', | |
| 'ๆไนๆฐ', 'ๆ่ ', 'ๆๅธ', 'ๅคงๆๅธ', 'ๆ็ต', 'ๆ็', 'ๆ็', 'ๆๅฎ', 'ๆๅฐ', 'ๆๅฃ', 'ๆๅธ' | |
| ], | |
| 'techniques': [ | |
| 'ๅ่ฏ', 'ๅฟๆณ', 'ๅๆณ', '็งๆฏ', '็ฅ้', 'ๆณๆฏ', 'ไปๆฏ', '้ๆณ', '้ญๅ', | |
| 'ๅๆณ', 'ๅๆณ', 'ๆๆณ', 'ๆณๆณ', 'ๆๆณ', '่ ฟๆณ', '่บซๆณ', 'ๆญฅๆณ', | |
| 'ๅพกๅๆฏ', 'ๅพกๅ้ฃ่ก', '้ๆฏ', '้ๆณ', 'ๅ้', '็ซ้', 'ๆฐด้' | |
| ], | |
| 'items': [ | |
| 'ๆณๅฎ', '็ตๅจ', 'ไปๅจ', '็ฅๅจ', 'ๅฃๅจ', '้ๅจ', '้ญๅจ', | |
| 'ไธน่ฏ', '็ตไธน', 'ไปไธน', '็ฅไธน', '็ต็ณ', '็ตๆถ', 'ไป็ณ', | |
| '็ต่', '็ต่ฏ', 'ไป่', 'ๅคฉๆๅฐๅฎ', '็ตๅ ฝ', 'ๅฆๅ ฝ', 'ๅถๅ ฝ' | |
| ], | |
| 'titles': [ | |
| '็ไบบ', '้ๅ', 'ๅธๅ ', 'ๅธๅง', 'ๅธๅผ', 'ๅธๅฆน', 'ๆๆ', '้ฟ่', | |
| 'ๅคชไธ้ฟ่', 'ๅณฐไธป', 'ๆฎฟไธป', 'ๅฎไธป', 'ๆไธป', '็ไธป', '้ญๅคด', | |
| 'ๆฃไฟฎ', 'ๅไฟฎ', 'ไฝไฟฎ', '็ผไธนๅธ', '็ผๅจๅธ', '้ตๆณๅธ', '็ฌฆๅธ' | |
| ], | |
| 'locations': [ | |
| 'ๆดๅบ', 'ๆดๅคฉ', '็งๅข', 'ๅฐไธ็', '็ฆๅฐ', 'ๅฃๅฐ', '็ฆๅฐ', '้่ฟน', | |
| 'ๅฑฑ้จ', 'ไธปๅณฐ', '็ตๅณฐ', '่ฏๅญ', '่็ป้', 'ไผ ๅๆฎฟ', '็ผๅจ้' | |
| ] | |
| } | |
| # Chinese wuxia terms (martial arts novels) | |
| CHINESE_WUXIA_TERMS = { | |
| 'skills': [ | |
| '่ฝปๅ', 'ๅ ๅ', 'ๅคๅ', '็กฌๅ', '่ฝฏๅ', 'ๆฐๅ', '็ๆฐ', 'ๅ ๅ', | |
| '้้พๅๅ ซๆ', 'ๅ ญ่็ฅๅ', 'ไน้ด็็ป', 'ไน้ณ็ฅๅ', 'ๆ็ญ็ป', '่ต่ฑๅฎๅ ธ' | |
| ], | |
| 'sects': [ | |
| 'ๅฐๆ', 'ๆญฆๅฝ', 'ๅณจ็', 'ๅๅฑฑ', 'ๆๅฑฑ', '่กกๅฑฑ', 'ๅตฉๅฑฑ', 'ๆณฐๅฑฑ', | |
| 'ๅ จ็', 'ๅคๅข', 'ๆก่ฑๅฒ', 'ไธๅธฎ', 'ๆๆ', 'ๆฅๆ็ฅๆ', 'ๆๅฎฟ', | |
| '้จๆดพ', 'ๆๆดพ', 'ๅธฎๆดพ', 'ไธๅฎถ', 'ๅฎถๆ' | |
| ], | |
| 'ranks': [ | |
| 'ๆญฆๆ็ไธป', 'ไธๆต้ซๆ', 'ไบๆต้ซๆ', 'ไธๆต้ซๆ', '็ป้กถ้ซๆ', | |
| 'ๅฎๅธ', 'ๅคงๅฎๅธ', 'ๅ ๅคฉๅฎๅธ', 'ๅคงไพ ', 'ๅฐไพ ', 'ๅฅณไพ ' | |
| ] | |
| } | |
| # Common Chinese terms found in web novels (Wuxia/Xianxia/Xuanhuan) | |
| CHINESE_NOVEL_TERMS = { | |
| 'cultivation': [ | |
| 'ๆฐ', 'ไธน็ฐ', '็ป่', '็ๆฐ', 'ๅ ๆฐ', '็ตๆฐ', 'ไปๆฐ', '็ๆฐ', 'ๆๆฐ', '้ญๆฐ', '้ฌผๆฐ', 'ๅฆๆฐ', '็ ๆฐ', '็ฝกๆฐ', 'ๅๆฐ', 'ๅๆฐ', | |
| '้ไธน', 'ๅ ๅฉด', '็ญๅบ', '็ปๆฐ', 'ๅฟ้ญ', '่ฏๆตท', '็ฅ่ฏ', 'ๅ ็ฅ', '็ต้ญ', '่่บซ', 'ๆณ่บซ', | |
| '้', '้ด้ณ', 'ไบ่ก', 'ๆญฆ', 'ๅ', 'ๆณ', 'ๆฏ', '็ฅ้', '้ๆณ', 'ไปๆฏ', '็ฆๅถ', '้ตๆณ', '็ฌฆ็ฎ', | |
| 'ๅซ', 'ๅคฉๅซ', '้ทๅซ', 'ๅฟ้ญๅซ', '้ฃๅ', 'ๆธกๅซ', '้กฟๆ', '้ญๅ ณ', 'ๅบๅ ณ', 'ๅคบ่', '่ฝฌไธ', '่ฝฎๅ', | |
| '็ผไธน', '็ผๅจ', '็ผ้ต', '็ผ็ฌฆ', 'ๅไฟฎ', '็้ผ', '้่กฅ', '่พ่ฐท' | |
| ], | |
| 'beings': [ | |
| 'ไป', '้ญ', 'ๅฆ', '้ฌผ', '็ฅ', 'ไบบ', '้พ', 'ๅค', '้บ้บ', '็ๆญฆ', '็ฝ่', 'ๆฑ้', | |
| 'ๅฐ่ ', 'ๅฃไบบ', 'ๅคงๅธ', 'ๅคฉๅฐ', '้็ฅ', '็ไบบ', 'ไธไป', 'ๆฃไป', 'ๅฐไป', 'ๅคฉไป', '้ไป', | |
| 'ๆฃไฟฎ', '้ชไฟฎ', '้ญไฟฎ', '้ฌผไฟฎ', 'ๅฆไฟฎ', 'ๅไฟฎ', 'ไฝไฟฎ', 'ๆณไฟฎ', 'ๅจ็ต', 'ๅๅก' | |
| ], | |
| 'world': [ | |
| 'ๆฑๆน', 'ๆญฆๆ', 'ๅคฉไธ', 'ๅฎ้จ', 'ๅธฎ', 'ๆดพ', 'ๅฎถ', 'ไธๅฎถ', '็ๆ', 'ๅธๅฝ', 'ๅฃๅฐ', | |
| 'ไป็', '็ฅ็', '้ญ็', 'ๅฆ็', '้ฌผ็', 'ๅก้ด', 'ไฟไธ', 'ไฟฎ็็', | |
| '็งๅข', '้่ฟน', 'ๆดๅบ', '็ฆๅฐ', 'ๆดๅคฉ', '็ฆๅฐ', '็ปๅฐ', 'ๅๅธ', 'ๆๅไผ' | |
| ], | |
| 'address_self': [ | |
| 'ๆฌๅบง', 'ๆฌๅฎซ', 'ๆฌ็', 'ๆฌๅฐ', 'ๆฌ็', 'ๆฌๅธ', 'ๆฌๅฐ', 'ๆฌๅฃ', | |
| 'ๆ', 'ๅญค', 'ๅฏกไบบ', '่ๅญ', '่ๅคซ', '่่บซ', '่ๆฝ', '่่กฒ', | |
| 'ๅจไธ', '้ไบบ', 'ๅฐ้', '่ดซ้', '่ดซๅง', 'ๅฐๅง', 'ไธๆ', | |
| 'ๅฅดๆ', '่ฃ', 'ๅฆพ', 'ๅฆพ่บซ', 'ๆ่พ', 'ๅฐๅผ', 'ๅฐๅฆน', 'ๅญฆ็', 'ๅผๅญ', 'ๅพๅฟ' | |
| ], | |
| 'address_others': [ | |
| '้ไธ', 'ๆฎฟไธ', 'ๅจๅจ', '็็ท', 'ไพฏ็ท', | |
| '่ๅคง', '่ๆฟ', 'ๆๆ', 'ๅฐไบ', | |
| '้ๅ', 'ๆฝไธป', 'ๅคงๅธ', 'ๅธๅคช', '็ไบบ', 'ไปๅญ', 'ไป้ฟ', | |
| 'ๅ่พ', 'ๅ่พ', 'ๅฐๅ', | |
| 'ๅธๅฐ', 'ๅธ็ถ', 'ๅธๅ ', 'ๅธๅ ', 'ๅธๅผ', 'ๅธๅง', 'ๅธๅฆน', 'ๅธๅ', 'ๅธไผฏ', 'ๅธ็ฅ', | |
| 'ๅ ๅฐ', 'ไปๅ ', '่ดคๅผ', | |
| 'ๅ ฌๅญ', 'ๅฐ็ท', 'ๅฐๅง', 'ๅงๅจ', 'ๅคซไบบ', '่็ท', 'ๅคชๅคช' | |
| ], | |
| 'measurements': [ | |
| '้', 'ไธ', 'ๅฐบ', 'ๅฏธ', | |
| 'ๆค', 'ไธค', | |
| 'ๆถ่พฐ', 'ๅป', 'ๅ', 'ๆฏ', '็ท้ฆ', '็่ถ', | |
| 'ๅ ', 'ๆ', 'ไธค', '่ดฏ' | |
| ], | |
| 'items': [ | |
| 'ๆณๅฎ', '็ตๅฎ', 'ไปๅฎ', 'ๅคๅฎ', '็ตๅจ', 'ๆณๅจ', 'ไปๅจ', '็ฅๅจ', | |
| 'ไธน่ฏ', '็ตไธน', 'ไปไธน', 'ๆฏไธน', 'ๅบไธน', | |
| '็ต็ณ', 'ไป็ณ', '็ตๆถ', '็็ณ', | |
| '็บณๆ', 'ๅจ็ฉ่ข', 'ๅจ็ฉๆๆ', 'ไนพๅค่ข', | |
| '็็ฎ', 'ๅๆณ', '็ง็ฑ', 'ๅพ่ฐฑ', | |
| '็ต่', '็ต่ฏ', 'ไป่', 'ๅคฉๆๅฐๅฎ' | |
| ] | |
| } | |
| # Chinese relationship and family terms (important for character relationships) | |
| CHINESE_RELATIONSHIP_TERMS = { | |
| 'family': [ | |
| '็ถไบฒ', 'ๆฏไบฒ', '็ท็ท', 'ๅฅถๅฅถ', 'ๅคๅ ฌ', 'ๅคๅฉ', 'ไผฏ็ถ', 'ไผฏๆฏ', | |
| 'ๅ็ถ', 'ๅๆฏ', 'ๅง็ถ', 'ๅงๆฏ', 'ๅงจ็ถ', 'ๅงจๆฏ', '่ ็ถ', '่ ๆฏ', | |
| 'ๅฅๅฅ', 'ๅงๅง', 'ๅผๅผ', 'ๅฆนๅฆน', 'ๅ ้ฟ', 'ๅ ๅผ', 'ๅงๅฆน', | |
| 'ๅฟๅญ', 'ๅฅณๅฟ', 'ๅญๅญ', 'ๅญๅฅณ', 'ๅคๅญ', 'ๅคๅญๅฅณ', | |
| 'ๅคซๅ', 'ๅคซไบบ', 'ๅฆปๅญ', 'ๅคซๅฆป', 'ๅจๅญ', 'ๅจไบฒ', '็ธๅ ฌ' | |
| ], | |
| 'master_disciple': [ | |
| 'ๅธ็ถ', 'ๅธๅฐ', 'ๅธๅ ', 'ๅธๅจ', 'ๅธ็ฅ', 'ๅธ็ถ็ฅ', 'ๅคชๅธ็ถ', | |
| 'ๅพๅผ', 'ๅพๅฟ', 'ๅธๅ ', 'ๅธๅง', 'ๅธๅผ', 'ๅธๅฆน', 'ๅธๅ', 'ๅธไผฏ', | |
| 'ๅธๅ ๅผ', 'ๅธๅงๅฆน', 'ๅ้จ', 'ๅธ้จ', 'ไบฒไผ ๅผๅญ', 'ๅ ้จๅผๅญ', 'ๅค้จๅผๅญ' | |
| ], | |
| 'sworn': [ | |
| 'ไน็ถ', 'ไนๆฏ', 'ไนๅ ', 'ไนๅผ', 'ไนๅ ๅผ', 'ไนๅญ', | |
| '็ปไน', 'ไน็ป้ๅ ฐ', 'ๆฎ่กไธบ็', 'ๆๆๅ ๅผ' | |
| ], | |
| 'romantic': [ | |
| '้ไพฃ', 'ไผดไพฃ', '็ฅๅทฑ', '็บข้ข', '็ฅๅทฑ', 'ไฝณไบบ', '็ฑไบบ', | |
| 'ๆชๅฉๅฆป', 'ๆชๅฉๅคซ', 'ๅจๅญ', 'ๅฆๆ้ๅ' | |
| ] | |
| } | |
| # Chinese mythological and historical elements | |
| CHINESE_MYTHOLOGICAL_TERMS = { | |
| 'creatures': [ | |
| '้พ', 'ๅคๅฐ', '้บ้บ', '็ๆญฆ', '็ฝ่', 'ๆฑ้', '้้พ', | |
| 'ๅคฉ้ฉฌ', '้พ้ฉฌ', '็ฅ้นฐ', 'ๅคๅฐ', '็ซๅค', 'ๅฐๅค', | |
| '่', '็ผ', '่ฑน', '็', '้นฐ', '่', '่', '่้พ', | |
| '้พ้พ', '็ฅๅ ฝ', 'ๅฃๅ ฝ', 'ๅฆๅ ฝ', '้ญๅ ฝ', 'ๅถๅ ฝ', '่ๅ ฝ' | |
| ], | |
| 'divine_artifacts': [ | |
| 'ไธๅค็ฅๅจ', 'ๅ ๅคฉ็ตๅฎ', 'ๅ ๅคฉ่ณๅฎ', 'ๆททๆฒ่ณๅฎ', | |
| 'ๅผๅคฉ็ฅๆง', '็ๅคๅนก', 'ๅคชๆๅพ', 'ๆททๆฒ้', '้ ๅ้ผ', | |
| 'ไน้ผ', 'ๅๅคง็ฅๅจ', 'ไธๅคๅๅคงๅถๅ' | |
| ], | |
| 'heavenly': [ | |
| 'ๅคฉๅบญ', 'ๅคฉๅฎซ', 'ๅคฉ็', 'ไบบ้ด', 'ๅฐ็', 'ๅฅ็', 'ไฟฎ็ฝ็', '้ฟไฟฎ็ฝ็', | |
| 'ไน้ๅคฉ', 'ไธๅไธๅคฉ', 'ไธๅไธ้ๅคฉ', 'ไนๅนฝ', '้ปๆณ', | |
| 'ไธ็', 'ๅ ญ้', 'ๅ ญ้่ฝฎๅ', 'ๅ ซ่', 'ๅๆตท' | |
| ], | |
| 'legendary': [ | |
| 'ไธ็', 'ไบๅธ', '็ๅค', 'ๅฅณๅจฒ', 'ไผ็พฉ', '็ฅๅ', '็ๅธ', '้ปๅธ', | |
| 'ไปไบบ', '็ไปญ', 'ๅคง่ฝ', 'ๅคงๅธ', 'ๅคฉๅฐ', 'ๅฃไบบ', '่ณๅฐ', '้็ฅ' | |
| ] | |
| } | |
| # Chinese elemental and natural forces | |
| CHINESE_ELEMENTAL_TERMS = { | |
| 'five_elements': [ | |
| '้', 'ๆจ', 'ๆฐด', '็ซ', 'ๅ', '้ๅฑๆง', 'ๆจๅฑๆง', 'ๆฐดๅฑๆง', '็ซๅฑๆง', 'ๅๅฑๆง', | |
| '้็ตๆ น', 'ๆจ็ตๆ น', 'ๆฐด็ตๆ น', '็ซ็ตๆ น', 'ๅ็ตๆ น', | |
| 'ไบ่ก', 'ไบ่กไนๅ', 'ไบ่ก็ธ็', 'ไบ่ก็ธๅ ' | |
| ], | |
| 'yin_yang': [ | |
| '้ด', '้ณ', '้ด้ณ', '้ด้ณไนๅ', '้ด้ณไบๆฐ', '้ด้ณ่ฐๅ', | |
| '่ณ้ด', '่ณ้ณ', '็บฏ้ด', '็บฏ้ณ', 'ๅคช้ด', 'ๅคช้ณ', | |
| '้ดๆฐ', '้ณๆฐ', '้ดๅฏ', '้ณ็' | |
| ], | |
| 'natural_forces': [ | |
| '้ฃ', '้ท', 'ๅฐ', '็ต', 'ๅ ', 'ๆ', '็ฉบ้ด', 'ๆถ้ด', | |
| '้ฃๅฑๆง', '้ทๅฑๆง', 'ๅฐๅฑๆง', '็ตๅฑๆง', | |
| '็้ฃ', '้ท้', 'ๅฐ้', '็ซ็ฐ', 'ๆฐดๆต', 'ๅฐ้', | |
| 'ๅคฉๅฐ็้ป', 'ๆททๆฒไนๅ', '้ธฟ่ไนๆฐ', 'ๅ ๅคฉไนๆฐ' | |
| ] | |
| } | |
| # Chinese body cultivation and physique types | |
| CHINESE_PHYSIQUE_TERMS = { | |
| 'special_physiques': [ | |
| 'ๅ ๅคฉ้ไฝ', 'ๅ ๅคฉ้ธไฝ', 'ๅ ๅคฉๅฃไฝ', 'ๆททๆฒไฝ', | |
| 'ไน้ดไฝ', 'ไน้ณไฝ', '้ด้ณไฝ', 'ไบ่กไฝ', | |
| 'ๅไฝ', 'ๅ้ชจ', 'ๅ้ชจ', 'ๅๅฟ', 'ๅๅฟ', | |
| '้ธไฝ', 'ๅฃไฝ', '้ญไฝ', 'ไปไฝ', '็ฅไฝ', | |
| 'ๆ ๅข้ไฝ', 'ๆ ๆผ้่บซ', '้ๅไธๅ', 'ไธๆญปไน่บซ' | |
| ], | |
| 'spiritual_roots': [ | |
| '็ตๆ น', 'ๅคฉ็ตๆ น', 'ๅฐ็ตๆ น', 'ๅคฉ่ต', 'ๆ น้ชจ', | |
| 'ๅ็ตๆ น', 'ๅ็ตๆ น', 'ไธ็ตๆ น', 'ๅ็ตๆ น', 'ไบ็ตๆ น', | |
| 'ๅผ็ตๆ น', 'ๅๅผ็ตๆ น', '็ปไธ็ตๆ น', | |
| 'ๅบ็ตๆ น', 'ไผช็ตๆ น', 'ๅไฟฎ', 'ๅ จ็ตๆ น' | |
| ] | |
| } | |
| # Chinese treasure and artifact grades | |
| CHINESE_TREASURE_GRADES = { | |
| 'grades': [ | |
| 'ๅกๅจ', 'ๅกๅ', 'ๆฎ้', 'ไฝ้ถ', 'ไธญ้ถ', '้ซ้ถ', | |
| '็ตๅจ', 'ๅฎๅจ', 'ๆณๅจ', '้ๅจ', 'ไปๅจ', '็ฅๅจ', 'ๅฃๅจ', | |
| 'ไธๅ', 'ไธญๅ', 'ไธๅ', 'ๆๅ', '็ปๅ', | |
| 'ๅคฉ้ถ', 'ๅฐ้ถ', '็้ถ', '้ป้ถ', | |
| 'ไธๅ', 'ไบๅ', 'ไธๅ', 'ๅๅ', 'ไบๅ', 'ๅ ญๅ', 'ไธๅ', 'ๅ ซๅ', 'ไนๅ' | |
| ], | |
| 'pill_grades': [ | |
| 'ไธ็บน', 'ไบ็บน', 'ไธ็บน', 'ๅ็บน', 'ไบ็บน', 'ๅ ญ็บน', 'ไธ็บน', 'ๅ ซ็บน', 'ไน็บน', | |
| 'ไธ่ฝฌ', 'ไบ่ฝฌ', 'ไธ่ฝฌ', 'ๅ่ฝฌ', 'ไบ่ฝฌ', 'ๅ ญ่ฝฌ', 'ไธ่ฝฌ', 'ๅ ซ่ฝฌ', 'ไน่ฝฌ', | |
| 'ไธนไบ', 'ไธน็บน', 'ไธน้ท', 'ไธน้ฆ' | |
| ] | |
| } | |
| # Chinese naming conventions and patterns | |
| CHINESE_NAME_PATTERNS = { | |
| 'courtesy_names': [ | |
| # Pattern: Character + ๅญ (courtesy name marker) | |
| r'[\u4e00-\u9fff]{1,2}ๅญ[\u4e00-\u9fff]{1,2}', # XๅญY format | |
| ], | |
| 'generation_names': [ | |
| # Common generation name characters (used in family naming) | |
| 'ๆ', 'ๆญฆ', 'ๆ', 'ๅพท', 'ไป', 'ไน', '็คผ', 'ๆบ', 'ไฟก', | |
| 'ๅฎ', '็', '็', '้', '้ถ', 'ๅฏ', '่ดต', 'ๅบท', 'ๅฎ', | |
| 'ๅ ', '่', 'ๅ', '่ฃ', 'ๆ', '็', 'ๅ ด', '้' | |
| ], | |
| 'title_prefixes': [ | |
| # Common prefixes for titles and names in novels | |
| '่', 'ๅฐ', 'ๅคง', 'ๅฐ', '่ฏธ', # Old, Young, Great, Young Master, All | |
| 'ๆ ', '็', '็ซ', 'ๅฐ', '้ท', '้ฃ', 'ๅคฉ', '้ญ', 'ๅ', 'ๅ', # Elemental prefixes | |
| '้พ', 'ๅค', '่', '้นฐ', '็ผ', '่ฑน', # Animal prefixes | |
| 'ๅฃ', '้ญ', 'ไป', '็ฅ', '้ฌผ', 'ๅฆ' # Divine/demonic prefixes | |
| ], | |
| 'clan_prefixes': [ | |
| # Common clan/family name structures | |
| 'ๅฎถๆ', 'ไธๅฎถ', 'ๆฐๆ', 'ๅฎๆ', 'ไธๆ', | |
| '็ๆ', '็ฅๆ', '้ญๆ', 'ๅฆๆ', 'ๅคๆ' | |
| ] | |
| } | |
| # Additional cultivation power systems (system novels, game novels) | |
| CHINESE_POWER_SYSTEMS = { | |
| 'levels': [ | |
| 'ไธ็บง', 'ไบ็บง', 'ไธ็บง', 'ๅ็บง', 'ไบ็บง', 'ๅ ญ็บง', 'ไธ็บง', 'ๅ ซ็บง', 'ไน็บง', 'ๅ็บง', | |
| 'ๅ็บง', 'ไธญ็บง', '้ซ็บง', '้กถ็บง', 'ๅทฅ็บง', | |
| 'ไธ้ถ', 'ไบ้ถ', 'ไธ้ถ', 'ๅ้ถ', 'ไบ้ถ', 'ๅ ญ้ถ', 'ไธ้ถ', 'ๅ ซ้ถ', 'ไน้ถ', | |
| '้้', '็ฝ้ถ', '้ป้', '้้', '้ป็ณ', '็่ ', '็่ ' | |
| ], | |
| 'stars_moons': [ | |
| 'ไธๆ', 'ไบๆ', 'ไธๆ', 'ๅๆ', 'ไบๆ', 'ๅ ญๆ', 'ไธๆ', 'ๅ ซๆ', 'ไนๆ', | |
| 'ไธๆ', 'ไบๆ', 'ไธๆ', 'ๅๆ', 'ไบๆ', 'ๅ ญๆ', 'ไธๆ', 'ๅ ซๆ', 'ไนๆ', | |
| 'ไธ่ฝฎ', 'ไบ่ฝฎ', 'ไธ่ฝฎ', 'ๅ่ฝฎ', 'ไบ่ฝฎ', 'ๅ ญ่ฝฎ', 'ไธ่ฝฎ', 'ๅ ซ่ฝฎ', 'ไน่ฝฎ', | |
| 'ๅๆ', 'ๆปกๆ', 'ๆฐๆ' | |
| ], | |
| 'circles_rings': [ | |
| 'ไธ็ฏ', 'ไบ็ฏ', 'ไธ็ฏ', 'ๅ็ฏ', 'ไบ็ฏ', 'ๅ ญ็ฏ', 'ไธ็ฏ', 'ๅ ซ็ฏ', 'ไน็ฏ', | |
| 'ไธๅ', 'ไบๅ', 'ไธๅ', 'ๅๅ', 'ไบๅ', 'ๅ ญๅ', 'ไธๅ', 'ๅ ซๅ', 'ไนๅ', | |
| '้ญ็ฏ', '้ญๅ', '็ต็ฏ', '็ตๅ' | |
| ], | |
| 'colors': [ | |
| '็ฝ่ฒ', '้ป่ฒ', '็ดซ่ฒ', '้ป่ฒ', '็บข่ฒ', '่่ฒ', '็ปฟ่ฒ', '้่ฒ', '้ถ่ฒ', | |
| '็ฝ็บง', '้ป็บง', '็ดซ็บง', '้ป็บง', '็บข็บง', '่็บง', '็ปฟ็บง', '้็บง', '้ถ็บง' | |
| ] | |
| } | |
| # Chinese location types (common in novels) | |
| CHINESE_LOCATION_TYPES = { | |
| 'buildings': [ | |
| 'ๅฎซ', 'ๆฎฟ', '้', 'ๅ ', '้ฆ', '้ข', 'ๆฅผ', '่ฝฉ', 'ไบญ', 'ๅฐ', | |
| 'ๅคงๆฎฟ', 'ไธปๆฎฟ', 'ๅทฆๆฎฟ', 'ๅณๆฎฟ', 'ๅทๆฎฟ', 'ๅๆฎฟ', | |
| '่็ป้', 'ไผ ๅ้', '็ผๅจ้', '็ผไธน้', 'ไปปๅกๅคงๅ ' | |
| ], | |
| 'natural': [ | |
| 'ๅฑฑ', 'ๅณฐ', 'ๅฒญ', 'ๆฐด', 'ๆฒณ', 'ๆน', 'ๆตท', 'ๆฑ', '่ฐท', 'ๆ', 'ๆด', | |
| 'ไธปๅณฐ', 'ๅๅณฐ', 'ๅๅณฐ', 'ไธๅณฐ', '่ฅฟๅณฐ', | |
| 'ๅคงๅฑฑ', '็ฅๅฑฑ', '้ญๅฑฑ', 'ไปๅฑฑ', '็ตๅฑฑ', | |
| 'ๆๆตท', 'ๆ็ฉบ', 'ๆๅ', 'ๆ็', 'ๆ่พฐ' | |
| ], | |
| 'regions': [ | |
| 'ๅ', 'ๅข', '็', 'ๅฐ', 'ๅท', '้ก', 'ๅ', '้', 'ๆ', 'ๅ', | |
| 'ไธๅ', '่ฅฟๅ', 'ๅๅ', 'ๅๅ', 'ไธญๅ', | |
| 'ไธ็', 'ไธญ็', 'ไธ็', 'ไธไฝ็', 'ไธญไฝ็', 'ไธไฝ็', | |
| 'ไฟฎ็็', 'ไป็', '็ฅ็', '้ญ็', 'ไฝ็', 'ๅฆ็' | |
| ] | |
| } | |
| # Chinese battle and technique descriptors | |
| CHINESE_BATTLE_TERMS = { | |
| 'attack_types': [ | |
| 'ๆปๅป', '้ฒๅพก', '่บซๆณ', 'ๆญฅๆณ', '้ๅบฆ', 'ๅ้', | |
| 'ๅๆฐ', 'ๅๆฐ', 'ๆณๅฒ', 'ๆๅ', 'ๆๅ', '่ ฟๅ', | |
| '็ๅ ', '้ญๅ', '็ฒพ็ฅๅ', '็ฅ่ฏ', '็ฅๅฟต' | |
| ], | |
| 'techniques_suffixes': [ | |
| '่ฏ', 'ๆณ', 'ๆฏ', 'ๅ', 'ๅฟๆณ', '็งๆณ', '็ฅ้', | |
| 'ไธๅผ', 'ไธๆ', 'ไธๅป', 'ไธๆ', 'ไธๆ', 'ไธๅ', 'ไธๅ' | |
| ], | |
| 'power_descriptors': [ | |
| 'ๆ ๆ', 'ๆ ๅ', 'ๆ ไธ', '่ณๅผบ', '่ณๅฐ', 'ๆ่ด', '็ปไธ', | |
| '้ธ้', '็้', 'ๅฃ้', 'ไป้', '็ฅ้', '้ญ้' | |
| ] | |
| } | |
| CHINESE_NUMS = { | |
| # Basic numbers | |
| 'ไธ': 1, 'ไบ': 2, 'ไธ': 3, 'ๅ': 4, 'ไบ': 5, | |
| 'ๅ ญ': 6, 'ไธ': 7, 'ๅ ซ': 8, 'ไน': 9, 'ๅ': 10, | |
| 'ๅไธ': 11, 'ๅไบ': 12, 'ๅไธ': 13, 'ๅๅ': 14, 'ๅไบ': 15, | |
| 'ๅๅ ญ': 16, 'ๅไธ': 17, 'ๅๅ ซ': 18, 'ๅไน': 19, 'ไบๅ': 20, | |
| 'ไบๅไธ': 21, 'ไบๅไบ': 22, 'ไบๅไธ': 23, 'ไบๅๅ': 24, 'ไบๅไบ': 25, | |
| 'ไธๅ': 30, 'ๅๅ': 40, 'ไบๅ': 50, 'ๅ ญๅ': 60, | |
| 'ไธๅ': 70, 'ๅ ซๅ': 80, 'ไนๅ': 90, '็พ': 100, | |
| # Classical/formal numbers | |
| 'ๅฃน': 1, '่ดฐ': 2, 'ๅ': 3, '่': 4, 'ไผ': 5, | |
| '้': 6, 'ๆ': 7, 'ๆ': 8, '็': 9, 'ๆพ': 10, | |
| 'ไฝฐ': 100, 'ไป': 1000, '่ฌ': 10000, 'ไธ': 10000, | |
| # Ordinal indicators | |
| '็ฌฌไธ': 1, '็ฌฌไบ': 2, '็ฌฌไธ': 3, '็ฌฌๅ': 4, '็ฌฌไบ': 5, | |
| '้ฆ': 1, 'ๆฌก': 2, 'ๅ': 1, 'ๆซ': -1, | |
| } | |
| # Gender indicator patterns for pronoun-based gender detection | |
| # Note: These are PRONOUNS, not titles or honorifics | |
| GENDER_PRONOUNS = { | |
| 'korean': { | |
| 'male': ['๊ทธ๋', '๊ทธ๊ฐ', '๊ทธ๋ฅผ', '๊ทธ์', '๊ทธ์๊ฒ', '๊ทธ๋', '๊ทธ๋ง', '๊ทธ์กฐ์ฐจ', '๊ทธํํ '], | |
| 'female': ['๊ทธ๋ ๋', '๊ทธ๋ ๊ฐ', '๊ทธ๋ ๋ฅผ', '๊ทธ๋ ์', '๊ทธ๋ ์๊ฒ', '๊ทธ๋ ๋', '๊ทธ๋ ๋ง', '๊ทธ๋ ์กฐ์ฐจ', '๊ทธ๋ ํํ '], | |
| }, | |
| 'japanese': { | |
| 'male': ['ๅฝผใฏ', 'ๅฝผใ', 'ๅฝผใ', 'ๅฝผใฎ', 'ๅฝผใซ', 'ๅฝผใ', 'ๅฝผใ ใ', 'ๅฝผใใ'], | |
| 'female': ['ๅฝผๅฅณใฏ', 'ๅฝผๅฅณใ', 'ๅฝผๅฅณใ', 'ๅฝผๅฅณใฎ', 'ๅฝผๅฅณใซ', 'ๅฝผๅฅณใ', 'ๅฝผๅฅณใ ใ', 'ๅฝผๅฅณใใ'], | |
| }, | |
| 'chinese': { | |
| 'male': ['ไป', 'ไป็', 'ไปไปฌ', 'ไป่ฏด', 'ไปๆฏ', 'ไปๅจ', 'ไปไผ', 'ไปๆณ'], | |
| 'female': ['ๅฅน', 'ๅฅน็', 'ๅฅนไปฌ', 'ๅฅน่ฏด', 'ๅฅนๆฏ', 'ๅฅนๅจ', 'ๅฅนไผ', 'ๅฅนๆณ'], | |
| }, | |
| 'english': { | |
| 'male': [' he ', ' his ', ' him ', ' himself ', 'He ', 'His ', 'Him '], | |
| 'female': [' she ', ' her ', ' hers ', ' herself ', 'She ', 'Her ', 'Hers '], | |
| } | |
| } | |
| # Common words - keeping the same for filtering | |
| COMMON_WORDS = { | |
| '๋ง์', '์์ฒญ์', '๋ฌผ๋ก ', 'ํ๊ท ', 'ํด๊ทผ', 'ํ์ฅ', '์๊ฐ', '์ง์ง', '์ด๋ฏธ', | |
| '๋ณด๋ด๊ธฐ', '์ ', '๊ทธ๋ฐ๋ฐ', '์๋ฌธ', '์ธ์ ๋', '๊ฑฐ๋ํ', '์ฑ๊ณต', '๋ฐฉ์ก', '๊ทธ๋ ', | |
| '์ด๋ ๊ฒ', '์ํ', '์ ๋', 'ํ์ด', '์ดํด', '๊ทธ๊ฒ', '๋ฉด์ ', '์ฒ์', '๋๊ตฌ', 'ํ๊ณ ', | |
| 'ํ๋งค', '์๋น', '๋ง์กฑ', '๊ณ ์ ', '๊ณ ๋ฑํ', '๊ธ๊ธฐ', '์ฐ์ ', '๋ ธ๋', '์ฐธ๊ฐ', 'ํธ์ง', | |
| '์ค๋ช ', '๊ด๋ฆฌ', '์๋ฐฉ์ก', '์ค๋ ', '์ฒซ๋ ', '๋ฐฉ์ฅ', '์๋จ', '์คํ', '์ต๊ทผ', '์ค๋ ฅ', | |
| '๊ธฐ์กด', 'ํ ํฌ', 'ํจ๊ณผ', '์ ๊ต', '์ถฉ์กฑ', '์ต๊ณ ', '๊ทผ๋ฌด', '์ฅ๋น', '๋ฐ์ ', '์ด๋ฏธ์ง', | |
| '๋งค๋ ฅ', '๋ถ๊ฐ', '์ด์ฉ', '๋ณธ์ธ', '์ค๋ช ', '์ด์ ', '๊ฒฝ์', '์ด๋ฐ', '์ ๊ตฌ', '๋๊ธฐ์ ', | |
| '์ ํ', '์ปจํ ์ธ ', '๋น์ฐ', '์ผ๊ตด', '๊ธฐํ', '๋์ด', '์ด์ ', 'ํ์', '์ค๋ง', '์ํฉ', | |
| '์ฌ์ง', '์ค๋ฐ', '๋น์ท', '๋ฌธ์ ', '์ต์ด', '์ธ๋ฐฉ', '์ ๋ฆฌ', 'ํฉ๋ฐฉ', 'ํฉ๊ธ', '์ ๋', | |
| '์์', '๋ ผ๋', '์ ๋ช ', '์ธ์ง๋', '์ง๊ธ', '์์ ', '์๋ ', 'ํด๋ฐฉ', '๋ฐ๋ท', '์ธ์', | |
| '๊ด์ฌ', 'ํ์ง', '๋ฅ๋ ฅ', '์ค๋์ ', '์ฑ์ฅ', '์ง์', '๋์', '์์', '์ ์น์', '๋งค๋์ ', | |
| '์ฌ๋', '๋ฌด๋ ต', '๋', '๊ฒฝ๋ ฅ', '๋ด์ฉ', '์ซ์', '๋๋ค์', '๊ณต๊ฐ', '์ง์ ', '์ ๋น', '์ด์ฅ', | |
| '์ฐ๋ง', '๊ฐ์ธ', '์นจ๋ฌต', '์๊ฐ', '๊ฐ์ ', '์ฌํ', '๋ค์', '๊ณ ์ฌ', '์ ์ง', '๋ณต์ฅ', '์๋ฌด', | |
| '์ดํ', '์ค์ ', '์ค๋๋ง', '์ ์ฒญ', '์ธ์', '์ค๋', 'ํ์', '์ข ๋ฃ', '๊ด๋ จ', '์ฒด๊ธ', '์ ์ ', | |
| '์ฃผ์ต', '์๋ฃ', '์ฌ์ ', '์ฌ์ ', '์๋', '๋ช ์ค์', '์ํ', 'ํผํด', '์ํต', 'ํ๋', '์ด์', | |
| '๋ชฐ์ ', '๊ฐ๋', 'ํ๋ฆฌํฐ', '๊ธฐ์ ', '๋จ์ด', '์๋น์ค', '์ ์', 'ํ๊ธฐ', '์ ๋ฐฐ', '์์ธ', '์ฃผ์', | |
| '์คํ๋ ค', '์ด์ผ๊ธฐ', '๋์ ', '์ด์ ', 'ํ์ธ', '์ค์', '์ต์ ', '์ถ๊ฐ', '๊ฐค๋ฌ๋ฆฌ', 'ํ ์ธ', '๋ถ๋ถ', | |
| '๋์ฑ', '๊ฐ๋จ', '์ ์', '์์', '์์ ', 'ํด์', '์ต์ข ', 'ํฉ๊ฒฉ', '์ถฉ๋ถ', '์ง์ง', 'ํ์ด๋ผ์ดํธ', | |
| '์น๋ฆฌ', '์๊ฐ', '์๊ฐ', '๋์ฒ ', '๊ธฐํ์ฃผ์', '๊ณ ์ง', '๋ฐ์', '์์ด๋', 'ํ๋ ค', '๊ธฐ์ต', '์ผ์', | |
| '๋งค์ผ', '๋ชฉ์๋ฆฌ', '๋ฌด๋', '์ค๊ฐ', '๋ฐฐ์ ', '์๊ฒฌ', '์์๊ฐ', '๋์', '๋น์ฅ', '์ฐ์ต', '๊ณผ๊ฑฐ', | |
| 'ํฌ๋ค', '์ผ์ ', '๋ถ๋ง', '์๋ง', '์์ต', 'ํ์ค', '์ทจ๋ฏธ', '์ฌ๋ก ', '๋์', 'ํ๋ฝ', '์ฌ๊ณผ', '๋ํ', | |
| '์ง์ค', 'ํ์', 'ํฌ์', '์ ์ธ', '์์ฌ', '๋ณ์', '๋ณํ', '๊ฒฝ์ฐ', '์๊ทผ', '๋ถ์กฑ', '์ ์ฅ', '๋น๊ต', | |
| '์ฝ์ํธ', '๋ถ์๊ธฐ', '์คํ๋', '๋ชจ์ต', 'ํ๋ณด', '๋ฉ์ธ', '์ธ์ฌ', '์ธํฐ๋ทฐ', '๊ฐ์ฑ', 'ํด์', '๊ฐํ', | |
| '๊ฒฐ๊ณผ', '๋ ธ์ถ', '๋ฐฉ๋ฒ', '์์', 'ํ์ฐจ', '์ฐ์ฅ', '์ดํ', '๊ตฌ๋งค', '์์', 'ํฉ๋ฅ', '์ค๋น', '์ผ๊ฐ', | |
| '๋จธ๋ฆฌ', '์๊ฐ', '๋ฏธ์ฑ๋ ', '๋ฏฟ์', '์ด๋ณด', '์ฅ๊ธฐ', '๊ท์น', '๊ณ์', '์ ์ ', '๋๋ถ', '๊ฐ์', 'ํฌ๋ฃจ', | |
| '๋ฉค๋ฒ', '๋จ์', '๋ณธ๊ฒฉ', '์ด๋ฆ', '๋น์ฒจ', '๊ฒฐํผ', '์ ๋งค', '์ฌ์', 'ํ', '๋คํผ', '๋ฆฌ๋', '์๋ก', '์ ๋ณด', | |
| '๊ฐ์ ', '๊ฐ๋ฑ', 'ํ๋ฆฌ์นด', '์ํ', '์์', 'ํ๋ฐฉ', '์์ค', '์ฐ์ ', '์๊ฒฉ', '์์ฐ', '๊ฒฝ๊ณ', 'ํ์ฝ', | |
| '์ต๋', '๋๊ธ', 'ํ', '์ฐธ๊ต์ก', '๊ฒ์', '๋๊ฒฐ', '๋ฏธ์ ', '์ ์ฐฉ', 'ํ๋ฉด', 'ํฌ์๋น์ค', 'ํจ๋ฐฐ', 'ํ', | |
| '์์ธ', '์์น', '์ด์ฌ', '๊ฑฐ๋', '์ํด', '์ง์ ', '๋น์', '์ค๋', '๋ฉธ๋ง์ ', '์์ ', '์ฌ์', '์ธ๋ ฅ', | |
| '๊ต์ก', '์๋ฒ', 'ํด์ถ', '๊ทน๋ํ', 'ํ์ ', 'ํํด', '์๋ จ', '์ ํ๋ธ', '์์ฆ', '์ต์ํ', '์กฐ๊ฑด', '๊ฒฝ์ ', | |
| '์ ', '์กฐ์ ', '์์ ', '๋ฐํ', '์ฑ์ฌ', '์๋ฏธ', '์๋ฆฌ', 'ํธ๊ธฐ์ฌ', '์ด๊ธฐ', '๋ทฐ์ด์ญ', '์ ์ฃผ', '์์ ', '์์ฅ', | |
| '๋ชจ์ง', '๋๋จธ์ง', 'ํ', '์ธ์', '๊ถ๋ ฅ', '์ผ', '์๋', '๋ํ', '๋ฏธ๋', 'ํ๋ณต', '์์ ', 'ํ์ฒญ', 'ํฌ', '์ฌํ', | |
| '์ฌ์ฉ', '์ ์', '์ด์', '์ ์', '๊ท๋ชจ', '๋ฐ์', 'ํฅ๋ถ', '๊ฒฝ๋ก', '์์', 'ํด์ค', '๋ฐฉ์ฌ', '๊ฐ', '๋ ๋', '์นผ๋ ', | |
| '๋ฐดํฝ', '๋ ธ๋ฐฉ์ข ', '์ธํด', 'ํ๋ฐ', '๋ง๋ฒ', '์ฆ๊ฐ', '์ฐจ์ด', '์์ ', '๋ ธ๋ ฅ', '์กฐ๋ ฅ', '๊ทธ๋', '๋ค์ด์', '๊ด์ง', '๋ฐฉํด', | |
| '๋ฉํ', '๋๋ฆ', '๋ฌด๋ฒ', '๋ณ๋ช ', '์์ดํ ', '์๋ฉด', '๊ณ ๊ฐ', '๋ ธ๋', '์ธ์', '์ฃผ์ ', '๊ฑด์ถ', '์ปจํธ๋กค', '์์ฑ', 'ํธ๊ฐฑ', | |
| '๋ฉ์ง', '์ฌ๋ฃ', '์ด๋', '๊ฐ์ท', '์ถ์ข ', '์ค๋ง', 'ํ๋ฐฐ', '๋ง๋', '์คํ', '๋จ์ฑ', '๊ธฐ์ต', '๋๋', '์์ ', '์ํ', '์ธ๋งฅ', | |
| '์ฌ์ค', 'ํฌํจ', '์ ํ', '์น์ ', '์์์ ', '์ฌ์ฑ์ ', '์งํ', '๋ฐ์ ', '์ธ์ฐ', '๋ฌด์กฐ๊ฑด', '์ฌ๋ก ์กฐ์', '๊ธ์ง', '์ ์ฒด', '์ ๋ฌผ', | |
| '์ ๊ท', 'ํผ์', '๋ณด์ ', '์งํ', '์ง์ง', '์ฐ์น', '๋กค', '๋ฐ๋ฅ', '๋ฒ์ฃ', '์ ์ํ', '์์', '๋งค๋ ฅ', 'ํฌ์', '์ฌ๋ฟ', '๊ฒฝ๊ธฐ', | |
| '์ด๊ด', '๋ณธ์ธ', '์ง์ฌ', 'ํ์ญ', '๊ฐ์ธ', '์ง์', '๊ฐํ', 'ํญ์ฃผ', '์์์', '์ข ์ผ', '์์', '๋ด๋ ', '์ฌํด', 'ํ๊ฐ', 'ํ์', | |
| '์ต์ฐ์ฅ', '์๋', 'ํด์ญ', '๋ธ์ด', '์๋ด', 'ํญ๋ฐ', '๊ณต๊ฒฉ', '์ทจ์นจ', '์๊ธ', '๋ ์ฌ', '์ฌ์ ', '์น๊ตฌ', '์ญ์ฌ', 'ํ์ค', '์ฑ๋', | |
| '์ผํ', '์ค๋น ', '์์ง', '๋ฌด๋ ฅํ', '์๊ฑฐ๋ฆฌ', '๊ณ ์กฐ', '๊ณํ', 'ํ์', '๋ป', '๋์ ', '์์ด', '์ฆํญ', 'ํ๋ฐ', '์กด์ฌ', 'ํ๋ฉ', | |
| '์๋', '์์ค๋', '์ต๊ฐ', '๋จ์ฒด', '๋ฐฐํ ', '์ต์ํ', '์์', '๊ธฐ๋ณธ', '์ฌ์ฐ', 'ํน์ ', '๊ฒฝ๋งค', '๊ณ ์', '๋ฑ์ฅ', '๊ต์ฅ', '์ฑํ ', | |
| '๊ธฐ์ ', 'ํฅํ', 'ํ๋ ฅ', '์ธ๊ธฐ', '๊ธ', '๋ฉ๋', '์ฐจ๋', '์งํฉ', '๋ฐ๋ฐ', '๋ฌด๊ธฐ', 'ํ์ฑํ', '์ด๋', '์ค์', 'ํฌ์ธํธ', '์ ๋ก๋', | |
| '์ค๊ณ', '๊ธฐ์', '์ ํฌ', '์กฐ์ฉ', '์์ ๊ฐ', '๋๊ฒฐ', '๊ฒฌ์ ', '์ ์ค', '์๋', 'ํ๋ จ', '์ ๋', '๊ฒฝํ', '์์', '๋๋ด', '์ด๋ชจ', | |
| '์ํ', '๊ตฌ๊ฒฝ', '๋จ์จ', '๋์ผ', '์ด๋ด', 'ํฐ์ด', '์ํฅ๋ ฅ', '์ญํ ', '์ธ์', '์ ์ฅ', '๋ด๋น', '์ต์', '๋ฐ๋ท', 'ํ๋', '๊ณต๊ฐ', | |
| '๋จ์', '๊ฑท๊ธฐ', '์์ ', '๋ง๊ฐ', '์๊ธ', 'ํ์', '๋ฒ์', '๋งค์ฅ', '์์ด', '๋ถ๋ถ', '๋ฏธ๋', 'ํ์ ', '์ต์ ', '๊ฐ๋ฐ', '์์ฆ', | |
| 'ํน๋ณ', '๋ฐ์ดํธ', '๋ง์คํฌ', '์์ฌ', '์นํจ', '์ฌ์ ', '์๊ธฐ', '์ ๊น', '๊ธฐ๋', '์คํฌ', '๊ด๊ณ', '๊ฒฐ์น์ ', '์ฆ๊ฑฐ', '๊ณ ๋ชจ', '๊ฐ๊ฒฉ', | |
| '์ฆ๊ฑฐ', '์ค๋น', '๋๋', '๊ณต์ฉ', '๊ฐํ', '๋ง์คํฐ', '์ง์ ', '๋ฐฐ๋ฌ', '์์กด', '์๋ฒฝ', '์นญํธ', '์ฌ๋ฅํฐ', '์ฆ๊ฒจ์ฐพ๊ธฐ', '์๋ชฉ', | |
| '์ผ์ดํฌ', '์ ์ง', '์ฌ๋ง', '๋๋ถ', '๊ฐ๋ฅ', '๊ฐ์ฒ ', '๋น์ฉ', '๊ฐ๋ ฅ', '๊ทธ๋ฆผ', '์ ๊ฒ', '๋ฐ๊ฒฌ', '๊ตฌ๊ฐ', '์ฝ์', '์๋ฆฌ', | |
| 'ํ๋', '๊ฐ์', '๋ฒ ์คํธ', '๋ ์ด๋', '์ผ์', '์ต๋จ', '์ด์ผ๊ธฐ', 'ํ์ ', '์ฒญ์', '์์', '๋จ์ผ', '์๋ ', '์ฃผ์ฃผ', '๋์ ', | |
| '์ ๋ฆฌ', 'ํ๊ตญ', 'ํํฐ', '๋ํ', '์ ๊ตญ', '๊ตญ์ ', '์คํฏ', '๊ฐ์ฒ', '๋ํ', '์งํ', '๋์ดํฐ', 'ํ๋ ', '์๋ ', | |
| '์ด', '๊ทธ', '์ ', '์ฐ๋ฆฌ', '๋ํฌ', '์๊ธฐ', '๋น์ ', '์ฌ๊ธฐ', '๊ฑฐ๊ธฐ', '์ ๊ธฐ', | |
| '์ค๋', '๋ด์ผ', '์ด์ ', '์ง๊ธ', '์๊น', '๋์ค', '๋จผ์ ', '๋ค์', '๋ง์ง๋ง', | |
| '๋ชจ๋ ', '์ด๋ค', '๋ฌด์จ', '์ด๋ฐ', '๊ทธ๋ฐ', '์ ๋ฐ', '๊ฐ์', '๋ค๋ฅธ', '์๋ก์ด', | |
| 'ํ๋ค', '์๋ค', '์๋ค', '๋๋ค', 'ํ๋', '์๋', '์๋', '๋๋', | |
| '๊ฒ', '์', '๋', '๋ ', '์', '์ผ', '์', '๋ถ', '์ด', | |
| '์', '๋', '์ด', '๊ฐ', '์', '๋ฅผ', '์', '์', '์', '๊ณผ', '๋', '๋ง', | |
| '์์', '์ผ๋ก', '๋ก', '๊น์ง', '๋ถํฐ', '์๊ฒ', 'ํํ ', '๊ป', '๊ป์', | |
| # Expanded Common Nouns (based on debug findings) | |
| '์ด๋ฆฐ์ด์ฌ', '๋ฐ๋', '๋ฒ์งธ', '์์๋ก', '์์ฒญ', '๊ทธ๋ ๊ณ ', '๊ฑฐ๋ผ', '์ด๋๋ง', | |
| 'ํ์ฐฝ', '์๊ธฐ', '์ ํ', '๋์', '๋น์ฌ', '๋ถ๊ธ', '์ง์', '๋์', '์๋', | |
| '๊ฒ๋', '์ผ์ด', '์์', '๋ฃจ์๊ฐ', '๋ฐฉ์ ', '๋๋', 'ํด๋ณด', '๊ทธ๋ ๊ฒ', '๋ญ๊ฐ', | |
| '์ฌ์ด', 'ํ๊ท', '๋๊ธฐ', '์คํ ๋ฆฌ๊ฐ', '์ฃผ์ธ', '๋ผ๊ณ ', '์ธ๊ธ์', '์บ๋๋ฅผ', | |
| '๊ตฌ๋ ', '์ฃผ์์', '์ด๋ป๊ฒ๋ ', '๋ํด', 'ํ๋ฌด๋งน', '๋๊ท', '์ฃผ๋ฑ์ด', '์์ฅ์', | |
| 'ํ์ฌ', '์๋ฐํ', '๋ฐฉ์ก์', '๊ทธ๋ ', '์ด๋ ๊ฒ', '์ํ', '์ ๋', 'ํ์ด๊ฐ', | |
| '์ดํด', '๊ทธ๊ฒ', '๊ฑฐ๊ธฐ์', '๋๋ก์๋', '๋ฉด์ ', '์ข์ผ', '์ฒ์', '๋ง๋ค๊ณ ', | |
| '๋๊ตฌ๋', 'ํ๊ณ ', '๋งํ', 'ํ๋งค', '์๋น', '๋ง์กฑ', '๊ณ ์ ', '๋ชจ๋ฅด๊ฒ', | |
| '๊ณ ๋ฑํ', '๊ธ๊ธฐ', '์ฐ์ ', '๋ ธ๋๋ฅผ', '์ด์', '๋ฐ์', '๋ฒ์ธ์ผ', '์ ๋๋ก', | |
| '๋๊ธฐ', '์ฐธ๊ฐ', 'ํธ์ง', '์ค๋ช ', '๊ด๋ฆฌ', '์์ง์ด๊ธฐ', '๊ทธ๋ฌ๋ค๋ณด๋', '์ผ๋จ', | |
| '์๋ฐฉ์ก', '๋ฐํ', '๊บผ๋ด', '๊ฒ์ด๊ธฐ์', '๋ฐฉ์ก์ด', '์ด์๊ฐ', '๊ฑฐ์', '์ค๋ ', | |
| '์ฒซ๋ ', '๋ฐฉ์ฅ', '์ฌ๋ผ๊ฐ๊ธฐ', '๋๋ฐฐ๋๊ธฐ', '๋ด๊ฐ', '๋๊ฐ', '๋จ์', '์ฐ์', | |
| '์ค์ด๋๋', '๊ฑฐ๊ธฐ์', '์๋จ', '์คํ', '๋ฃ์๋ง', 'ํ์ธํ', '์ต๊ทผ', '์ค๋ ฅ์ด', | |
| '๋ถ๋ด', '๊ธฐ์กด์', 'ํ ํฌ', '๋ฒ ํ ', 'ํจ๊ณผ๊ฐ', '์ ๊ต๋ฅผ', '๋ค์ด์ค๋', '์ํ', | |
| '์ถฉ์กฑ', '๋๊ธฐ', '๊ทธ๋', '์ต๊ณ ', '๊ทผ๋ฌด', '์ฅ๋น', '์์ผ๋ฉด', '๋ฐ์ ', | |
| '์ด๋ฏธ์ง๊ฐ', '๋งค๋ ฅ์', '๋ถ๊ฐ', '์ด์ฉ', 'ํ๋ฉฐ', '๋ณธ์ธ์', '๋จน๊ณ ', '์ค๋ช ํ', | |
| '์ด์ ', '๊ฒฝ์', '์ด๋ฐ', '์ ๊ตฌ', '์์', '๋๊ธฐ์ ', '์ ํ', '์ด์ง', | |
| '๋๊ฒ', '์ฝํ', '์ด๊ฑฐ', '์ปจํ ์ธ ', '๋ณด์ด๊ธฐ', '๋น์ฐ', '์ผ๊ตด๋', '๋ํํ', | |
| '๊ธฐํ๊ฐ', '์๊ธฐ', '๋์ด๋ฅผ', '์ด์ ', 'ํ์', '์ด๋ฌ', '์ค๋ง', '์ํฉ์', | |
| '์ฌ์ง์ด', '๋ํํ๋', '์ค๋ฐ', '๋น์ทํ', '๊ทธ๋งํผ', '๋ง๋ถํฐ', '๋ฌธ์ ๊ฐ', | |
| '์๊ธธ์ง๋', '์๋ฌด๋', '์์ฑํ๊ธฐ', '์ต์ด๋ก', '์ธ๋ฐฉ', '์ ๋ฆฌํ', 'ํด์ฃผ', | |
| 'ํฉ๋ฐฉ', 'ํฉ๊ธ', '์ ๋', '์์ํ', '์์ ', '์์กฐ', '์ด๋ฑํ', '์ด๊ฒ๋', | |
| '๋ ผ๋์ด', '๋ ์ง', '์์ฝ', '์ ๋ช ํ', '๋๋ฅผ', '๋๋', 'ํ์ด', '๋๊ฐ', | |
| '์ธ์ง๋', '์ง๊ธ์', '๊ฐ์๊ธฐ', '์์ ', '์๋ ', 'ํด๋ฐฉ', '๋ฐ๋ท๋ฐฉ์ก', | |
| '์ธ์', '๋๋ฅผ', '์ด๋ฅธ', '์์ผ๋', '๋์ถฉ', '์น๋', '๊ด์ฌ์ด', 'ํ๋ ', | |
| 'ํ์ง', '์์๋', '๋ฅ๋ ฅ', '์ค๋์ ์', '์๋ค๊ณ ', '๋ง์์', '์ฑ์ฅ', | |
| '์ ์ด', '๋ฐ๋ผ', '์ง์', '๋ถํ์ค๋ฅด๊ธฐ', '๋ ธ๋๋', '๋๋', '๋์๋ฅผ', | |
| '์ฌ๋๋ค์ด', '๋๋ค๊ณ ', '์์', '์๋ฌ์ฝค', '์ค๋๋', '๋ถ๋ค', '์ ์น์', | |
| '๋งค๋์ ', '์ง๊ถ์', '๋ฐ๊พธ', '๋ณด์ด๋', '๊ฐ์ง', '์ฌ๋์', '๋ฌด๋ ต', | |
| '๊ทธ๊ฑธ', '๋์', '๊ฒฝ๋ ฅ', '๋ค์ฏ', '์ฑ์ญ', '๋ด์ฉ', '์ ๊ฐ', '์ด๋ ต๊ฒ', | |
| '๊ด์ฐฎ์ผ', '์ค๋์ ์ด', '์ซ์', '์ธ์', '๋ฌผ๋ก ์ด๊ณ ', '์ ์ด๋', '๊ฒฐ์ฝ', | |
| '๋ฌํ๋', '์ผ์', 'ํ๋ค๊ณ ', '๋์ด', '๋๋ค์์ด', '์ธ์', '๊ฐ๋ํ', | |
| '์ถ๊ธฐ', '๋๋ผ๋', 'ํด๋', '๊ณ ๋ฐฑํ', '๋์', '๋ง๋ค์ด', '๊ณต๊ฐ์', | |
| '๋ด๋๋', '์ง์ ', '๋ฌด์๋ณด๋ค', '์ ๋นํ', '์ด์ฅ', '๋๋', '๋จ๋ฆฌ๋', | |
| 'ํ๊ธฐ', '์ ์ง', '์ด๋ฆฌ', '์ฐ๋ง', '๋ณธ์ธ๋', '์ง์ง๋ก', '์ผ๋ง๋ ์ง', | |
| '๊ฐ๋ณด', '์๊ณ ', '๊ทธ๋๋', '๋์ด', '๊ณผ๊ฐํ๊ฒ', '๊ฐ์ธ', '์๊ณ ', | |
| '๊ณ ๋ก', '์นจ๋ฌต', 'ํ์ง', 'ํฐ์ค', '์๋ค๊ณ ', '์ง๊ธ๊ป', '์ด๋', | |
| '์ฌ๋์', '์์ ', '๋๋', '๊ฐ๊ณ ', '๋ด์ฑ์ด', '๋ํ ์ผํ', '์๊ฐ', | |
| '๋ฐฉ์ก์', '์์ด', 'ํฌ๋ฃจ๊ฐ', '์ ์ ์ด', '์๋', '๊ฐ์ ์', '๋ํ', | |
| '์ฌ๋ฌ', '๋๋ฆฌ', '์ฌํ', '๋ง์ผ', '๋ฏธ๋ฆฌ', 'ํ ์ง๋', '๋ค์ํ', | |
| '๊ณ ์ฌ', '์ด๊ฑด', '์ ์ง', '๊ฒ์', '๊ทธํ ๋ก', '๋ณต์ฅ', '์ฌ๋ฆฐ', | |
| '๊ทธ๊ฒ์', '์๋ฌด๋ฐ', '๋ฌด์๋ฌด', '์์์ง', '์๋ค๋', '์ดํ', '์ฌ์ฌ', | |
| '๋ฐ์', '๋ชจ์ฌ๋ค๊ธฐ', '์ค์ ', '์ค๋๋ง์', '์๋๋ก', '์ ์ฒญ', '๋๋๊ณ ', | |
| '์ซ๋ฆฌ๊ธฐ', '์ธ์์ด', '์ค๋์ด', '์ด๋์', 'ํ์์', '์ข ๋ฃ', '๋ณด๋ด์ฃผ', | |
| '๋ฆ์', '๊ด๋ จ', 'ํ๋', '์ฒด๊ธ์', '์ ์ ํ', '๊ทธ๊ฒ์', '๋ช ์', | |
| '์๊ฐ์', '์ฃผ์ต', '๊ทธ๋งํ', '์ผ์ผ์ง๋', '๋๊ฐ', '๋ฑ์', '์๋ฃ๋ฅผ', | |
| '๋๋', '๋ช ์', '์ฌ์ ๊ฐ', '์ฌ์ ์', 'ํ๋ค๋', '์ ์จ', '์๋', | |
| '๋ด๋', '๋ช ์ค์', '๋๋', '์ํ', 'ํผํด', '์์๊ณ ', '๊ทธ๊ฑด', | |
| '๋ฐ๊ณ ', '๋ง์น', '์ฌ์ฉํ ', '์ํต', 'ํ๋๊ฐ', '์ ๊ณ ', '์ด์', | |
| '๋ถ์', '๋ชฐ์ ', '๊ฐ๋', '๋ถ์ด', 'ํ๋ฆฌํฐ๊ฐ', '์ด์ ', '๊ธฐ์ ', | |
| '๋๋์๋ง', 'ํตํ', '์๊ธฐ์๊ฐ', '์๊ฐํ ', '๋จ์ด๊ฐ', '์๋น์ค๋ฅผ', | |
| '์ ์', 'ํ๊ธฐ', '์ ๋ฐฐ', '์์ผ๋ฉด', '๋ ธ๋๊ฐ', '์์ธ', '๋ ธ๋์', | |
| '์ฌ๋๋ค์', '์ฃผ์์', '๊ฐ๋', '์๋', '๋ดค๋', '์คํ๋ ค', '์ด์ผ๊ธฐํ', | |
| '๋ฐฉ์ก์ ์ธ', '์๋ฌธ์ด', '๋์น๋', '๋ค๊ณ ', '๋ ธ๋์', '๋ฌด๋๋ฅผ', | |
| '๋ ์นด๋ก์ด', '์ ์ฒญ', '์ด์ฐฝ๊ธฐ', '๋ฌํ', '์ ๋ ์ด๊ธฐ', '๋์ ', | |
| '์์ผ๋', '์์', '์ด์ ๋ก', '๋ค๋ค', '๊ดํ', 'ํ์ธํ', '์ด๋ง๋ฌด', | |
| '์ค์ํ', '๊ฒ์ด๋ผ', '์ต์ ์', '์ถ๊ฐํ', '์๊ธด', '์์ด์', '์๋ง์', | |
| '๊ฐค๋ฌ๋ฆฌ', '๊ทธ๋๋ง', 'ํ ์ธ๋ฅผ', '์ด๋ค์', '๋ถ๋ถ์', '๋จ๋', '๋์ฑ', | |
| '๊ฐ๋จํ', '์ ์', '์์', '์์๋ณด', '์ค๋์', '๋ ๋', '๋ฐ์ง๋ฉด', | |
| '์๊ธฐ์', '์์ ', '๋ณด๋', '๊ทธ๋ค์', 'ํด์', '๋ฏธ์น', '์ต์ข ํฉ๊ฒฉ', | |
| '์ถฉ๋ถํ', '์ง์งํ', '๊ณผํฌ', '๋ง์', 'ํ์ด๋ผ์ดํธ', '์ผ๋ค์ด', | |
| '์์คํ๊ฒ', '์ง๊ธ๊น์ง', '๋จ๊ฑฐ์ด', '์ฌ๊ธฐ์', '์น๋ฆฌ', '์๊ฐํ', | |
| '๋จ์งํ', '์๊ฐ', '๋์ฒ ํ', '์์', '๋๋ค๊ณ ', '๊ธฐํ์ฃผ์', | |
| '๊ณ ์ง์', '๋ฐ์ํ๋', '์์ด๋์', 'ํ๋ คํ', '์ด์ด์ง๋', '๊ทธ๋ก', | |
| '๊ธฐ์ตํ', '๋ณด๊ธฐ', '์ด๋ฒ์๋', '์ผ์', '๋งค์ผ', '๊ทธ๋ผ', '๋ชฉ์๋ฆฌ๊ฐ', | |
| '๋ฌด๋๊ฐ', '๊ฒน์น๋', '์ค๊ฐ', '์ฌ๋', '๋จน์', '๊ทผ๋ฐ', '๋ฐฐ์ ', | |
| '์ดํด๋ณด', 'ํฉ๊ฒฉ์', '๋ฝ์', 'ํ๊ณ ', '์๊ฒฌ์', '์์๊ฐ์', | |
| '์ด๋งํ', '๋์', '๋น์ฅ', '๋ฐฐ๊ฐ', '๋งํผ', '์ผ์ฐ', '์ฐจ์ด๋', | |
| '์ฐ์ต', '๊ณผ๊ฑฐ', 'ํฌ๋ค์ด', '๋๊ณ ', '์ผ์ ์ด', '๋ถ๋ง์ด', '์๋ง์', | |
| '์ข์ํ๋', '์์ต', '์์๋ถํฐ', 'ํ์คํ๊ฒ', '๊ทธ๊ฑฐ', '์์๋', | |
| 'ํ์๋ฉ', 'ํด๋น', '๋์๋ค๋๋', '๊ธฐ๊ฐ์ด', '์ทจ๋ฏธ', '๋ชปํ', | |
| '๋ค์ด๊ฐ', '๋ค๋๋', '์๋ชฐ', '์์์', '์งง์', '๊ทธ๋ฌ์', '์ฌ๋ก ์ด', | |
| '๋์', '๋์ค๊ธฐ', '๋ฌด๋ญ๋ฌด๋ญ', 'ํ๋ฝ์', '๋์ด๋๊ธฐ', 'ํ์', | |
| 'ํ๋์', 'ํญ์ํ๊ธฐ', '๋ง์ํ', '๋ฒ์จ๋ถํฐ', '์ฌ๊ณผ', 'ํ๊ธฐ์', | |
| '์๋ฌด๋ฆฌ', '๋ฑ์ฅํด์', '๊ธฐํ๋ฅผ', '์ง์ผ๋ณด', '๋ํ', '์กฐ๋ณ๊ณผ', | |
| '์ง์ค', '๋ฝ๊ธฐ', '์๋ก', '๋๋', '์ผ๋ฅธ', '๊ฒ๋ค์', '์๋๊ฐ', | |
| '์ฝ์๋', 'ํ์๋ฅผ', '๋์์ค', 'ํฌ์', '์ชฝ์ด', '๋ฐฉ์', '์น๊ธฐ์ข ๊ธฐ', | |
| '์งง๊ฒ', '์ฐ๋ฆฌ๋', '๋ด์ฃผ', '์ํด', '์๋น', '๊ฐํด', 'ํฌ๋ค์', | |
| '์ด๋ฏธ์ง๋ฅผ', '์ ์ธํ๊ณ ๋', '์์ฌ์ด', '์ต์ด์', '๋ณ์๊ฐ', '๋ณํ๊ฐ', | |
| '๋ด๊ฒ', '๊ฒฝ์ฐ๊ฐ', '์ ๋ฒ', '์์ํ', '์๊ทผํ', '๋ถ๋ฅด', 'ํ์๋ณด๋ค', | |
| '์ฃผ์ด์ง', '๋ง์ด', '๊ดํ', '๊ฒฝ์ฐ์๋', '๋ถ์กฑํ', '์ ์ฅ์์๋', | |
| '์๊ฒ', '๋น๊ต์ ', '๊ทธ๋ฌํ', '๊ทธ์ผ๋ง๋ก', '์ฝ์ํธ', '๋ถ์๊ธฐ๋ฅผ', | |
| '๋ง๋ฅ', '๋ฉํ', '์์ฌ', '์ ์ ', '๋ฏ์ ', '๋ชจ๋๋ฅผ', '์คํ๋', | |
| '์ฐจ๋ฆฌ', '๋ชจ์ต์ด', 'ํ๋ณด', '๋ฑ์ฅํ', '๋ฉ์ธ', '์ก๊ณ ', '๊ฒ์', | |
| '์ธ์ฌ', '์ธํฐ๋ทฐ', '๊ฐ์ฑ์', 'ํด์', '๊ฐํ', '๊ฒฐ๊ณผ๋ฅผ', '๋งํ', | |
| '๋ ธ์ถ', '๋ฐฉ๋ฒ์ด', '์์์ด', '์ด์์ด๋ฉด', '์ผ์', '์ด๊ฒ', 'ํ์ฐจ', | |
| '์ฐ์ฅ', '๊ทธ๋ค์ด', 'ํ์', '๊ฑธ๋ฆฌ๋', '์ดํ', '์ ๋', '์ผ์ด๋', | |
| '์ํ', '๊ฑธ๋ฆฐ', '์ณ๋ค๊ณ ', '๋ฐฉ์ ', '๋ฒ์ด์ง๋', '๊ตฌ๋งค', '์์ํ๊ฒ', | |
| '๋ถ๋ถ์', '์์ฌ์', '๋๊ตฐ๊ฐ๊ฐ', 'ํฉ๋ฅ๋ฅผ', '์ค๋น๋ฅผ', 'ํตํด', | |
| '์ผ๊ฐ', '๋จธ๋ฆฌ', '์๊ฐ์ด', '๋ฏธ์ฑ๋ ', '๊ฐ์๋', '๋ชจ๋ฅด๋', '๋ฏฟ์์ด', | |
| '์ด๋ณด', '๋ณด๋', '๋ฌ์ด๋ผ๋', '๋ชปํ๋', '๊ฑธ๊ธฐ', '์ข์', '๊ทธ๋ค์', | |
| '์ฅ๊ธฐ', '์ฌ์ฉ', '๋์ด๊ธฐ', '๊ท์น์ ์ธ', '๊ณ์ํด์', '์ฐ๋งคํ', | |
| '๋ฌ๋ฆฌ๊ธฐ', '์ ์ ๋ณ', 'ํ์ ๋ณ', '๋๋ถ์', '๋ถ๊ตฌํ๊ณ ', '๊ฐ์์', | |
| 'ํฌ๋ฃจ์', '๋ฉค๋ฒ๋ค์', '๊ฒ์ผ์ง๋', '๋ฒ์ฉ', '๋จ์ํ', '๋ณธ๊ฒฉ์ ์ธ', | |
| '์ค๋นํ', '์ธ๋ํ', '์ฌ๊ณ ', '์๊พธ', '๋ฃ๋', '์ด๋ฆ', '๋น์ฒจ', | |
| '๋ ๋ฐ๊ธฐ', '๋๊ธฐ', '๊ณฐ๊ณฐ์ด', '๋งํ๋ค', '๋ถํ์ฅ', '์ฝ์ธ', '๊ฒฐํผ', | |
| '์ ๋งค', '์ฌ์ํ', 'ํ์ด', '๊ฑฐ๋', '์ต์ด์ด', '๋คํผ์ด', '๋ฏํ', | |
| '๊ทธ๋ฌ๋ฉด', '๋ฆฌ๋', '์๋ก์', '์ ๋ณด๋ฅผ', '์๋ก', '๋ฑํ', '๋ชฉ์๋ฆฌ๋ก', | |
| '๊ฐ์ ', '๊ฒ์ฒ๋ผ', '๊ฐ๋ฑ์ด', '๋์๋ง', '์ ํด์ง', '์์ด์', | |
| 'ํํํ๊ฒ', '๋ง๋ถ์ด', '๋์ด๊ฐ', '๋์์จ', 'ํ๋ฆฌ์นด', '์ํ', | |
| '์์์', '๋ชจ์ต์', 'ํ๋ฐฉ', '์์คํ', '์ฐ์ ๋ฅผ', '์๊ฒฉ์', | |
| '์์ฐ์ค๋ ', 'ํจ๊ณผ๋ฅผ', '๊ฒฝ๊ณ์', 'ํ์ฝํ๋', '์ต๋ํ', '์ซ์ดํ๋', | |
| '๋๊ธ', 'ํ์', '์์', '๋ฐฉ์ก์', '์ฐธ๊ต์ก', 'ํธํ๊ฒ', '๊ฒ์์ด', | |
| '๋๊ฒฐ๋ฏธ์ ', '์ ์ฐฉ', 'ํ์', '๋๊ณ ', 'ํ๋ฉด', '๋ถ๋ค', 'ํฌ์๋น์ค', | |
| '๋์', '๋ค์ด์ค์๋ง', '๊ฐ๊น์ด', 'ํจ๋ฐฐ', 'ํ์ด', '์์ธ', '์์น', | |
| '์ด์ฌ', '๊ฑฐ๋ํ', '์ํด๋ฅผ', '์ง์ ', '๋น์', '์ถฉ๋ถํ', '์ค๋', | |
| '๋๋', '๋๋ถ์ด', '๋ฌธ์ ๋', '๋ฉธ๋ง์ ์', '๋ฐฉ์ก๋ถํฐ', '๋ง๊ด', | |
| '์๋ค๋', '์ ๊น์ง', '๋๋ง๋ค', '๊ทธ๊ฒ๋', '๋๋ก๋', '์์ ', | |
| '๊ทธ๋์ผ', '์ฌ์', '์ธ๋ ฅ์', '์ป๊ณ ', '๊ฐ์ง', '์ ์ธํ', '์ผ๋ก', | |
| '์ธ๊ฐ', '์จ๊ฐ', '๋ฌ๋ค', '๊ต์ก', '์๋ฒ๊ฐ', '์์ผ๋ฉด', '์ฃผ๊ณ ', | |
| '์ธ๋', 'ํด์ถ', '์๊ฐ๋ง', '๊ทน๋ํ', '๋์ด', 'ํ์ ์ฑ์', 'ํ์', | |
| '๋ชปํ๊ณ ', 'ํํด', '๋ช ์ด', '์๋ จ', '์๋ค๊ณ ', '์ค๋นํ', '๋๋ฉด', | |
| '์กฐ์ฌํ', '์ ํ๋ธ', '์์ฆ', '์ต์ํ', '์กฐ๊ฑด์', '์์', '๊ฒฝ์ ', | |
| '์ ์', '์กฐ์ ', '์ง์งํ๊ฒ', '์ ์', '์์ ์ด', '์๋ค๋ฉด', '์๋ฒ๋', | |
| '๋ฐํ', '๋ฐ์', '์์๋', 'ํ๋ฐ', '๋ฌด์', '๊ทธ์ ', '๋์ค๋ฉด', | |
| '์ธ์ฐ', '๋๋์ง', '๊ฐ์ด์ด', '์ฑ์ฌ', '๋ด์', '๊ฐ์กฐํด๋', | |
| '์์ธ์', '๋ง๋', '๋นจ๊ฐ์ฝ์', '์๋ฏธ๋ฅผ', '์ ๋ง๋ก', '๋ณด์ฌ์ฃผ๋', | |
| '์๋ฆฌ๊ฐ', '๋ณด๋', '์ ์ ๋', '๋๊ณ ', 'ํธ๊ธฐ์ฌ์ด', '์ด๊ธฐ', | |
| '๋ทฐ์ด์ญ', '์ ์', '์ ์ฃผ', '์์ ', '์์ฅ', '๋ชจ์ง', '๋๋จธ์ง', | |
| 'ํ์', '์ธ์์ด', '๊ถ๋ ฅ', '์ผ์', '๋๋์ง', '๋ณด๋ฉด', '์๋๋ฅผ', | |
| '๋ํ์', '๋ฏธ๋๋ฅผ', '์ฐจ๊ฐ์ด', '์ด์ด์ฃผ', '์ค๋์ ', '์๊ณ ', | |
| '๋ฑ์ด', '์๊ท', 'ํ๋ฐ์ฃผ', '์ ์ฑ', 'ํ๋ณต', '๊ทธ๋ฌ๋', '์์ ์ ์ธ', | |
| 'ํ์ฒญ', 'ํฌ๋ค์ด', '์์ ์ ์ธ', '๊ฒ์์', '์ฌํ๋ฅผ', '๋๊ปด์ง์ง๋', | |
| '์ฌ์ฉํ๋', '์ ์', '์ธ์๋', '์ด์', '์ ์', '์ฌ๋ฆฌ', '์ ๋ชจ', | |
| '๊ท๋ชจ๋ฅผ', '๋ฐ์', 'ํ๊ธฐ', '๋ฐฉ์กํ๋', 'ํฅ๋ถ', 'ํค์๋ง', '๊ฒฝ๋ก', | |
| '์์์', '๋๋ฅด', 'ํด์ค', '์ฐ๋', '๋ฒ์ด์ง๊ธฐ', '๋ฐฉ์ฌ', '๊ฐ๋ฅผ', | |
| '๋ ๋', '์นผ๋ ', '๋ฐดํฝ', '๋ ธ๋ฐฉ์ข ', '์ธํด', '์ฑ์ธ', '์ค๋์', | |
| '์์ด๋', '์์ ', 'ํ๋ฐ', '์๋์ง', '๊ฒจ์ฐ', '์ด๊ฑธ', '๋ง๋ฒ', | |
| '์์ด๊ธฐ', 'ํ์ฌ๊ฐ', '๊ณ ๋ฅด', '์ฆ๊ฐ', '์ฐจ์ด๊ฐ', '์์ ', '๋์', | |
| '๋ ธ๋ ฅํ๋', '์กฐ๋ ฅ', '๊ทธ๋๋ก', '๋ค์ด์๋ฅผ', '๊ด์ง์', '์๋ฉ', | |
| '๋ง์ฃผ์น', '๋ฐฉํด', '๋ฌธ์ ๋ผ๋', '๋ณผ์', '๋ง์', '๋ฉํ', '๋๋ฆ', | |
| '๋ด๋', '๋๋ถ๋ถ', '๋ฌด๋ฒ', '๋ณ๋ช ์ด', 'ํ๋๋ก', '์๋ ค์ง', | |
| '์์ดํ ์', '์๋ฉด', '์๋', '๊ณ ๊ฐ', '๋ ธ๋', '์ธ์์ด', '์ฃผ์ ', | |
| '๋์ฌ์ง๋', '๋ชจ์ฌ์', '๊นจ๋ฌ์', '๋ณด์๋ง', '๊ธธ์', '๋์ค์๋ง', | |
| '๋ฉค๋ฒ๋ค์ด', '๋๊น์ง', '์์์์ง๋', 'ํ๋์ง', '์๋ฒ์', '๊ฑด์ถ์', | |
| '์ปจํธ๋กค์ด', '์์ฑ', 'ํ๋ฃจ์์นจ์', 'ํธ๊ฐฑ', '๋ฉ์ง', '์ฌ๋ฃ', | |
| '์๋ฒ์', '๋น๊ตํ๋ฉด', '์ข๋ค๊ณ ', '๋๋', '๋ ๋ค๊ธฐ', '์ด์๋จ์', | |
| '๋กค๋์ปต์', '์ด๋', '์ด๋์ด', '๊ฒฝ์ฐ๋ฅผ', 'ํ๋์', '๊ฐ์ท', | |
| '์ธ์์', '์ถ์ข ', '์ค์๋ง', '๊ธฐ๋ํ๋', '์ค๋ง', 'ํ๋ฐฐ', '๋ง๋ํ', | |
| '์คํ', '๋ฌผ์ด๋ณด', '๊ฒ๋ถํฐ', '๋จ์ฑ', '๋ณด์ฌ์ค', '๋๋ ค', '๋ค๋ฅด๊ฒ', | |
| '๊ตฐ๋ฐ', '์ฐ๋ฆฌ์', '์ฐ๋ฆฌ๊ฐ', '์ง๊ธ๋ถํฐ', '๊ทธ๋ฆฌ', '๋ฐ๋ผ๋ณด๋', | |
| '๊ธฐ์ต', '๋๋์', '๋ง์์', '์ถ์', '์์ ', '์ํ๋', '์ธ๋งฅ์', | |
| '์ฌ์ค์', 'ํฌํจ', '์ ํํ', '๋์๊ฐ', '๋ชฐ๋ ค์ค๊ธฐ', '์น์ ํ๊ฒ', | |
| '๋๊ตฌ๋', '๋ชป๋', '๊ด์ง๋ถํฐ', '์ธ์์', '์์', '์งํ', '๋ ธ๋ฅธ', | |
| '๋ฐ์ ', '์ฒด๊ธ์ด', '์ธ์ฐ์', 'ํ์๊ณ ', '๋๋ถํฐ', '๋ฌด์กฐ๊ฑด', | |
| '๋ง์๊ณ ', '์ฌ๋ก ์กฐ์์', '๋ฑ์', '๋งํ ์ง๋', '๊ธ์ง', '๊ทธ๋ด', | |
| '์ ์ฒด', '๋ค์ด์', '์ ๋ฌผ', '์ ๊ท', 'ํผ์์', '๋๋', '๋ฉค๋ฒ๋ค์', | |
| '๋ณด์ ', '์งํ์ผ', 'ํ์ด', '์ง์ง', '์ฐ์น', '๋กค์', '๋ฏํ', | |
| '๋ฐ๋ฅ', '๋ฒ์ฃ', '๋์ฑ', '์ ์ํ', '์์ํ', '๋งค๋ ฅ์ ์ธ', '๋์ค๋', | |
| '๋ฐ์ด๋ฅผ', 'ํฅํ๋', '๋ฒ์', '์ฐจ์ค๋ฅด๋', '๋๊น์ง', '์ผ๋ถ๋ฌ', | |
| '๋น๋นํ๊ฒ', '๋๊ฐ', '๋์์', 'ํฌ์', '์ฌ๋ฟ', '๋ฐ์', '๊ฒฝ๊ธฐ๊ฐ', | |
| '์ด๊ด', '์๊น๋ถํฐ', '์ค๋ช ์', '๋ฐฉ๋ฒ์', 'ํ๋๋ก', '๋ณธ์ธ์ด', | |
| '์์ฌ์ด', '๋ชจ์ต์', '์ง์ฌ์ธ', '์กฐ๊ธ๋ง', 'ํ๋ฌ๋์ค๊ธฐ', '์ ๋ถํฐ', | |
| '์์์', '๋ง๋', '๋์', '๊ทธ์ชฝ', '์ฒ ์ ํ๊ฒ', '๊ณณ์', 'ํ๋ฆ์ด', | |
| 'ํ์ญ', '๊ทํ', '๊ฐ์ธ', '๋นํด', '๊ฒ๋ค์ด', '์ด์จ๋ ', '์ง์๋ค', | |
| '๊ฐํ์', '๋์', '์ก๊ธฐ', 'ํญ์ฃผํ๊ธฐ', '์ฑ๊ธฐ', '์๋ค', '์ค์ค๋ก์', | |
| '๋นผ๊ณ ', '์๋ฆฌ๋', '์งํํ', '๋ง์๋๋ฆฌ', '๋ฝ์๋ณด', '๋๋ ค์', | |
| '์ฐพ๊ธฐ', '์ ๋ฉด์น', '์์์', '๋ง์์ง', '์ธํ', '์ข ์ผ', '์ด๊ฒ์ด', | |
| '์์', '๋ด๋ ', '์ง๋', '์ฌํด', 'ํ๊ฐํ', 'ํน์๋', '๋ถ์๊ธฐ๊ฐ', | |
| 'ํ์', '์ต์ฐ์ฅ', '์๋์ ์ธ', '์๊ฒ ๋ค๋', '์์๋', '๊ฐ๋ฆฌ', | |
| 'ํด์ญ', '๋ธ์ด', '์๋ด๋ฅผ', '๊ฐ์', 'ํญ๋ฐ', '๋ฐ์์', '๊ฐ๋ค๋', | |
| '๋ญ๊ฐ', '๊ณต๊ฒฉ์', '๋ณด๋ฉฐ', '์ฌ๋ผ์จ', '์ ์ธํ๋ฉด', '์ทจ์นจ', | |
| '๋นก์ธ๊ฒ', '์์ง๋', '์๊ธ์', '๋ ์ฌ', '์ฌ์ ', '๋ง๋ก', '์น๊ตฌ๋ค์ด', | |
| 'ํด๋ด ', '๋ฌ๋ ค๋ณด', '์ญ์ฌ๋ฅผ', 'ํ์คํ', '๋ง์์ด', '๋ญ๋ ', '์ฑ๋', | |
| '์ผํ', '์ฆ๊ธฐ๋', '์์ ', '๊ทธ๋ ์', '๋ถ๋ช ํ', '์ค๋น ', '๋ชฐ๋', | |
| '์์ง', '๋ฌด๋ ฅํ', '์๊ฑฐ๋ฆฌ', 'ํฅํ', '๋ถ์ด๋ณด', '๊ณ ์กฐ', '๋์ด์', | |
| '๋ ์ค๋ฅด๊ธฐ', '๊ณํ์ด', '์งํํด๋ณด', 'ํ์', '๋ป์', '๋์ ', | |
| '๋งค๋ฒ', '๋ถ์๊ธฐ๋', 'ํฌํ ', '๋์', '๊ธฐํ์', 'ํนํ', 'ํ์ฐธ', | |
| '์์ด', '์ค๋นํด์จ', '์ฆํญ', 'ํ๋ค๊ณ ', 'ํ๋ฐ', '์ฌ๋ผ์ค๊ธฐ', | |
| '๋ชปํ๋', '๋จ๊ธฐ', '์ค์', '์๋ฃ๋ค์', '์ผํ ', '์ผ๋ฐ์ ์ธ', | |
| '์ด์ฐจํผ', '์กด์ฌ', 'ํ๋ฉ์', '์๋', 'ํ๋ฉ์', '์์ค๋', '์ต๊ฐ', | |
| '์ง๋', '๋จ์ฒด', '๋ฐฐํ ', '๊ฐ๊ณ ', '๋ค์ด๋ณด', '์์', '๋คํด๋ณด', | |
| 'ํฌ๋ค์', '์ฑ๋์', '์ง๊ธ์', '์ฝ๊ฐ', '์ด๋ง์ด๋งํ', '์ต์ํ์', | |
| '์์๋๋ก', '๊ธฐ๋ณธ', '์ฌ์ฐ์', '๋ญ์ง', '๋ง์', '๋ช๋ช', 'ํน์ ', | |
| '๊ฒฝ๋งค๋ฅผ', '๋ถ๋ฌ', '๊ณ ์', '๋ฑ์ฅํ ', '๋ฐ์๋ณด', '๊ต์ฅํ', | |
| '์ด๋์', '์ฑํ ', '์ฐพ์๋ณด', '๊ธฐ์ ์', 'ํํ', '์์ง๊น์ง', | |
| 'ํ์ด', 'ํ๋ด', '๋๋', '๊ฑด๋ฐ', 'ํฅํ', '๋์๊ฐ๊ธฐ', '๋ชจ๋ฅธ๋ค๋', | |
| '์ฌ๋ผ์ค์๋ง', 'ํ๋ ฅ', '์ธ๊ธฐ๋ฅผ', '๊ฒฝ์ฐ๋', '๊ธํ๊ฒ', '๊ธ์ด', | |
| '๋ฉ๋', '์ฐจ๋', '๋นํ๋', 'ํด์ผ', 'ํฌ๋ค์', 'ํฌ๋ค๋', | |
| '์ด์ฝ๊ณ ', '๋ฐ๋', '๋์จ', 'ํ์ํ๋ค๊ณ ', '์๋ฆฌ์', '๊น์', | |
| '์ฐฉํ', '๋์', '์ป์', '๋๋ฆฌ๋', '์งํฉ', '์ด๋ฆฌ๋', '์ผ์ธ', | |
| '๋ฐ๋ฐ', '๋ณด์ผ์ง', '๋ฌด๊ธฐ', '๋ชจ๋๊ฐ', 'ํ์ฑํ', '์ด๋์', '์ด๋๋ก', | |
| '์ค์ํ๋ค๊ณ ', 'ํฌ์ธํธ', '๋ผ๋', '์ ๋ก๋', '๊ฒ๋ค์', '์์ํด์', | |
| '์ค๊ณ๋ฅผ', 'ํ๋', '๋์ด', '๊ณ์ จ', '์๋ฒ๋ฅผ', '์์ฒญ๋', '๋จ์ด์ง', | |
| '๊ธฐ์', '๋ค์ด์ฃผ', '์ ํฌ๋ฅผ', '์กฐ์ฉํ', '์ด๋์', 'ํ๋ค๋ฉด', | |
| '์์ ๊ฐ์ด', '๋น์ทํ๊ฒ', '๋๊ฒฐ์ด', '๋ง๊ณ ', '๊ฒฌ์ ๋ฅผ', '์ ์ค', | |
| '๊ฒฝ๊ธฐ์', '๊ฒฐ๊ณผ๋', '์๋', '์ค์ด๋ค๊ธฐ', 'ํ๋ จ', '์ ๋๋ก', | |
| 'ํ์๋ง', '๊ฐ๋ณ๊ฒ', '๋น๋ถ๊ฐ์', '์กฐ๊ธ์ด๋ผ๋', '๋ฒ์', '์๋', | |
| '๊ฒฝํ์ด', '์์์', '๋ด๋ฆฌ', '์ธ์น๋', 'ํ๊ป', '๋๋ดํ', | |
| '์ด๋ชจ', '๊ฝค๋', '์ค๊ธฐ', 'ํ์ฝํ ', '์์ฒญ๋๊ฒ', '๋ค์๋ฉด', | |
| '๋์ฐฉํ', '์ํ์', '์ด์จ๊ฑฐ๋', '์๋กญ๊ฒ', '๋ฏธ์ฐ', '๊ตฌ๊ฒฝ์', | |
| '๋จ์จ์', '๋์ผ', '์ ๋ณด๊ฐ', '์ด๋ด', 'ํฐ์ด', '์ํฅ๋ ฅ์', | |
| '์ญํ ์', '๊ฐ์๋ฐ', 'ํจ์ฌ', '๊ฐ์ข ', '์น๋', '๊ทธ์', 'ํฌ๊ธฐํ๊ณ ', | |
| '์ธ์', '์ ์ฅํ', '๋ด๋น', '์ ํฌ', '์ต์ํ', '๋ฐ๋ทํ', | |
| '๊ผฝ์๋ณด', 'ํ๋ํ๋', '๊ณต๊ฐํ ', '๊ต์ฅํ', '๋ฐ์ผ', '๋จ์', | |
| '๊ฑท๊ธฐ', '์์ ', '๋ง๊ฐ', '๋ฉ์ง๊ฒ', '์๊ธ', 'ํ์๋ค', 'ํฌ๋ค๋ค', | |
| '๋ฒ์', '์์ ธ', '๋๋ค๊ณ ', '๋งค์ฅ', '์ฌ๋๋ค๋', '์์ด', '๋ถ๋ถ์ด', | |
| '๋ฏธ๋', '์ปค๋ค๋', '์ฐจ์ค๋ฅด๊ธฐ', 'ํ์ ํ', '์ต์ ์', '๋๊ณ ', | |
| '๊ฐ๋ฐ', '๊ธฐ๋ค๋ฆฌ', '์์ฆ', '์ฑ๋ก', '๋๊ณ ', '์ฌํ', '์ด์ธ๋ฆฌ๋', | |
| '์ฐจ๋ก', '๋ฒ์ด์ง์ง', 'ํน๋ณํ', '๋ฐ์ดํธ', '์๊ฒ', '๊ฑด์ง', | |
| 'ํ์', '๊ฐ์์', '์๊ฐ๋ณด๋ค', '๋ง์คํฌ', '์จ์', '์์ฌ๋ฅผ', | |
| '์ ๋', '์นํจ', '์ฌ์ ๋ฅผ', '์๊ธฐ๋ฅผ', '์ ๊น', '๊ฒฝ๊ธฐ๋ฅผ', | |
| '๊ธฐ๋๋ฅผ', '๊ฒ์์', 'ํ์', '๋ค์์๋', '๋ฐฉ์ก์', '์ด๋ฒ์๋', | |
| '๋งจ๋ ', '์์ ๋', '์น๊ธฐ', '์คํฌ', '์ด๋', 'ํ๋์ฉ', 'ํ์ํ', | |
| '๊ด๊ณ', '๊ฒฐ์น์ ', '๊ฐ๋', '์ฆ๊ฑฐ์ด', '์ ๋ค์ด', '์ค์ํ๊ฒ', | |
| '๋๋ฉด', '์ฐพ๋', '๊ณ ๋ชจ', '๊ฐ๊ฒฉ์', '๊ทธ๋ ๊ธฐ์', '์ฌ์ค์ด', | |
| '๋ค๊ธฐ', '์ฌ๋์ง', '์ฆ๊ฑฐ', '์์์', '์ด๊น์ง', '์ค๋น๊ฐ', | |
| '๋๋ํ', '์ค๋ซ๋์', '๋๊ธํ๊ฒ', '๊ณต์ฉ', '๋จน์ด๋', '๊ฐํ', | |
| '๋ง์คํฐ', '์ง์ ', '๋ฐฐ๋ฌ์', '์์กด', '์๊ฐํด๋ณด', '๋ง์', | |
| '๋๊ณ ', '์๋ฒฝํ', '์นญํธ๋ฅผ', '์ฌ๋ฅํฐ', '์ฆ๊ฒจ์ฐพ๊ธฐ', '์กฐ๊ธ์ฉ', | |
| '๊ทธ๊ฒ์ด', '์๋ชฉ', '์๊ฐ์', '์ผ์ดํฌ', '์ ์ง', '์ฌ๋ง', | |
| '๋๋ถ', 'ํ๋ค๊ฒ', '๊ฐ๋ฅํ', '๊ฐ์ฒ ', '๋น์ฉ์', '๊ฐ๋ ฅํ', | |
| '๊ทธ๋ฆผ์', '์ ๊ฒ', '๋ฐ๊ฒฌ', '๊ตฌ๊ฐ', '์ฝ์ํ', 'ํ๋๋ฅผ', | |
| '์๋ฆฌ๋ฅผ', 'ํ๋', '๋คํต์๋ฅผ', '๊ฐ์', '๋ฒ ์คํธ', '๋ ์ด๋', | |
| '์ผ์', '์์ธก', '์๋', 'ํ๋ฆฌ๊ธฐ', '์ฐจ๋ผ๋ฆฌ', '๋ค๋ ค์ค๊ธฐ', | |
| '์๋ค', '์๋ํ๊ธฐ', '์๋ ค์ฃผ', '๋ฐ๊ธฐ', '์ต๋จ', '์ด์ผ๊ธฐ๋ฅผ', | |
| 'ํ์ ๋ฅผ', '์ฒญ์', '๋งค๋ฌ๋ฆฐ', '์์', 'ํ๋์', '๋จ์ผ', | |
| '์๋ ', '์ฃผ์ฃผ', '๋์ ์', '์ ๋ฆฌ', 'ํ๊ตญ', '์ฌ์ง๋', '๊น๊ฒ', | |
| 'ํํฐ', '๋ํ', '์ ๊ตญ', '๊ตญ์ ', '์คํฏ', '๊ฐ์ฒ', '๋ํ', | |
| '์งํ', '๋์ดํฐ', 'ํ๋ ', '์๋ ํ', '์ฑ์', '์ด์ด', '์ ์ ', | |
| '๊ทธ๊ทธ', '์์', '์ผ์ผ', 'ํฌํฌ', 'ํํ', 'ํํ', 'ํคํค', | |
| 'ํธํธ', 'ํํ', 'ํํ', 'ํํ', 'ํดํด', '์บฌ์บฌ', 'ํคํค', | |
| 'ํธํ', 'ํผ์', '์์', 'ํํ', 'ํ์ฉ', '๊บผ์ด', 'ํต๊ณก', | |
| '์ง์ง', '๋ป๋ป', '์ค์ค', '๋๋', 'ํํ', '์ฝธ์ฝธ', '์กธ์กธ', | |
| '์ฃผ๋ฅต', '์ฃผ๋ฅด', '๋น๋น', '์ฑ์ฑ', '์น์น', '๋ฐ์ง', '๋ฒ์ฉ', | |
| '๊น๋นก', '๋๋', '๊ฐ์', '๊ธฐ์', '๋๋ฆฌ', 'ํ๋', '์ฌ์ฉ', | |
| '์ด์ง', 'ํ์ง', '๋ฐฉ๊ธ', '์ฑ๊ธ', '๋ฒ๊ธ', 'ํผ์', 'ํฅํฅ', | |
| '๊น๊น', '๊ป๊ป', 'ํํ', 'ํธํธ', 'ํํ', 'ํคํค', 'ํํ', | |
| '์ผ์ผ', 'ํฌํฌ', 'ํํ', '์บฌ์บฌ', 'ํคํค', 'ํธํ', '์์', | |
| 'ํํ', 'ํ์ฉ', '๊บผ์ด', 'ํต๊ณก', '์ง์ง', '๋ป๋ป', '์ค์ค', | |
| '๋๋', 'ํํ', '์ฝธ์ฝธ', '์กธ์กธ', '์ฃผ๋ฅต', '์ฃผ๋ฅด', '๋น๋น', | |
| '์ฑ์ฑ', '์น์น', '๋ฐ์ง', '๋ฒ์ฉ', '๊น๋นก', '๋๋', '๊ฐ์', | |
| '๊ธฐ์', '๋๋ฆฌ', 'ํ๋', '์ฌ์ฉ', '์ด์ง', 'ํ์ง', '๋ฐฉ๊ธ', | |
| '์ฑ๊ธ', '๋ฒ๊ธ', | |
| # Common Korean Particles and Endings (often attached to nouns) | |
| '์', '๋', '์ด', '๊ฐ', '์', '๋ฅผ', '์', '์', '์', '๊ณผ', | |
| '๋', '๋ง', '๋ก', '์ผ๋ก', '๊น์ง', '๋ถํฐ', '์๊ฒ', 'ํํ ', '๊ป', | |
| '์์', '๋ก์', '๋ก์จ', '๊ฐ์ด', '์ฒ๋ผ', '๋งํผ', '๋ณด๋ค', '๋ง๋ค', | |
| '์กฐ์ฐจ', '๋ง์ ', '์ปค๋ ', '๋ถํฐ', '๊น์ง', '์ด๋', '๋', '์ด๋ผ๋', | |
| '๋ผ๋', '์ด๋๋ง', '๋๋ง', '์ด์ผ๋ง๋ก', '์ผ๋ง๋ก', '์ด๋ผ์ผ', '๋ผ์ผ', | |
| '๊ณ ', '๋ผ๊ณ ', '๋ค๊ณ ', '์๊ณ ', '๋๊ณ ', '๋ผ๊ณ ', '์ด๋', '๋', | |
| '๋ฉด', '์ผ๋ฉด', '๋', '์ผ๋', '๋๊น', '์ผ๋๊น', '๋๋ฐ', '์๋ฐ', | |
| 'ใด๋ฐ', '์ง๋ง', '์ง๋ง', '๋๋ผ๋', '์๋', '์ด๋', '์ฌ๋', | |
| '๊ฒ', '๋๋ก', '๊ณ ', '๋ฉฐ', '๋ฉด์', '์ผ๋ฉฐ', '์ผ๋ฉด์', '์', | |
| '์๋ง์', '๋ค๊ฐ', '๊ธธ๋', '๊ธฐ์', '๋ฏ๋ก', '์์ผ๋ก', '๋๋ผ๊ณ ', | |
| '๋๋', '์๋๋', '์๋๋', '๋ค๋', '๋ผ๋', '๋๋', '์๋', | |
| '๊ฒ', '์ง', '๊ณ ', '๊ธฐ', '์', 'ใ ', '๊ธฐ', '์ด', | |
| '๊ฐ', '๋', '์ฅ', '๋ช ', '๋ถ', '๋ง๋ฆฌ', '๊ถ', '์๋ฃจ', | |
| '์ก์ด', '๋ณ', '์', '๊ทธ๋ฆ', '์ ์', 'ํต', '๋ฐ๊ตฌ๋', '์์', | |
| '๋ด์ง', '์ผค๋ ', '์', '๋ฒ', '์ฑ', '๋', '์ธต', 'ํธ', | |
| '์ธ', '์ด', '๋ ', '์', '์ผ', '์', '๋ถ', '์ด', | |
| '์', '๋ฌ๋ฌ', '์', '์ ๋ก', 'ํผ์ผํธ', '์ ', '๋ฐฐ', '๋ฒ', | |
| 'ํ', '์ฐจ', '๋ฑ๊ธ', '๊ธ', '๋จ๊ณ', '์', '๋ฑ', '๊ฐ๊ตญ' | |
| } | |