Spaces:

jonghhhh
/

objectivity_predicates

Sleeping

App Files Files Community

objectivity_predicates / korean_sentence_splitter.py

jonghhhh

Upload 3 files

7803723 verified 19 days ago

raw

history blame contribute delete

20.7 kB

	#!/usr/bin/env python3
	# -- coding: utf-8 --
	"""
	Korean Sentence Splitter (한글 문장 분리기)
	==========================================

	정규표현식 기반 한국어 문장 분리 라이브러리.
	KSS(Korean Sentence Splitter) 등 기존 연구를 참고하여 구현.

	주요 특징:
	- 종결어미 기반 문장 분리
	- 구두점(마침표, 느낌표, 물음표 등) 처리
	- 괄호/따옴표 내부 문장 보호
	- 기사 제목 스타일 (명사 종결) 지원
	- 약어 및 숫자 패턴 예외 처리

	References:
	- https://github.com/hyunwoongko/kss
	- https://github.com/likejazz/korean-sentence-splitter
	"""

	import re
	from typing import List, Optional, Tuple
	from dataclasses import dataclass
	from enum import Enum


	class SplitMode(Enum):
	"""문장 분리 모드"""
	PUNCT_ONLY = "punct" # 구두점 기반만
	NORMAL = "normal" # 일반 모드 (종결어미 + 구두점)
	AGGRESSIVE = "aggressive" # 공격적 분리


	@dataclass
	class SplitterConfig:
	"""문장 분리기 설정"""
	mode: SplitMode = SplitMode.NORMAL
	strip: bool = True
	min_length: int = 2
	preserve_quotes: bool = True
	preserve_brackets: bool = True


	class KoreanSentenceSplitter:
	"""
	한국어 문장 분리기

	Usage:
	splitter = KoreanSentenceSplitter()
	sentences = splitter.split("안녕하세요. 반갑습니다!")
	# ['안녕하세요.', '반갑습니다!']
	"""

	# ==================== 종결어미 패턴 ====================

	# 평서형 종결어미 (Declarative)
	DECLARATIVE_ENDINGS = [
	# 격식체 (Formal) - 합쇼체
	'습니다', '입니다', 'ㅂ니다',
	# 비격식체 (Informal) - 해요체
	'어요', '아요', '여요', '이에요', '예요', '에요', '세요', '셔요',
	'죠', '지요',
	# 해라체 (Plain)
	'한다', '인다', '는다', '운다', '른다',
	'었다', '았다', '였다', '겠다',
	'더라', '더군',
	# 해체 (Casual)
	'해', '야', '네', '군', '구나', '구먼',
	# 기타
	'거든', '거든요', '답니다', '랍니다',
	'데요', '래요', '대요',
	]

	# 의문형 종결어미 (Interrogative)
	INTERROGATIVE_ENDINGS = [
	'습니까', '입니까', 'ㅂ니까',
	'나요', '가요',
	'니', '냐', '나', '까',
	'은가', '는가', '던가', '을까',
	'을까요',
	'지요', '죠', '지', '잖아', '잖아요',
	]

	# 명령형 종결어미 (Imperative)
	IMPERATIVE_ENDINGS = [
	'십시오', '세요', '셔요',
	'아라', '어라', '여라', '거라',
	'렴', '려무나',
	]

	# 청유형 종결어미 (Propositive)
	PROPOSITIVE_ENDINGS = [
	'읍시다', 'ㅂ시다',
	'자', '자요',
	]

	# 감탄형 종결어미 (Exclamatory)
	EXCLAMATORY_ENDINGS = [
	'구나', '군', '네', '로구나', '는군', '구먼',
	'도다', '로다',
	]

	# 연결어미 (분리하면 안됨) - 더 포괄적인 목록
	CONNECTIVE_ENDINGS = [
	'는데', '은데', 'ㄴ데',
	'지만', '으나', '나',
	'면서', '으면서', '며', '으며',
	'고', '고서',
	'니까', '으니까',
	'어서', '아서', '여서',
	'려고', '으려고', '러',
	'다가', '었다가', '았다가',
	'도록', '게',
	'자마자',
	'거나', '든지', '든가',
	'려', '으려', '야', '어야', '아야', # 조건/의도
	]

	# 구두점 패턴
	PUNCT_PATTERN = r'[.!?。！？]'

	# 약어 패턴
	ABBREV_PATTERNS = [
	r'\d+\.', # 숫자.
	r'[A-Za-z]+\.', # 영문.
	r'\d+\.\d+', # 소수점
	r'\.{2,}', # 연속 마침표
	]

	# 이모지 패턴
	EMOJI_PATTERN = re.compile(
	"["
	"\U0001F600-\U0001F64F"
	"\U0001F300-\U0001F5FF"
	"\U0001F680-\U0001F6FF"
	"\U0001F1E0-\U0001F1FF"
	"\U00002702-\U000027B0"
	"\U000024C2-\U0001F251"
	"]+",
	flags=re.UNICODE
	)

	# 한글 패턴
	HANGUL_PATTERN = r'[\uAC00-\uD7A3\u1100-\u11FF\u3130-\u318F]'

	def __init__(self, config: Optional[SplitterConfig] = None):
	self.config = config or SplitterConfig()
	self._compile_patterns()

	def _compile_patterns(self):
	"""정규표현식 패턴 컴파일"""
	# 모든 종결어미 결합 (길이순 정렬)
	all_endings = (
	self.DECLARATIVE_ENDINGS +
	self.INTERROGATIVE_ENDINGS +
	self.IMPERATIVE_ENDINGS +
	self.PROPOSITIVE_ENDINGS +
	self.EXCLAMATORY_ENDINGS
	)
	all_endings = sorted(set(all_endings), key=len, reverse=True)

	# 종결어미 패턴
	endings_str = '\|'.join(re.escape(e) for e in all_endings)
	self.ending_pattern = re.compile(rf'({endings_str})$', re.UNICODE)

	# 연결어미 패턴
	conn_str = '\|'.join(re.escape(e) for e in self.CONNECTIVE_ENDINGS)
	self.connective_pattern = re.compile(rf'({conn_str})$', re.UNICODE)

	# 구두점 패턴
	self.punct_re = re.compile(self.PUNCT_PATTERN)

	# 약어 패턴
	self.abbrev_pattern = re.compile('\|'.join(self.ABBREV_PATTERNS))

	def split(self, text: str) -> List[str]:
	"""텍스트를 문장 단위로 분리"""
	if not text or not text.strip():
	return []

	# 전처리
	text = re.sub(r'\s+', ' ', text).strip()

	# 보호 영역 처리
	text, protected = self._protect_regions(text)

	# 분리 수행
	if self.config.mode == SplitMode.PUNCT_ONLY:
	sentences = self._split_punct_only(text, protected)
	else:
	sentences = self._split_with_endings(text, protected)

	# 보호 영역 복원
	sentences = self._restore_regions(sentences, protected)

	# 후처리
	return self._postprocess(sentences)

	def _protect_regions(self, text: str) -> Tuple[str, dict]:
	"""괄호/따옴표 내부 보호"""
	protected = {}
	counter = 0

	def replace_fn(match):
	nonlocal counter
	token = f"__P{counter}__"
	protected[token] = match.group(0)
	counter += 1
	return token

	if self.config.preserve_quotes:
	# 큰따옴표
	text = re.sub(r'"[^"]*"', replace_fn, text)
	text = re.sub(r'\u201C[^\u201D]*\u201D', replace_fn, text) # ""
	text = re.sub(r'\u300C[^\u300D]*\u300D', replace_fn, text) # 「」
	text = re.sub(r'\u300E[^\u300F]*\u300F', replace_fn, text) # 『』
	# 작은따옴표
	text = re.sub(r"'[^']*'", replace_fn, text)

	if self.config.preserve_brackets:
	text = re.sub(r'$[^)]*$', replace_fn, text)
	text = re.sub(r'\[[^\]]*\]', replace_fn, text)

	return text, protected

	def _restore_regions(self, sentences: List[str], protected: dict) -> List[str]:
	"""보호 영역 복원"""
	result = []
	for sent in sentences:
	for token, original in protected.items():
	sent = sent.replace(token, original)
	result.append(sent)
	return result

	def _split_punct_only(self, text: str, protected: dict = None) -> List[str]:
	"""구두점 기반 분리"""
	# 약어 보호
	text, abbrev_map = self._protect_abbrevs(text)

	# 구두점으로 분리
	parts = re.split(rf'({self.PUNCT_PATTERN}+\s*)', text)

	sentences = []
	current = ""
	for part in parts:
	current += part
	if self.punct_re.search(part):
	sentences.append(current.strip())
	current = ""
	# 보호 구문(토큰) 뒤의 공백에서도 분리 체크
	elif protected and re.search(r'(__P\d+__)\s*$', current):
	token_match = re.search(r'(__P\d+__)', current)
	if token_match:
	original = protected.get(token_match.group(1), "")
	if self.punct_re.search(original[-2:]):
	sentences.append(current.strip())
	current = ""

	if current.strip():
	sentences.append(current.strip())

	# 약어 복원
	return self._restore_abbrevs(sentences, abbrev_map)

	def _split_with_endings(self, text: str, protected: dict = None) -> List[str]:
	"""종결어미 + 구두점 기반 분리"""
	# 약어 보호
	text, abbrev_map = self._protect_abbrevs(text)

	sentences = []
	current = ""

	i = 0
	while i < len(text):
	char = text[i]
	current += char

	# 구두점 체크
	if self.punct_re.match(char):
	# 연속 구두점 모두 포함 (예: ?!, !!, ...)
	while i + 1 < len(text) and self.punct_re.match(text[i + 1]):
	i += 1
	current += text[i]

	# 이모지 포함
	while i + 1 < len(text) and self.EMOJI_PATTERN.match(text[i + 1]):
	i += 1
	current += text[i]

	# 공백까지 포함
	if i + 1 < len(text) and text[i + 1] in ' \t':
	i += 1
	current += text[i]

	# 약어가 아니면 분리
	if not self._is_abbrev(current.rstrip()):
	sentences.append(current)
	current = ""

	# 종결어미 체크 (공백 앞)
	elif char == ' ' and len(current) > 2:
	check_text = current.rstrip()
	if self._is_sentence_ending(check_text, protected):
	sentences.append(current)
	current = ""

	i += 1

	if current.strip():
	sentences.append(current)

	# 약어 복원
	return self._restore_abbrevs(sentences, abbrev_map)

	def _is_sentence_ending(self, text: str, protected: dict = None) -> bool:
	"""종결어미로 끝나는지 확인 (보호 토큰 처리 포함)"""
	if not text:
	return False

	# 보호 영역(토큰) 체크
	token_match = re.search(r'(__P\d+__)$', text)
	if token_match and protected:
	token = token_match.group(1)
	original = protected.get(token, "")
	if not original:
	return False

	# 따옴표/괄호 내부 텍스트 추출
	inner = original.strip()
	# 1. 구두점으로 끝나는지 확인 (예: "안녕하세요.")
	if self.punct_re.search(inner[-2:]):
	return True

	# 2. 종결어미로 끝나는지 확인 (따옴표 제거 후)
	stripped_inner = inner.strip('\'"\"“”‘’「」『』()[]')
	if stripped_inner and self._is_sentence_ending(stripped_inner):
	return True
	return False

	if len(text) < 2:
	return False

	# 마지막 단어만 추출 (공백 기준)
	words = text.split()
	if not words:
	return False
	last_word = words[-1]

	# 한 글자 단어는 종결어미로 판단하지 않음
	if len(last_word) == 1:
	return False

	# 짧은 종결어미 (1글자) - 명사와 혼동되기 쉬움
	# 이 경우 더 엄격한 검증 필요
	SHORT_ENDINGS = ['자', '해', '야', '네', '군', '니', '냐', '나', '까']

	# 긴 종결어미 (2글자 이상) - 신뢰도 높음
	LONG_ENDINGS = [e for e in (
	self.DECLARATIVE_ENDINGS +
	self.INTERROGATIVE_ENDINGS +
	self.IMPERATIVE_ENDINGS +
	self.PROPOSITIVE_ENDINGS +
	self.EXCLAMATORY_ENDINGS
	) if len(e) >= 2]

	# 연결어미로 끝나면 False
	for conn in sorted(self.CONNECTIVE_ENDINGS, key=len, reverse=True):
	if last_word.endswith(conn) and len(last_word) > len(conn):
	return False

	# 긴 종결어미 체크 (2글자 이상) - 우선 검사
	for ending in sorted(LONG_ENDINGS, key=len, reverse=True):
	if last_word.endswith(ending) and len(last_word) > len(ending):
	return True

	# 짧은 종결어미 (1글자) - 앞 글자가 용언 어간일 가능성이 높은지 확인
	# 한국어 용언 어간은 대체로 모음으로 끝나지 않음 (받침 있음)
	# 또는 특정 패턴의 어미 활용형
	for ending in SHORT_ENDINGS:
	if last_word.endswith(ending) and len(last_word) >= 2:
	# 어간 추출
	stem = last_word[:-len(ending)]
	if len(stem) == 0:
	continue

	# 어간 마지막 글자의 받침 확인
	last_stem_char = stem[-1]
	if '\uAC00' <= last_stem_char <= '\uD7A3': # 완성형 한글
	# 받침 여부 확인 (종성이 있는지)
	code = ord(last_stem_char) - 0xAC00
	jongsung = code % 28

	# 동사/형용사 어간으로 보이는 패턴
	# 예: 먹 + 자 = 먹자 (받침 있음)
	# 가 + 자 = 가자 (받침 없지만 동사)
	# 하 + 자 = 하자 (하다 동사)

	# "하"로 끝나면 "하다" 동사일 가능성 높음
	if stem.endswith('하') or stem.endswith('되'):
	return True

	# 받침이 있으면 동사 어간일 가능성 높음
	if jongsung > 0:
	return True

	# 받침 없는 경우: "가자", "보자" 등 기본 동사
	# 하지만 "피자"와 구분하기 어려움
	# 2글자 단어 + 짧은 종결어미는 보수적으로 처리
	if len(last_word) <= 2:
	return False

	# 3글자 이상이면 종결어미일 가능성 있음
	return True

	return False

	def _protect_abbrevs(self, text: str) -> Tuple[str, dict]:
	"""약어 보호"""
	abbrev_map = {}
	counter = 0

	def replace_fn(match):
	nonlocal counter
	token = f"__A{counter}__"
	abbrev_map[token] = match.group(0)
	counter += 1
	return token

	text = self.abbrev_pattern.sub(replace_fn, text)
	return text, abbrev_map

	def _restore_abbrevs(self, sentences: List[str], abbrev_map: dict) -> List[str]:
	"""약어 복원"""
	result = []
	for sent in sentences:
	for token, original in abbrev_map.items():
	sent = sent.replace(token, original)
	result.append(sent)
	return result

	def _is_abbrev(self, text: str) -> bool:
	"""약어 여부"""
	if len(text) < 2:
	return False
	last_part = text[-10:] if len(text) > 10 else text
	return bool(self.abbrev_pattern.search(last_part))

	def _postprocess(self, sentences: List[str]) -> List[str]:
	"""후처리"""
	result = []
	for sent in sentences:
	if self.config.strip:
	sent = sent.strip()
	if len(sent) >= self.config.min_length:
	result.append(sent)
	return result

	def split_with_type(self, text: str) -> List[dict]:
	"""문장 분리 + 유형 분석"""
	sentences = self.split(text)
	result = []

	for sent in sentences:
	sent_type = self._detect_type(sent)
	result.append({
	'text': sent,
	'type': sent_type
	})

	return result

	def _detect_type(self, sent: str) -> str:
	"""문장 유형 판단"""
	sent = sent.rstrip()

	if sent.endswith('?') or sent.endswith('\uFF1F'):
	return 'interrogative'
	if sent.endswith('!') or sent.endswith('\uFF01'):
	return 'exclamatory'

	for e in self.INTERROGATIVE_ENDINGS:
	if sent.endswith(e):
	return 'interrogative'

	for e in self.IMPERATIVE_ENDINGS:
	if sent.endswith(e):
	return 'imperative'

	for e in self.PROPOSITIVE_ENDINGS:
	if sent.endswith(e):
	return 'propositive'

	return 'declarative'


	# ==================== 간편 함수 ====================

	def split_sentences(text: str,
	mode: str = "normal",
	preserve_quotes: bool = True) -> List[str]:
	"""
	간편 문장 분리 함수

	Args:
	text: 입력 텍스트
	mode: 'punct' (구두점만) / 'normal' (종결어미+구두점)
	preserve_quotes: 따옴표 내부 보호

	Returns:
	분리된 문장 리스트

	Example:
	>>> split_sentences("안녕하세요. 반갑습니다!")
	['안녕하세요.', '반갑습니다!']
	"""
	config = SplitterConfig(
	mode=SplitMode(mode),
	preserve_quotes=preserve_quotes
	)
	return KoreanSentenceSplitter(config).split(text)


	# ==================== 테스트 ====================

	def run_tests():
	"""테스트 실행"""
	print("=" * 60)
	print("한글 문장 분리기 테스트")
	print("=" * 60)

	splitter = KoreanSentenceSplitter()

	test_cases = [
	# 기본 구두점
	"안녕하세요. 반갑습니다!",

	# 종결어미 (구두점 없음)
	"오늘 날씨가 좋습니다 내일도 맑을 예정입니다",

	# 의문문
	"뭐 먹을까요? 저는 피자가 좋아요.",

	# 따옴표 보호
	'"안녕하세요. 반갑습니다." 라고 말했다.',

	# 괄호 보호
	"서울(대한민국의 수도. 인구 1000만)은 큰 도시입니다.",

	# 숫자/소수점
	"3.14는 파이입니다. 원주율이죠.",

	# 연결어미 vs 종결어미
	"비가 오는데 우산이 없어요 어떡하죠",

	# 말줄임표
	"그래서... 결국 성공했어요!",

	# 복잡한 문장 (KSS 예제)
	"회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습.",

	# 구어체
	"ㅋㅋㅋ 너무 웃겨 진짜 최고야",

	# 명사 종결 (기사 제목)
	"주가 급등. 투자자들 환호",

	# 여러 구두점
	"정말이야?! 믿을 수 없어!!",

	# 해체
	"오늘 뭐해 나 심심해 놀자",

	# 이모지
	"오늘 너무 행복해요😊 좋은 하루였어요!",
	]

	for i, text in enumerate(test_cases, 1):
	print(f"\n[테스트 {i}]")
	print(f"입력: {text}")
	result = splitter.split(text)
	print(f"결과: {result}")

	# 문장 유형 분석 테스트
	print("\n" + "=" * 60)
	print("문장 유형 분석 테스트")
	print("=" * 60)

	type_test = "오늘 뭐 먹을까요? 저는 피자 먹고 싶어요. 같이 가자! 얼른 준비해."
	results = splitter.split_with_type(type_test)
	print(f"\n입력: {type_test}")
	for r in results:
	print(f" [{r['type']:15}] {r['text']}")

	print("\n" + "=" * 60)
	print("테스트 완료!")
	print("=" * 60)


	if __name__ == "__main__":
	run_tests()