CaveduckAI
/

chunker-xlm-roberta-longformer-4096

Token Classification

semantic-segmentation

Model card Files Files and versions

Configuration Parsing Warning: Invalid JSON for config file config.json

chunker-xlm-roberta-longformer-4096

텍스트를 의미론적 단위(semantic chunks)로 분할하는 토큰 분류(Token Classification) 모델입니다. XLM-RoBERTa를 기반으로 한 Longformer 아키텍처를 사용하여 최대 4,096 토큰까지의 긴 텍스트를 처리할 수 있습니다.

Model Details

Developed by: CaveduckAI
Model type: Token Classification (Sequence Labeling)
Base model: XLM-RoBERTa + Longformer
Max sequence length: 4,096 tokens
Language(s): Multilingual (XLM-RoBERTa based)
License: Apache 2.0

Architecture

Intended Use

Primary Use Cases

Text Chunking: 긴 문서를 의미 단위로 분할
RAG Pipeline: Retrieval-Augmented Generation을 위한 문서 전처리
Character Description Segmentation: AI 캐릭터 프로필 텍스트의 구조화

Out-of-Scope Uses

실시간 스트리밍 텍스트 처리 (배치 처리 권장)
4,096 토큰을 초과하는 단일 텍스트 처리

How to Use

Basic Usage

API Server Usage

Parameters

Parameter	Type	Default	Description
	string	required	분할할 입력 텍스트
	float	0.6	경계 확률 임계값. 높을수록 적은 청크 생성
	float	0.0025	Exponential weighting factor. 텍스트 후반부 경계 감지 보정

Technical Specifications

Post-Processing Pipeline

모델의 raw output은 다음 후처리 파이프라인을 거칩니다:

Exponential Weighting: 텍스트 위치에 따른 가중치 적용
Wavelet Denoising: Daubechies 4 (db4) 웨이블릿을 이용한 노이즈 제거
Center Compensation: 중앙부 강조 현상 보정
MinMax Normalization: 0-1 범위로 정규화
Natural Break Point Adjustment: 마침표, 줄바꿈 등 자연스러운 분할점으로 조정

Requirements

Hardware Requirements

Inference: GPU 권장 (CUDA 11.8+), CPU 지원
VRAM: ~2GB (추론 시)

Training Details

Training Data

캐릭터 설명 텍스트 데이터셋을 기반으로 학습되었습니다. 데이터셋은 다양한 캐릭터 프로필, 배경 설정, 성격 묘사 등을 포함합니다.

Training Procedure

Task: Binary Token Classification (boundary / non-boundary)
Loss Function: Cross-Entropy Loss
Optimizer: AdamW

Limitations

Max Length: 4,096 토큰 초과 텍스트는 truncation됨
Domain Specific: 캐릭터 설명 텍스트에 최적화되어 있어 다른 도메인에서는 성능 저하 가능
Language Performance: XLM-RoBERTa 특성상 영어 성능이 가장 우수하며, 다른 언어에서는 성능 차이 존재

Citation

Downloads last month: 10

Safetensors

Model size

0.3B params

Tensor type

F32

·