Configuration Parsing
Warning:
Invalid JSON for config file config.json
chunker-xlm-roberta-longformer-4096
ํ ์คํธ๋ฅผ ์๋ฏธ๋ก ์ ๋จ์(semantic chunks)๋ก ๋ถํ ํ๋ ํ ํฐ ๋ถ๋ฅ(Token Classification) ๋ชจ๋ธ์ ๋๋ค. XLM-RoBERTa๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ Longformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ต๋ 4,096 ํ ํฐ๊น์ง์ ๊ธด ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
Model Details
- Developed by: CaveduckAI
- Model type: Token Classification (Sequence Labeling)
- Base model: XLM-RoBERTa + Longformer
- Max sequence length: 4,096 tokens
- Language(s): Multilingual (XLM-RoBERTa based)
- License: Apache 2.0
Architecture
Intended Use
Primary Use Cases
- Text Chunking: ๊ธด ๋ฌธ์๋ฅผ ์๋ฏธ ๋จ์๋ก ๋ถํ
- RAG Pipeline: Retrieval-Augmented Generation์ ์ํ ๋ฌธ์ ์ ์ฒ๋ฆฌ
- Character Description Segmentation: AI ์บ๋ฆญํฐ ํ๋กํ ํ ์คํธ์ ๊ตฌ์กฐํ
Out-of-Scope Uses
- ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ํ ์คํธ ์ฒ๋ฆฌ (๋ฐฐ์น ์ฒ๋ฆฌ ๊ถ์ฅ)
- 4,096 ํ ํฐ์ ์ด๊ณผํ๋ ๋จ์ผ ํ ์คํธ ์ฒ๋ฆฌ
How to Use
Basic Usage
API Server Usage
Parameters
| Parameter | Type | Default | Description |
|---|---|---|---|
| string | required | ๋ถํ ํ ์ ๋ ฅ ํ ์คํธ | |
| float | 0.6 | ๊ฒฝ๊ณ ํ๋ฅ ์๊ณ๊ฐ. ๋์์๋ก ์ ์ ์ฒญํฌ ์์ฑ | |
| float | 0.0025 | Exponential weighting factor. ํ ์คํธ ํ๋ฐ๋ถ ๊ฒฝ๊ณ ๊ฐ์ง ๋ณด์ |
Technical Specifications
Post-Processing Pipeline
๋ชจ๋ธ์ raw output์ ๋ค์ ํ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๊ฑฐ์นฉ๋๋ค:
- Exponential Weighting: ํ ์คํธ ์์น์ ๋ฐ๋ฅธ ๊ฐ์ค์น ์ ์ฉ
- Wavelet Denoising: Daubechies 4 (db4) ์จ์ด๋ธ๋ฆฟ์ ์ด์ฉํ ๋ ธ์ด์ฆ ์ ๊ฑฐ
- Center Compensation: ์ค์๋ถ ๊ฐ์กฐ ํ์ ๋ณด์
- MinMax Normalization: 0-1 ๋ฒ์๋ก ์ ๊ทํ
- Natural Break Point Adjustment: ๋ง์นจํ, ์ค๋ฐ๊ฟ ๋ฑ ์์ฐ์ค๋ฌ์ด ๋ถํ ์ ์ผ๋ก ์กฐ์
Requirements
Hardware Requirements
- Inference: GPU ๊ถ์ฅ (CUDA 11.8+), CPU ์ง์
- VRAM: ~2GB (์ถ๋ก ์)
Training Details
Training Data
์บ๋ฆญํฐ ์ค๋ช ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋์์ต๋๋ค. ๋ฐ์ดํฐ์ ์ ๋ค์ํ ์บ๋ฆญํฐ ํ๋กํ, ๋ฐฐ๊ฒฝ ์ค์ , ์ฑ๊ฒฉ ๋ฌ์ฌ ๋ฑ์ ํฌํจํฉ๋๋ค.
Training Procedure
- Task: Binary Token Classification (boundary / non-boundary)
- Loss Function: Cross-Entropy Loss
- Optimizer: AdamW
Limitations
- Max Length: 4,096 ํ ํฐ ์ด๊ณผ ํ ์คํธ๋ truncation๋จ
- Domain Specific: ์บ๋ฆญํฐ ์ค๋ช ํ ์คํธ์ ์ต์ ํ๋์ด ์์ด ๋ค๋ฅธ ๋๋ฉ์ธ์์๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
- Language Performance: XLM-RoBERTa ํน์ฑ์ ์์ด ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ฐ์ํ๋ฉฐ, ๋ค๋ฅธ ์ธ์ด์์๋ ์ฑ๋ฅ ์ฐจ์ด ์กด์ฌ
Citation
- Downloads last month
- 10