Spaces:

LTTEAM
/

Clone

Paused

App Files Files Community

LTTEAM commited on Jul 28, 2025

Commit

6006b63

verified ·

1 Parent(s): e1527ff

Upload 129 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitignore +48 -0
README.md +90 -11
app.py +353 -0
nltk_data/tokenizers/punkt_tab.zip +3 -0
nltk_data/tokenizers/punkt_tab/README +98 -0
nltk_data/tokenizers/punkt_tab/czech/abbrev_types.txt +118 -0
nltk_data/tokenizers/punkt_tab/czech/collocations.tab +96 -0
nltk_data/tokenizers/punkt_tab/czech/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/czech/sent_starters.txt +54 -0
nltk_data/tokenizers/punkt_tab/danish/abbrev_types.txt +211 -0
nltk_data/tokenizers/punkt_tab/danish/collocations.tab +101 -0
nltk_data/tokenizers/punkt_tab/danish/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/danish/sent_starters.txt +64 -0
nltk_data/tokenizers/punkt_tab/dutch/abbrev_types.txt +99 -0
nltk_data/tokenizers/punkt_tab/dutch/collocations.tab +37 -0
nltk_data/tokenizers/punkt_tab/dutch/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/dutch/sent_starters.txt +54 -0
nltk_data/tokenizers/punkt_tab/english/abbrev_types.txt +156 -0
nltk_data/tokenizers/punkt_tab/english/collocations.tab +37 -0
nltk_data/tokenizers/punkt_tab/english/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/english/sent_starters.txt +39 -0
nltk_data/tokenizers/punkt_tab/estonian/abbrev_types.txt +48 -0
nltk_data/tokenizers/punkt_tab/estonian/collocations.tab +100 -0
nltk_data/tokenizers/punkt_tab/estonian/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/estonian/sent_starters.txt +89 -0
nltk_data/tokenizers/punkt_tab/finnish/abbrev_types.txt +81 -0
nltk_data/tokenizers/punkt_tab/finnish/collocations.tab +167 -0
nltk_data/tokenizers/punkt_tab/finnish/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/finnish/sent_starters.txt +86 -0
nltk_data/tokenizers/punkt_tab/french/abbrev_types.txt +61 -0
nltk_data/tokenizers/punkt_tab/french/collocations.tab +18 -0
nltk_data/tokenizers/punkt_tab/french/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/french/sent_starters.txt +48 -0
nltk_data/tokenizers/punkt_tab/german/abbrev_types.txt +71 -0
nltk_data/tokenizers/punkt_tab/german/collocations.tab +28 -0
nltk_data/tokenizers/punkt_tab/german/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/german/sent_starters.txt +107 -0
nltk_data/tokenizers/punkt_tab/greek/abbrev_types.txt +100 -0
nltk_data/tokenizers/punkt_tab/greek/collocations.tab +7 -0
nltk_data/tokenizers/punkt_tab/greek/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/greek/sent_starters.txt +54 -0
nltk_data/tokenizers/punkt_tab/italian/abbrev_types.txt +125 -0
nltk_data/tokenizers/punkt_tab/italian/collocations.tab +6 -0
nltk_data/tokenizers/punkt_tab/italian/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/italian/sent_starters.txt +40 -0
nltk_data/tokenizers/punkt_tab/malayalam/abbrev_types.txt +285 -0
nltk_data/tokenizers/punkt_tab/malayalam/collocations.tab +153 -0
nltk_data/tokenizers/punkt_tab/malayalam/ortho_context.tab +0 -0
nltk_data/tokenizers/punkt_tab/malayalam/sent_starters.txt +14 -0
nltk_data/tokenizers/punkt_tab/norwegian/abbrev_types.txt +106 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,48 @@

+.vscode
+# Pylance
+pyrightconfig.json
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+syn_out/
+checkpoints/
+.gradio
+# Ignore generated sample .wav files
+**/*.wav

README.md CHANGED Viewed

@@ -1,13 +1,92 @@
----
-title: Clone
-emoji: 🏆
-colorFrom: blue
-colorTo: green
-sdk: gradio
-sdk_version: 5.38.2
-app_file: app.py
-pinned: false
-short_description: Sao chép giọng
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# CloneTTS - Sao Chép Giọng Đọc Đa Ngôn Ngữ 🎙️🧠
+**Tác giả:** Lý Trần
+CloneTTS Giọng Đa Ngôn Ngữ là một ứng dụng web sử dụng Gradio, cung cấp giao diện thân thiện để tạo giọng nói, chuyển đổi giọng nói, và quản lý quy trình xử lý âm thanh nâng cao dựa trên mô hình Chatterbox của Resemble AI.
+## Tính năng nổi bật
+- **Quản lý dự án tập trung:**
+  Tạo, chọn và quản lý workspace riêng biệt. Mọi file đầu vào, file xử lý và kết quả sẽ được sắp xếp tự động vào đúng thư mục trong dự án.
+- **Sinh giọng nói (Single Generation):**
+    - **Text-to-Speech (TTS):** Sinh giọng nói chất lượng cao từ văn bản, có thể dùng file tham chiếu để clone giọng.
+    - **Voice Conversion (VC):** Chuyển đổi đặc trưng giọng nói của file nguồn sang tham chiếu.
+    - **Quét tham số (Parameter Sweep):** Sinh nhiều phiên bản cùng lúc với các giá trị tham số khác nhau (ví dụ: Temperature, Pace...).
+- **Xử lý hàng loạt (Batch Processing):**
+    - Xử lý cả thư mục văn bản hoặc âm thanh chỉ với một lần bấm.
+    - Có thể ghép tất cả file âm thanh sinh ra thành một file duy nhất.
+- **Chuẩn bị dữ liệu:**
+    - **Tách văn bản:** Tự động chia nhỏ file văn bản dài thành nhiều đoạn phù hợp với mô hình.
+    - **Tách file âm thanh:** Chia nhỏ file âm thanh thành các đoạn ngắn hơn, ưu tiên tách ở đoạn im lặng.
+- **Chỉnh sửa & hoàn thiện quy trình:**
+    - **Regenerate Audio:** Xem lại từng file audio, chỉnh sửa & thay thế nhanh chóng.
+    - **Trình soạn thảo văn bản trực tiếp:** Sửa văn bản nguồn ngay trên giao diện, lưu lại dễ dàng.
+## Yêu cầu cài đặt
+- **Python:** >=3.8 (Khuyến nghị 3.11)
+- **Git**
+- **FFmpeg**
+- **GPU CUDA** (khuyến nghị, chạy CPU sẽ rất chậm)
+## Hướng dẫn cài đặt nhanh
+### 1. Clone dự án
+```bash
+git clone https://github.com/ltteamvn/CloneTTS
+cd CloneTTS
+```
+### 2. Tạo môi trường ảo Python
+```bash
+python3.11 -m venv toolkit
+source toolkit/bin/activate    # Trên Linux/macOS
+# .\toolkit\Scripts\activate   # Trên Windows
+```
+### 3. Cài đặt thư viện
+```bash
+pip install -r requirements.txt
+```
+Lưu ý: Nếu bạn dùng GPU Nvidia 10 series hoặc AMD, cần tự cài torch phù hợp.
+### 4. Chạy ứng dụng
+```bash
+python app.py
+```
+Truy cập địa chỉ xuất hiện trên terminal (thường là http://127.0.0.1:7860) để sử dụng giao diện web.
+## Quy trình sử dụng điển hình
+1. **Tạo project** ở tab Projects.
+2. **Chuẩn bị dữ liệu:**
+   - Upload văn bản/audio vào thư mục dự án tương ứng.
+   - Sử dụng tab Data Preparation để tách nhỏ file nếu cần.
+3. **Sinh audio:**
+   - Vào tab Batch Generation hoặc Single Generation để sinh file âm thanh mong muốn.
+4. **Chỉnh sửa & hoàn thiện:**
+   - Vào Edit Project Data để chỉnh sửa file text hoặc thay thế từng file audio.
+## Một số lưu ý
+- Thư mục dự án sẽ tự động lưu trữ toàn bộ file đầu vào, file xử lý và kết quả theo cấu trúc rõ ràng.
+- Khi chuyển giọng, file tham chiếu (reference voice) nên ngắn hơn hoặc bằng 40 giây.
+- Source Audio có thể dài hơn 40s, chương trình sẽ tự động chia nhỏ và ghép lại kết quả.
+## Đóng góp & liên hệ
+Nếu bạn gặp lỗi hoặc muốn đóng góp ý kiến, hãy tạo issue hoặc liên hệ trực tiếp với tác giả.
 ---
+Chúc bạn sử dụng hiệu quả công cụ này!

app.py ADDED Viewed

	@@ -0,0 +1,353 @@

+import os
+import sys
+import importlib
+import json
+import asyncio
+from datetime import datetime
+import torch
+import gradio as gr
+import pydub
+import edge_tts
+import srt
+# --- 1) Đảm bảo src/ có trong Python path để import ChatterboxVC ---
+script_dir = os.path.dirname(os.path.abspath(__file__))
+src_path = os.path.join(script_dir, "src")
+if src_path not in sys.path:
+    sys.path.insert(0, src_path)
+import chatterbox.vc
+importlib.reload(chatterbox.vc)
+from chatterbox.vc import ChatterboxVC
+# --- 2) Khởi tạo model VC ---
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+_vc_model = None
+def get_vc_model():
+    global _vc_model
+    if _vc_model is None:
+        print(f"[VC] Đang tải model trên {DEVICE}…")
+        _vc_model = ChatterboxVC.from_pretrained(DEVICE)
+        print("[VC] Model sẵn sàng.")
+    return _vc_model
+# --- 3) Helper cập nhật log, audio và file-download ---
+global_log_messages_vc = []
+def yield_vc_updates(log_msg=None, audio_data=None, file_list=None, log_append=True):
+    global global_log_messages_vc
+    # cập nhật log
+    if log_msg is not None:
+        prefix = datetime.now().strftime("[%H:%M:%S]")
+        if log_append:
+            global_log_messages_vc.append(f"{prefix} {log_msg}")
+        else:
+            global_log_messages_vc = [f"{prefix} {log_msg}"]
+    log_update = gr.update(value="\n".join(global_log_messages_vc))
+    # audio output
+    audio_update = gr.update(visible=(audio_data is not None),
+                             value=audio_data if audio_data is not None else None)
+    # file-download output
+    files_update = gr.update(visible=(file_list is not None),
+                             value=file_list if file_list is not None else [])
+    yield log_update, audio_update, files_update
+# --- 4) Load voices Edge TTS từ voices.json ---
+def load_edge_tts_voices(json_path="voices.json"):
+    with open(json_path, "r", encoding="utf-8") as f:
+        voices = json.load(f)
+    display_list, code_map = [], {}
+    for lang, genders in voices.items():
+        for gender, items in genders.items():
+            for v in items:
+                disp = f"{lang} - {gender} - {v['display_name']} ({v['voice_code']})"
+                display_list.append(disp)
+                code_map[disp] = v["voice_code"]
+    return display_list, code_map
+edge_choices, edge_code_map = load_edge_tts_voices()
+# --- 5) TTS Edge với rate & volume ---
+async def _edge_tts_async(text, disp, rate_pct, vol_pct):
+    code = edge_code_map.get(disp)
+    rate_str = f"{rate_pct:+d}%"
+    vol_str  = f"{vol_pct:+d}%"
+    out = "temp_edge_tts.wav"
+    await edge_tts.Communicate(text, voice=code, rate=rate_str, volume=vol_str).save(out)
+    return out
+def run_edge_tts(text, disp, rate_pct, vol_pct):
+    path = asyncio.run(_edge_tts_async(text, disp, rate_pct, vol_pct))
+    return path, path
+# --- 6) Sinh audio từ SRT (có rate & vol) ---
+def synthesize_srt_audio(srt_path: str, disp_voice: str, work_dir: str,
+                         rate_pct: int, vol_pct: int) -> str:
+    with open(srt_path, "r", encoding="utf-8") as f:
+        subs = list(srt.parse(f.read()))
+    combined = pydub.AudioSegment.empty()
+    current_ms = 0
+    for sub in subs:
+        start_ms = int(sub.start.total_seconds() * 1000)
+        end_ms   = int(sub.end.total_seconds()   * 1000)
+        dur_ms   = end_ms - start_ms
+        # silence until start
+        if start_ms > current_ms:
+            combined += pydub.AudioSegment.silent(duration=start_ms - current_ms)
+        tmp_wav, _ = run_edge_tts(sub.content, disp_voice, rate_pct, vol_pct)
+        tts_audio = pydub.AudioSegment.from_file(tmp_wav)
+        # crop/pad để match dur
+        if len(tts_audio) > dur_ms:
+            tts_audio = tts_audio[:dur_ms]
+        else:
+            tts_audio += pydub.AudioSegment.silent(duration=dur_ms - len(tts_audio))
+        combined += tts_audio
+        current_ms = end_ms
+    out_path = os.path.join(work_dir, "srt_source.wav")
+    combined.export(out_path, format="wav")
+    return out_path
+# --- 7) Voice Conversion chính ---
+def generate_vc(
+    source_audio_path,
+    target_voice_path,
+    cfg_rate: float,
+    sigma_min: float,
+    batch_mode: bool,
+    batch_parameter: str,
+    batch_values: str
+):
+    model = get_vc_model()
+    yield from yield_vc_updates("Khởi tạo chuyển giọng…", log_append=False)
+    # thư mục đầu ra
+    date_folder = datetime.now().strftime("%Y%m%d")
+    work_dir = os.path.join("outputs/vc", date_folder)
+    os.makedirs(work_dir, exist_ok=True)
+    def run_once(src, tgt, rate, sigma):
+        return model.generate(src, target_voice_path=tgt, inference_cfg_rate=rate, sigma_min=sigma)
+    outputs = []
+    try:
+        if batch_mode:
+            try:
+                vals = [float(v.strip()) for v in batch_values.split(",") if v.strip()]
+            except:
+                raise gr.Error("Batch values phải là số, phân cách bởi dấu phẩy.")
+            yield from yield_vc_updates(f"Chạy batch '{batch_parameter}': {vals}")
+            for idx, v in enumerate(vals, 1):
+                r, s = cfg_rate, sigma_min
+                tag = ""
+                if batch_parameter == "Inference CFG Rate":
+                    r, tag = v, f"cfg_{v}"
+                else:
+                    s, tag = v, f"sigma_{v}"
+                yield from yield_vc_updates(f" • Mục {idx}/{len(vals)}: {batch_parameter}={v}")
+                wav = run_once(source_audio_path, target_voice_path, r, s)
+                fn = f"{tag}_{idx}.wav"
+                path = os.path.join(work_dir, fn)
+                model.save_wav(wav, path)
+                outputs.append(path)
+                yield from yield_vc_updates(f"Đã lưu: {path}")
+        else:
+            audio = pydub.AudioSegment.from_file(source_audio_path)
+            if len(audio) > 40_000:
+                yield from yield_vc_updates("Audio dài >40s: tách thành đoạn 40s…")
+                chunks = [audio[i:i+40_000] for i in range(0, len(audio), 40_000)]
+                temp_paths = []
+                for i, chunk in enumerate(chunks):
+                    tmp = f"{source_audio_path}_chunk{i}.wav"
+                    chunk.export(tmp, format="wav")
+                    wav = run_once(tmp, target_voice_path, cfg_rate, sigma_min)
+                    outp = os.path.join(work_dir, f"part{i}.wav")
+                    model.save_wav(wav, outp)
+                    temp_paths.append(outp)
+                    os.remove(tmp)
+                    yield from yield_vc_updates(f"Xử lý đoạn {i+1}/{len(chunks)}")
+                # ghép lại
+                combined = pydub.AudioSegment.empty()
+                for p in temp_paths:
+                    combined += pydub.AudioSegment.from_file(p)
+                final = os.path.join(work_dir, "combined.wav")
+                combined.export(final, format="wav")
+                outputs.append(final)
+                yield from yield_vc_updates("Chuyển xong.")
+            else:
+                yield from yield_vc_updates("Đang chuyển giọng…")
+                wav = run_once(source_audio_path, target_voice_path, cfg_rate, sigma_min)
+                outp = os.path.join(work_dir, f"output_{datetime.now().strftime('%H%M%S')}.wav")
+                model.save_wav(wav, outp)
+                outputs.append(outp)
+                yield from yield_vc_updates("Hoàn thành.")
+    except Exception as e:
+        yield from yield_vc_updates(f"Lỗi: {e}")
+        raise
+    # cuốn cùng: luôn trả về cả audio đầu tiên và danh sách files cho download
+    first = outputs[0] if outputs else None
+    yield from yield_vc_updates(log_msg=None, audio_data=first, file_list=outputs)
+# --- 8) Wrapper tổng hợp ---
+def run_vc_from_srt_or_file(
+    use_srt: bool,
+    srt_file, srt_voice, srt_rate, srt_vol,
+    edge_text, edge_voice, edge_rate, edge_vol,
+    src_audio, tgt_audio,
+    cfg_rate, sigma_min,
+    batch_mode, batch_parameter, batch_values
+):
+    yield from yield_vc_updates("Bắt đầu…", log_append=False)
+    date_folder = datetime.now().strftime("%Y%m%d")
+    work_dir = os.path.join("outputs/vc", date_folder)
+    os.makedirs(work_dir, exist_ok=True)
+    if use_srt:
+        yield from yield_vc_updates("Sinh audio từ SRT…")
+        source = synthesize_srt_audio(
+            srt_file.name, srt_voice, work_dir,
+            rate_pct=srt_rate, vol_pct=srt_vol
+        )
+    elif edge_text and edge_voice:
+        yield from yield_vc_updates("Sinh audio từ Edge TTS…")
+        tmp, _ = run_edge_tts(edge_text, edge_voice, edge_rate, edge_vol)
+        source = tmp
+    else:
+        source = src_audio
+    yield from generate_vc(
+        source, tgt_audio,
+        cfg_rate, sigma_min,
+        batch_mode, batch_parameter, batch_values
+    )
+# --- 9) Build Gradio UI ---
+with gr.Blocks(title="Chuyển Giọng Nói AI") as demo:
+    gr.Markdown("## 📣 Chuyển Giọng Nói AI")
+    gr.Markdown("> Tác giả: **Lý Trần**")
+    with gr.Row():
+        with gr.Column():
+            # SRT
+            use_srt   = gr.Checkbox(label="Sử dụng file SRT làm nguồn?", value=False)
+            srt_file  = gr.File(file_types=[".srt"], label="Tải lên file .srt", visible=False)
+            srt_voice = gr.Dropdown(choices=edge_choices, label="Giọng Edge TTS (SRT)", visible=False)
+            srt_rate  = gr.Slider(-100, 100, value=0, step=1, label="Tốc độ SRT (% chuẩn)", visible=False)
+            srt_vol   = gr.Slider(-100, 100, value=0, step=1, label="Âm lượng SRT (% chuẩn)", visible=False)
+            # Edge TTS
+            use_edge   = gr.Checkbox(label="Tạo nguồn qua Edge TTS?", value=False)
+            edge_text  = gr.Textbox(label="Văn bản cho Edge TTS", visible=False)
+            edge_voice = gr.Dropdown(choices=edge_choices, label="Giọng Edge TTS", visible=False)
+            edge_rate  = gr.Slider(-100, 100, value=0, step=1, label="Tốc độ Edge (% chuẩn)", visible=False)
+            edge_vol   = gr.Slider(-100, 100, value=0, step=1, label="Âm lượng Edge (% chuẩn)", visible=False)
+            gen_edge_btn = gr.Button("🗣️ Tạo Edge TTS", visible=False)
+            edge_audio   = gr.Audio(label="Nguồn Edge TTS", type="filepath", visible=False)
+            # Nguồn thủ công
+            src_audio = gr.Audio(sources=["upload","microphone"], type="filepath",
+                                 label="Tải lên / Ghi âm nguồn")
+            # Giọng tham chiếu
+            gr.Markdown("### Giọng tham chiếu (mục tiêu)")
+            tgt_audio = gr.Audio(sources=["upload","microphone"], type="filepath",
+                                 label="Tải lên / Ghi âm giọng mục tiêu")
+            # Tham số VC
+            gr.Markdown("### Tham số chuyển giọng")
+            cfg_slider  = gr.Slider(0.0, 30.0, value=0.5, step=0.1, label="CFG Rate")
+            sigma_input = gr.Number(1e-6, label="Sigma Min",
+                                   minimum=1e-7, maximum=1e-5, step=1e-7)
+            # Batch sweep
+            with gr.Accordion("Tùy chọn Batch Sweep", open=False):
+                batch_chk   = gr.Checkbox(label="Kích hoạt Batch Sweep", value=False)
+                batch_param = gr.Dropdown(choices=["Inference CFG Rate","Sigma Min"],
+                                          label="Tham số thay đổi")
+                batch_vals  = gr.Textbox(placeholder="ví dụ: 0.5,1.0,2.0",
+                                         label="Giá trị phân cách dấu phẩy")
+            run_btn = gr.Button("🚀 Chuyển giọng")
+        with gr.Column():
+            gr.Markdown("### Nhật ký")
+            log_box = gr.Textbox(interactive=False, lines=12)
+            gr.Markdown("### Kết quả")
+            out_audio = gr.Audio(label="Âm thanh kết quả", type="filepath", visible=False)
+            out_files = gr.Files(label="Tải xuống file đầu ra", visible=False)
+    # Toggle SRT
+    def toggle_srt(v):
+        return (
+            gr.update(visible=v),   # srt_file
+            gr.update(visible=v),   # srt_voice
+            gr.update(visible=v),   # srt_rate
+            gr.update(visible=v),   # srt_vol
+            gr.update(visible=not v), # use_edge
+            gr.update(visible=not v), # edge_text
+            gr.update(visible=not v), # edge_voice
+            gr.update(visible=not v), # edge_rate
+            gr.update(visible=not v), # edge_vol
+            gr.update(visible=not v), # gen_edge_btn
+            gr.update(visible=not v), # edge_audio
+            gr.update(visible=not v)  # src_audio
+        )
+    use_srt.change(
+        fn=toggle_srt,
+        inputs=[use_srt],
+        outputs=[
+            srt_file, srt_voice, srt_rate, srt_vol,
+            use_edge, edge_text, edge_voice, edge_rate, edge_vol,
+            gen_edge_btn, edge_audio, src_audio
+        ]
+    )
+    # Toggle Edge TTS
+    def toggle_edge(v):
+        return (
+            gr.update(visible=v),   # edge_text
+            gr.update(visible=v),   # edge_voice
+            gr.update(visible=v),   # edge_rate
+            gr.update(visible=v),   # edge_vol
+            gr.update(visible=v),   # gen_edge_btn
+            gr.update(visible=v),   # edge_audio
+            gr.update(visible=not v)  # src_audio
+        )
+    use_edge.change(
+        fn=toggle_edge,
+        inputs=[use_edge],
+        outputs=[edge_text, edge_voice, edge_rate, edge_vol, gen_edge_btn, edge_audio, src_audio]
+    )
+    # Sinh Edge TTS
+    gen_edge_btn.click(
+        fn=run_edge_tts,
+        inputs=[edge_text, edge_voice, edge_rate, edge_vol],
+        outputs=[edge_audio, src_audio]
+    )
+    # Chạy VC
+    run_btn.click(
+        fn=run_vc_from_srt_or_file,
+        inputs=[
+            use_srt, srt_file, srt_voice, srt_rate, srt_vol,
+            edge_text, edge_voice, edge_rate, edge_vol,
+            src_audio, tgt_audio,
+            cfg_slider, sigma_input,
+            batch_chk, batch_param, batch_vals
+        ],
+        outputs=[log_box, out_audio, out_files],
+        show_progress="minimal"
+    )
+if __name__ == "__main__":
+    demo.launch(share=True)

nltk_data/tokenizers/punkt_tab.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e57f64187974277726a3417ca6f181ec5403676c717672eef6a748a7b20e0106
+size 4319076

nltk_data/tokenizers/punkt_tab/README ADDED Viewed

	@@ -0,0 +1,98 @@

+Pretrained Punkt Models -- Jan Strunk (New version trained after issues 313 and 514 had been corrected)
+Most models were prepared using the test corpora from Kiss and Strunk (2006). Additional models have
+been contributed by various people using NLTK for sentence boundary detection.
+For information about how to use these models, please confer the tokenization HOWTO:
+http://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html
+and chapter 3.8 of the NLTK book:
+http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html#sec-segmentation
+There are pretrained tokenizers for the following languages:
+File                Language            Source                             Contents                Size of training corpus(in tokens)           Model contributed by
+=======================================================================================================================================================================
+czech.pickle        Czech               Multilingual Corpus 1 (ECI)        Lidove Noviny                   ~345,000                             Jan Strunk / Tibor Kiss
+                                                                           Literarni Noviny
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+danish.pickle       Danish              Avisdata CD-Rom Ver. 1.1. 1995     Berlingske Tidende              ~550,000                             Jan Strunk / Tibor Kiss
+                                        (Berlingske Avisdata, Copenhagen)  Weekend Avisen
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+dutch.pickle        Dutch               Multilingual Corpus 1 (ECI)        De Limburger                    ~340,000                             Jan Strunk / Tibor Kiss
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+english.pickle      English             Penn Treebank (LDC)                Wall Street Journal             ~469,000                             Jan Strunk / Tibor Kiss
+                    (American)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+estonian.pickle     Estonian            University of Tartu, Estonia       Eesti Ekspress                  ~359,000                             Jan Strunk / Tibor Kiss
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+finnish.pickle      Finnish             Finnish Parole Corpus, Finnish     Books and major national        ~364,000                             Jan Strunk / Tibor Kiss
+                                        Text Bank (Suomen Kielen           newspapers
+                                        Tekstipankki)
+                                        Finnish Center for IT Science
+                                        (CSC)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+french.pickle       French              Multilingual Corpus 1 (ECI)        Le Monde                        ~370,000                             Jan Strunk / Tibor Kiss
+                    (European)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+german.pickle       German              Neue Zürcher Zeitung AG            Neue Zürcher Zeitung            ~847,000                             Jan Strunk / Tibor Kiss
+                    (Switzerland)       CD-ROM
+                    (Uses "ss"
+                     instead of "ß")
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+greek.pickle        Greek               Efstathios Stamatatos              To Vima (TO BHMA)               ~227,000                             Jan Strunk / Tibor Kiss
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+italian.pickle      Italian             Multilingual Corpus 1 (ECI)        La Stampa, Il Mattino           ~312,000                             Jan Strunk / Tibor Kiss
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+norwegian.pickle    Norwegian           Centre for Humanities              Bergens Tidende                 ~479,000                             Jan Strunk / Tibor Kiss
+                    (Bokmål and         Information Technologies,
+                     Nynorsk)           Bergen
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+polish.pickle       Polish              Polish National Corpus             Literature, newspapers, etc.  ~1,000,000                             Krzysztof Langner
+                                        (http://www.nkjp.pl/)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+portuguese.pickle   Portuguese          CETENFolha Corpus                  Folha de São Paulo              ~321,000                             Jan Strunk / Tibor Kiss
+                    (Brazilian)         (Linguateca)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+slovene.pickle      Slovene             TRACTOR                            Delo                            ~354,000                             Jan Strunk / Tibor Kiss
+                                        Slovene Academy for Arts
+                                        and Sciences
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+spanish.pickle      Spanish             Multilingual Corpus 1 (ECI)        Sur                             ~353,000                             Jan Strunk / Tibor Kiss
+                    (European)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+swedish.pickle      Swedish             Multilingual Corpus 1 (ECI)        Dagens Nyheter                  ~339,000                             Jan Strunk / Tibor Kiss
+                                                                           (and some other texts)
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+turkish.pickle      Turkish             METU Turkish Corpus                Milliyet                        ~333,000                             Jan Strunk / Tibor Kiss
+                                        (Türkçe Derlem Projesi)
+                                        University of Ankara
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
+The corpora contained about 400,000 tokens on average and mostly consisted of newspaper text converted to
+Unicode using the codecs module.
+Kiss, Tibor and Strunk, Jan (2006): Unsupervised Multilingual Sentence Boundary Detection.
+Computational Linguistics 32: 485-525.
+---- Training Code ----
+# import punkt
+import nltk.tokenize.punkt
+# Make a new Tokenizer
+tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
+# Read in training corpus (one example: Slovene)
+import codecs
+text = codecs.open("slovene.plain","Ur","iso-8859-2").read()
+# Train tokenizer
+tokenizer.train(text)
+# Dump pickled tokenizer
+import pickle
+out = open("slovene.pickle","wb")
+pickle.dump(tokenizer, out)
+out.close()
+---------

nltk_data/tokenizers/punkt_tab/czech/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,118 @@

+t
+množ
+např
+j.h
+man
+ú
+jug
+dr
+bl
+ml
+okr
+st
+uh
+šp
+judr
+u.s.a
+p
+arg
+žitě
+st.celsia
+etc
+p.s
+t.r
+lok
+mil
+ict
+n
+tl
+min
+č
+d
+al
+ravenně
+mj
+nar
+plk
+s.p
+a.g
+roč
+b
+zdi
+r.s.c
+přek
+m
+gen
+csc
+mudr
+vic
+š
+sb
+resp
+tzn
+iv
+s.r.o
+mar
+w
+čs
+vi
+tzv
+ul
+pen
+zv
+str
+čp
+org
+rak
+sv
+pplk
+u.s
+prof
+c.k
+op
+g
+vii
+kr
+ing
+j.o
+drsc
+m3
+l
+tr
+ceo
+ch
+fuk
+vl
+viii
+líp
+hl.m
+t.zv
+phdr
+o.k
+tis
+doc
+kl
+ard
+čkd
+pok
+apod
+r
+př
+a.s
+j
+jr
+i.m
+e
+kupř
+f
+tř
+xvi
+mir
+atď
+vr
+r.i.v
+hl
+kv
+t.j
+y
+q.p.r

nltk_data/tokenizers/punkt_tab/czech/collocations.tab ADDED Viewed

	@@ -0,0 +1,96 @@

+i	dejmala
+##number##	prosince
+h	steina
+##number##	listopadu
+a	dvořák
+v	klaus
+i	čnhl
+##number##	wladyslawowo
+##number##	letech
+a	jiráska
+a	dubček
+##number##	štrasburk
+##number##	juniorské
+##number##	století
+##number##	kola
+##number##	pád
+##number##	května
+##number##	týdne
+v	dlouhý
+k	design
+##number##	červenec
+i	ligy
+##number##	kolo
+z	svěrák
+##number##	mája
+##number##	šimková
+a	bělého
+a	bradáč
+##number##	ročníku
+##number##	dubna
+a	vivaldiho
+v	mečiara
+c	carrićre
+##number##	sjezd
+##number##	výroční
+##number##	kole
+##number##	narozenin
+k	maleevová
+i	čnfl
+##number##	pádě
+##number##	září
+##number##	výročí
+a	dvořáka
+h	g.
+##number##	ledna
+a	dvorský
+h	měsíc
+##number##	srpna
+##number##	tř.
+a	mozarta
+##number##	sudetoněmeckých
+o	sokolov
+k	škrach
+v	benda
+##number##	symfonie
+##number##	července
+x	šalda
+c	abrahama
+a	tichý
+##number##	místo
+k	bielecki
+v	havel
+##number##	etapu
+a	dubčeka
+i	liga
+##number##	světový
+v	klausem
+##number##	ženy
+##number##	létech
+##number##	minutě
+##number##	listopadem
+##number##	místě
+o	vlček
+k	peteraje
+i	sponzor
+##number##	června
+##number##	min.
+##number##	oprávněnou
+##number##	květnu
+##number##	aktu
+##number##	květnem
+##number##	října
+i	rynda
+##number##	února
+i	snfl
+a	mozart
+z	košler
+a	dvorskému
+v	marhoul
+v	mečiar
+##number##	ročník
+##number##	máje
+v	havla
+k	gott
+s	bacha
+##number##	ad

nltk_data/tokenizers/punkt_tab/czech/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/czech/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,54 @@

+já
+milena
+tomáš
+oznámila
+podle
+my
+vyplývá
+hlavní
+jelikož
+musíme
+kdyby
+foto
+rozptylové
+snad
+zároveň
+jaroslav
+po
+v
+kromě
+pokud
+toto
+jenže
+oba
+jak
+zatímco
+ten
+myslím
+navíc
+dušan
+zdá
+dnes
+přesto
+tato
+ti
+bratislava
+ale
+když
+nicméně
+tento
+mirka
+přitom
+dokud
+jan
+bohužel
+ta
+díky
+prohlásil
+praha
+jestliže
+jde
+vždyť
+moskva
+proto
+to

nltk_data/tokenizers/punkt_tab/danish/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,211 @@

+t
+tlf
+b.p
+evt
+j.h
+lenz
+mht
+gl
+bl
+stud.polit
+e.j
+st
+o
+dec
+mag
+h.b
+p
+adm
+el.lign
+e.s
+saalba
+styrt
+nr
+m.a.s.h
+etc
+pharm
+hg
+j.j
+dj
+mountainb
+f.kr
+h.r
+cand.jur
+sp
+osv
+s.g
+ndr
+inc
+b.i.g
+dk-sver
+sl
+v.s.o.d
+cand.mag
+d.v.s
+v.i
+bøddel
+fr
+ø«
+dr.phil
+chr
+p.d
+bj
+fhv
+tilskudsforhold
+m.a
+sek
+p.g.a
+int
+pokalf
+ik
+dir
+em-lodtrækn
+a.h
+o.lign
+p.t
+m.v
+n.j
+m.h.t
+m.m
+a.p
+pers
+4-bakketurn
+dr.med
+w.ø
+polit
+fremsættes
+techn
+tidl
+o.g
+i.c.i
+mill
+skt
+m.fl
+cand.merc
+kbh
+indiv
+stk
+dk-maked
+memorandum
+mestersk
+mag.art
+kitzb
+h
+lic
+fig
+dressurst
+sportsg
+r.e.m
+d.u.m
+sct
+kld
+bl.a
+hf
+g.a
+corp
+w
+konk
+zoeterm
+b.t
+a.d
+l.b
+jf
+s.b
+kgl
+ill
+beck
+tosset
+afd
+johs
+pct
+k.b
+sv
+verbalt
+kgs
+l.m.k
+j.l
+aus
+superl
+t.v
+mia
+kr
+pr
+præmien
+j.b.s
+j.o
+o.s.v
+edb-oplysninger
+o.m.a
+ca
+1b
+f.eks
+rens
+ch
+mr
+schw
+d.c
+utraditionelt
+idrætsgym
+hhv
+e.l
+s.s
+eks
+f.o.m
+dk-storbrit
+dk-jugo
+n.z
+derivater
+c
+pt
+vm-kval
+kl
+hr
+cand
+jur
+sav
+h.c
+arab.-danm
+d.a.d
+fl
+o.a
+a.s
+cand.polit
+grundejerform
+j
+faglærte
+cr
+a.a
+mou
+f.r.i
+årh
+o.m.m
+sve
+c.a
+engl
+sikkerhedssystemerne
+m.f
+j.k
+phil
+f
+vet
+mio
+k.e
+m.k
+atla
+idrætsg
+n.n
+4-bakketur
+dvs
+sdr
+s.j
+hol
+s.h
+pei
+kbhvn
+aa
+m.g.i
+fvt
+i«
+b.c
+th
+lrs

nltk_data/tokenizers/punkt_tab/danish/collocations.tab ADDED Viewed

	@@ -0,0 +1,101 @@

+##number##	skak
+##number##	speedway
+##number##	rally
+##number##	april
+##number##	dm-fin
+##number##	viceformand
+m	jensen
+##number##	kano/kajak
+##number##	bowling
+##number##	dm-finale
+##number##	årh.
+##number##	januar
+##number##	august
+##number##	marathon
+##number##	kamp
+##number##	skihop
+##number##	etage
+##number##	tennis
+##number##	cykling
+e	andersen
+##number##	december
+g	h.
+##number##	neb
+##number##	sektion
+##number##	afd.
+##number##	klasse
+##number##	trampolin
+##number##	bordtennis
+##number##	formel
+##number##	århundredes
+##number##	dm-semifin
+##number##	heks
+##number##	taekwondo
+##number##	galop
+##number##	basketball
+##number##	dm
+m	skræl
+##number##	trav
+##number##	provins
+##number##	triathlon
+k	axel
+##number##	rugby
+s	h.
+##number##	klaverkoncert
+a	p.
+e	løgstrup
+k	telefax
+##number##	gyldendal
+##number##	fodbold
+e	rosenfeldt
+##number##	oktober
+k	o.
+##number##	september
+##number##	dec.
+##number##	juledag
+##number##	badminton
+##number##	sejlsport
+##number##	håndbold
+r	førsund
+e	jørgensen
+d	##number##
+k	e
+##number##	alp.ski
+##number##	judo
+##number##	roning
+##number##	november
+##number##	atletik
+##number##	århundrede
+##number##	ridning
+##number##	marts
+m	andersen
+d	roosevelt
+##number##	brydning
+s	kr.
+##number##	runde
+##number##	division
+##number##	sal
+##number##	boksning
+##number##	minut
+##number##	golf
+##number##	juni
+##number##	symfoni
+##number##	hurtigløb
+k	jørgensen
+##number##	jörgen
+##number##	klasses
+e	jacobsen
+k	jensen
+##number##	februar
+k	nielsen
+##number##	volleyball
+##number##	maj
+##number##	verdenskrig
+##number##	juli
+##number##	ishockey
+##number##	kunstskøjteløb
+b	jørgensen
+##number##	gymnastik
+##number##	svømning
+##number##	tw
+i	pedersens

nltk_data/tokenizers/punkt_tab/danish/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/danish/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,64 @@

+kronik
+alligevel
+de
+først
+derfor
+vi
+selv
+hertil
+sådan
+dette
+sport
+man
+foto
+begge
+tag
+dertil
+reuter
+efter
+endelig
+ifølge
+lad
+når
+det
+desuden
+nu
+reuters
+årsagen
+tænk
+samtidig
+udover
+men
+endvidere
+rør
+rb
+udstillingen
+faktabox
+reception
+blandt
+hvad
+skær
+lilot
+derudover
+da
+tilsæt
+denne
+afp
+her
+hvis
+hæld
+problemet
+dermed
+jeg
+grafik
+anmeldelse
+den
+ebbe
+resultatet
+tværtimod
+hans
+måske
+feature
+tillæg
+hun
+han

nltk_data/tokenizers/punkt_tab/dutch/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,99 @@

+m.j
+t
+ph
+j.h
+p.a.m
+j.m
+dr
+st
+j.b.m
+p
+nr
+h.s
+e.d
+t.e
+a.v
+esb
+s.z
+drs
+b.b
+m.o
+inc
+n
+pensioenfonds
+s.v.p
+bod
+fr
+pk
+r.p
+c.p.j
+v.l.n.r
+chr
+m.v.d
+int
+o.m
+j.v.d
+u.o.m
+f.c
+k
+bijgebracht
+ontwaakte
+m
+j.w
+a.l
+a.v.d
+s.v
+s
+j.d
+binnengekomen
+ds
+schouwburg
+b.v
+h
+a
+j.a
+aanvielen
+h.g
+p.f
+j.l
+mgr
+c.j
+blz
+l.e.h
+w.k
+g
+m.g
+r.v.d
+ing
+v.d
+c.q
+l
+h.p
+mr
+gesch
+e.l
+p.j
+mm
+j.g
+j.f
+c
+f.m
+jl
+r
+o.a
+a.s
+ir
+v
+j
+jr
+e
+m.i.v
+l.a
+f.v.d
+aansluit
+c.c
+a.m
+f.o.j
+m.b
+y
+th

nltk_data/tokenizers/punkt_tab/dutch/collocations.tab ADDED Viewed

	@@ -0,0 +1,37 @@

+##number##	sotelo
+##number##	clas
+##number##	buckler
+##number##	carrera
+##number##	rmo
+##number##	orioli
+w	baron
+##number##	morales
+##number##	snotselelaank
+##number##	arcarons
+##number##	cavandoli
+##number##	pdm
+##number##	helvetia
+##number##	panasonic
+##number##	motorola
+w	bruinsma
+##number##	heer
+##number##	lotus
+##number##	banesto
+##number##	magnaldi
+w	jense
+w	heuvelmans
+w	spatje
+##number##	telekom
+f	kennedy
+##number##	gatorade
+##number##	mg-gb
+##number##	once
+##number##	peterhansel
+##number##	ariostea
+##number##	tvm
+##number##	höl
+##number##	castorama
+##number##	tulip
+b	situatie
+##number##	mas
+##number##	lotto

nltk_data/tokenizers/punkt_tab/dutch/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/dutch/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,54 @@

+het
+daardoor
+de
+er
+hoewel
+wat
+urlings
+na
+ze
+alleen
+dat
+ik
+pijls
+wie
+daarna
+foto
+als
+boer
+hammes
+verder
+ook
+evers
+vandaar
+toen
+we
+langenberg
+naast
+want
+in
+wij
+zo
+hendrikx
+daar
+crouzen
+dit
+daarnaast
+anp
+zij
+behalve
+waarom
+daarom
+bovendien
+hij
+daarbij
+nee
+volgens
+daarmee
+bukkems
+dvnl
+eén
+pas
+tijdens
+vooral
+maar

nltk_data/tokenizers/punkt_tab/english/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,156 @@

+ct
+m.j
+t
+a.c
+n.h
+ms
+p.a.m
+dr
+pa
+p.m
+u.k
+st
+dec
+u.s.a
+lt
+g.k
+adm
+p
+h.m
+ga
+tenn
+yr
+sen
+n.c
+j.j
+d.h
+s.g
+inc
+vs
+s.p.a
+a.t
+n
+feb
+sr
+jan
+s.a.y
+n.y
+col
+g.f
+c.o.m.b
+d
+ft
+va
+r.k
+e.f
+chg
+r.i
+a.g
+minn
+a.h
+k
+n.j
+m
+l.f
+f.j
+gen
+i.m.s
+s.a
+aug
+j.p
+okla
+m.d.c
+ltd
+oct
+s
+vt
+r.a
+j.c
+ariz
+w.w
+b.v
+ore
+h
+w.r
+e.h
+mrs
+cie
+corp
+w
+n.v
+a.d
+r.j
+ok
+. .
+e.m
+w.c
+ill
+nov
+u.s
+prof
+conn
+u.s.s.r
+mg
+f.g
+ph.d
+g
+calif
+messrs
+h.f
+wash
+tues
+sw
+bros
+u.n
+l
+wis
+mr
+sep
+d.c
+ave
+e.l
+co
+s.s
+reps
+c
+r.t
+h.c
+r
+wed
+a.s
+v
+fla
+jr
+r.h
+c.v
+m.b.a
+rep
+a.a
+e
+c.i.t
+l.a
+b.f
+j.b
+d.w
+j.k
+ala
+f
+w.va
+sept
+mich
+n.m
+j.r
+l.p
+s.c
+colo
+fri
+a.m
+g.d
+kan
+maj
+ky
+a.m.e
+n.d
+t.j
+cos
+nev

nltk_data/tokenizers/punkt_tab/english/collocations.tab ADDED Viewed

	@@ -0,0 +1,37 @@

+##number##	international
+##number##	rj
+##number##	commodities
+##number##	cooper
+b	stewart
+##number##	genentech
+##number##	wedgestone
+i	toussie
+##number##	pepper
+j	fialka
+o	ludcke
+##number##	insider
+##number##	aes
+i	magnin
+##number##	credit
+##number##	corrections
+##number##	financing
+##number##	henley
+##number##	business
+##number##	pay-fone
+b	wigton
+b	edelman
+b	levine
+##number##	leisure
+b	smith
+j	walter
+##number##	pegasus
+##number##	dividend
+j	aron
+##number##	review
+##number##	abreast
+##number##	who
+##number##	letters
+##number##	colgate
+##number##	cbot
+##number##	notable
+##number##	zimmer

nltk_data/tokenizers/punkt_tab/english/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/english/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,39 @@

+most
+he
+since
+so
+both
+these
+it
+nevertheless
+this
+indeed
+however
+instead
+under
+similarly
+some
+though
+while
+when
+in
+despite
+although
+nonetheless
+thus
+there
+if
+the
+nor
+separately
+moreover
+but
+they
+yet
+many
+according
+sales
+among
+meanwhile
+even
+i

nltk_data/tokenizers/punkt_tab/estonian/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,48 @@

+eos
+c
+a.d
+t.a.s.s
+e.t
+päevapiltnikud
+c.h
+b.p
+amm
+ameerika-mees
+n.-ö
+cm
+b
+mhm
+a.s
+m.e
+j.l
+j
+u.t
+vm
+g.u.n
+hajutada
+p.s
+a.b
+c.h.-r
+i.q
+gr
+fido
+pankurit
+s.v
+l.l
+c.-h
+m.h
+h.l
+m.k
+j.r
+t.k
+k.h
+89/90
+h
+a
+dost
+v.k
+e.q
+t.j
+m.b
+d
+p.k

nltk_data/tokenizers/punkt_tab/estonian/collocations.tab ADDED Viewed

	@@ -0,0 +1,100 @@

+##number##	juuni
+##number##	novembril
+##number##	juulilt
+r	järve-vomm
+##number##	mida
+n	liidu
+##number##	milliseid
+##number##	oktoobri
+##number##	iidol
+m	e
+##number##	klassist
+##number##	millest
+##number##	august
+##number##	pariis
+##number##	septembrist
+##number##	oktoober
+##number##	märtsini
+##number##	kust
+k	mägi
+##number##	detsembrist
+##number##	jaanuari
+##number##	epee
+##number##	nimetage
+##number##	novembrini
+##number##	eluaasta
+s	mill
+##number##	helsingi
+##number##	jaanuarini
+##number##	aastail
+##number##	augustil
+##number##	millise
+##number##	juulist
+##number##	mai
+##number##	novembri
+##number##	oktoobrist
+##number##	juunini
+##number##	septembriks
+##number##	detsembril
+p	s
+##number##	jaanuar
+##number##	aastate
+##number##	milline
+##number##	kelle
+##number##	jaanuaril
+s	stadnikov
+##number##	aastaks
+##number##	stockholm
+##number##	suurim
+##number##	aasta
+##number##	sajandi
+##number##	millega
+##number##	aastast
+##number##	aastal
+##number##	kumb
+##number##	septembril
+##number##	korruselt
+##number##	septembri
+##number##	veebruarini
+##number##	london
+##number##	aastatel
+##number##	september
+##number##	veebruari
+##number##	oktoobrini
+##number##	mail
+m	kassovitz
+##number##	action-film
+##number##	mis
+k	herkül
+n	n
+##number##	detsembrini
+##number##	imre
+t	jõgeda
+##number##	casino
+##number##	septembrit
+##number##	augustini
+##number##	juulil
+##number##	november
+##number##	kuupäeval
+##number##	taevas
+##number##	septembrini
+##number##	detsember
+##number##	detsembri
+##number##	juunil
+##number##	augustist
+n	jurist
+##number##	missugust
+##number##	aastatesse
+##number##	aprillil
+##number##	augusti
+##number##	oktoobril
+##number##	märtsil
+##number##	a
+##number##	the
+##number##	sajandil
+##number##	aastani
+##number##	juuli
+##number##	septembrile
+##number##	millist
+##number##	millised
+##number##	veebruaril

nltk_data/tokenizers/punkt_tab/estonian/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/estonian/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,89 @@

+kalad
+õnneks
+selle
+maimu
+teisipäeval
+ma
+skorpion
+aga
+lisaks
+selleks
+maitse
+esiteks
+erinevalt
+pealegi
+praegu
+kas
+tegelikult
+neitsi
+nädalavahetus
+tema
+kui
+seega
+täna
+lugupidamisega
+miks
+teiseks
+väldi
+pohlak
+osades
+sõnn
+samas
+nimelt
+juhtkiri
+krimi
+nädalavahetusel
+näiteks
+kuidas
+ambur
+telgmaa
+laupäeval
+seetõttu
+rezhissöör
+kahjuks
+ent
+samuti
+ehkki
+veevalaja
+seepärast
+muidugi
+kuna
+tänaseks
+mina
+loomulikult
+ometi
+arvamus
+lõvi
+ee
+niisiis
+mul
+kaksikud
+tõsi
+hinnete
+sestap
+tõenäoliselt
+samal
+see
+paraku
+jäär
+kokkuvõttes
+küllap
+muide
+nüüd
+kolmapäeval
+võibolla
+kuid
+nädalavahetuse
+kuigi
+võid
+lõpuks
+kaalud
+areen
+kirjad
+vähk
+esmaspäeval
+nii
+need
+uue
+ta
+minu

nltk_data/tokenizers/punkt_tab/finnish/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,81 @@

+t
+suom
+dr
+st
+970125090.jtun
+p
+sis
+t.h
+961221327.jtun
+a.i
+milj
+ski
+kp
+970131067.jtun
+970124030.jtun
+nk
+va
+pan
+yhteystiedot
+ruots
+jne
+t.a
+l.-g
+k
+j.w
+p2
+oik
+970102248.jtun
+hj
+s
+vt
+muistelmia
+o.s
+elo
+h
+ortod
+o.l
+w
+tms
+970120219.jtun
+pj
+ok
+toissapäiväinen
+28.t1
+pelintekijä
+970111011.jtun
+op
+os
+ns
+m.g
+o.-i
+m3
+pros
+mr
+970102171.jtun
+waller
+hels
+rotary-järjestössä
+ins
+esim
+apul
+fil
+id
+ym
+j
+rf
+v.o
+lis
+c.a
+em
+kand
+r.y
+valt
+dipl
+ö
+970111092.jtun
+ponteva
+y
+kapakoista
+970130160.jtun
+th

nltk_data/tokenizers/punkt_tab/finnish/collocations.tab ADDED Viewed

	@@ -0,0 +1,167 @@

+##number##	sm
+##number##	ohjelmassa
+##number##	a3
+##number##	rc3
+##number##	rxd4
+##number##	hxg4
+o	stenberg
+##number##	lg5
+##number##	tallitontun
+##number##	lähetysohjeet
+##number##	uimakoulu
+##number##	jaana
+##number##	alustuksen
+##number##	uppo-nallen
+##number##	anne
+##number##	rxf3
+a	sjögren
+##number##	kamarikuoro
+##number##	vetäjänä
+##number##	pääsymaksu
+##number##	kerros
+##number##	kurssi
+##number##	kuori
+##number##	g4
+##number##	h3
+##number##	tiede-teatterissa
+##number##	kh2
+##number##	kausimaksu
+##number##	tia
+##number##	gxf5
+##number##	täky-galleria
+##number##	le2
+##number##	te8+
+##number##	la4
+##number##	keitä
+##number##	huhtikuuta
+##number##	menotiedoissa
+##number##	valmista
+##number##	txb5
+##number##	maskeerauskurssin
+##number##	rd2
+##number##	re2
+##number##	solisteina
+##number##	esitelmä
+##number##	puupiirrossarja
+##number##	ta1
+##number##	vaahdota
+##number##	h4
+##number##	kesäkuuta
+##number##	liikkeitä
+##number##	tuolloin
+##number##	viikko
+##number##	mittaa
+a	sjögrenin
+##number##	exf6
+##number##	rc6+
+##number##	viimeistele
+##number##	ld1
+##number##	elokuuta
+##number##	dh5+
+##number##	syyskuuta
+##number##	opettajina
+##number##	b3
+##number##	rauhankatu
+c	clarke
+##number##	saakka
+##number##	elokuvat
+b	huggins
+g	gahmberg
+##number##	luento
+##number##	lf3
+##number##	tammikuuta
+##number##	ryömä
+##number##	meller
+##number##	jäsenkortti
+##number##	esiintyjinä
+##number##	maria
+##number##	lf4
+##number##	siirto
+##number##	aurinko
+##number##	lxg6
+##number##	marraskuuta
+##number##	harjoituksissa
+##number##	romantika-yhtye
+##number##	g3
+##number##	heinäkuuta
+##number##	rxd5
+##number##	kuumenna
+e	hämäläisen
+##number##	bxc4
+##number##	te1
+##number##	kg2
+##number##	osallistumismaksu
+##number##	re5
+##number##	ohjelma
+##number##	varapuheenjohtajaksi
+##number##	raisa
+##number##	päivään
+##number##	luokan
+##number##	sulata
+##number##	levitä
+##number##	kaustinen
+##number##	kuoroa
+##number##	df3
+v	helsingistä
+##number##	mieskuoro
+##number##	lokakuuta
+##number##	kerho
+##number##	helmikuuta
+##number##	kokkola
+##number##	suuruusluokan
+v	kaupungista
+##number##	krs
+##number##	tekstit
+##number##	menyy
+##number##	rf3
+##number##	ulkoasiainministeriön
+##number##	kaada
+##number##	cxd5
+##number##	ilmailumuseo
+e	waris
+##number##	kierros
+##number##	tunnille
+##number##	kh3
+##number##	ohjaus
+a	t.
+##number##	postimaksu
+##number##	pane
+##number##	th3
+##number##	joulukuuta
+##number##	vatkaa
+##number##	kokeessa
+l	j.
+##number##	asti
+##number##	opastajana
+##number##	kirsi
+##number##	lc2
+##number##	lh2
+##number##	e4
+##number##	sairaankuljetukset
+##number##	sekoita
+##number##	mervi
+##number##	de2
+a	pietilän
+##number##	kf1
+##number##	toukokuuta
+##number##	maaliskuuta
+##number##	leikkaa
+##number##	ryhmänäytökset
+v	maaseudulta
+##number##	de3-e1
+##number##	c4
+##number##	ta1-b1
+##number##	d5
+##number##	pia
+##number##	lxd6
+##number##	d4
+##number##	f3-f4
+##number##	dxg6+
+##number##	sari
+##number##	pelkkään
+##number##	ld3
+##number##	perkaa
+##number##	lg3
+##number##	kg3
+##number##	kvm
+##number##	tb1xb6

nltk_data/tokenizers/punkt_tab/finnish/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/finnish/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,86 @@

+siinä
+lämpötila
+viiden
+he
+vapaa
+viime
+useimmat
+kansallisooppera
+rooleissa
+näin
+odotettavissa
+tiedustelut
+kansallisteatterin
+sen
+musiikki
+monet
+uusi
+avoinna
+pakkasta
+freeze
+tämä
+lämpö
+lautakunta
+vastaväittäjänä
+päivällä
+tällä
+esimerkiksi
+varoituksia
+merenkurkku
+meriennuste
+näyttelyssä
+kun
+pilvistä
+silloin
+selkämeren
+suurin
+se
+jos
+vaihtelevaa
+vastaväittäjinä
+sivu
+kaupunginteatterin
+pilvisyys
+siellä
+siksi
+kurssimaksu
+tämän
+kotimaa
+näiden
+teatteri
+kaikki
+puolipilvistä
+niiden
+maksimilämpötila
+lisäksi
+kaupunginhallitus
+helsingin
+nyt
+samalla
+hänen
+olen
+kaupunkikierros
+vastaväittäjä
+ne
+tästä
+enimmäkseen
+poika
+niinpä
+viirus
+me
+poliisi
+liput
+ilmoittautuminen
+tarjoa
+hän
+molemmat
+ulkomaat
+rock
+lääketieteen
+tanssi
+sainks
+näyttely
+lisätietoja
+ulkomaiden
+näyttelyn
+palo

nltk_data/tokenizers/punkt_tab/french/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,61 @@

+p.o.l
+pds
+3o
+inscr
+suè
+z
+abst
+g.-b
+tél
+r
+ed
+o
+b
+esp
+j.l
+v
+k
+e.p
+aus
+jap
+r.e
+gb-bel
+p
+aut
+usx
+arg
+g
+e
+etc
+fra
+p.s
+j.-l
+blu
+e.-u
+f.b
+msf
+e.d
+shi
+can
+j.b
+s.a
+f.o
+you
+mir
+inc
+ital
+expr
+tch
+g-b-bel
+cid
+c.u
+ctk
+j.-m.g
+bta
+p.-b
+cie
+ita
+equ
+corp
+vot
+w

nltk_data/tokenizers/punkt_tab/french/collocations.tab ADDED Viewed

	@@ -0,0 +1,18 @@

+##number##	shinozuka-magne
+##number##	ambrosino-baumgartner
+c	tanvier
+f	b.
+##number##	waldegaard-fenouil
+##number##	fermé
+a	dechaume
+i	demongeot
+s	motos
+##number##	rahier
+##number##	magnaldi
+##number##	orioli
+f	tél.
+##number##	cowan-delferrier
+##number##	vatanen-berglund
+##number##	picco
+##number##	masuoka-oligo
+##number##	medardo

nltk_data/tokenizers/punkt_tab/french/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/french/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,48 @@

+c
+depuis
+la
+enfin
+certains
+selon
+cet
+car
+ces
+il
+cependant
+pour
+j
+alors
+un
+certes
+les
+nous
+dans
+le
+une
+si
+mais
+en
+dès
+or
+tout
+ils
+l
+mr
+malgré
+elles
+né
+je
+on
+quand
+pourtant
+cela
+a
+après
+puis
+ce
+elle
+voilà
+cette
+comment
+quant
+ainsi

nltk_data/tokenizers/punkt_tab/german/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,71 @@

+rfr
+t
+c
+a.d
+dk
+he
+mjm
+inkl
+bt
+69f
+crz
+dr
+st
+ib
+liv
+mrd
+n.r
+rg
+v
+vgl
+mgr
+cs
+prof
+j
+kfr
+bd
+fre
+gfh
+fon
+m
+rp
+nr
+chr
+etc
+hg
+sx
+rz
+48f
+kmu
+abs
+nkm
+z.b
+usw
+f
+d.h
+lz
+sc
+usf
+gir
+hag
+ff
+mio
+zr
+k
+h
+mey
+bst
+ne
+u.a
+fem
+bzw
+bü
+med
+u
+lts
+fr
+s.o.s
+w
+lib
+k.a
+th

nltk_data/tokenizers/punkt_tab/german/collocations.tab ADDED Viewed

	@@ -0,0 +1,28 @@

+##number##	oktober
+##number##	jahrhunderts
+##number##	geburtstag
+##number##	juni
+s	##number##
+##number##	september
+##number##	mai
+##number##	dezember
+##number##	april
+##number##	ahv-revision
+##number##	revision
+##number##	jahrhundert
+##number##	landwirtschaftsbericht
+##number##	altersjahr
+##number##	februar
+a	schumpeter
+##number##	freiheit
+##number##	august
+##number##	januar
+##number##	märz
+a	meyers
+##number##	november
+##number##	bauetappe
+##number##	ahv-
+##number##	eu-richtlinie
+##number##	juli
+a	meyer
+##number##	säule

nltk_data/tokenizers/punkt_tab/german/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/german/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,107 @@

+das
+man
+es
+wir
+dabei
+ferner
+ähnliches
+während
+entscheidend
+ausserdem
+ein
+in
+der
+daraus
+obschon
+beide
+hier
+all
+neben
+solche
+hingegen
+selbstverständlich
+daneben
+hinzu
+vielmehr
+sie
+natürlich
+obwohl
+nun
+doch
+ob
+abgesehen
+überdies
+im
+zweitens
+darin
+erstens
+dieses
+nach
+wer
+da
+interessant
+seit
+zudem
+darüber
+umgekehrt
+ähnlich
+aber
+was
+nachdem
+insbesondere
+statt
+angesichts
+gefragt
+gleiches
+solange
+wenn
+dies
+dass
+wie
+damit
+allerdings
+denn
+letztere
+eine
+selbst
+gleichzeitig
+wo
+weder
+gerade
+unter
+problematischer
+wieso
+dennoch
+bei
+deshalb
+davon
+andernfalls
+er
+die
+anders
+auch
+ebenso
+so
+inzwischen
+sonst
+immerhin
+entsprechend
+danach
+am
+trotz
+trotzdem
+worum
+damals
+dafür
+schliesslich
+gemäss
+demgegenüber
+warum
+letzteres
+mit
+dazu
+anderseits
+ganz
+zwar
+dieser
+diese

nltk_data/tokenizers/punkt_tab/greek/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,100 @@

+κλ
+δημ
+χλμ
+σ.τ.ε
+ό.π
+δρχ
+κων
+χρ
+π.α
+ριχ
+π.χρ
+υγ
+tel
+ζ
+ο.π
+βασ
+γλ
+n.c
+d.j
+σωκ
+π
+ιω
+αχ
+βα
+γερ
+εκδ
+κλπ
+φ
+ελ
+οσ
+α
+σελ
+ευ
+ε.έ
+ρ
+ε.τ.α
+λ
+εβ
+θρ
+ν
+βλ
+ηλ
+γ
+αρ
+π.χ
+ε.μ
+κ.μ
+α.ε
+μιχ
+δισ
+ολ
+μ
+κ.ά
+κ
+δηλ
+ε.α.χ
+πρ
+αγ
+μac
+κ.ο.κ
+λ.χ
+θ
+αδσ
+εκατ
+δρη
+εμμ
+δ
+δεκ
+σ.σ
+55ο
+κκ
+αδ
+τ.μ
+ε.ε
+μ.χ
+ν.μ
+κτλ
+δολ
+κ.ά.π
+αγγ
+μ.κ
+δ.σ
+μπ
+έκδ
+ι
+v
+χαρ
+γρ
+μ.μ.ε
+σχ
+λεκ
+σπ
+πλι
+αθ
+χ
+τζ
+τρισ
+στ
+ευθ
+μ.μ

nltk_data/tokenizers/punkt_tab/greek/collocations.tab ADDED Viewed

	@@ -0,0 +1,7 @@

+β	δερτιλής
+##number##	φιλάρετος
+ο	gehry
+η	αβεε
+##number##	βλ.
+β	παπανδρέου
+σ	μ.

nltk_data/tokenizers/punkt_tab/greek/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/greek/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,54 @@

+οπως
+πάντως
+δεύτερον
+παράλληλα
+οχι
+ειδικότερα
+τι
+επίσης
+ωστόσο
+ενας
+ηδη
+σύμφωνα
+συγκεκριμένα
+ηταν
+εκεί
+αλλωστε
+πολλοί
+διότι
+οποιος
+τρίτον
+πώς
+ολοι
+ισως
+ο
+ολες
+οι
+γιατί
+αλλοι
+οσοι
+αυτό
+τα
+ολα
+ετσι
+ενα
+πράγματι
+αλλά
+επιπλέον
+δεν
+εχει
+αντίθετα
+οσον
+γι
+αντιθέτως
+ας
+η
+πρόκειται
+αρα
+οσο
+αν
+μετά
+εξάλλου
+το
+οταν
+πέρα

nltk_data/tokenizers/punkt_tab/italian/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,125 @@

+t
+b.p
+cer
+sik
+'ing
+dr
+p.m
+st
+t.t.c
+a.r
+p
+ecc
+t.b
+tel
+etc
+'on
+mb
+g.dol
+g.d.g
+sè»
+m.p
+b.b
+vs
+s.p.a
+g.b
+v6
+ipp
+s.r
+r.c
+moz
+n.f
+s.mr
+c.s
+g.i.p
+r.i
+a.g
+rc
+'è»
+1-o
+e.p
+m.g.b
+gen
+i.e
+s.a
+vic
+g.gi
+c»
+m.cas
+re.po
+giri/min
+e.i
+mrs
+w
+n.d.r
+l4ª
+bad
+p.l.f
+dur
+s.l
+t.s
+wwf
+u.q
+lod
+b.col
+prof
+n.s
+ii.dd
+a.f
+c.i
+op
+end
+g
+'u.s
+o.b
+t.t
+s.m
+ing
+shi
+oren
+m.l
+f.l.l
+mr
+jvp
+fia
+pag
+e.c
+g.p
+pp
+u
+p.d.v
+c.cer
+cod
+d.p.r
+e.t
+e.st
+h.c
+z
+r
+c.n.r
+o.r
+mons
+j
+jr
+kin
+v6»
+g.p.s
+l.z
+c.a
+m.f
+sig
+s.r.l
+riz
+f
+m.s
+c.c
+l.p
+f.ama
+pi
+s.c
+p.d.p
+ta
+di»
+r.e.s
+n.d
+p2»

nltk_data/tokenizers/punkt_tab/italian/collocations.tab ADDED Viewed

	@@ -0,0 +1,6 @@

+n	##number##
+s	pietro
+s	francisco
+c	wolf
+s	maria
+a	r.

nltk_data/tokenizers/punkt_tab/italian/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/italian/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,40 @@

+poi
+c
+la
+temperatura
+oggi
+ebbene
+infine
+ieri
+ecco
+il
+questo
+quando
+se
+anche
+e
+ma
+perciò
+in
+visibilità
+gli
+insomma
+le
+nel
+lo
+ora
+adesso
+venti
+l
+ci
+per
+inoltre
+ho
+secondo
+non
+così
+intanto
+certo
+dopo
+i
+eppure

nltk_data/tokenizers/punkt_tab/malayalam/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,285 @@

+പി.ജെ
+var
+ഡി.വൈ
+സിഹാനൂക്കാണ്
+എന്നാണറിയപ്പെട്ടത്
+മു
+ബി.ആർ
+സി.ടി
+വി.പി
+u.s
+എം.എം
+ഏ.ഓ
+എ.എം
+ജെ.ബി
+കെ.എൽ
+ഉയർത്തപ്പെട്ടു
+o8
+ജെ.ഡി
+പാരീസിലേക്കയച്ചു
+വിവാഹംകഴിച്ചു
+ഒ.എ
+മുസ്ലിങ്ങളാണ്
+ടി.പി
+ഒ.സി
+ആർ.എം
+കൃ
+മറിച്ചാണ്
+മാറ്റിയിരിക്കണം
+ജി.വി
+കെ.ജെ
+കെ.ബി
+സി.വി
+ഒ.ആർ
+വിഭജിക്കപ്പെട്ടു
+ജെ.ആർ.എം
+അഭിപ്രായപ്പെട്ടിരുന്നു
+എം.ഒ
+ശ
+എൽ.കെ
+കെ.ഇ
+ബി.എ.സി
+ടി.ഡി
+അക്രമോത്സുകരാക്കി
+എസ്.എൽ
+തെ
+എ.പി.ഐ
+ചലച്ചിത്രം,പുസ്തകം,സി.ഡി,ഡി.വി.ഡി
+ഡെ.റി
+എൽ.എ
+ഇ.എൻ
+k.n
+ഒ.എൻ
+വി.ഖു
+ഫെ
+eur
+vol
+d.c
+വി.എം.എസ്
+ജി.കെ
+സി.സി.ഡി
+എം.ജി.ആർ
+ഡോ.ടി
+മേൻമ
+എളുപ്പവഴിയാണിത്
+j.s
+കെ.ഡി
+ഇ.ഡി
+കൊ
+ഇ.വി
+a.k.a
+ആർ.സി
+ഐ.എസ്.പി
+ഇ.എ
+ബി.എൻ
+എ.ഇ
+ഡോ.എ
+വി.എം
+കലാശിച്ചുളളു
+എം.എൻ
+എ.ഒ
+എ.പി.ജെ
+പി.എ
+ഓ.എം
+ടി.എൻ
+ഘ.മീ
+ജൂല
+പി.ജി
+ഒക്കാറ
+സി.ഒ
+ജി.ഇ
+കെ.ആർ
+ഉ.സാ.ഘ
+ആഗ
+ഒ.ടി.ജി
+ആ.സാ
+സിംഹാസനമേറി
+എ.യു
+സി.എൽ
+സു
+ഐ.വി
+ജി.ഐ
+അവതരിപ്പിക്കാറുള്ള
+ഒ.ടി
+trin
+എൻ.വി
+രചനകളിലാണ്‌
+ഏ.കെ
+എ.ജെ
+ല.സാ.ഗു
+എൻ.ഡി.ആർ.എഫ്
+k.m
+എഫ്.ആർ
+തെ.കി
+എം.എൽ
+എൻ.ആർ
+ഐ.ഡി
+ജെ.ആർ
+അനുവാദമുണ്ടായിരുന്നു
+സി.എസ്.എസ്
+ആണ
+ടി.ടി
+etc
+കെ.എ
+എറിഞ്ഞുകളയപ്പെടുന്നു
+ട്
+നടപ്പായി
+നിരോധിച്ചിരിക്കുകയാണ്
+എൽ.എസ്.ഡി
+ഇ.ജെ
+ആരാഞ്ഞു
+എൽ.എൻ
+ജെ.കെ
+ജനു
+യു.ബി
+പുറ
+എസ്.വി.ജി
+പി.ഒ
+എഫ്.ടി.പി
+ഐ.സി
+വ.പ
+കെ.എൻ
+ജൂ
+ഖു
+എ.ആർ.എം
+യു.ആർ
+ഐ.എൻ.എ
+കലനം
+ഐ.ആർ.ഡി.പി
+ആവശ്യപ്പെടു
+ജെ.ആർ.ഡി
+ഒ.വി
+പി.എം
+എ.ബി
+ജി.എ
+എസ്.എഫ്.ടി.പി
+ജെ.ആർ.കെ
+ബി.ഇ.എം.എൽ
+ചേരൂ
+സി.ഇ
+ഡി.വി
+ജി.എം.പി
+7ൽ
+യു.സി
+എൽ.ജെ
+വി.ടി
+ഐ.കെ
+എം.ഐ
+പി.ഐ
+ടി.എസ്
+ഐ.ടി.ബി.പി
+മി.മീ
+കെ.എസ്
+എൽ.ടി
+ഇ.ബി
+യു.എ
+ഇ.ടി
+i.e
+ഇ.എ
+വ്യക്തമാക്കുന്നത്
+എം.ഈ
+a.h
+ഇ.സി
+4k.m
+'എ.ആർ
+എ.ജി
+തി.ക
+ഇ.എം
+പി.എൻ
+പുസ്തകങ്ങളുണ്ട്
+എ.എൻ
+ഒത്തുതീർപ്പിലെത്തി
+ശ.ശ
+r.i
+mz+
+അക്ഷാ
+t.n
+രേഖാംശത്തിലാണ്
+m.b.b.s
+എസ്.എം.പി.എസ്
+ഈ.മ.യൌ
+ഡി.വി.ഡി
+സി.എൻ.ആർ
+ഇ.ഒ
+ലഫ്
+ഐ.ജി
+എ.ഐ.കെ.എസ്
+ബി.എഡ്
+റുദ്
+കെ.എസ്.യു
+apk
+എ.വി.എം
+ഏ.സി
+fol
+നല്ലതാണ്
+mt
+ഒ.കെ
+ബി.ഇ.എൽ
+എം.വി
+04മ.34.4മി
+പി.ഡി
+വി.ഐ
+എസ്.എസ്.ബി
+കോജ
+ഡി.എ.വി
+വ്യക്തമല്ല
+എ.എൽ
+ഏ.എൻ
+സൃഷ്ടിച്ചിരുന്നു
+ഡി.സി
+എ‌
+ഗ
+ഐ.എം
+ജെ.ഇ
+ഐ.എസ്.ഒ
+w.h
+oh
+നടുക
+ഏറ
+എൻ.സി.സി
+എ.ആർ
+സി.കെ
+സ്ഥാപിച്ചെടുത്തു
+എ.എ
+ഖ
+മി.ലി
+തെ.പ
+†y
+ടേൽ
+പി.ആർ
+ബി.ജെ
+ed
+ഒ.ഇ.എം
+15എ
+ഐ.ആർ
+എം.യു
+co
+എം.ആർ
+വി.എ
+ഡി.കെ
+എ
+ശ.മാ
+നല
+വളരും
+ഐ.ആർ.ഡി
+mr
+ബി.സി.ഇ
+എച്ച്.എ.എൽ.,എൻ.എ.എൽ
+ടി.എ
+ജെ.ജെ
+ഓ.എസ്
+ആർ.ഒ
+ഇ.പി
+ഉപയോഗിച്ചുപോന്നിട്ടുണ്ടു്
+ഏ.ആർ
+അഡ്വ
+എസ്.പി.സി.കെ
+m.f
+ജി.സി
+ജി.പി
+എ.ഐ.എ.ഡി.എം.കെ
+ഒ.പി
+ബി.എച്ച്.ഇ.എൽ
+വി.ആർ
+6k.m
+a.a.k

nltk_data/tokenizers/punkt_tab/malayalam/collocations.tab ADDED Viewed

	@@ -0,0 +1,153 @@

+ഐ	എ
+ഇ	സുലൈമാൻ
+ഇ	ആർ
+##number##	ശേഖരിച്ചത്
+ഐ	ഐ
+##number##	രഹസ്യാത്മകത
+ന	20-ന്
+പ	പാർനസസ്
+ഇ	സന്തോഷ്
+h	asquith
+ഏ	29-ന്‌
+##number##	ക്ലയന്റ്
+എ	ഇബ്രാഹിം
+ഒ	മാധവൻ
+എ	ഡി
+##number##	ആർകിടെക്ചർ
+ഇ	കോളിയിൽ
+ഐ	ആസ്‌കാർ
+എ	താണുപിള്ളയുടെ
+c	camelus
+ഇ	എം
+##number##	മുതുമല
+ഇ	കോളി
+ഒ	അബ്ദുറഹ്മാൻ
+എ	രാമചന്ദ്രൻ
+ഐ	എം
+c	massaicus
+എ	രാമചന്ദ്രൻനായർ
+ഇ	വെബ്ബിന്റെ
+##number##	ml
+##number##	ഉമ്മാമ
+ഇ	സി
+##number##	ഏകീകരിക്കപ്പെട്ട
+ഐ	രണ്ടായി
+##number##	ജ്ഞാനകർമവിഭാഗയോഗം
+എ	എസ്
+ഐ	സി
+എ	എൻ
+##number##	ഖ്വള
+ഒ	അബ്ദുറഹ്മാന്
+##number##	പക്ഷിമനുഷ്യൻ
+e	see
+c	molybdophanes
+ഐ	ഷണ്മുഖദാസ്
+വ	കി.-തെ.
+c	syriacus
+ഏ	26-ന്
+പ	നിന്നു
+b	english
+ഒ	ഹെൻറിയുടെ
+വ	പ്രദേശങ്ങളിൽ
+എ	കോളേജ്
+വ	കിഴക്കൻ
+ഇ	ഒ,യും
+എ	ആഡംസാണ്
+ഐ	ബി.എം
+എ	ഐ
+എ	ആർ
+ഒ	അബ്ദുള്ളയുടെ
+##number##	അർജ്ജുനവിഷാദയോഗം
+n	sircar
+ഇ	പുന്നൻ‍
+ന	24-ന്
+വ	നിന്നു
+c	ronaldo
+c	whether
+v	prasad
+ഐ	ടി
+ച	കി.മീ
+എ	എൽ
+അ	ഉ
+ഇ	കെ
+വ	ഭാഗത്തുള്ള
+##number##	ഓട്ടോമൊബൈൽ
+എ	കണാരൻ
+ഒ	എൻ
+##number##	യാലല്ല
+വ	അമേരിക്കയിൽനിന്നും
+b	r
+f	salsa
+c	australus
+എ	വിൻസെന്റ്
+എ	കുഞ്ഞുകൃഷ്ണൻ
+എ	എം
+എ	കോളി
+ഒ	ഓലെസ്സും
+എ	ഷെരീഫ്
+ഒ	അബ്ദുറഹ്‌മാൻ
+എ	13-ആം
+l	v
+d	the
+##number##	വിവരാവകാശനിയമം
+##number##	naturally
+ഇ	ചന്ദ്രശേഖരൻ
+ഒ	കോരൻ
+ക	ഉത്തർപ്രദേശിന്റെ
+എ	സുബാസ്കാരൻ
+വ	ഭാഗത്ത്
+l	indicus
+ഒ	മാധവന്റെ
+ഇ	യോനാത്ത്
+h	h
+ച	കി
+വ	കി
+ഐ	എ‌.
+ഐ	ഇ
+##number##	നിർമ്മാണാവകാശം
+##number##	bibcode
+ഇ	ഒ
+b	n
+##number##	32-ബിറ്റുള്ള
+ഒ	എം
+ഇ	പത്മനാഭൻ
+p	p
+a	r
+ഐ	ഒ
+എ	സഹദേവൻ
+f	piliferus
+ഐ	ടി.കളും
+a	baileyana
+ഒ	രാജഗോപാൽ
+s	c
+ഐ	ആറിന്റെ
+എ	ടി
+പ	ദിശയിൽ
+പ	ഈഗാലിയോസ്
+എ	ഭീം
+g	kilgour
+ഒ	എ
+എ	അയ്യപ്പൻ
+##number##	മൂലതാളിൽ
+ഇ	ഒന്നാം
+ഒ	11-ന്‌
+r	chopra
+വ	പ
+എ	കെ
+എ	വി
+ഇ	എസ്
+##number##	c4
+എ	ഗ്രിഫിൻ
+d	ramanaidu
+എ	ഹൈൻലൈൻ
+r	rahman
+##number##	ജംദേന
+എ	ഗോപാലകൃഷ്ണൻ
+എ	എച്ച്
+എ	ഹേമചന്ദ്രൻ
+l	ഇംഗ്ലീഷിൽ
+ഏ	ആർ
+##number##	സൂക്തങ്ങൾ
+എ	അച്യുതൻവക്കീലിന്റെ
+ഏ	ശ്രീധരമേനോൻ
+ഇ	ബി

nltk_data/tokenizers/punkt_tab/malayalam/ortho_context.tab ADDED Viewed

The diff for this file is too large to render. See raw diff

nltk_data/tokenizers/punkt_tab/malayalam/sent_starters.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+പല
+ഇവ
+http
+അവ
+ആ
+ആൺ
+പഴയ
+ഏൽ
+ഈ
+coordinates
+അവർ
+helier
+പകൽ
+ഇവർ

nltk_data/tokenizers/punkt_tab/norwegian/abbrev_types.txt ADDED Viewed

	@@ -0,0 +1,106 @@

+t
+p.p
+bk
+cc
+pga
+e.e.o
+o.h
+dr
+st
+uh
+kk
+t.d
+h.m
+p
+adm
+nr
+etc
+t.h
+dæhlie-triumf
+ev
+udv
+anm
+ø
+osv
+dm
+hi
+b.b
+inc
+r.c
+d.v.s
+ce
+fr
+chr
+adm.dir
+m.a
+b
+p.t
+m.v
+k
+m.m
+i.l
+mill
+h.e
+d.å
+bl.a
+i.h.h.t
+mrs
+b.i.t
+sam.pol
+o.l
+w
+jfr
+h.g
+str
+mil.org
+c.j
+sifre
+l.t
+t.v
+ex
+gj.v
+pr
+d.y
+j.o
+g.c
+avd
+o.s.v
+pol
+ca
+f.eks
+tjenesteforsømmelse
+mr
+d.c
+sam
+.e
+h.h.v
+f.v
+fenomen
+kl
+hr
+c.h
+miljøvernavdelingen
+h.c
+startstreken
+r
+o.a
+mrd
+a.s
+j.v
+j
+jr
+f.w
+kfr
+l.h
+bås
+schlickernrieder
+f.-eks
+f
+5.n7
+c.c
+fung
+dvs
+d.e
+wc
+f.å
+th