Add files using upload-large-folder tool

3270dae verified 16 days ago

9.91 kB

	"""Tokenizer training utilities."""

	import os
	import json
	import tempfile
	from pathlib import Path
	from typing import Optional, Dict, Any
	from taoTrain.data.chunk_manager import ChunkManager


	class TokenizerTrainer:
	"""Train SentencePiece tokenizers from JSONL data."""

	@staticmethod
	def train_from_config(config: "TokenizerConfig") -> dict: # type: ignore
	"""
	Train a tokenizer from a TokenizerConfig object.

	Args:
	config: TokenizerConfig instance

	Returns:
	Dict with paths to generated tokenizer files
	"""
	# Build special tokens string for SentencePiece if provided
	user_defined_symbols = None
	if config.special_tokens:
	# Sort by ID and format as comma-separated tokens
	sorted_tokens = sorted(config.special_tokens.items(), key=lambda x: x[1])
	user_defined_symbols = ','.join([token for token, _ in sorted_tokens])

	return TokenizerTrainer.train_sentencepiece(
	jsonl_path=config.jsonl_path,
	output_dir=config.output_dir,
	vocab_size=config.vocab_size,
	model_type=config.model_type,
	character_coverage=config.character_coverage,
	unk_id=config.unk_id,
	bos_id=config.bos_id,
	eos_id=config.eos_id,
	pad_id=config.pad_id,
	tokenizer_prefix=config.tokenizer_prefix,
	text_field=config.text_field,
	max_samples=config.max_samples,
	user_defined_symbols=user_defined_symbols,
	)

	@staticmethod
	def train_sentencepiece(
	jsonl_path: str,
	output_dir: str = "tokenizers",
	vocab_size: int = 50000,
	model_type: str = "unigram",
	character_coverage: float = 0.9995,
	unk_id: int = 0,
	bos_id: int = 1,
	eos_id: int = 2,
	pad_id: int = 3,
	tokenizer_prefix: Optional[str] = None,
	text_field: str = "text",
	max_samples: Optional[int] = None,
	user_defined_symbols: Optional[str] = None,
	) -> dict:
	"""
	Train a SentencePiece tokenizer from JSONL data.

	Args:
	jsonl_path: Path to JSONL file containing text data
	output_dir: Directory to save tokenizer files
	vocab_size: Vocabulary size for the tokenizer
	model_type: Model type (unigram, bpe, char, word)
	character_coverage: Character coverage for SentencePiece
	unk_id: Unknown token ID
	bos_id: Beginning of sentence token ID
	eos_id: End of sentence token ID
	pad_id: Padding token ID
	tokenizer_prefix: Prefix for tokenizer model files (default: model_type)
	text_field: Field name in JSONL for text data (default: "text")
	max_samples: Limit training to first N samples (optional)
	user_defined_symbols: Custom special tokens as comma-separated string (optional)

	Returns:
	Dict with paths to generated tokenizer files

	Raises:
	ImportError: If SentencePiece is not installed
	FileNotFoundError: If JSONL file doesn't exist
	ValueError: If JSONL file is invalid or empty
	"""
	try:
	import sentencepiece as spm
	except ImportError:
	raise ImportError(
	"SentencePiece not installed. Install with: pip install sentencepiece"
	)

	# Validate paths
	jsonl_path = Path(jsonl_path)
	if not jsonl_path.exists():
	raise FileNotFoundError(f"JSONL file not found: {jsonl_path}")

	output_dir = Path(output_dir)
	output_dir.mkdir(parents=True, exist_ok=True)

	# Set tokenizer prefix
	if tokenizer_prefix is None:
	tokenizer_prefix = model_type

	# Extract text data from JSONL using ChunkManager for large files
	if max_samples:
	print(f"📖 Reading JSONL file (up to {max_samples:,} samples): {jsonl_path}")
	else:
	print(f"📖 Reading JSONL file: {jsonl_path}")

	# Use ChunkManager for efficient streaming (with metadata caching enabled)
	chunk_manager = ChunkManager(
	jsonl_path,
	chunk_size_gb=5.0,
	enable_metadata_cache=True,
	chunk_cache_dir=".cache/chunks"
	)

	# Write text to temporary file for SentencePiece (use streaming)
	with tempfile.NamedTemporaryFile(
	mode='w',
	suffix='.txt',
	delete=False,
	encoding='utf-8'
	) as tmp:
	text_count = 0

	# Process chunks one at a time
	for chunk_num in range(chunk_manager.num_chunks):
	print(f" - Processing chunk {chunk_num + 1}/{chunk_manager.num_chunks}...")
	chunk_examples = chunk_manager.read_chunk(chunk_num)

	for obj in chunk_examples:
	# Check if we've reached max_samples limit
	if max_samples and text_count >= max_samples:
	break

	# Extract text from specified field or try common field names
	text = None
	if text_field in obj and isinstance(obj[text_field], str):
	text = obj[text_field]
	else:
	# Fallback to common field names
	for field in ['text', 'content', 'data', 'body']:
	if field in obj and isinstance(obj[field], str):
	text = obj[field]
	break

	if text:
	# Clean text: remove newlines, extra spaces
	clean_text = ' '.join(text.split())
	tmp.write(clean_text + '\n')
	text_count += 1

	# Break outer loop if max_samples reached
	if max_samples and text_count >= max_samples:
	print(f"Reached max_samples limit of {max_samples:,}. Stopping data processing.")
	break

	tmp_path = tmp.name

	if text_count == 0:
	os.remove(tmp_path)
	raise ValueError("No valid text data found in JSONL file")

	sample_info = f"{text_count:,} samples" if max_samples else f"{text_count:,} lines"
	print(f"✓ Processed {sample_info} with text data from {chunk_manager.num_chunks} chunks")

	try:
	# Train SentencePiece model
	print(f"🔧 Training SentencePiece {model_type} tokenizer...")
	print(f" - Vocabulary size: {vocab_size}")
	print(f" - Character coverage: {character_coverage}")
	if user_defined_symbols:
	print(f" - Special tokens: {user_defined_symbols}")

	model_path = output_dir / tokenizer_prefix

	# Prepare training arguments
	train_kwargs = {
	'input': tmp_path,
	'model_prefix': str(model_path),
	'vocab_size': vocab_size,
	'model_type': model_type,
	'character_coverage': character_coverage,
	'unk_id': unk_id,
	'bos_id': bos_id,
	'eos_id': eos_id,
	'pad_id': pad_id,
	# Additional options
	'normalization_rule_name': 'identity',
	'split_digits': True
	}

	# Add user-defined symbols if provided
	if user_defined_symbols:
	train_kwargs['user_defined_symbols'] = user_defined_symbols

	spm.SentencePieceTrainer.train(**train_kwargs)

	model_file = model_path.with_suffix('.model')
	vocab_file = model_path.with_suffix('.vocab')

	if model_file.exists() and vocab_file.exists():
	print(f"✅ Tokenizer trained successfully!")
	print(f" - Model: {model_file}")
	print(f" - Vocab: {vocab_file}")

	return {
	"model_file": str(model_file),
	"vocab_file": str(vocab_file),
	"output_dir": str(output_dir),
	"vocab_size": vocab_size,
	"model_type": model_type,
	}
	else:
	raise RuntimeError("SentencePiece training didn't produce output files")

	finally:
	# Clean up temporary file
	if os.path.exists(tmp_path):
	os.remove(tmp_path)

	@staticmethod
	def validate_tokenizer(model_path: str) -> bool:
	"""
	Validate that a SentencePiece tokenizer file is valid.

	Args:
	model_path: Path to .model file

	Returns:
	True if valid, False otherwise
	"""
	try:
	import sentencepiece as spm
	sp = spm.SentencePieceProcessor()
	sp.Load(model_path)
	# Try a simple encode/decode
	test_text = "Hello world"
	tokens = sp.encode(test_text, out_type=int)
	decoded = sp.decode(tokens)
	return len(tokens) > 0
	except Exception:
	return False