Spaces:

vasiuuu
/

DGX_AI

Paused

DGX_AI / codeforge /kb /tokenizer.py

Initial commit for CodeForge GRPO training

acf77ab about 1 month ago

192 Bytes

	from __future__ import annotations

	import re

	_SPLIT_RE = re.compile(r"[^\w]+", re.UNICODE)


	def tokenize(text: str) -> list[str]:
	return [t for t in _SPLIT_RE.split(text.lower()) if t]