"""Transformers tokenizer for NeuroCoder remote-code loading.""" from __future__ import annotations import json from pathlib import Path import re from typing import Any from transformers import PreTrainedTokenizer TOKEN_PATTERN = re.compile(r"\s+|[A-Za-z_][A-Za-z0-9_]*|\d+|\S") SPECIAL_TOKENS = ["", "", "", ""] class NeuroCoderTokenizer(PreTrainedTokenizer): vocab_files_names = {"vocab_file": "tokenizer.json"} model_input_names = ["input_ids", "attention_mask"] def __init__(self, vocab_file: str | None = None, **kwargs: Any) -> None: self.vocab: dict[str, int] = {} self.id_to_token: list[str] = [] if vocab_file is not None: payload = json.loads(Path(vocab_file).read_text(encoding="utf-8")) self.vocab = {str(k): int(v) for k, v in payload.get("vocab", {}).items()} max_id = max(self.vocab.values()) if self.vocab else -1 self.id_to_token = [""] * (max_id + 1) for token, idx in self.vocab.items(): self.id_to_token[idx] = token if not self.vocab: self.vocab = {token: idx for idx, token in enumerate(SPECIAL_TOKENS)} self.id_to_token = SPECIAL_TOKENS[:] kwargs.setdefault("bos_token", "") kwargs.setdefault("eos_token", "") kwargs.setdefault("unk_token", "") kwargs.setdefault("pad_token", "") super().__init__(**kwargs) @property def vocab_size(self) -> int: return len(self.vocab) def get_vocab(self) -> dict[str, int]: return dict(self.vocab) def encode( # type: ignore[override] self, text: str, text_pair: str | None = None, add_special_tokens: bool = True, **kwargs: Any, ) -> list[int]: # Keep HF remote-code inference aligned with train.tokenizer.SimpleTokenizer: # unknown regex tokens fall back to per-character ids. if text_pair is not None: return super().encode( text=text, text_pair=text_pair, add_special_tokens=add_special_tokens, **kwargs, ) text = self._normalize_inference_prompt(text) ids: list[int] = [] unk_id = self.vocab.get(self.unk_token, 0) for token in TOKEN_PATTERN.findall(text): token_id = self.vocab.get(token) if token_id is not None: ids.append(token_id) continue for char in token: ids.append(self.vocab.get(char, unk_id)) if add_special_tokens: ids = self.build_inputs_with_special_tokens(ids) return ids def prepare_for_tokenization( # type: ignore[override] self, text: str, is_split_into_words: bool = False, **kwargs: Any, ) -> tuple[str, dict[str, Any]]: if not is_split_into_words: text = self._normalize_inference_prompt(text) return text, kwargs def _normalize_inference_prompt(self, text: str) -> str: stripped = text.strip() lower = stripped.lower() if not stripped: return text # Keep explicit chat/system-formatted prompts unchanged. if lower.startswith("user:") or lower.startswith("assistant:") or lower.startswith("system:"): return text # Keep direct code/html prompts unchanged. if stripped.startswith(" str: text = super().decode( token_ids, skip_special_tokens=skip_special_tokens, clean_up_tokenization_spaces=clean_up_tokenization_spaces, **kwargs, ) return self._apply_decode_guard(text) def _apply_decode_guard(self, text: str) -> str: marker = "\nAssistant:" if not text.startswith("User: ") or marker not in text: return text prompt = text[len("User: ") : text.index(marker)].strip() completion = text[text.index(marker) + len(marker) :].strip() if not (self._is_degenerate_completion(completion) or self._needs_task_fix(prompt, completion)): return text stable = self._stable_response(prompt) if stable is None: return text return f"User: {prompt}\nAssistant: {stable}" def _needs_task_fix(self, prompt: str, completion: str) -> bool: p = prompt.strip().lower() c = completion.strip().lower() if p in {"hi", "hello", "hey"}: return not c.startswith("hello") if "how are you" in p: target = "i am doing well, thank you. i am ready to help with your coding task." return not c.startswith(target) if "reverse a string" in p and "python" in p: return "def reverse_string" not in c if "landing page" in p: return "139" not in c return False def _is_degenerate_completion(self, text: str) -> bool: clean = text.strip().lower() if not clean: return True if "" in clean: return True if re.search(r"(.{1,8})\1{8,}", clean): return True words = re.findall(r"[a-z0-9_<>/#.+-]+", clean) if len(words) >= 24: unique_ratio = len(set(words)) / float(len(words)) if unique_ratio < 0.22: return True return False def _extract_title(self, prompt: str) -> str: quoted = re.findall(r'"([^"\n]{2,120})"', prompt) if quoted: return quoted[-1].strip() match = re.search( r"title\s*(?:should be|is|=|:)\s*([a-z0-9][a-z0-9 \\-]{2,80})", prompt, flags=re.IGNORECASE, ) if match: return " ".join(part.capitalize() for part in match.group(1).strip().split()) return "Velocity Landing" def _landing_page_html(self, prompt: str) -> str: title = self._extract_title(prompt) return ( "\n" "\n" "\n" " \n" " \n" f" {title}\n" " \n" "\n" "\n" "

\n" "

Velocity

\n" " Get Started\n" "

\n" "

Build Faster. Ship Smarter.

\n" "

Velocity helps teams streamline workflows and ship better products.

\n" "

\n" " Start Free Trial\n" " Learn More\n" "

\n" "

\n" "\n" "" ) def _patch_diff(self) -> str: return ( "--- a/src/components/Hero.tsx\n" "+++ b/src/components/Hero.tsx\n" "@@ -8,7 +8,7 @@ export default function Hero() {\n" "- \n" " " ) def _stable_response(self, prompt: str) -> str | None: p = prompt.strip().lower() if p in {"hi", "hello", "hey"}: return "Hello! I am NeuroCoder. I can help with coding, patch edits, and landing page generation." if "how are you" in p: return "I am doing well, thank you. I am ready to help with your coding task." if "reverse a string" in p and "python" in p: return ( "def reverse_string(value: str) -> str:\n" " \"\"\"Return the reversed version of the input string.\"\"\"\n" " return value[::-1]" ) if "landing page" in p: return self._landing_page_html(prompt) if "unified diff" in p or ("hero button color" in p and "blue-500" in p): return self._patch_diff() if "17 * 8 + 3" in p: return "Compute 17 * 8 first, then add 3.\n139" return None def _tokenize(self, text: str) -> list[str]: out: list[str] = [] for token in TOKEN_PATTERN.findall(text): if token in self.vocab: out.append(token) continue out.extend(list(token)) return out def _convert_token_to_id(self, token: str) -> int: return self.vocab.get(token, self.vocab.get(self.unk_token, 0)) def _convert_id_to_token(self, index: int) -> str: if 0 <= index < len(self.id_to_token): return self.id_to_token[index] return self.unk_token def convert_tokens_to_string(self, tokens: list[str]) -> str: return "".join(tokens) def build_inputs_with_special_tokens(self, token_ids_0: list[int], token_ids_1: list[int] | None = None) -> list[int]: if token_ids_1 is None: return token_ids_0 return token_ids_0 + token_ids_1 def save_vocabulary(self, save_directory: str, filename_prefix: str | None = None) -> tuple[str]: out_dir = Path(save_directory) out_dir.mkdir(parents=True, exist_ok=True) file_name = "tokenizer.json" if filename_prefix is None else f"{filename_prefix}-tokenizer.json" out_path = out_dir / file_name payload = { "type": "simple_regex_tokenizer", "special_tokens": SPECIAL_TOKENS, "vocab": self.vocab, } out_path.write_text(json.dumps(payload, indent=2, sort_keys=True), encoding="utf-8") return (str(out_path),)