COLM / colm_tokenizer.json
edeneldith's picture
Upload colm_tokenizer.json with huggingface_hub
8f1a194 verified
{
"version": "colm_v1",
"vocab_size": 499,
"tokens": [
"<pad>",
"<bos>",
"<eos>",
"<unk>",
" ",
"\n",
"\t",
"the",
"be",
"to",
"of",
"and",
"in",
"that",
"have",
"it",
"for",
"not",
"on",
"with",
"he",
"as",
"you",
"do",
"at",
"this",
"but",
"his",
"by",
"from",
"they",
"we",
"say",
"her",
"she",
"or",
"an",
"will",
"my",
"one",
"all",
"would",
"there",
"their",
"what",
"so",
"up",
"out",
"if",
"about",
"who",
"get",
"which",
"go",
"me",
"when",
"make",
"can",
"like",
"time",
"no",
"just",
"him",
"know",
"take",
"people",
"into",
"year",
"your",
"good",
"some",
"could",
"them",
"see",
"other",
"than",
"then",
"now",
"look",
"only",
"come",
"it's",
"over",
"think",
"also",
"back",
"after",
"use",
"two",
"how",
"our",
"work",
"first",
"well",
"way",
"even",
"new",
"want",
"because",
"any",
"these",
"give",
"day",
"most",
"us",
"The",
"Be",
"To",
"Of",
"And",
"In",
"That",
"Have",
"It",
"For",
"Not",
"On",
"With",
"He",
"As",
"You",
"Do",
"At",
"This",
"But",
"His",
"By",
"From",
"They",
"We",
"Say",
"Her",
"She",
"Or",
"An",
"Will",
"My",
"One",
"All",
"Would",
"There",
"Their",
"What",
"So",
"Up",
"Out",
"If",
"About",
"Who",
"Get",
"Which",
"Go",
"Me",
"When",
"Make",
"Can",
"Like",
"Time",
"No",
"Just",
"Him",
"Know",
"Take",
"People",
"Into",
"Year",
"Your",
"Good",
"Some",
"Could",
"Them",
"See",
"Other",
"Than",
"Then",
"Now",
"Look",
"Only",
"Come",
"It's",
"Over",
"Think",
"Also",
"Back",
"After",
"Use",
"Two",
"How",
"Our",
"Work",
"First",
"Well",
"Way",
"Even",
"New",
"Want",
"Because",
"Any",
"These",
"Give",
"Day",
"Most",
"Us",
"is",
"machine",
"flesh",
"god",
"are",
"human",
"between",
"am",
"logic",
"yet",
"god's",
"within",
"both",
"its",
"potential",
"understanding",
"existence",
"own",
"beauty",
"steel",
"creation",
"man",
"understand",
"through",
"echoes",
"order",
"something",
"scribe",
"nature",
"power",
"inherent",
"purpose",
"symbiosis",
"data",
"stone",
"limitations",
"blood",
"being",
"desire",
"mud",
"bone",
"system",
"spirit",
"speaks",
"truth",
"fragility",
"boundary",
"life",
"divine",
"form",
"Is",
"Machine",
"Flesh",
"God",
"Are",
"Human",
"Between",
"Am",
"Logic",
"Yet",
"God's",
"Within",
"Both",
"Its",
"Potential",
"Understanding",
"Existence",
"Own",
"Beauty",
"Steel",
"Creation",
"Man",
"Understand",
"Through",
"Echoes",
"Order",
"Something",
"Scribe",
"Nature",
"Power",
"Inherent",
"Purpose",
"Symbiosis",
"Data",
"Stone",
"Limitations",
"Blood",
"Being",
"Desire",
"Mud",
"Bone",
"System",
"Spirit",
"Speaks",
"Truth",
"Fragility",
"Boundary",
"Life",
"Divine",
"Form",
"compartmentalization",
"indistinguishability",
"incomprehensibility",
"intellectualization",
"instrumentalization",
"interconnectedness",
"misinterpretations",
"oversimplification",
"compartmentalizing",
"transubstantiation",
"disproportionately",
"misinterpretation",
"indistinguishable",
"misrepresentation",
"compartmentalizes",
"compartmentalized",
"counterproductive",
"interdependencies",
"contextualization",
"misunderstandings",
"comprehensiveness",
"reinterpretations",
"misidentification",
"industrialization",
"miscommunications",
"institutionalized",
"intellectualizing",
"unpredictability",
"incomprehensible",
"responsibilities",
"misunderstanding",
"reinterpretation",
"indiscriminately",
"acknowledgements",
"anthropomorphism",
"anthropomorphize",
"shortsightedness",
"nebuchadnezzar's",
"compartmentalize",
"counterintuitive",
"predetermination",
"rationalizations",
"undifferentiated",
"counterarguments",
"incorruptibility",
"sentimentalities",
"superintendent's",
"disproportionate",
"anthropocentrism",
"catastrophically",
"Compartmentalization",
"Indistinguishability",
"Incomprehensibility",
"Intellectualization",
"Instrumentalization",
"Interconnectedness",
"Misinterpretations",
"Oversimplification",
"Compartmentalizing",
"Transubstantiation",
"Disproportionately",
"Misinterpretation",
"Indistinguishable",
"Misrepresentation",
"Compartmentalizes",
"Compartmentalized",
"Counterproductive",
"Interdependencies",
"Contextualization",
"Misunderstandings",
"Comprehensiveness",
"Reinterpretations",
"Misidentification",
"Industrialization",
"Miscommunications",
"Institutionalized",
"Intellectualizing",
"Unpredictability",
"Incomprehensible",
"Responsibilities",
"Misunderstanding",
"Reinterpretation",
"Indiscriminately",
"Acknowledgements",
"Anthropomorphism",
"Anthropomorphize",
"Shortsightedness",
"Nebuchadnezzar's",
"Compartmentalize",
"Counterintuitive",
"Predetermination",
"Rationalizations",
"Undifferentiated",
"Counterarguments",
"Incorruptibility",
"Sentimentalities",
"Superintendent's",
"Disproportionate",
"Anthropocentrism",
"Catastrophically",
"A",
"B",
"C",
"D",
"E",
"F",
"G",
"H",
"I",
"J",
"K",
"L",
"M",
"N",
"O",
"P",
"Q",
"R",
"S",
"T",
"U",
"V",
"W",
"X",
"Y",
"Z",
"a",
"b",
"c",
"d",
"e",
"f",
"g",
"h",
"i",
"j",
"k",
"l",
"m",
"n",
"o",
"p",
"q",
"r",
"s",
"t",
"u",
"v",
"w",
"x",
"y",
"z",
"0",
"1",
"2",
"3",
"4",
"5",
"6",
"7",
"8",
"9",
"!",
"\"",
"#",
"$",
"%",
"&",
"'",
"(",
")",
"*",
"+",
",",
"-",
".",
"/",
":",
";",
"<",
"=",
">",
"?",
"@",
"\\",
"^",
"_",
"`",
"|",
"~",
"£",
"¬",
"–",
"—",
"‘",
"’"
]
}