Buckets:

hf-doc-build
/

doc

Files

xet

hf-doc-build/doc / transformers /main /ar /tiktoken.md

HuggingFaceDocBuilder

about 4 hours ago

preview code

download

raw

2.29 kB

	# Tiktoken والتفاعل مع Transformers

	يتم دمج دعم ملفات نموذج tiktoken بسلاسة في 🤗 transformers عند تحميل النماذج
	`from_pretrained` مع ملف `tokenizer.model` tiktoken على Hub، والذي يتم تحويله تلقائيًا إلى [المحلل اللغوي السريع](https://huggingface.co/docs/transformers/main/en/main_classes/tokenizer#transformers.PreTrainedTokenizerFast).

	### النماذج المعروفة التي تم إصدارها مع `tiktoken.model`:
	- gpt2
	- llama3

	## مثال على الاستخدام

	من أجل تحميل ملفات `tiktoken` في `transformers`، تأكد من أن ملف `tokenizer.model` هو ملف tiktoken وسيتم تحميله تلقائيًا عند التحميل `from_pretrained`. إليك كيفية تحميل مجزىء لغوي ونموذج، والذي
	يمكن تحميله من نفس الملف بالضبط:

	```py
	from transformers import AutoTokenizer

	model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
	tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")
	```
	## إنشاء مجزىء لغوي tiktoken

	لا يحتوي ملف `tokenizer.model` على أي معلومات حول الرموز أو الأنماط الإضافية. إذا كانت هذه الأمور مهمة، قم بتحويل المحلل اللغوي إلى `tokenizer.json`، وهو التنسيق المناسب لـ `PreTrainedTokenizerFast`.

	قم بتوليد ملف `tokenizer.model` باستخدام [tiktoken.get_encoding](https://github.com/openai/tiktoken/blob/63527649963def8c759b0f91f2eb69a40934e468/tiktoken/registry.py#L63) ثم قم بتحويله إلى `tokenizer.json` باستخدام `convert_tiktoken_to_fast`.

	```py

	from transformers.integrations.tiktoken import convert_tiktoken_to_fast
	from tiktoken import get_encoding

	# يمكنك تحميل ترميزك المخصص أو الترميز الذي توفره OpenAI
	encoding = get_encoding("gpt2")
	convert_tiktoken_to_fast(encoding, "config/save/dir")
	```

	يتم حفظ ملف `tokenizer.json` الناتج في الدليل المحدد ويمكن تحميله باستخدام `PreTrainedTokenizerFast`.

	```py
	tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")
	```

Xet Storage Details

Size:: 2.29 kB
Xet hash:: f458f148e647770423de9dc66afe94fcc818b2651f7b795f5c13cb105212ef1e

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.