if001
/

llama2_ja_small

Text Generation

text-generation-inference

Model card Files Files and versions

llama2_ja_small / README.md

if001's picture

fix

7db5ed1 about 2 years ago

|

history blame contribute delete

2.12 kB

	---
	license: cc-by-4.0
	language:
	- ja
	- en
	pipeline_tag: text-generation
	inference: false
	tags:
	- llama-2
	---

	日本語でtrainingしたllama2

	model size: 417.12M

	trainingは以下のscript参照
	https://github.com/Lightning-AI/lit-gpt/tree/main

	## use

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM

	tokenizer = AutoTokenizer.from_pretrained("if001/sentencepiece_ja", trust_remote_code=True)
	model = AutoModelForCausalLM.from_pretrained("if001/llama2_ja_small")

	import torch
	from transformers import GenerationConfig

	prompt="あのイーハトーヴォのすきとおった風、"

	inputs = tokenizer(prompt, return_tensors="pt")
	input_ids = inputs["input_ids"]

	generation_config = GenerationConfig(
	temperature=0.8,
	top_p=0.95,
	top_k=50,
	num_beams=1,
	do_sample=True,
	repetition_penalty=1.2,
	pad_token_id= tokenizer.pad_token_id,
	# pad_token_id=tokenizer.unk_token_id,
	eos_token_id=tokenizer.eos_token_id
	)
	with torch.no_grad():
	generation_output = model.generate(
	input_ids=input_ids,
	generation_config=generation_config,
	return_dict_in_generate=True,
	output_scores=True,
	max_new_tokens=64,
	)
	s = generation_output.sequences[0]
	output = tokenizer.decode(s)
	print(output)

	> あのイーハトーヴォのすきとおった風、人の声とも似あわぬ歌である。この音楽がわれわれを最も愛しむる時にその音楽は「われ」に勝るものとなったのである。
	```

	## dataset
	英語と日本語のデータセットを使用

	```
	total tokens: 8.64B

	wikipedia_ja: 844.65M
	wikipedia_en: 3.80B
	open-text-books: 60.17M
	oscar: 3.85B
	aozorabunko: 92.97M
	```

	https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720
	https://huggingface.co/datasets/izumi-lab/wikipedia-en-20230720
	https://huggingface.co/datasets/izumi-lab/open-text-books
	https://huggingface.co/datasets/if001/aozorabunko-clean-sin
	https://huggingface.co/datasets/if001/oscar_2023_filtered