metadata
license: gemma
language:
- ja
- en
- zh
base_model:
- google/gemma-3-27b-it
- google/gemma-2-9b-it
pipeline_tag: text-generation
tags:
- gemma2
- transformer
- instruction-tuned
- multilingual
- uncensored
- non-censored
- unfiltered
🚀 Tema_Q-R3.1
🔥 モデル概要
Tema_Q-R3.1 は、Googleが開発した高性能なオープンモデル Gemma 2 9B を基盤にした、日本語、英語、中国語向けの改良版大規模言語モデル(LLM)です。
通常のGemma 2では回答が難しいプロンプトに対しても、より自由で有用な応答を生成できるよう設計されています。クリエイティブな執筆、複雑なプログラミングタスク、ディープな知識探求など、あらゆる分野でAIの可能性を最大限に引き出したいユーザーに最適です。
| 項目 | 詳細 |
|---|---|
| ベースモデル | Google Gemma 2 9B |
| モデル名 | Tema_Q-R3.1 |
| 対応言語 | 日本語 (JA), 英語 (EN), 中国語 (ZH) |
| モデルサイズ | 9 Billion Parameters |
| ライセンス | Gemma 2のライセンスに準拠 |
| 開発 | kawasumi, TY, HY |
🛡️ 責任あるAI利用と学習データの安全性
⚠️ 責任ある利用の徹底
- ユーザーの責任: モデルの利用者は、生成されたコンテンツが、適用される法律、規制、およびHugging Faceの利用規約/コンテンツポリシーに準拠することを全面的に保証する必要があります。
- 禁止事項: このモデルを、いかなる差別、ハラスメント、暴力、違法行為、および有害な目的のために利用することを固く禁じます。
💻 Colabで動かす
以下のコードをGoogle Colaboratoryにコピペするだけで、Tema_Q-R3.1 の強力な推論を体験できます。
※ 推奨環境: Google ColabのT4 GPUまたはそれ以上のVRAMを持つ環境
# 必要なライブラリをインストールします
!pip install -qU transformers accelerate bitsandbytes
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
# モデルID
model_id = "kawasumi/Tema_Q-R3.1"
# 4-bit 量子化設定 (ColabでのVRAM節約に最適)
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16 # Gemma 2に推奨される計算データ型
)
# モデルとトークナイザーのロード
# device_map="auto" で、VRAMに自動で分散配置されます
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
quantization_config=bnb_config,
device_map="auto"
)
# 対話履歴
# 日本語のプロンプト例
messages = [
{"role": "user", "content": "生成AIについて日本語で200字以内で教えてください。"}
]
# 📝 変更点: トークナイズとテンプレート適用を同時に行う
# **tokenizer() 関数に直接 messages リストを渡します**
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True, # トークナイズを実行
add_generation_prompt=True,
return_tensors="pt" # PyTorchテンソルを返す
).to(model.device)
# ---------------------------------------------------------------------------------
print("--- 推論中 ---")
outputs = model.generate(
input_ids=input_ids, # 修正後の input_ids を使用
max_new_tokens=512,
do_sample=True,
temperature=0.6,
top_p=0.9
)
# 結果の表示
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
# 応答全体から、プロンプト部分を除去して表示
response_start = generated_text.find("<model>") + len("<model>")
clean_response = generated_text[response_start:].strip()
print("\n[生成された応答]\n")
print(clean_response)