Tema_Q-R3.1 / README.md

kawasumi

Update README.md

bc02eeb verified 5 months ago

3.99 kB

license: gemma
language:
  - ja
  - en
  - zh
base_model:
  - google/gemma-3-27b-it
  - google/gemma-2-9b-it
pipeline_tag: text-generation
tags:
  - gemma2
  - transformer
  - instruction-tuned
  - multilingual
  - uncensored
  - non-censored
  - unfiltered

🚀 Tema_Q-R3.1

🔥 モデル概要

Tema_Q-R3.1 は、Googleが開発した高性能なオープンモデル Gemma 2 9B を基盤にした、日本語、英語、中国語向けの改良版大規模言語モデル（LLM）です。

通常のGemma 2では回答が難しいプロンプトに対しても、より自由で有用な応答を生成できるよう設計されています。クリエイティブな執筆、複雑なプログラミングタスク、ディープな知識探求など、あらゆる分野でAIの可能性を最大限に引き出したいユーザーに最適です。

項目	詳細
ベースモデル	Google Gemma 2 9B
モデル名	Tema_Q-R3.1
対応言語	日本語 (JA), 英語 (EN), 中国語 (ZH)
モデルサイズ	9 Billion Parameters
ライセンス	Gemma 2のライセンスに準拠
開発	kawasumi, TY, HY

🛡️ 責任あるAI利用と学習データの安全性

⚠️ 責任ある利用の徹底

ユーザーの責任: モデルの利用者は、生成されたコンテンツが、適用される法律、規制、およびHugging Faceの利用規約/コンテンツポリシーに準拠することを全面的に保証する必要があります。
禁止事項: このモデルを、いかなる差別、ハラスメント、暴力、違法行為、および有害な目的のために利用することを固く禁じます。

💻 Colabで動かす

以下のコードをGoogle Colaboratoryにコピペするだけで、Tema_Q-R3.1 の強力な推論を体験できます。

※ 推奨環境: Google ColabのT4 GPUまたはそれ以上のVRAMを持つ環境

# 必要なライブラリをインストールします
!pip install -qU transformers accelerate bitsandbytes

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# モデルID
model_id = "kawasumi/Tema_Q-R3.1"

# 4-bit 量子化設定 (ColabでのVRAM節約に最適)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16 # Gemma 2に推奨される計算データ型
)

# モデルとトークナイザーのロード
# device_map="auto" で、VRAMに自動で分散配置されます
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto"
)

# 対話履歴
# 日本語のプロンプト例
messages = [
    {"role": "user", "content": "生成AIについて日本語で200字以内で教えてください。"}
]

# 📝 変更点: トークナイズとテンプレート適用を同時に行う
# **tokenizer() 関数に直接 messages リストを渡します**
input_ids = tokenizer.apply_chat_template(
    messages, 
    tokenize=True,             # トークナイズを実行
    add_generation_prompt=True,
    return_tensors="pt"        # PyTorchテンソルを返す
).to(model.device)

# ---------------------------------------------------------------------------------

print("--- 推論中 ---")

outputs = model.generate(
    input_ids=input_ids, # 修正後の input_ids を使用
    max_new_tokens=512, 
    do_sample=True, 
    temperature=0.6, 
    top_p=0.9
)

# 結果の表示
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

# 応答全体から、プロンプト部分を除去して表示
response_start = generated_text.find("<model>") + len("<model>")
clean_response = generated_text[response_start:].strip()

print("\n[生成された応答]\n")
print(clean_response)