qwen3-4b-dpo-qwen-cot-merged

🚩 コンペティション遵守事項 (Compliance)

本モデルは、LLM講座の最終課題メインコンペティションの規定を遵守して作成されました。

  • ベースモデル: 規定通り Qwen/Qwen3-4B-Instruct-2507 を使用しています。
  • 学習手法: DPO (Direct Preference Optimization) を採用し、パラメータの更新を行いました。
  • 学習データ: 運営より配布された公式DPOデータセットを元に、特定のタスクに絞ったフィルタリング(抽出)を行って使用しています。
  • データ作成に関する宣言: LLMを用いた新規データの生成やAIによる改変は一切行っておりません。すべて配布データ内からの選択です (ルール6.6遵守)。

🛠️ Training Objective

このモデルは、構造化データの出力精度向上と推論プロセス(Chain-of-Thought)の強化を目的としています。配布データの中から高品質なペアを選択し、Unslothライブラリを用いてDPO学習を行いました。

⚙️ Training Configuration

  • Method: DPO
  • Epochs: 1
  • Learning rate: 1e-07
  • Beta: 0.1
  • Max sequence length: 512

🚀 Usage (推論方法)

本モデルの評価には、運営から配布された「2026最終課題メインコンペ_標準コード2(提出JSON生成)」を必ず使用してください。 ※コード内のモデルIDを ottys/dpo-qwen-cot-merged に書き換えるだけで実行可能です。

📜 Sources & License

  • Base Model License: Apache 2.0 (Qwen Series License)
  • Training Data: 運営配布データ(公式サブセット)のみ使用。
  • Note: Hugging FaceのREADME(Model Card)の記載要件を遵守しています。
Downloads last month
5
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ottys/dpo-qwen-cot-merged

Finetuned
(1541)
this model