qwen3-4b-dpo-qwen-cot-merged

🚩 コンペティション遵守事項 (Compliance)

本モデルは、LLM講座の最終課題メインコンペティションの規定を遵守して作成されました。

ベースモデル: 規定通り Qwen/Qwen3-4B-Instruct-2507 を使用しています。
学習手法: DPO (Direct Preference Optimization) を採用し、パラメータの更新を行いました。
学習データ: 運営より配布された公式DPOデータセットを元に、特定のタスクに絞ったフィルタリング（抽出）を行って使用しています。
データ作成に関する宣言: LLMを用いた新規データの生成やAIによる改変は一切行っておりません。すべて配布データ内からの選択です (ルール6.6遵守)。

このモデルは、構造化データの出力精度向上と推論プロセス（Chain-of-Thought）の強化を目的としています。配布データの中から高品質なペアを選択し、Unslothライブラリを用いてDPO学習を行いました。

本モデルの評価には、運営から配布された「2026最終課題メインコンペ_標準コード2（提出JSON生成）」を必ず使用してください。 ※コード内のモデルIDを ottys/dpo-qwen-cot-merged に書き換えるだけで実行可能です。

Safetensors

Model size

4B params

Tensor type

BF16

Base model

Finetuned

this model