-----------------------------

環境変数の設定

-----------------------------

下記の値を書き換えることで、コード本体を編集せずに設定を変更できます。

1. モデル・データセット関連

os.environ["SFT_BASE_MODEL"] = "Qwen/Qwen3-4B-Instruct-2507" os.environ["SFT_DATASET_ID"] = "u-10bei/sft_alfworld_trajectory_dataset,u-10bei/sft_alfworld_trajectory_dataset_v2,u-10bei/sft_alfworld_trajectory_dataset_v3,u-10bei/sft_alfworld_trajectory_dataset_v4,u-10bei/sft_alfworld_trajectory_dataset_v5,u-10bei/dbbench_sft_dataset_react,u-10bei/dbbench_sft_dataset_react_v2,u-10bei/dbbench_sft_dataset_react_v3,u-10bei/dbbench_sft_dataset_react_v4" # 複数のデータセットを使う場合はカンマ区切りで指定: "dataset1,dataset2,dataset3" os.environ["SFT_OUT_LORA_DIR"] = "/content/lora_agentbench_qwen3_4b"

2. 学習の基本パラメータ

os.environ["SFT_SEED"] = "3407" os.environ["SFT_VAL_RATIO"] = "0.05" os.environ["SFT_MAX_SEQ_LEN"] = "2048"

3. LoRA (アダプタ) 設定

os.environ["SFT_LORA_R"] = "64" os.environ["SFT_LORA_ALPHA"] = "128" os.environ["SFT_LORA_DROPOUT"] = "0" os.environ["SFT_LORA_TARGET_MODULES"] = "q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj"

4. ハイパーパラメータ

os.environ["SFT_EPOCHS"] = "1" os.environ["SFT_PER_DEVICE_TRAIN_BS"] = "16" os.environ["SFT_PER_DEVICE_EVAL_BS"] = "16" os.environ["SFT_GRAD_ACCUM"] = "1" os.environ["SFT_LR"] = "2e-6" os.environ["SFT_WARMUP_RATIO"] = "0.1" os.environ["SFT_WEIGHT_DECAY"] = "0.05"

5. ステップ・保存設定

os.environ["SFT_MAX_STEPS"] = "-1" # -1でエポックベース。動作確認時は 10 などに。 os.environ["SFT_LOGGING_STEPS"] = "10" os.environ["SFT_EVAL_STEPS"] = "30" os.environ["SFT_SAVE_STEPS"] = "100" os.environ["SFT_SAVE_TOTAL_LIMIT"] = "2"

6. 特殊学習設定 (CoTマスク・アップサンプリング)

os.environ["SFT_MASK_COT"] = "0" # "1" で有効, "0" で無効 os.environ["SFT_OUTPUT_MARKERS"] = "Output:,OUTPUT:,Final:,Answer:,Result:,Response:" os.environ["SFT_OUTPUT_LEARN_MODE"] = "after_marker" # "after_marker" または "from_marker" os.environ["SFT_USE_UPSAMPLING"] = "0" # "1" で有効, "0" で無効 # データ2 専用 os.environ["SFT_UPSAMPLE_RULES"] = "" # 例: '{"pack:math": 2.0}' # データ2 専用

print("環境変数の設定が完了しました。")

どちらを学習するか選択

TASK = "alfworld" # "dbbench" or "alfworld" or "mixed"

タスクごとの設定

TASK_CONFIGS = { "dbbench": { "datasets": [ "u-10bei/dbbench_sft_dataset_react", "u-10bei/dbbench_sft_dataset_react_v2", "u-10bei/dbbench_sft_dataset_react_v3", "u-10bei/dbbench_sft_dataset_react_v4" ], "output_dir": "./lora_adapters/dbbench" }, "alfworld": { "datasets": [ "u-10bei/sft_alfworld_trajectory_dataset", "u-10bei/sft_alfworld_trajectory_dataset_v2", "u-10bei/sft_alfworld_trajectory_dataset_v3", "u-10bei/sft_alfworld_trajectory_dataset_v4", "u-10bei/sft_alfworld_trajectory_dataset_v5" ], "output_dir": "./lora_adapters/alfworld" }, "mixed": { "datasets": [ # DBBench "u-10bei/dbbench_sft_dataset_react", "u-10bei/dbbench_sft_dataset_react_v2", "u-10bei/dbbench_sft_dataset_react_v3", "u-10bei/dbbench_sft_dataset_react_v4", # ALFWorld "u-10bei/sft_alfworld_trajectory_dataset", "u-10bei/sft_alfworld_trajectory_dataset_v2", "u-10bei/sft_alfworld_trajectory_dataset_v3", "u-10bei/sft_alfworld_trajectory_dataset_v4", "u-10bei/sft_alfworld_trajectory_dataset_v5" ], "output_dir": "./lora_adapters/mixed" } }

環境変数を設定

config = TASK_CONFIGS[TASK] os.environ["SFT_DATASET_ID"] = ",".join(config["datasets"]) os.environ["SFT_OUT_LORA_DIR"] = config["output_dir"]

print(f"✅ Task selected: {TASK}") print(f" Datasets: {len(config['datasets'])} datasets") print(f" Output: {config['output_dir']}")

0.56

Downloads last month: -

Safetensors

Model size

4B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support