v1
データセット
データセット側の設定
# yaml-language-server: $schema=./config.schema.yml
# 乱数のシード。
randomSeed: 0
source:
# 英単語の取得方法を指定します。
provider: cmudict
# 最大の単語数。"all"で全ての単語を取得します。
maxNumWords: "all"
# maxNumWords: 300
inference:
# 読みの取得方法を指定します。
# "gemini"、"openai" が選択可能です。
provider: openai
# 並列実行数。レートリミットとの兼ね合いで調整してください。
concurrency: 300
rateLimit:
# レートリミットに引っかかった場合のリトライ回数。
maxRetries: 100
# リトライ時の待ち時間。
waitMs: 60000
# 1回のリクエスト間の待ち時間。
throttleMs: 50
# Geminiの設定。
gemini:
# Google AI Studioから取得したAPIキー。
apiKey: ""
# 使うモデルの名前。
modelName: "gemini-2.0-flash"
# OpenAI互換APIの設定。
openai:
# APIのベースURL。
apiBaseUrl: "https://openrouter.ai/api/v1"
# APIキー。
apiKey: "**********"
# 使うモデルの名前。
# modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
# modelName: "deepseek/deepseek-r1" # 有料、reasoning?
modelName: "deepseek/deepseek-chat" # 有料、V3
学習
学習側の設定
# 学習に使うデータ。
train_data: ./vendor/deepseek.jsonl
# 評価に使うデータ。
eval_data: ./vendor/unidic_words.jsonl
# 評価用データのうち、学習中に評価に使う単語の数。(eval.pyでは全てのデータを使います)
# nullの場合は全てのデータを使います。
eval_max_words: 100
# モデルの次元数。
dim: 256
# 学習するエポック数。
max_epochs: 30
# 最新のエポックから保存するモデルの数。
num_last_models_to_keep: 2
# 保存する上位のモデルの数。
num_best_models_to_keep: 2
# 乱数のシード。
seed: 0
optimizer_lr: 0.001
exponential_lr_scheduler_gamma: 0.90