v1

参考URL：https://github.com/VOICEVOX/e2k/issues/24

データセット

コミット：e6e699e51b474171a89f63ad86f8c276797e5cd6

データセット側の設定

# yaml-language-server: $schema=./config.schema.yml

# 乱数のシード。
randomSeed: 0

source:
  # 英単語の取得方法を指定します。
  provider: cmudict

  # 最大の単語数。"all"で全ての単語を取得します。
  maxNumWords: "all"
  # maxNumWords: 300

inference:
  # 読みの取得方法を指定します。
  # "gemini"、"openai" が選択可能です。
  provider: openai

  # 並列実行数。レートリミットとの兼ね合いで調整してください。
  concurrency: 300

  rateLimit:
    # レートリミットに引っかかった場合のリトライ回数。
    maxRetries: 100

    # リトライ時の待ち時間。
    waitMs: 60000

    # 1回のリクエスト間の待ち時間。
    throttleMs: 50

  # Geminiの設定。
  gemini:
    # Google AI Studioから取得したAPIキー。
    apiKey: ""

    # 使うモデルの名前。
    modelName: "gemini-2.0-flash"

  # OpenAI互換APIの設定。
  openai:
    # APIのベースURL。
    apiBaseUrl: "https://openrouter.ai/api/v1"

    # APIキー。
    apiKey: "**********"

    # 使うモデルの名前。
    # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
    # modelName: "deepseek/deepseek-r1" # 有料、reasoning？
    modelName: "deepseek/deepseek-chat" # 有料、V3

学習

コミット：06524a52d69801a312b88606e6f3d860f69d2ebf

学習側の設定

# 学習に使うデータ。
train_data: ./vendor/deepseek.jsonl
# 評価に使うデータ。
eval_data: ./vendor/unidic_words.jsonl
# 評価用データのうち、学習中に評価に使う単語の数。（eval.pyでは全てのデータを使います）
# nullの場合は全てのデータを使います。
eval_max_words: 100
# モデルの次元数。
dim: 256
# 学習するエポック数。
max_epochs: 30
# 最新のエポックから保存するモデルの数。
num_last_models_to_keep: 2
# 保存する上位のモデルの数。
num_best_models_to_keep: 2
# 乱数のシード。
seed: 0

optimizer_lr: 0.001
exponential_lr_scheduler_gamma: 0.90