kanalizer-model / model /README.md
sevenc-nanashi's picture
chore: バージョンを整数にする
2d8e13e
|
raw
history blame
2.55 kB

v1

データセット

データセット側の設定
# yaml-language-server: $schema=./config.schema.yml

# 乱数のシード。
randomSeed: 0

source:
  # 英単語の取得方法を指定します。
  provider: cmudict

  # 最大の単語数。"all"で全ての単語を取得します。
  maxNumWords: "all"
  # maxNumWords: 300

inference:
  # 読みの取得方法を指定します。
  # "gemini"、"openai" が選択可能です。
  provider: openai

  # 並列実行数。レートリミットとの兼ね合いで調整してください。
  concurrency: 300

  rateLimit:
    # レートリミットに引っかかった場合のリトライ回数。
    maxRetries: 100

    # リトライ時の待ち時間。
    waitMs: 60000

    # 1回のリクエスト間の待ち時間。
    throttleMs: 50

  # Geminiの設定。
  gemini:
    # Google AI Studioから取得したAPIキー。
    apiKey: ""

    # 使うモデルの名前。
    modelName: "gemini-2.0-flash"

  # OpenAI互換APIの設定。
  openai:
    # APIのベースURL。
    apiBaseUrl: "https://openrouter.ai/api/v1"

    # APIキー。
    apiKey: "**********"

    # 使うモデルの名前。
    # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
    # modelName: "deepseek/deepseek-r1" # 有料、reasoning?
    modelName: "deepseek/deepseek-chat" # 有料、V3

学習

学習側の設定
# 学習に使うデータ。
train_data: ./vendor/deepseek.jsonl
# 評価に使うデータ。
eval_data: ./vendor/unidic_words.jsonl
# 評価用データのうち、学習中に評価に使う単語の数。(eval.pyでは全てのデータを使います)
# nullの場合は全てのデータを使います。
eval_max_words: 100
# モデルの次元数。
dim: 256
# 学習するエポック数。
max_epochs: 30
# 最新のエポックから保存するモデルの数。
num_last_models_to_keep: 2
# 保存する上位のモデルの数。
num_best_models_to_keep: 2
# 乱数のシード。
seed: 0

optimizer_lr: 0.001
exponential_lr_scheduler_gamma: 0.90