feat: モデルを追加

by sevenc-nanashi - opened Mar 21, 2025

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

+106

-1

Files changed (5) hide show

.gitattributes +1 -0
README.md +1 -1
model/README.md +98 -0
model/c2k.safetensors +3 -0
model/dataset.jsonl +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+dataset.jsonl filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -10,4 +10,4 @@ pipeline_tag: text2text-generation
 # e2k
 英単語から読みを推測するライブラリ、e2kのモデル置き場。\
-推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。

 # e2k
 英単語から読みを推測するライブラリ、e2kのモデル置き場。\
+推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。

model/README.md ADDED Viewed

	@@ -0,0 +1,98 @@

+# v1
+- 参考URL：<https://github.com/VOICEVOX/e2k/issues/24>
+## データセット
+- コミット：[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
+<details>
+<summary>データセット側の設定</summary>
+```yml
+# yaml-language-server: $schema=./config.schema.yml
+# 乱数のシード。
+randomSeed: 0
+source:
+  # 英単語の取得方法を指定します。
+  provider: cmudict
+  # 最大の単語数。"all"で全ての単語を取得します。
+  maxNumWords: "all"
+  # maxNumWords: 300
+inference:
+  # 読みの取得方法を指定します。
+  # "gemini"、"openai" が選択可能です。
+  provider: openai
+  # 並列実行数。レートリミットとの兼ね合いで調整してください。
+  concurrency: 300
+  rateLimit:
+    # レートリミットに引っかかった場合のリトライ回数。
+    maxRetries: 100
+    # リトライ時の待ち時間。
+    waitMs: 60000
+    # 1回のリクエスト間の待ち時間。
+    throttleMs: 50
+  # Geminiの設定。
+  gemini:
+    # Google AI Studioから取得したAPIキー。
+    apiKey: ""
+    # 使うモデルの名前。
+    modelName: "gemini-2.0-flash"
+  # OpenAI互換APIの設定。
+  openai:
+    # APIのベースURL。
+    apiBaseUrl: "https://openrouter.ai/api/v1"
+    # APIキー。
+    apiKey: "**********"
+    # 使うモデルの名前。
+    # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
+    # modelName: "deepseek/deepseek-r1" # 有料、reasoning？
+    modelName: "deepseek/deepseek-chat" # 有料、V3
+```
+</details>
+## 学習
+- コミット：[06524a52d69801a312b88606e6f3d860f69d2ebf](https://github.com/VOICEVOX/e2k/commit/06524a52d69801a312b88606e6f3d860f69d2ebf)
+<details>
+<summary>学習側の設定</summary>
+```yml
+# 学習に使うデータ。
+train_data: ./vendor/deepseek.jsonl
+# 評価に使うデータ。
+eval_data: ./vendor/unidic_words.jsonl
+# 評価用データのうち、学習中に評価に使う単語の数。（eval.pyでは全てのデータを使います）
+# nullの場合は全てのデータを使います。
+eval_max_words: 100
+# モデルの次元数。
+dim: 256
+# 学習するエポック数。
+max_epochs: 30
+# 最新のエポックから保存するモデルの数。
+num_last_models_to_keep: 2
+# 保存する上位のモデルの数。
+num_best_models_to_keep: 2
+# 乱数のシード。
+seed: 0
+optimizer_lr: 0.001
+exponential_lr_scheduler_gamma: 0.90
+```
+</details>

model/c2k.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c077c2578d1bd1c1e7fd0cb2fee6b6d98fad668ce870e69b9a4f3d774a2a56f
+size 4448656

model/dataset.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
+size 5537534