feat: モデルを追加
#2
by sevenc-nanashi - opened
- .gitattributes +1 -0
- README.md +1 -1
- model/README.md +98 -0
- model/c2k.safetensors +3 -0
- model/dataset.jsonl +3 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
dataset.jsonl filter=lfs diff=lfs merge=lfs -text
|
README.md
CHANGED
|
@@ -10,4 +10,4 @@ pipeline_tag: text2text-generation
|
|
| 10 |
# e2k
|
| 11 |
|
| 12 |
英単語から読みを推測するライブラリ、e2kのモデル置き場。\
|
| 13 |
-
推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。
|
|
|
|
| 10 |
# e2k
|
| 11 |
|
| 12 |
英単語から読みを推測するライブラリ、e2kのモデル置き場。\
|
| 13 |
+
推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。
|
model/README.md
ADDED
|
@@ -0,0 +1,98 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# v1
|
| 2 |
+
|
| 3 |
+
- 参考URL:<https://github.com/VOICEVOX/e2k/issues/24>
|
| 4 |
+
|
| 5 |
+
## データセット
|
| 6 |
+
|
| 7 |
+
- コミット:[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
|
| 8 |
+
|
| 9 |
+
<details>
|
| 10 |
+
<summary>データセット側の設定</summary>
|
| 11 |
+
|
| 12 |
+
```yml
|
| 13 |
+
# yaml-language-server: $schema=./config.schema.yml
|
| 14 |
+
|
| 15 |
+
# 乱数のシード。
|
| 16 |
+
randomSeed: 0
|
| 17 |
+
|
| 18 |
+
source:
|
| 19 |
+
# 英単語の取得方法を指定します。
|
| 20 |
+
provider: cmudict
|
| 21 |
+
|
| 22 |
+
# 最大の単語数。"all"で全ての単語を取得します。
|
| 23 |
+
maxNumWords: "all"
|
| 24 |
+
# maxNumWords: 300
|
| 25 |
+
|
| 26 |
+
inference:
|
| 27 |
+
# 読みの取得方法を指定します。
|
| 28 |
+
# "gemini"、"openai" が選択可能です。
|
| 29 |
+
provider: openai
|
| 30 |
+
|
| 31 |
+
# 並列実行数。レートリミットとの兼ね合いで調整してください。
|
| 32 |
+
concurrency: 300
|
| 33 |
+
|
| 34 |
+
rateLimit:
|
| 35 |
+
# レートリミットに引っかかった場合のリトライ回数。
|
| 36 |
+
maxRetries: 100
|
| 37 |
+
|
| 38 |
+
# リトライ時の待ち時間。
|
| 39 |
+
waitMs: 60000
|
| 40 |
+
|
| 41 |
+
# 1回のリクエスト間の待ち時間。
|
| 42 |
+
throttleMs: 50
|
| 43 |
+
|
| 44 |
+
# Geminiの設定。
|
| 45 |
+
gemini:
|
| 46 |
+
# Google AI Studioから取得したAPIキー。
|
| 47 |
+
apiKey: ""
|
| 48 |
+
|
| 49 |
+
# 使うモデルの名前。
|
| 50 |
+
modelName: "gemini-2.0-flash"
|
| 51 |
+
|
| 52 |
+
# OpenAI互換APIの設定。
|
| 53 |
+
openai:
|
| 54 |
+
# APIのベースURL。
|
| 55 |
+
apiBaseUrl: "https://openrouter.ai/api/v1"
|
| 56 |
+
|
| 57 |
+
# APIキー。
|
| 58 |
+
apiKey: "**********"
|
| 59 |
+
|
| 60 |
+
# 使うモデルの名前。
|
| 61 |
+
# modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
|
| 62 |
+
# modelName: "deepseek/deepseek-r1" # 有料、reasoning?
|
| 63 |
+
modelName: "deepseek/deepseek-chat" # 有料、V3
|
| 64 |
+
```
|
| 65 |
+
|
| 66 |
+
</details>
|
| 67 |
+
|
| 68 |
+
## 学習
|
| 69 |
+
|
| 70 |
+
- コミット:[06524a52d69801a312b88606e6f3d860f69d2ebf](https://github.com/VOICEVOX/e2k/commit/06524a52d69801a312b88606e6f3d860f69d2ebf)
|
| 71 |
+
|
| 72 |
+
<details>
|
| 73 |
+
<summary>学習側の設定</summary>
|
| 74 |
+
|
| 75 |
+
```yml
|
| 76 |
+
# 学習に使うデータ。
|
| 77 |
+
train_data: ./vendor/deepseek.jsonl
|
| 78 |
+
# 評価に使うデータ。
|
| 79 |
+
eval_data: ./vendor/unidic_words.jsonl
|
| 80 |
+
# 評価用データのうち、学習中に評価に使う単語の数。(eval.pyでは全てのデータを使います)
|
| 81 |
+
# nullの場合は全てのデータを使います。
|
| 82 |
+
eval_max_words: 100
|
| 83 |
+
# モデルの次元数。
|
| 84 |
+
dim: 256
|
| 85 |
+
# 学習するエポック数。
|
| 86 |
+
max_epochs: 30
|
| 87 |
+
# 最新のエポックから保存するモデルの数。
|
| 88 |
+
num_last_models_to_keep: 2
|
| 89 |
+
# 保存する上位のモデルの数。
|
| 90 |
+
num_best_models_to_keep: 2
|
| 91 |
+
# 乱数のシード。
|
| 92 |
+
seed: 0
|
| 93 |
+
|
| 94 |
+
optimizer_lr: 0.001
|
| 95 |
+
exponential_lr_scheduler_gamma: 0.90
|
| 96 |
+
```
|
| 97 |
+
|
| 98 |
+
</details>
|
model/c2k.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:4c077c2578d1bd1c1e7fd0cb2fee6b6d98fad668ce870e69b9a4f3d774a2a56f
|
| 3 |
+
size 4448656
|
model/dataset.jsonl
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
|
| 3 |
+
size 5537534
|