feat: モデルを追加

#2
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ dataset.jsonl filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -10,4 +10,4 @@ pipeline_tag: text2text-generation
10
  # e2k
11
 
12
  英単語から読みを推測するライブラリ、e2kのモデル置き場。\
13
- 推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。
 
10
  # e2k
11
 
12
  英単語から読みを推測するライブラリ、e2kのモデル置き場。\
13
+ 推論コードなどについては[GitHub](https://github.com/VOICEVOX/e2k)を参照してください。
model/README.md ADDED
@@ -0,0 +1,98 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # v1
2
+
3
+ - 参考URL:<https://github.com/VOICEVOX/e2k/issues/24>
4
+
5
+ ## データセット
6
+
7
+ - コミット:[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
8
+
9
+ <details>
10
+ <summary>データセット側の設定</summary>
11
+
12
+ ```yml
13
+ # yaml-language-server: $schema=./config.schema.yml
14
+
15
+ # 乱数のシード。
16
+ randomSeed: 0
17
+
18
+ source:
19
+ # 英単語の取得方法を指定します。
20
+ provider: cmudict
21
+
22
+ # 最大の単語数。"all"で全ての単語を取得します。
23
+ maxNumWords: "all"
24
+ # maxNumWords: 300
25
+
26
+ inference:
27
+ # 読みの取得方法を指定します。
28
+ # "gemini"、"openai" が選択可能です。
29
+ provider: openai
30
+
31
+ # 並列実行数。レートリミットとの兼ね合いで調整してください。
32
+ concurrency: 300
33
+
34
+ rateLimit:
35
+ # レートリミットに引っかかった場合のリトライ回数。
36
+ maxRetries: 100
37
+
38
+ # リトライ時の待ち時間。
39
+ waitMs: 60000
40
+
41
+ # 1回のリクエスト間の待ち時間。
42
+ throttleMs: 50
43
+
44
+ # Geminiの設定。
45
+ gemini:
46
+ # Google AI Studioから取得したAPIキー。
47
+ apiKey: ""
48
+
49
+ # 使うモデルの名前。
50
+ modelName: "gemini-2.0-flash"
51
+
52
+ # OpenAI互換APIの設定。
53
+ openai:
54
+ # APIのベースURL。
55
+ apiBaseUrl: "https://openrouter.ai/api/v1"
56
+
57
+ # APIキー。
58
+ apiKey: "**********"
59
+
60
+ # 使うモデルの名前。
61
+ # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
62
+ # modelName: "deepseek/deepseek-r1" # 有料、reasoning?
63
+ modelName: "deepseek/deepseek-chat" # 有料、V3
64
+ ```
65
+
66
+ </details>
67
+
68
+ ## 学習
69
+
70
+ - コミット:[06524a52d69801a312b88606e6f3d860f69d2ebf](https://github.com/VOICEVOX/e2k/commit/06524a52d69801a312b88606e6f3d860f69d2ebf)
71
+
72
+ <details>
73
+ <summary>学習側の設定</summary>
74
+
75
+ ```yml
76
+ # 学習に使うデータ。
77
+ train_data: ./vendor/deepseek.jsonl
78
+ # 評価に使うデータ。
79
+ eval_data: ./vendor/unidic_words.jsonl
80
+ # 評価用データのうち、学習中に評価に使う単語の数。(eval.pyでは全てのデータを使います)
81
+ # nullの場合は全てのデータを使います。
82
+ eval_max_words: 100
83
+ # モデルの次元数。
84
+ dim: 256
85
+ # 学習するエポック数。
86
+ max_epochs: 30
87
+ # 最新のエポックから保存するモデルの数。
88
+ num_last_models_to_keep: 2
89
+ # 保存する上位のモデルの数。
90
+ num_best_models_to_keep: 2
91
+ # 乱数のシード。
92
+ seed: 0
93
+
94
+ optimizer_lr: 0.001
95
+ exponential_lr_scheduler_gamma: 0.90
96
+ ```
97
+
98
+ </details>
model/c2k.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4c077c2578d1bd1c1e7fd0cb2fee6b6d98fad668ce870e69b9a4f3d774a2a56f
3
+ size 4448656
model/dataset.jsonl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
3
+ size 5537534