docs: datasetの分割に追従

#6
Files changed (3) hide show
  1. README.md +8 -3
  2. model/README.md +1 -65
  3. model/dataset.jsonl +0 -3
README.md CHANGED
@@ -1,13 +1,18 @@
1
  ---
2
  license: mit
3
  language:
4
- - ja
5
  metrics:
6
- - bleu
7
  pipeline_tag: text2text-generation
 
 
8
  ---
9
 
10
  # kanalizer
11
 
12
  英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
13
- 推論コドなどは[GitHub](https://github.com/VOICEVOX/kanalizer)を参照してください。
 
 
 
 
1
  ---
2
  license: mit
3
  language:
4
+ - ja
5
  metrics:
6
+ - bleu
7
  pipeline_tag: text2text-generation
8
+ datasets:
9
+ - VOICEVOX/kanalizer-dataset
10
  ---
11
 
12
  # kanalizer
13
 
14
  英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
15
+ タセットの作成たコードは[GitHubのVOICEVOX/kanalizer]、データセットは[VOICEVOX/kanalizer-dataset]を参照してください。
16
+
17
+ [GitHubのVOICEVOX/kanalizer]: https://github.com/VOICEVOX/kanalizer
18
+ [VOICEVOX/kanalizer-dataset]: https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset
model/README.md CHANGED
@@ -1,73 +1,9 @@
1
  # v2
2
 
3
- - 参考URL:<https://github.com/VOICEVOX/e2k/issues/24>
4
-
5
- ## データセット
6
-
7
- - コミット:[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
8
-
9
- <details>
10
- <summary>データセット側の設定</summary>
11
-
12
- ```yml
13
- # yaml-language-server: $schema=./config.schema.yml
14
-
15
- # 乱数のシード。
16
- randomSeed: 0
17
-
18
- source:
19
- # 英単語の取得方法を指定します。
20
- provider: cmudict
21
-
22
- # 最大の単語数。"all"で全ての単語を取得します。
23
- maxNumWords: "all"
24
- # maxNumWords: 300
25
-
26
- inference:
27
- # 読みの取得方法を指定します。
28
- # "gemini"、"openai" が選択可能です。
29
- provider: openai
30
-
31
- # 並列実行数。レートリミットとの兼ね合いで調整してください。
32
- concurrency: 300
33
-
34
- rateLimit:
35
- # レートリミットに引っかかった場合のリトライ回数。
36
- maxRetries: 100
37
-
38
- # リトライ時の待ち時間。
39
- waitMs: 60000
40
-
41
- # 1回のリクエスト間の待ち時間。
42
- throttleMs: 50
43
-
44
- # Geminiの設定。
45
- gemini:
46
- # Google AI Studioから取得したAPIキー。
47
- apiKey: ""
48
-
49
- # 使うモデルの名前。
50
- modelName: "gemini-2.0-flash"
51
-
52
- # OpenAI互換APIの設定。
53
- openai:
54
- # APIのベースURL。
55
- apiBaseUrl: "https://openrouter.ai/api/v1"
56
-
57
- # APIキー。
58
- apiKey: "**********"
59
-
60
- # 使うモデルの名前。
61
- # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
62
- # modelName: "deepseek/deepseek-r1" # 有料、reasoning?
63
- modelName: "deepseek/deepseek-chat" # 有料、V3
64
- ```
65
-
66
- </details>
67
-
68
  ## 学習
69
 
70
  - コミット:[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
 
71
 
72
  <details>
73
  <summary>学習側の設定</summary>
 
1
  # v2
2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  ## 学習
4
 
5
  - コミット:[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
6
+ - データセット:[v1](https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset/tree/v1)
7
 
8
  <details>
9
  <summary>学習側の設定</summary>
model/dataset.jsonl DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
3
- size 5537534