docs: datasetの分割に追従
#6
by sevenc-nanashi - opened
- README.md +8 -3
- model/README.md +1 -65
- model/dataset.jsonl +0 -3
README.md
CHANGED
|
@@ -1,13 +1,18 @@
|
|
| 1 |
---
|
| 2 |
license: mit
|
| 3 |
language:
|
| 4 |
-
- ja
|
| 5 |
metrics:
|
| 6 |
-
- bleu
|
| 7 |
pipeline_tag: text2text-generation
|
|
|
|
|
|
|
| 8 |
---
|
| 9 |
|
| 10 |
# kanalizer
|
| 11 |
|
| 12 |
英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
|
| 13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
license: mit
|
| 3 |
language:
|
| 4 |
+
- ja
|
| 5 |
metrics:
|
| 6 |
+
- bleu
|
| 7 |
pipeline_tag: text2text-generation
|
| 8 |
+
datasets:
|
| 9 |
+
- VOICEVOX/kanalizer-dataset
|
| 10 |
---
|
| 11 |
|
| 12 |
# kanalizer
|
| 13 |
|
| 14 |
英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
|
| 15 |
+
データセットの作成に用いたコードは[GitHubのVOICEVOX/kanalizer]、データセットは[VOICEVOX/kanalizer-dataset]を参照してください。
|
| 16 |
+
|
| 17 |
+
[GitHubのVOICEVOX/kanalizer]: https://github.com/VOICEVOX/kanalizer
|
| 18 |
+
[VOICEVOX/kanalizer-dataset]: https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset
|
model/README.md
CHANGED
|
@@ -1,73 +1,9 @@
|
|
| 1 |
# v2
|
| 2 |
|
| 3 |
-
- 参考URL:<https://github.com/VOICEVOX/e2k/issues/24>
|
| 4 |
-
|
| 5 |
-
## データセット
|
| 6 |
-
|
| 7 |
-
- コミット:[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
|
| 8 |
-
|
| 9 |
-
<details>
|
| 10 |
-
<summary>データセット側の設定</summary>
|
| 11 |
-
|
| 12 |
-
```yml
|
| 13 |
-
# yaml-language-server: $schema=./config.schema.yml
|
| 14 |
-
|
| 15 |
-
# 乱数のシード。
|
| 16 |
-
randomSeed: 0
|
| 17 |
-
|
| 18 |
-
source:
|
| 19 |
-
# 英単語の取得方法を指定します。
|
| 20 |
-
provider: cmudict
|
| 21 |
-
|
| 22 |
-
# 最大の単語数。"all"で全ての単語を取得します。
|
| 23 |
-
maxNumWords: "all"
|
| 24 |
-
# maxNumWords: 300
|
| 25 |
-
|
| 26 |
-
inference:
|
| 27 |
-
# 読みの取得方法を指定します。
|
| 28 |
-
# "gemini"、"openai" が選択可能です。
|
| 29 |
-
provider: openai
|
| 30 |
-
|
| 31 |
-
# 並列実行数。レートリミットとの兼ね合いで調整してください。
|
| 32 |
-
concurrency: 300
|
| 33 |
-
|
| 34 |
-
rateLimit:
|
| 35 |
-
# レートリミットに引っかかった場合のリトライ回数。
|
| 36 |
-
maxRetries: 100
|
| 37 |
-
|
| 38 |
-
# リトライ時の待ち時間。
|
| 39 |
-
waitMs: 60000
|
| 40 |
-
|
| 41 |
-
# 1回のリクエスト間の待ち時間。
|
| 42 |
-
throttleMs: 50
|
| 43 |
-
|
| 44 |
-
# Geminiの設定。
|
| 45 |
-
gemini:
|
| 46 |
-
# Google AI Studioから取得したAPIキー。
|
| 47 |
-
apiKey: ""
|
| 48 |
-
|
| 49 |
-
# 使うモデルの名前。
|
| 50 |
-
modelName: "gemini-2.0-flash"
|
| 51 |
-
|
| 52 |
-
# OpenAI互換APIの設定。
|
| 53 |
-
openai:
|
| 54 |
-
# APIのベースURL。
|
| 55 |
-
apiBaseUrl: "https://openrouter.ai/api/v1"
|
| 56 |
-
|
| 57 |
-
# APIキー。
|
| 58 |
-
apiKey: "**********"
|
| 59 |
-
|
| 60 |
-
# 使うモデルの名前。
|
| 61 |
-
# modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
|
| 62 |
-
# modelName: "deepseek/deepseek-r1" # 有料、reasoning?
|
| 63 |
-
modelName: "deepseek/deepseek-chat" # 有料、V3
|
| 64 |
-
```
|
| 65 |
-
|
| 66 |
-
</details>
|
| 67 |
-
|
| 68 |
## 学習
|
| 69 |
|
| 70 |
- コミット:[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
|
|
|
|
| 71 |
|
| 72 |
<details>
|
| 73 |
<summary>学習側の設定</summary>
|
|
|
|
| 1 |
# v2
|
| 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3 |
## 学習
|
| 4 |
|
| 5 |
- コミット:[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
|
| 6 |
+
- データセット:[v1](https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset/tree/v1)
|
| 7 |
|
| 8 |
<details>
|
| 9 |
<summary>学習側の設定</summary>
|
model/dataset.jsonl
DELETED
|
@@ -1,3 +0,0 @@
|
|
| 1 |
-
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
|
| 3 |
-
size 5537534
|
|
|
|
|
|
|
|
|
|
|
|