docs: datasetの分割に追従

by sevenc-nanashi - opened Apr 14, 2025

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

-71

Files changed (3) hide show

README.md +8 -3
model/README.md +1 -65
model/dataset.jsonl +0 -3

README.md CHANGED Viewed

@@ -1,13 +1,18 @@
 ---
 license: mit
 language:
-- ja
 metrics:
-- bleu
 pipeline_tag: text2text-generation
 ---
 # kanalizer
 英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
-推論コードなどについては[GitHub](https://github.com/VOICEVOX/kanalizer)を参照してください。

 ---
 license: mit
 language:
+  - ja
 metrics:
+  - bleu
 pipeline_tag: text2text-generation
+datasets:
+  - VOICEVOX/kanalizer-dataset
 ---
 # kanalizer
 英単語から読みを推測するライブラリ、kanalizerのモデル置き場。\
+データセットの作成に用いたコードは[GitHubのVOICEVOX/kanalizer]、データセットは[VOICEVOX/kanalizer-dataset]を参照してください。
+[GitHubのVOICEVOX/kanalizer]: https://github.com/VOICEVOX/kanalizer
+[VOICEVOX/kanalizer-dataset]: https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset

model/README.md CHANGED Viewed

@@ -1,73 +1,9 @@
 # v2
-- 参考URL：<https://github.com/VOICEVOX/e2k/issues/24>
-## データセット
-- コミット：[e6e699e51b474171a89f63ad86f8c276797e5cd6](https://github.com/VOICEVOX/e2k/commit/e6e699e51b474171a89f63ad86f8c276797e5cd6)
-<details>
-<summary>データセット側の設定</summary>
-```yml
-# yaml-language-server: $schema=./config.schema.yml
-# 乱数のシード。
-randomSeed: 0
-source:
-  # 英単語の取得方法を指定します。
-  provider: cmudict
-  # 最大の単語数。"all"で全ての単語を取得します。
-  maxNumWords: "all"
-  # maxNumWords: 300
-inference:
-  # 読みの取得方法を指定します。
-  # "gemini"、"openai" が選択可能です。
-  provider: openai
-  # 並列実行数。レートリミットとの兼ね合いで調整してください。
-  concurrency: 300
-  rateLimit:
-    # レートリミットに引っかかった場合のリトライ回数。
-    maxRetries: 100
-    # リトライ時の待ち時間。
-    waitMs: 60000
-    # 1回のリクエスト間の待ち時間。
-    throttleMs: 50
-  # Geminiの設定。
-  gemini:
-    # Google AI Studioから取得したAPIキー。
-    apiKey: ""
-    # 使うモデルの名前。
-    modelName: "gemini-2.0-flash"
-  # OpenAI互換APIの設定。
-  openai:
-    # APIのベースURL。
-    apiBaseUrl: "https://openrouter.ai/api/v1"
-    # APIキー。
-    apiKey: "**********"
-    # 使うモデルの名前。
-    # modelName: "deepseek/deepseek-chat:free" # 無料、1日200回まで、V3と同じ
-    # modelName: "deepseek/deepseek-r1" # 有料、reasoning？
-    modelName: "deepseek/deepseek-chat" # 有料、V3
-```
-</details>
 ## 学習
 - コミット：[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
 <details>
 <summary>学習側の設定</summary>

 # v2
 ## 学習
 - コミット：[ffed8d073887d7b2006efb7295e1312b587d6d14](https://github.com/VOICEVOX/e2k/commit/ffed8d073887d7b2006efb7295e1312b587d6d14)
+- データセット：[v1](https://huggingface.co/datasets/VOICEVOX/kanalizer-dataset/tree/v1)
 <details>
 <summary>学習側の設定</summary>

model/dataset.jsonl DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:dc792c21fb17048f968179dd609a0abc2795ae2dc83ae30c98cfc8a2d48be0a5
-size 5537534