Atotti
/

Google-USM

@@ -26,12 +26,15 @@ bf16版：https://huggingface.co/Atotti/google-usm-bf16
 このモデルは単体で音声認識（文字起こし）などを行うものではなく、より大きなモデルのコンポーネントとして使用されることを想定しています。
 * マルチモーダルモデルの音声入力部として: 生成AIに音声情報を与えるための特徴量を抽出します。
-* 音声分類: このモデルの出力に分類ヘッドを追加して、特定の音声（例：笑い声、拍手、特定の単語）を分類するタスクでファインチューニングします。
-* 音声類似度検索: 音声のエンコーディングをベクトルとして扱い、意味的に似た音声を検索します。
-* 話者認識: 音声から話者を識別するタスクのベースモデルとして利用します。
 ## How to Use
 ```python
 import torch
 import soundfile as sf

 このモデルは単体で音声認識（文字起こし）などを行うものではなく、より大きなモデルのコンポーネントとして使用されることを想定しています。
 * マルチモーダルモデルの音声入力部として: 生成AIに音声情報を与えるための特徴量を抽出します。
+* 音声分類: このモデルの出力に分類ヘッドを追加して、特定の音声を分類するタスクでファインチューニングします。
 ## How to Use
+### dependencies
+```
+pip install transformers==4.53.0
+```
 ```python
 import torch
 import soundfile as sf