Transformers documentation
Efficient Inference on a Multiple GPUs
Get started
Tutorials
パイプラインを使用して推論を実行するAutoClass を使用して移植可能なコードを作成するデータの前処理事前トレーニングされたモデルを微調整するスクリプトを使用してトレーニングする🤗 Accelerate を使用して分散トレーニングをセットアップする🤗 PEFT を使用してアダプターをロードしてトレーニングするモデルを共有するLLM を使用した生成
Task Guides
自然言語処理
オーディオ
コンピュータビジョン
マルチモーダル
世代
プロンプト
開発者ガイド
🤗 トークナイザーの高速トークナイザーを使用する多言語モデルで推論を実行するモデル固有の API を使用するカスタムモデルを共有するチャットモデルのテンプレートONNX へのエクスポートコミュニティリソーストラブルシューティング
パフォーマンスとスケーラビリティ
概要 大きなモデルのインスタンス化torch.compile()を使用した推論の最適化
効率的なトレーニングテクニック
単一の GPU で効率的にトレーニングするための方法とツール複数の GPU と並列処理CPU での効率的なトレーニング分散CPUトレーニングTPU に関するトレーニング特殊なハードウェアに関するトレーニングトレーニング用のカスタム ハードウェアTrainer API を使用したハイパーパラメータ検索
推論の最適化
貢献する
コンセプチュアルガイド
フィロソフィー用語集🤗 Transformersの機能🤗 Transformersがタスクを解決する方法Transformerモデルファミリートークナイザーの概要注意機構パディングと切り詰めBERTology固定長モデルのパープレキシティWebサーバー推論用パイプラインモデルトレーニングの解剖学
API
You are viewing main version, which requires installation from source. If you'd like
regular pip install, checkout the latest stable version (v5.8.1).
Efficient Inference on a Multiple GPUs
この文書には、複数のGPUで効率的に推論を行う方法に関する情報が含まれています。
注意: 複数のGPUセットアップは、単一のGPUセクションで説明されているほとんどの戦略を使用できます。ただし、より良い使用法のために使用できる簡単なテクニックについても認識しておく必要があります。
Flash Attention 2
Flash Attention 2の統合は、複数のGPUセットアップでも機能します。詳細については、単一のGPUセクションの適切なセクションをご覧ください。
Update on GitHub