# 📊 data ディレクトリ概要 `data/` ディレクトリは、プロジェクトの心臓部とも言える重要なデータを管理します。各サブディレクトリは特定の目的を持ち、プロジェクトのデータフローを効率化します。 --- ### 📂 ディレクトリ構造 ``` data/ ├── models/ ├── preprocessed/ ├── raw/ └── results/ ``` --- ## 📁 詳細説明 ### 🧠 `models/` **目的**: 学習済みモデルの保存と版管理 | 内容 | 説明 | | -------- | ---------------------- | | 📄 `.pth` | PyTorchモデル | | 📄 `.pd` | TensorFlowモデル | | 📄 その他 | scikit-learnモデルなど | ➡️ **使用例**: ```python model = torch.load('data/models/bert_classifier_v2.1.pth') ``` --- ### 🔧 `preprocessed/` **目的**: 前処理済みデータの保存と再利用 | 内容 | 説明 | | --------------------- | -------------------------- | | 📊 クリーニング済みCSV | 整形されたデータセット | | 📝 トークン化テキスト | NLP用処理済みテキスト | | 📈 正規化データ | スケーリング済み数値データ | ➡️ **使用例**: ```python df = pd.read_csv('data/preprocessed/customer_data_2024Q1.csv') ``` --- ### 📦 `raw/` **目的**: 元データの保管 | 内容 | 説明 | | ---------------------- | ---------------------- | | 📑 Excelファイル | クライアント提供データ | | 🌐 スクレイピングデータ | Web収集の生データ | | 📜 ログファイル | システムログなど | ⚠️ **注意**: このディレクトリは読み取り専用として扱い、データの整合性を保護すること。 --- ### 📊 `results/` **目的**: 分析結果や出力データの保存と共有 | 内容 | 説明 | | -------------- | -------------------- | | 📉 予測結果 | モデルのアウトプット | | 📃 分析レポート | 統計解析のサマリー | | 🖼️ グラフ・図表 | 可視化結果 | ➡️ **使用例**: ```python plt.savefig('data/results/sales_forecast_2024Q2.png', dpi=300) ``` --- ### 🚨 注意事項 1. **🔒 管理方法**: - `data/` は基本的にGit管理外。 - dataディレクトリからdata.zipファイルに圧縮しgoogledriveにて保管してください。 - 大容量ファイルはGit LFSの使用を検討。 --- > 💡 **Tip**: このディレクトリ構造を効果的に活用することで、データ管理の効率性が向上し、プロジェクトの再現性と品質が確保されます。