Spaces:
Sleeping
Sleeping
| # 📊 data ディレクトリ概要 | |
| `data/` ディレクトリは、プロジェクトの心臓部とも言える重要なデータを管理します。各サブディレクトリは特定の目的を持ち、プロジェクトのデータフローを効率化します。 | |
| --- | |
| ### 📂 ディレクトリ構造 | |
| ``` | |
| data/ | |
| ├── models/ | |
| ├── preprocessed/ | |
| ├── raw/ | |
| └── results/ | |
| ``` | |
| --- | |
| ## 📁 詳細説明 | |
| ### 🧠 `models/` | |
| **目的**: 学習済みモデルの保存と版管理 | |
| | 内容 | 説明 | | |
| | -------- | ---------------------- | | |
| | 📄 `.pth` | PyTorchモデル | | |
| | 📄 `.pd` | TensorFlowモデル | | |
| | 📄 その他 | scikit-learnモデルなど | | |
| ➡️ **使用例**: | |
| ```python | |
| model = torch.load('data/models/bert_classifier_v2.1.pth') | |
| ``` | |
| --- | |
| ### 🔧 `preprocessed/` | |
| **目的**: 前処理済みデータの保存と再利用 | |
| | 内容 | 説明 | | |
| | --------------------- | -------------------------- | | |
| | 📊 クリーニング済みCSV | 整形されたデータセット | | |
| | 📝 トークン化テキスト | NLP用処理済みテキスト | | |
| | 📈 正規化データ | スケーリング済み数値データ | | |
| ➡️ **使用例**: | |
| ```python | |
| df = pd.read_csv('data/preprocessed/customer_data_2024Q1.csv') | |
| ``` | |
| --- | |
| ### 📦 `raw/` | |
| **目的**: 元データの保管 | |
| | 内容 | 説明 | | |
| | ---------------------- | ---------------------- | | |
| | 📑 Excelファイル | クライアント提供データ | | |
| | 🌐 スクレイピングデータ | Web収集の生データ | | |
| | 📜 ログファイル | システムログなど | | |
| ⚠️ **注意**: このディレクトリは読み取り専用として扱い、データの整合性を保護すること。 | |
| --- | |
| ### 📊 `results/` | |
| **目的**: 分析結果や出力データの保存と共有 | |
| | 内容 | 説明 | | |
| | -------------- | -------------------- | | |
| | 📉 予測結果 | モデルのアウトプット | | |
| | 📃 分析レポート | 統計解析のサマリー | | |
| | 🖼️ グラフ・図表 | 可視化結果 | | |
| ➡️ **使用例**: | |
| ```python | |
| plt.savefig('data/results/sales_forecast_2024Q2.png', dpi=300) | |
| ``` | |
| --- | |
| ### 🚨 注意事項 | |
| 1. **🔒 管理方法**: | |
| - `data/` は基本的にGit管理外。 | |
| - dataディレクトリからdata.zipファイルに圧縮しgoogledriveにて保管してください。 | |
| - 大容量ファイルはGit LFSの使用を検討。 | |
| --- | |
| > 💡 **Tip**: このディレクトリ構造を効果的に活用することで、データ管理の効率性が向上し、プロジェクトの再現性と品質が確保されます。 | |