|
|
--- |
|
|
license: apache-2.0 |
|
|
datasets: |
|
|
- Shuu12121/github-programs-split-python |
|
|
- Shuu12121/github-programs-split-java |
|
|
- Shuu12121/github-programs-split-javascript |
|
|
- Shuu12121/github-programs-split-go |
|
|
- Shuu12121/github-programs-split-ruby |
|
|
- Shuu12121/github-programs-split-rust |
|
|
- Shuu12121/github-programs-split-php |
|
|
- Shuu12121/github-programs-split-typescript |
|
|
language: |
|
|
- en |
|
|
pipeline_tag: fill-mask |
|
|
tags: |
|
|
- code |
|
|
--- |
|
|
|
|
|
# CodeModernBERT-Crow-v2🐦⬛ |
|
|
|
|
|
**CodeModernBERT-Crow-v2** は、GitHub リポジトリから収集した**ファイル単位のソースコード**を用いて事前学習した、コード理解特化型の ModernBERT 系モデルです。 |
|
|
Python / Java / JavaScript / Go / Ruby / Rust / PHP / TypeScript を含む **8 言語**で構成された大規模コードコーパスをもとに学習しており、**約 0.3B パラメータ**を持ちます。 |
|
|
|
|
|
本モデルは、総計 **10.6B トークン**に基づいて事前学習されており、標準的なマスク言語モデル(MLM)に加えて、**行単位マスキング(line-level masking)** を組み合わせた学習戦略を採用しています。 |
|
|
行単位マスキングの詳細については[こちらのサイト](https://zenn.dev/shun0212/articles/7769126172ebda)をご確認ください |
|
|
これにより、コード中の**局所的文脈(token-level)**と**より大きな構造的文脈(line-level)**の両方を捉える能力が向上し、コード検索・コード補完など、さまざまなプログラミング言語処理タスクでの活用が期待できます。 |
|
|
|
|
|
評価については今後記載予定です(個人的な理由で立て込んでいるのと、別のモデルを訓練するため) |
|
|
|
|
|
# Model Architecture |
|
|
|
|
|
* **Model type:** ModernBERT (encoder-only) |
|
|
* **Total parameters:** **302M** |
|
|
* **Hidden size:** 1024 |
|
|
* **Intermediate size (FFN):** 1536 |
|
|
* **Layers:** 28 |
|
|
* **Attention heads:** 16 |
|
|
* **Max sequence length:** 8192 |
|
|
* **Vocabulary size:** 50,368 |
|
|
* **Position encoding:** RoPE (local/global) |
|
|
* **Local attention:** window size 128 |
|
|
|
|
|
|