CodeModernBERT-Crow-v2 / README.md

Shuu12121

Update README.md

9f272d9 verified 7 days ago

preview code

raw

history blame contribute delete

2.08 kB

metadata

license: apache-2.0
datasets:
  - Shuu12121/github-programs-split-python
  - Shuu12121/github-programs-split-java
  - Shuu12121/github-programs-split-javascript
  - Shuu12121/github-programs-split-go
  - Shuu12121/github-programs-split-ruby
  - Shuu12121/github-programs-split-rust
  - Shuu12121/github-programs-split-php
  - Shuu12121/github-programs-split-typescript
language:
  - en
pipeline_tag: fill-mask
tags:
  - code

CodeModernBERT-Crow-v2🐦‍⬛

CodeModernBERT-Crow-v2 は、GitHub リポジトリから収集したファイル単位のソースコードを用いて事前学習した、コード理解特化型の ModernBERT 系モデルです。 Python / Java / JavaScript / Go / Ruby / Rust / PHP / TypeScript を含む 8 言語で構成された大規模コードコーパスをもとに学習しており、約 0.3B パラメータを持ちます。

本モデルは、総計 10.6B トークンに基づいて事前学習されており、標準的なマスク言語モデル（MLM）に加えて、行単位マスキング（line-level masking） を組み合わせた学習戦略を採用しています。行単位マスキングの詳細についてはこちらのサイトをご確認くださいこれにより、コード中の局所的文脈（token-level）とより大きな構造的文脈（line-level）の両方を捉える能力が向上し、コード検索・コード補完など、さまざまなプログラミング言語処理タスクでの活用が期待できます。

評価については今後記載予定です（個人的な理由で立て込んでいるのと、別のモデルを訓練するため）

Model Architecture

Model type: ModernBERT (encoder-only)
Total parameters: 302M
Hidden size: 1024
Intermediate size (FFN): 1536
Layers: 28
Attention heads: 16
Max sequence length: 8192
Vocabulary size: 50,368
Position encoding: RoPE (local/global)
Local attention: window size 128