Shuu12121
/

CodeModernBERT-Crow-v2

Model card Files Files and versions

CodeModernBERT-Crow-v2 / README.md

Shuu12121's picture

Update README.md

9f272d9 verified 7 days ago

|

history blame contribute delete

2.08 kB

	---
	license: apache-2.0
	datasets:
	- Shuu12121/github-programs-split-python
	- Shuu12121/github-programs-split-java
	- Shuu12121/github-programs-split-javascript
	- Shuu12121/github-programs-split-go
	- Shuu12121/github-programs-split-ruby
	- Shuu12121/github-programs-split-rust
	- Shuu12121/github-programs-split-php
	- Shuu12121/github-programs-split-typescript
	language:
	- en
	pipeline_tag: fill-mask
	tags:
	- code
	---

	# CodeModernBERT-Crow-v2🐦‍⬛

	CodeModernBERT-Crow-v2 は、GitHub リポジトリから収集したファイル単位のソースコードを用いて事前学習した、コード理解特化型の ModernBERT 系モデルです。
	Python / Java / JavaScript / Go / Ruby / Rust / PHP / TypeScript を含む 8 言語で構成された大規模コードコーパスをもとに学習しており、約 0.3B パラメータを持ちます。

	本モデルは、総計 10.6B トークンに基づいて事前学習されており、標準的なマスク言語モデル（MLM）に加えて、行単位マスキング（line-level masking）を組み合わせた学習戦略を採用しています。
	行単位マスキングの詳細については[こちらのサイト](https://zenn.dev/shun0212/articles/7769126172ebda)をご確認ください
	これにより、コード中の局所的文脈（token-level）とより大きな構造的文脈（line-level）の両方を捉える能力が向上し、コード検索・コード補完など、さまざまなプログラミング言語処理タスクでの活用が期待できます。

	評価については今後記載予定です（個人的な理由で立て込んでいるのと、別のモデルを訓練するため）

	# Model Architecture

	* Model type: ModernBERT (encoder-only)
	* Total parameters: 302M
	* Hidden size: 1024
	* Intermediate size (FFN): 1536
	* Layers: 28
	* Attention heads: 16
	* Max sequence length: 8192
	* Vocabulary size: 50,368
	* Position encoding: RoPE (local/global)
	* Local attention: window size 128