Shuu12121 commited on
Commit
31586e5
·
verified ·
1 Parent(s): 8d1b033

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +42 -0
README.md ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - Shuu12121/github-programs-split-python
5
+ - Shuu12121/github-programs-split-java
6
+ - Shuu12121/github-programs-split-javascript
7
+ - Shuu12121/github-programs-split-go
8
+ - Shuu12121/github-programs-split-ruby
9
+ - Shuu12121/github-programs-split-rust
10
+ - Shuu12121/github-programs-split-php
11
+ - Shuu12121/github-programs-split-typescript
12
+ language:
13
+ - en
14
+ pipeline_tag: fill-mask
15
+ tags:
16
+ - code
17
+ ---
18
+
19
+ # CodeModernBERT-Crow-v2
20
+
21
+ **CodeModernBERT-Crow-v2** は、GitHub リポジトリから収集した**ファイル単位のソースコード**を用いて事前学習した、コード理解特化型の ModernBERT 系モデルです。
22
+ Python / Java / JavaScript / Go / Ruby / Rust / PHP / TypeScript を含む **8 言語**で構成された大規模コードコーパスをもとに学習しており、**約 0.3B パラメータ**を持ちます。
23
+
24
+ 本モデルは、総計 **10.6B トークン**に基づいて事前学習されており、標準的なマスク言語モデル(MLM)に加えて、**行単位マスキング(line-level masking)** を組み合わせた学習戦略を採用しています。
25
+ 行単位マスキングの詳細については[こちらのサイト](https://zenn.dev/shun0212/articles/7769126172ebda)をご確認ください
26
+ これにより、コード中の**局所的文脈(token-level)**と**より大きな構造的文脈(line-level)**の両方を捉える能力が向上し、コード検索・コード補完など、さまざまなプログラミング言語処理タスクでの活用が期待できます。
27
+
28
+ 評価については今後記載予定です(個人的な理由で立て込んでいるのと、別のモデルを訓練するため)
29
+
30
+ # Model Architecture
31
+
32
+ * **Model type:** ModernBERT (encoder-only)
33
+ * **Total parameters:** **302M**
34
+ * **Hidden size:** 1024
35
+ * **Intermediate size (FFN):** 1536
36
+ * **Layers:** 28
37
+ * **Attention heads:** 16
38
+ * **Max sequence length:** 8192
39
+ * **Vocabulary size:** 50,368
40
+ * **Position encoding:** RoPE (local/global)
41
+ * **Local attention:** window size 128
42
+