Shuu12121
/

CodeModernBERT-Crow-Func-v2

Model card Files Files and versions

CodeModernBERT-Crow-Func-v2 / README.md

Shuu12121's picture

Create README.md

9556b3a verified about 2 months ago

|

history blame contribute delete

2.85 kB

	---
	base_model:
	- Shuu12121/CodeModernBERT-Crow-v2
	license: apache-2.0
	datasets:
	- Shuu12121/python-treesitter-filtered-datasetsV2
	- Shuu12121/javascript-treesitter-filtered-datasetsV2
	- Shuu12121/ruby-treesitter-filtered-datasetsV2
	- Shuu12121/go-treesitter-dedupe_doc-filtered-dataset
	- Shuu12121/java-treesitter-dedupe_doc-filtered-dataset
	- Shuu12121/rust-treesitter-filtered-datasetsV2
	- Shuu12121/php-treesitter-filtered-datasetsV2
	- Shuu12121/typescript-treesitter-filtered-datasetsV2
	language:
	- en
	pipeline_tag: fill-mask
	---

	# Shuu12121/CodeModernBERT-Crow-Func-v2🐦‍⬛

	`Shuu12121/CodeModernBERT-Crow-v2` をベースモデルとして、関数レベルで抽出されたGitHub コード関数データセットを用いて、追加の事前学習（continued pre-training）を行ったものです。

	今回の追加事前学習では、line-level span-masking を使用し、関数内部の構造的情報（制御構造・宣言・局所文脈）をより深く理解できるように最適化しています。これにより、コード検索・コード埋め込み生成・関数レベルの意味理解において、ベースモデルよりも優れた表現能力を発揮することを目的としています。

	---

	## ベースモデル（Crow-v2）との違い

	前モデルである Shuu12121/CodeModernBERT-Crow-v2 は、以下のようなファイルレベル (file-level) の大規模ソースコードコーパスを用いて事前学習しました。

	* GitHub から収集した 8 言語（Python / Java / JavaScript / Go / Ruby / Rust / PHP / TypeScript）のファイル単位コード
	* トップレベル定義・関数定義・クラス定義などが混在した構造
	* ファイル特有の文脈（import、依存関係、設定、ファイル全体の責務）を学習可能

	これにより、Crow-v2 は広い文脈 (global context) を捉える能力に優れたモデルとして設計しています。

	---

	## 本モデル（Crow-Func-v2）のポイント

	Crow-Func-v2 は、このファイルレベルの事前学習済みモデルをベースとしつつ、
	さらに関数レベル (function-level) のデータセットを用いて continued pre-training を行った点が特徴です。

	これにより次の改善が期待できます。

	### 1. retrieval tasks に対する特化

	関数検索・類似関数検出・コードクローン解析など、
	function-level embedding を用いるタスクでの性能向上が期待されます。

	### 2. file-level + function-level の二段構え学習

	Crow-v2（file-level）で大域的構造を学び、
	Crow-Func-v2（function-level）で局所的意味理解を強化することで、
	多粒度（multi-granularity）のコード理解能力を獲得することを期待しています。