Update README.md
Browse files
README.md
CHANGED
|
@@ -48,9 +48,14 @@ widget:
|
|
| 48 |
|
| 49 |
This is a Sentence Transformer model based on `Shuu12121/CodeModernBERT-Crow`, fine-tuned for high performance on multilingual code search tasks.
|
| 50 |
|
| 51 |
-
開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
|
| 52 |
-
ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
|
| 53 |
-
License: Apache-2.0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 54 |
|
| 55 |
## 📊 MTEB Leaderboard 成績
|
| 56 |
|
|
@@ -68,6 +73,29 @@ License: Apache-2.0
|
|
| 68 |
|
| 69 |
|
| 70 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 71 |
## 概要 / Overview
|
| 72 |
|
| 73 |
`CodeSearch-ModernBERT-Crow-Plus` は、自然言語のクエリと複数のプログラミング言語(Python, Java, JavaScript, PHP, Ruby, Go, Rust)のコードスニペット(主に関数レベル)間の意味的な類似性を捉えるために設計された Sentence Transformer モデルです。ベースモデルである `CodeModernBERT-Crow` の強力なコード理解能力を継承し、コード検索や類似性判定タスクに最適化されています。
|
|
|
|
| 48 |
|
| 49 |
This is a Sentence Transformer model based on `Shuu12121/CodeModernBERT-Crow`, fine-tuned for high performance on multilingual code search tasks.
|
| 50 |
|
| 51 |
+
- 開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
|
| 52 |
+
- ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
|
| 53 |
+
- License: Apache-2.0
|
| 54 |
+
|
| 55 |
+
[](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)
|
| 56 |
+
👉 **[Google Colab 上で今すぐ試す](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)**
|
| 57 |
+
このモデルを使った、**GitHubリポジトリの関数レベルコード検索システム**を簡単に試すことができます!
|
| 58 |
+
|
| 59 |
|
| 60 |
## 📊 MTEB Leaderboard 成績
|
| 61 |
|
|
|
|
| 73 |
|
| 74 |
|
| 75 |
|
| 76 |
+
## 🧩 関連プロジェクトとの連携 / Integration with Related Projects
|
| 77 |
+
|
| 78 |
+
**CodeSearch-ModernBERT-Crow-Plus** は [CodeCrow_RAG.ipynb](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb) のように
|
| 79 |
+
**実際のGitHubリポジトリを対象とした、関数単位のコード検索システム**を簡単に構築できます。
|
| 80 |
+
|
| 81 |
+
このノートブックでは以下の処理が実行されます:
|
| 82 |
+
|
| 83 |
+
- GitHubリポジトリを指定してクローン
|
| 84 |
+
- `.py` または `.ipynb` ファイルから関数・コードセルを抽出
|
| 85 |
+
- 関数コードをエンベディング(Sentence Transformerモデルを使用)
|
| 86 |
+
- FAISSインデックスを作成して高速検索を可能に
|
| 87 |
+
- Qwen3-8B-FP8モデルによる**日本語→英語翻訳**を通じて、**日本語クエリでも自然な検索**を実現
|
| 88 |
+
|
| 89 |
+
### 🔹 特徴
|
| 90 |
+
- **初回実行時**にインデックスを作成し、**以降は高速に再利用可能**
|
| 91 |
+
- **関数レベル**でコードを検索できるため、**意味的に最も類似するコードを高精度に検索**可能
|
| 92 |
+
- **日本語クエリにも完全対応**([Qwen3-8B-FP8](https://huggingface.co/Qwen/Qwen3-8B-FP8)で英語翻訳後に検索)
|
| 93 |
+
|
| 94 |
+
---
|
| 95 |
+
|
| 96 |
+
### 🔗 リンク
|
| 97 |
+
- 📄 実行可能なノートブック:[CodeCrow_RAG.ipynb](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)
|
| 98 |
+
|
| 99 |
## 概要 / Overview
|
| 100 |
|
| 101 |
`CodeSearch-ModernBERT-Crow-Plus` は、自然言語のクエリと複数のプログラミング言語(Python, Java, JavaScript, PHP, Ruby, Go, Rust)のコードスニペット(主に関数レベル)間の意味的な類似性を捉えるために設計された Sentence Transformer モデルです。ベースモデルである `CodeModernBERT-Crow` の強力なコード理解能力を継承し、コード検索や類似性判定タスクに最適化されています。
|