Final model after 9150 steps

Browse files

Files changed (12) hide show

1_Pooling/config.json +10 -0
README.md +154 -0
config.json +40 -0
config_sentence_transformers.json +14 -0
merges.txt +0 -0
model.safetensors +3 -0
modules.json +14 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +27 -0
vocab.json +0 -0

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "word_embedding_dimension": 1280,
+    "pooling_mode_cls_token": false,
+    "pooling_mode_mean_tokens": true,
+    "pooling_mode_max_tokens": false,
+    "pooling_mode_mean_sqrt_len_tokens": false,
+    "pooling_mode_weightedmean_tokens": false,
+    "pooling_mode_lasttoken": false,
+    "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,154 @@

+---
+language:
+- en
+license: apache-2.0
+library_name: sentence-transformers
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- code-retrieval
+- embeddings
+base_model: openai/gpt2-large
+datasets:
+- aysinghal/code-retrieval-training-dataset
+pipeline_tag: sentence-similarity
+---
+# ide-code-retrieval-gpt2-large-llm2vec
+A [SentenceTransformer](https://www.sbert.net/) model fine-tuned from
+[openai/gpt2-large](https://huggingface.co/openai/gpt2-large) for **IDE code retrieval** --
+mapping natural-language commit queries to relevant source code documents via
+dense vector similarity.
+> **Note:** This is an intermediate checkpoint at step 0 / 0
+> (0.0% through 3 epochs). Training loss is still decreasing,
+> so a later checkpoint may perform better.
+## Model Description
+This model encodes both short natural-language queries (commit messages, search
+queries) and longer code documents into a shared embedding space. Retrieval is
+performed by computing cosine similarity between the query embedding and
+candidate code embeddings.
+- **Base model:** [openai/gpt2-large](https://huggingface.co/openai/gpt2-large) (0.6B parameters)
+- **Max sequence length:** 512 tokens
+- **Output dimensionality:** 1024 (normalized)
+- **Similarity function:** Cosine similarity
+## Training Details
+### Dataset
+- **Source:** [aysinghal/code-retrieval-training-dataset](https://huggingface.co/datasets/aysinghal/code-retrieval-training-dataset)
+- **Total pairs:** 5,032,350
+- **Train split:** 4,780,732 pairs (95%)
+- **Eval split:** 251,618 pairs (5%)
+- **Text strategy:** truncate (max 4096 chars)
+- **Negatives:** Explicit hard negatives from the dataset
+- **Pre-tokenized:** Yes (token IDs stored on disk for zero-overhead data loading)
+### Loss Function
+[MultipleNegativesRankingLoss](https://www.sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss)
+(InfoNCE) with explicit hard negatives. Each training example consists of an
+anchor (query), a positive (relevant code), and a hard negative (similar but
+irrelevant code). In-batch negatives provide additional contrast.
+### Hyperparameters
+| Parameter | Value |
+|:---|:---|
+| Base model | `openai/gpt2-large` |
+| Learning rate | 2e-05 |
+| LR schedule | Linear with warmup |
+| Warmup ratio | 0.1 |
+| Epochs | 3 |
+| Effective batch size | 256 |
+| Per-GPU batch size | 64 |
+| Gradient accumulation | 1 |
+| Max sequence length | 512 tokens |
+| Precision | BFloat16 |
+| Gradient checkpointing | True |
+| torch.compile | Enabled (max-autotune) |
+| Seed | 42 |
+| Eval strategy | Every 915 steps |
+| Early stopping patience | 3 |
+### Hardware
+- **GPUs:** 4x NVIDIA L40S
+- **Total training steps:** 0 (3 epochs)
+### Training Progress (at checkpoint step 0)
+- **Progress:** 0 / 0 steps (0.0%)
+<details>
+<summary>Full training loss history (click to expand)</summary>
+</details>
+## Usage
+### Loading the Model
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("aysinghal/ide-code-retrieval-gpt2-large-llm2vec")
+```
+### Computing Embeddings
+```python
+queries = [
+    "fix null pointer exception in user authentication",
+    "add retry logic to API client",
+]
+code_docs = [
+    "def authenticate(user):\n    if user is None:\n        raise ValueError...",
+    "class APIClient:\n    def request(self, url, retries=3):\n        ...",
+]
+query_embeddings = model.encode(queries)
+code_embeddings = model.encode(code_docs)
+# Compute cosine similarities
+from sentence_transformers.util import cos_sim
+similarities = cos_sim(query_embeddings, code_embeddings)
+print(similarities)
+```
+## Intended Use
+- **Primary use case:** Retrieving relevant code files/functions given a
+  natural-language query (commit message, bug description, feature request)
+- **Search pipeline:** Encode a corpus of code documents offline, then at query
+  time encode the query and find nearest neighbors via cosine similarity
+## Limitations
+- This is an **early checkpoint** (0.0% through training). The
+  loss curve is still decreasing, so later checkpoints will likely perform
+  better.
+- Trained on a specific code retrieval dataset; may not generalize to all
+  programming languages or query styles without further fine-tuning.
+- Max context is 512 tokens -- very long
+  files are truncated.
+## Citation
+If you use this model, please cite the base model:
+```bibtex
+@article{qwen3embedding,
+  title={Qwen3-Embedding},
+  author={Qwen Team},
+  year={2025}
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "./output/run_20260520_131023_truncate_hard/final_model",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2Model"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 36,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model_type": "SentenceTransformer",
+  "__version__": {
+    "sentence_transformers": "5.2.3",
+    "transformers": "4.44.2",
+    "pytorch": "2.10.0+cu128"
+  },
+  "prompts": {
+    "query": "",
+    "document": ""
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a930788e60678f749bfb7649c65ca947c61d1d900ee28e63f39058d75423c5
+size 3096160696

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "max_seq_length": 512,
+    "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "max_length": 512,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "stride": 0,
+  "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff