sunweiwei
/

AirRep-Flan-Small

Feature Extraction

Model card Files Files and versions

sunweiwei commited on Nov 26, 2025

Commit

f3add87

·

verified ·

1 Parent(s): 411a334

Update README.md

Files changed (1) hide show

README.md +10 -47

README.md CHANGED Viewed

@@ -1,72 +1,35 @@
 # AirRep-Flan
-AirRep is an attribution-friendly embedding model designed for computing training data influence on test examples.
 ## Model Description
-This model is based on BERT architecture (gte-small config) with an additional projection layer. It's trained to produce embeddings that can be used for:
-- Text encoding
-- Computing similarity scores between test and training examples
-- Identifying influential training examples for test predictions
-## Model Details
-- **Base Architecture**: BERT (thenlper/gte-small config)
-- **Hidden Size**: 384
-- **Number of Layers**: 12
-- **Attention Heads**: 12
-- **Max Sequence Length**: 512
-- **Vocabulary Size**: 30522
 ## Usage
-```python
-from airrep import AirRep
-# Load model
-model = AirRep.from_pretrained("sunweiwei/AirRep-Flan-Small")
-# Encode texts
-texts = ["Question: What is AI?\nAnswer: Artificial Intelligence..."]
-embeddings = model.encode(texts, batch_size=128, show_progress_bar=True)
-# Compute similarity scores
-test_embed = model.encode(test_texts)
-train_embed = model.encode(train_texts)
-scores = model.similarity(test_embed, train_embed, softmax=True)
-```
-## Installation
-```bash
-pip install airrep
-```
-Or install from source:
-```bash
-git clone https://github.com/sunnweiwei/AirRep
-cd AirRep
-pip install -e .
-```
 ## Training Data
 This model was trained on the FLAN dataset with data influence optimization.
-## Evaluation
-- **Flan LDS Spearman Correlation**: 0.21
 ## Citation
 If you use this model, please cite:
 ```bibtex
-@article{airrep2024,
-  title={AirRep: Attribution-friendly Representation Learning},
-  author={Sun, Weiwei},
-  year={2024}
 }
 ```

 # AirRep-Flan
+AirRep is an embedding model designed for computing training data influence on test examples.
 ## Model Description
+This model is based on gte-small config with an additional projection layer
 ## Usage
+https://github.com/sunnweiwei/AirRep
 ## Training Data
 This model was trained on the FLAN dataset with data influence optimization.
 ## Citation
 If you use this model, please cite:
 ```bibtex
+@inproceedings{Sun2025AirRep,
+  title= {Enhancing Training Data Attribution with Representational Optimization},
+  author = {Weiwei Sun and Haokun Liu and Nikhil Kandpal and Colin Raffel and Yiming Yang},
+  year = {2025},
+  booktitle={NeurIPS},
+  year={2025},
+  url={https://arxiv.org/abs/2505.18513}
 }
 ```