TupoyCoder-FineTune / README.md
Asilarknes's picture
Upload README.md with huggingface_hub
fd796db verified
|
Raw
History Blame Contribute Delete
3.18 kB
---
license: apache-2.0
tags:
- code
- text-generation
- python
pipeline_tag: text-generation
---
# TupoyCoder — компактная модель для генерации кода
Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только
результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.
## Характеристики
| Параметр | Значение |
|---|---|
| Параметров | ~308M |
| Размер весов (bf16) | ~0.62 ГБ |
| Макс. контекст | 4096 токенов (расширяется до практически неограниченного через sliding-window инференс) |
| Язык | Python |
## Результаты бенчмарков (pass@1, исполнение тестов)
Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой
LLM-судьёй). `pass@1` при greedy-декодировании.
| Бенчмарк | Задач | pass@1 |
|---|---|---|
| HumanEval | 164 | 5.5% |
| MBPP (sanitized) | 257 | 7.4% |
## Сравнение с другими моделями по кодингу
Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки
выделены жирным и измерены этим же скриптом.
| Модель | Параметров | HumanEval | MBPP |
|---|---|---|---|
| **TupoyCoder (ours)** | **308M** | **5.5** | **7.4** |
| Salesforce CodeGen-350M-mono | 350M | 12.8 | — |
| Qwen2.5-Coder-0.5B-Instruct | 0.5B | ~30 | ~40 |
| TinyLlama-1.1B | 1.1B | ~10 | ~15 |
| Phi-1 (code) | 1.3B | 50.6 | 55.5 |
| DeepSeek-Coder-1.3B-Instruct | 1.3B | 65.2 | 61.6 |
| StarCoder2-3B | 3B | 31.7 | 47.0 |
| GPT-4o-mini (closed) | — | 87.2 | 82.8 |
## Agentic-бенчмарки (SWE-bench, Aider) — для контекста
Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных
репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и
другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни
миллиардов параметров). Для модели такого размера без агентного харнеса это **не
применимо** и здесь не замеряется — приведено лишь как ориентир ландшафта.
| Бенчмарк | Тип | Наш результат |
|---|---|---|
| SWE-bench Verified | agentic (репо-починка) | N/A (вне масштаба) |
| Aider | agentic (diff-редактирование) | N/A (вне масштаба) |
---
*Карточка сгенерирована автоматически скриптом прогона бенчмарков.*