| --- |
| license: apache-2.0 |
| tags: |
| - code |
| - text-generation |
| - python |
| pipeline_tag: text-generation |
| --- |
| |
| # TupoyCoder — компактная модель для генерации кода |
|
|
| Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только |
| результаты бенчмарков, размер и контекст — без деталей внутреннего устройства. |
|
|
| ## Характеристики |
|
|
| | Параметр | Значение | |
| |---|---| |
| | Параметров | ~308M | |
| | Размер весов (bf16) | ~0.62 ГБ | |
| | Макс. контекст | 4096 токенов (расширяется до практически неограниченного через sliding-window инференс) | |
| | Язык | Python | |
|
|
| ## Результаты бенчмарков (pass@1, исполнение тестов) |
|
|
| Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой |
| LLM-судьёй). `pass@1` при greedy-декодировании. |
|
|
| | Бенчмарк | Задач | pass@1 | |
| |---|---|---| |
| | HumanEval | 164 | 5.5% | |
| | MBPP (sanitized) | 257 | 7.4% | |
|
|
| ## Сравнение с другими моделями по кодингу |
|
|
| Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки |
| выделены жирным и измерены этим же скриптом. |
|
|
| | Модель | Параметров | HumanEval | MBPP | |
| |---|---|---|---| |
| | **TupoyCoder (ours)** | **308M** | **5.5** | **7.4** | |
| | Salesforce CodeGen-350M-mono | 350M | 12.8 | — | |
| | Qwen2.5-Coder-0.5B-Instruct | 0.5B | ~30 | ~40 | |
| | TinyLlama-1.1B | 1.1B | ~10 | ~15 | |
| | Phi-1 (code) | 1.3B | 50.6 | 55.5 | |
| | DeepSeek-Coder-1.3B-Instruct | 1.3B | 65.2 | 61.6 | |
| | StarCoder2-3B | 3B | 31.7 | 47.0 | |
| | GPT-4o-mini (closed) | — | 87.2 | 82.8 | |
|
|
| ## Agentic-бенчмарки (SWE-bench, Aider) — для контекста |
|
|
| Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных |
| репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и |
| другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни |
| миллиардов параметров). Для модели такого размера без агентного харнеса это **не |
| применимо** и здесь не замеряется — приведено лишь как ориентир ландшафта. |
|
|
| | Бенчмарк | Тип | Наш результат | |
| |---|---|---| |
| | SWE-bench Verified | agentic (репо-починка) | N/A (вне масштаба) | |
| | Aider | agentic (diff-редактирование) | N/A (вне масштаба) | |
|
|
| --- |
| *Карточка сгенерирована автоматически скриптом прогона бенчмарков.* |
|
|