File size: 3,177 Bytes
f66b27a
 
c7ad4b4
 
 
 
 
f66b27a
c7ad4b4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd796db
 
c7ad4b4
 
 
 
 
 
 
 
fd796db
c7ad4b4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
---
license: apache-2.0
tags:
- code
- text-generation
- python
pipeline_tag: text-generation
---

# TupoyCoder — компактная модель для генерации кода

Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только
результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.

## Характеристики

| Параметр | Значение |
|---|---|
| Параметров | ~308M |
| Размер весов (bf16) | ~0.62 ГБ |
| Макс. контекст | 4096 токенов (расширяется до практически неограниченного через sliding-window инференс) |
| Язык | Python |

## Результаты бенчмарков (pass@1, исполнение тестов)

Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой
LLM-судьёй). `pass@1` при greedy-декодировании.

| Бенчмарк | Задач | pass@1 |
|---|---|---|
| HumanEval | 164 | 5.5% |
| MBPP (sanitized) | 257 | 7.4% |

## Сравнение с другими моделями по кодингу

Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки
выделены жирным и измерены этим же скриптом.

| Модель | Параметров | HumanEval | MBPP |
|---|---|---|---|
| **TupoyCoder (ours)** | **308M** | **5.5** | **7.4** |
| Salesforce CodeGen-350M-mono | 350M | 12.8 | — |
| Qwen2.5-Coder-0.5B-Instruct | 0.5B | ~30 | ~40 |
| TinyLlama-1.1B | 1.1B | ~10 | ~15 |
| Phi-1 (code) | 1.3B | 50.6 | 55.5 |
| DeepSeek-Coder-1.3B-Instruct | 1.3B | 65.2 | 61.6 |
| StarCoder2-3B | 3B | 31.7 | 47.0 |
| GPT-4o-mini (closed) | — | 87.2 | 82.8 |

## Agentic-бенчмарки (SWE-bench, Aider) — для контекста

Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных
репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и
другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни
миллиардов параметров). Для модели такого размера без агентного харнеса это **не
применимо** и здесь не замеряется — приведено лишь как ориентир ландшафта.

| Бенчмарк | Тип | Наш результат |
|---|---|---|
| SWE-bench Verified | agentic (репо-починка) | N/A (вне масштаба) |
| Aider | agentic (diff-редактирование) | N/A (вне масштаба) |

---
*Карточка сгенерирована автоматически скриптом прогона бенчмарков.*