Asilarknes
/

TupoyCoder-FineTune

Text Generation

Model card Files Files and versions

TupoyCoder-FineTune / README.md

Asilarknes's picture

Upload README.md with huggingface_hub

fd796db verified 11 days ago

|

History Blame Contribute Delete

3.18 kB

	---
	license: apache-2.0
	tags:
	- code
	- text-generation
	- python
	pipeline_tag: text-generation
	---

	# TupoyCoder — компактная модель для генерации кода

	Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только
	результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.

	## Характеристики

	\| Параметр \| Значение \|
	\|---\|---\|
	\| Параметров \| ~308M \|
	\| Размер весов (bf16) \| ~0.62 ГБ \|
	\| Макс. контекст \| 4096 токенов (расширяется до практически неограниченного через sliding-window инференс) \|
	\| Язык \| Python \|

	## Результаты бенчмарков (pass@1, исполнение тестов)

	Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой
	LLM-судьёй). `pass@1` при greedy-декодировании.

	\| Бенчмарк \| Задач \| pass@1 \|
	\|---\|---\|---\|
	\| HumanEval \| 164 \| 5.5% \|
	\| MBPP (sanitized) \| 257 \| 7.4% \|

	## Сравнение с другими моделями по кодингу

	Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки
	выделены жирным и измерены этим же скриптом.

	\| Модель \| Параметров \| HumanEval \| MBPP \|
	\|---\|---\|---\|---\|
	\| TupoyCoder (ours) \| 308M \| 5.5 \| 7.4 \|
	\| Salesforce CodeGen-350M-mono \| 350M \| 12.8 \| — \|
	\| Qwen2.5-Coder-0.5B-Instruct \| 0.5B \| ~30 \| ~40 \|
	\| TinyLlama-1.1B \| 1.1B \| ~10 \| ~15 \|
	\| Phi-1 (code) \| 1.3B \| 50.6 \| 55.5 \|
	\| DeepSeek-Coder-1.3B-Instruct \| 1.3B \| 65.2 \| 61.6 \|
	\| StarCoder2-3B \| 3B \| 31.7 \| 47.0 \|
	\| GPT-4o-mini (closed) \| — \| 87.2 \| 82.8 \|

	## Agentic-бенчмарки (SWE-bench, Aider) — для контекста

	Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных
	репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и
	другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни
	миллиардов параметров). Для модели такого размера без агентного харнеса это **не
	применимо** и здесь не замеряется — приведено лишь как ориентир ландшафта.

	\| Бенчмарк \| Тип \| Наш результат \|
	\|---\|---\|---\|
	\| SWE-bench Verified \| agentic (репо-починка) \| N/A (вне масштаба) \|
	\| Aider \| agentic (diff-редактирование) \| N/A (вне масштаба) \|

	---
	Карточка сгенерирована автоматически скриптом прогона бенчмарков.