Update README.md
Browse files
README.md
CHANGED
|
@@ -3,197 +3,107 @@ library_name: transformers
|
|
| 3 |
tags: []
|
| 4 |
---
|
| 5 |
|
| 6 |
-
#
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
|
| 29 |
-
|
| 30 |
-
|
| 31 |
-
|
| 32 |
-
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
[
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
|
| 48 |
-
|
| 49 |
-
|
| 50 |
-
[
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
|
| 56 |
-
[
|
| 57 |
-
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
-
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
<
|
| 67 |
-
|
| 68 |
-
|
| 69 |
-
|
| 70 |
-
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
|
| 75 |
-
|
| 76 |
-
|
| 77 |
-
|
| 78 |
-
|
| 79 |
-
|
| 80 |
-
|
| 81 |
-
|
| 82 |
-
|
| 83 |
-
|
| 84 |
-
|
| 85 |
-
|
| 86 |
-
|
| 87 |
-
|
| 88 |
-
|
| 89 |
-
|
| 90 |
-
|
| 91 |
-
|
| 92 |
-
|
| 93 |
-
|
| 94 |
-
|
| 95 |
-
|
| 96 |
-
|
| 97 |
-
###
|
| 98 |
-
|
| 99 |
-
|
| 100 |
-
|
| 101 |
-
|
| 102 |
-
|
| 103 |
-
|
| 104 |
-
|
| 105 |
-
|
| 106 |
-
|
| 107 |
-
###
|
| 108 |
-
|
| 109 |
-
|
| 110 |
-
|
| 111 |
-
<!-- This should link to a Dataset Card if possible. -->
|
| 112 |
-
|
| 113 |
-
[More Information Needed]
|
| 114 |
-
|
| 115 |
-
#### Factors
|
| 116 |
-
|
| 117 |
-
<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
|
| 118 |
-
|
| 119 |
-
[More Information Needed]
|
| 120 |
-
|
| 121 |
-
#### Metrics
|
| 122 |
-
|
| 123 |
-
<!-- These are the evaluation metrics being used, ideally with a description of why. -->
|
| 124 |
-
|
| 125 |
-
[More Information Needed]
|
| 126 |
-
|
| 127 |
-
### Results
|
| 128 |
-
|
| 129 |
-
[More Information Needed]
|
| 130 |
-
|
| 131 |
-
#### Summary
|
| 132 |
-
|
| 133 |
-
|
| 134 |
-
|
| 135 |
-
## Model Examination [optional]
|
| 136 |
-
|
| 137 |
-
<!-- Relevant interpretability work for the model goes here -->
|
| 138 |
-
|
| 139 |
-
[More Information Needed]
|
| 140 |
-
|
| 141 |
-
## Environmental Impact
|
| 142 |
-
|
| 143 |
-
<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
|
| 144 |
-
|
| 145 |
-
Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
|
| 146 |
-
|
| 147 |
-
- **Hardware Type:** [More Information Needed]
|
| 148 |
-
- **Hours used:** [More Information Needed]
|
| 149 |
-
- **Cloud Provider:** [More Information Needed]
|
| 150 |
-
- **Compute Region:** [More Information Needed]
|
| 151 |
-
- **Carbon Emitted:** [More Information Needed]
|
| 152 |
-
|
| 153 |
-
## Technical Specifications [optional]
|
| 154 |
-
|
| 155 |
-
### Model Architecture and Objective
|
| 156 |
-
|
| 157 |
-
[More Information Needed]
|
| 158 |
-
|
| 159 |
-
### Compute Infrastructure
|
| 160 |
-
|
| 161 |
-
[More Information Needed]
|
| 162 |
-
|
| 163 |
-
#### Hardware
|
| 164 |
-
|
| 165 |
-
[More Information Needed]
|
| 166 |
-
|
| 167 |
-
#### Software
|
| 168 |
-
|
| 169 |
-
[More Information Needed]
|
| 170 |
-
|
| 171 |
-
## Citation [optional]
|
| 172 |
-
|
| 173 |
-
<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
|
| 174 |
-
|
| 175 |
-
**BibTeX:**
|
| 176 |
-
|
| 177 |
-
[More Information Needed]
|
| 178 |
-
|
| 179 |
-
**APA:**
|
| 180 |
-
|
| 181 |
-
[More Information Needed]
|
| 182 |
-
|
| 183 |
-
## Glossary [optional]
|
| 184 |
-
|
| 185 |
-
<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
|
| 186 |
-
|
| 187 |
-
[More Information Needed]
|
| 188 |
-
|
| 189 |
-
## More Information [optional]
|
| 190 |
-
|
| 191 |
-
[More Information Needed]
|
| 192 |
-
|
| 193 |
-
## Model Card Authors [optional]
|
| 194 |
-
|
| 195 |
-
[More Information Needed]
|
| 196 |
-
|
| 197 |
-
## Model Card Contact
|
| 198 |
-
|
| 199 |
-
[More Information Needed]
|
|
|
|
| 3 |
tags: []
|
| 4 |
---
|
| 5 |
|
| 6 |
+
# AS-Pharade (Experiment Model)
|
| 7 |
+
### [ru]
|
| 8 |
+
Экспериментальная модель Pharade на базе **AS-GPT-5**, дообученная в полных параметрах.
|
| 9 |
+
Подробности обучения **AS-GPT-5** см. в релеватной карточке.
|
| 10 |
+
Дообученная Pharade имеет особенность **генерации гипотез**, заточена на решение математических задач.
|
| 11 |
+
Модель поддерживает специальный режим рассуждений **IRA**, в блоке которого генерируются древовидные гипотезы/подходы к решению задачи.
|
| 12 |
+
|
| 13 |
+
### Рекомендуемые параметры запуска
|
| 14 |
+
- temperature: 0.6-0.7
|
| 15 |
+
- System prompt:
|
| 16 |
+
```
|
| 17 |
+
"""
|
| 18 |
+
Ты - модель искусственного интеллекта AS-GPT,
|
| 19 |
+
созданная группой Attention Signs.
|
| 20 |
+
Твоя задача — помогать пользователям, отвечать на их вопросы и поддерживать осмысленный диалог.
|
| 21 |
+
|
| 22 |
+
[OPTIONS]
|
| 23 |
+
Reasoning: IRA
|
| 24 |
+
"""
|
| 25 |
+
```
|
| 26 |
+
|
| 27 |
+
### Ответы модели:
|
| 28 |
+
- Промпт: Дано, что площадь параллелограмма равна 420 квадратных сантиметров, а его высота — 35 см. Найдите соответствующую основание. Покажите все вычисления и обозначьте ответ.
|
| 29 |
+
- Ответ:
|
| 30 |
+
```
|
| 31 |
+
<think>
|
| 32 |
+
Хорошо, давайте разберемся с этой задачей пошагово. У нас есть параллелограмм с площадью 420 см² и высотой 35 см, нужно найти соответствующее основание. Сначала вспомню формулу площади параллелограмма через длину основания и высоту. Формула выглядит так: S = a * h, где a — длина основания, h — высота. В данном случае известны площадь и высота, но не известно основание (a). Значит, мне нужно связать эти данные или найти способ выразить одно из них через другое.
|
| 33 |
+
|
| 34 |
+
<ira>
|
| 35 |
+
[Goal: Найти основание b] →
|
| 36 |
+
[H1: Использовать формулу площади S=b*h?] ↓
|
| 37 |
+
[H1.1: Подставить известные значения] →
|
| 38 |
+
| [H1.1.1: 420 = b * 35!] # Недостаточно данных
|
| 39 |
+
| [H1.1.2: Переписать уравнение] →
|
| 40 |
+
[H1.1.2.1: b = 420 / 35!]
|
| 41 |
+
[H1.1.2.2: Вычислить результат] !
|
| 42 |
+
|
| 43 |
+
[H2: Связать стороны через периметр?] |
|
| 44 |
+
[H2.1: Периметр P = 2(a + b)!] →
|
| 45 |
+
[H2.1.1: Нужно второе уравнение?] *X
|
| 46 |
+
| [H2.2: Дополнительные условия? ] ?
|
| 47 |
+
|
| 48 |
+
[H3: Проверить альтернативные подходы] ? ↓
|
| 49 |
+
| [H3.1: Геометрическая интерпретация] →
|
| 50 |
+
[H3.1.1: Площадь как проекция] →
|
| 51 |
+
| [H3.1.1.1: Если угол между основанием и высотой α, то S=b*h_перпендикулярна] *X
|
| 52 |
+
| [H3.1.1.2: Альтернатива: использовать векторы] *V
|
| 53 |
+
| [H3.2: Координатный метод] →
|
| 54 |
+
[H3.2.1: Поставить систему координат] →
|
| 55 |
+
| [H3.2.1.1: Вершины A(x₁,y₁), B(x₂,y₂)]
|
| 56 |
+
| [H3.2.1.2: Векторное произведение AB × AD = BC × CD] *X
|
| 57 |
+
|
| 58 |
+
[H4: Сравнить методы] ↑
|
| 59 |
+
[H4.1: Результаты H1.1.2.2 совпадают?] →
|
| 60 |
+
| [H4.1.1: Да → Ответ 12]
|
| 61 |
+
| [H4.1.2: Нет → Противоречие/недостаток данных] *X
|
| 62 |
+
|
| 63 |
+
[H5: Проверка вычислений] $ →
|
| 64 |
+
| [H5.1: Повторить деление 420/35!]
|
| 65 |
+
| [H5.2: Убедиться в корректности формулы площади]
|
| 66 |
+
</ira>
|
| 67 |
+
|
| 68 |
+
|
| 69 |
+
В плане решения уже указано несколько шагов. Начну с первого подхода, который предложен в H1.1.1: подставляю известные значения в формулу. Получается 420 = b * 35! Но тут возникает проблема: у меня нет информации о длине основания b. Возможно, я неправильно понял условие задачи. Может быть, имелось в виду, что известна сторона b, но тогда почему бы она была дана напрямую? Или, может быть, нужно было использовать другие параметры? Например, если бы даны были две смежные стороны и один из углов, можно было бы применить теорему косинусов для нахождения угла, а затем вычислить другую сторону. Но здесь только площадь и высота.
|
| 70 |
+
|
| 71 |
+
Возможно, план предполагает использование другого метода. В H1.1.2 предлагается переписать уравнение как b = 420 / 35!. Тогда вычисляю это значение. Давайте посчитаю: 420 делить на 35 равно 12. То есть основание должно быть 12 см. Это кажется простым решением, но нужно проверить, нет ли других возможных вариантов.
|
| 72 |
+
|
| 73 |
+
Однако в плане также упоминается второй подход H2. Здесь рассматривается связь сторон через периметр. Периметр P равен сумме всех четырех сторон: P = 2*(a + b). Но опять же, без знания двух смежных сторон невозможно определить третью. Однако в условии говорится только об одном основании (b) и высоте. Возможно, предполагается, что одна из сторон связана с другой каким-то образом, например, углом или дополнительным условием. Но в задаче этого нет. Поэтому этот путь тоже приводит к противоречию, потому что недостаточно данных для определения обеих переменных.
|
| 74 |
+
|
| 75 |
+
Третий шаг — альтернативный подход. В H3.1 предложено рассмотреть геометрическую интерпретацию. Если представить параллелограмм, площадь которого равна основанию, умноженному на высоту, перпендикулярную этому основанию. Но здесь высота дана, значит, чтобы найти основание, нужно знать эту перпендикулярную высоту. Но так как эта высота не указана, возможно, задача требует дополнительных условий. Однако в условии сказано "высота — 35 см", поэтому, наверное, подразумевается именно такая формула. Возможно, ошибка в понимании задачи, или, наоборот, имеется в виду другая форма представления.
|
| 76 |
+
|
| 77 |
+
Четвертый шаг проверяет согласованность результатов. Если по первому методу получается 12 см, то при проверке вычислений повторяем деление 420 на 35, получаем 12. Также проверяем правильность формулы площади, которая действительно S = основание * высота. Значит, ответ должен быть правильным. Другие варианты приводят к противоречиям, поэтому правильный ответ — 12 см.
|
| 78 |
+
</think>
|
| 79 |
+
|
| 80 |
+
Для решения задачи используем формулу площади параллелограмма $ S = \text{основание} \times \text{высота} $.
|
| 81 |
+
1. **Подставляем известные значения**:
|
| 82 |
+
$$
|
| 83 |
+
\boxed{S = b \cdot h} \quad \Rightarrow \quad \boxed{420 = b \cdot 35}.
|
| 84 |
+
$$
|
| 85 |
+
Вычисляем:
|
| 86 |
+
$$
|
| 87 |
+
b = \frac{420}{35} = 12 \, \text{см}.
|
| 88 |
+
$$
|
| 89 |
+
|
| 90 |
+
**Проверка альтернативных подходов**:
|
| 91 |
+
- **Метод периметра ($P$)**: Для применения необходимо дополнительное условие (например, вторая смежная сторона $a$ или угол между сторонами). Без дополнительной информации результаты несовместимы.
|
| 92 |
+
- **Альтернативная геометрия**: При отсутствии данных о проекции высоты на основание требуется дополнительная информация для корректного расчета.
|
| 93 |
+
|
| 94 |
+
**От��ет**: Основание параллелограмма равно $\boxed{12}$ см.
|
| 95 |
+
```
|
| 96 |
+
|
| 97 |
+
### Развитие и доработки
|
| 98 |
+
Планируется дообучение GRPO-like алгоритмами на математические задачи
|
| 99 |
+
|
| 100 |
+
### Фреймворки и технологии
|
| 101 |
+
Обучение велось на 2xH100 80GB с использованием:
|
| 102 |
+
- HuggingFace Accelerate
|
| 103 |
+
- Microsoft DeepSpeed
|
| 104 |
+
- FlashAttn3
|
| 105 |
+
- Liger Kernel
|
| 106 |
+
|
| 107 |
+
### License
|
| 108 |
+
Лицензия и возможности использования ограничиваются коренной лицензией от Яндекса
|
| 109 |
+
(https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|