attn-signs commited on
Commit
0c6ef6b
·
verified ·
1 Parent(s): ce6d006

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +104 -194
README.md CHANGED
@@ -3,197 +3,107 @@ library_name: transformers
3
  tags: []
4
  ---
5
 
6
- # Model Card for Model ID
7
-
8
- <!-- Provide a quick summary of what the model is/does. -->
9
-
10
-
11
-
12
- ## Model Details
13
-
14
- ### Model Description
15
-
16
- <!-- Provide a longer summary of what this model is. -->
17
-
18
- This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
19
-
20
- - **Developed by:** [More Information Needed]
21
- - **Funded by [optional]:** [More Information Needed]
22
- - **Shared by [optional]:** [More Information Needed]
23
- - **Model type:** [More Information Needed]
24
- - **Language(s) (NLP):** [More Information Needed]
25
- - **License:** [More Information Needed]
26
- - **Finetuned from model [optional]:** [More Information Needed]
27
-
28
- ### Model Sources [optional]
29
-
30
- <!-- Provide the basic links for the model. -->
31
-
32
- - **Repository:** [More Information Needed]
33
- - **Paper [optional]:** [More Information Needed]
34
- - **Demo [optional]:** [More Information Needed]
35
-
36
- ## Uses
37
-
38
- <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
39
-
40
- ### Direct Use
41
-
42
- <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
43
-
44
- [More Information Needed]
45
-
46
- ### Downstream Use [optional]
47
-
48
- <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
49
-
50
- [More Information Needed]
51
-
52
- ### Out-of-Scope Use
53
-
54
- <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
55
-
56
- [More Information Needed]
57
-
58
- ## Bias, Risks, and Limitations
59
-
60
- <!-- This section is meant to convey both technical and sociotechnical limitations. -->
61
-
62
- [More Information Needed]
63
-
64
- ### Recommendations
65
-
66
- <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
67
-
68
- Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
69
-
70
- ## How to Get Started with the Model
71
-
72
- Use the code below to get started with the model.
73
-
74
- [More Information Needed]
75
-
76
- ## Training Details
77
-
78
- ### Training Data
79
-
80
- <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
81
-
82
- [More Information Needed]
83
-
84
- ### Training Procedure
85
-
86
- <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
87
-
88
- #### Preprocessing [optional]
89
-
90
- [More Information Needed]
91
-
92
-
93
- #### Training Hyperparameters
94
-
95
- - **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
96
-
97
- #### Speeds, Sizes, Times [optional]
98
-
99
- <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
100
-
101
- [More Information Needed]
102
-
103
- ## Evaluation
104
-
105
- <!-- This section describes the evaluation protocols and provides the results. -->
106
-
107
- ### Testing Data, Factors & Metrics
108
-
109
- #### Testing Data
110
-
111
- <!-- This should link to a Dataset Card if possible. -->
112
-
113
- [More Information Needed]
114
-
115
- #### Factors
116
-
117
- <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
118
-
119
- [More Information Needed]
120
-
121
- #### Metrics
122
-
123
- <!-- These are the evaluation metrics being used, ideally with a description of why. -->
124
-
125
- [More Information Needed]
126
-
127
- ### Results
128
-
129
- [More Information Needed]
130
-
131
- #### Summary
132
-
133
-
134
-
135
- ## Model Examination [optional]
136
-
137
- <!-- Relevant interpretability work for the model goes here -->
138
-
139
- [More Information Needed]
140
-
141
- ## Environmental Impact
142
-
143
- <!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
144
-
145
- Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
146
-
147
- - **Hardware Type:** [More Information Needed]
148
- - **Hours used:** [More Information Needed]
149
- - **Cloud Provider:** [More Information Needed]
150
- - **Compute Region:** [More Information Needed]
151
- - **Carbon Emitted:** [More Information Needed]
152
-
153
- ## Technical Specifications [optional]
154
-
155
- ### Model Architecture and Objective
156
-
157
- [More Information Needed]
158
-
159
- ### Compute Infrastructure
160
-
161
- [More Information Needed]
162
-
163
- #### Hardware
164
-
165
- [More Information Needed]
166
-
167
- #### Software
168
-
169
- [More Information Needed]
170
-
171
- ## Citation [optional]
172
-
173
- <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
174
-
175
- **BibTeX:**
176
-
177
- [More Information Needed]
178
-
179
- **APA:**
180
-
181
- [More Information Needed]
182
-
183
- ## Glossary [optional]
184
-
185
- <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
186
-
187
- [More Information Needed]
188
-
189
- ## More Information [optional]
190
-
191
- [More Information Needed]
192
-
193
- ## Model Card Authors [optional]
194
-
195
- [More Information Needed]
196
-
197
- ## Model Card Contact
198
-
199
- [More Information Needed]
 
3
  tags: []
4
  ---
5
 
6
+ # AS-Pharade (Experiment Model)
7
+ ### [ru]
8
+ Экспериментальная модель Pharade на базе **AS-GPT-5**, дообученная в полных параметрах.
9
+ Подробности обучения **AS-GPT-5** см. в релеватной карточке.
10
+ Дообученная Pharade имеет особенность **генерации гипотез**, заточена на решение математических задач.
11
+ Модель поддерживает специальный режим рассуждений **IRA**, в блоке которого генерируются древовидные гипотезы/подходы к решению задачи.
12
+
13
+ ### Рекомендуемые параметры запуска
14
+ - temperature: 0.6-0.7
15
+ - System prompt:
16
+ ```
17
+ """
18
+ Ты - модель искусственного интеллекта AS-GPT,
19
+ созданная группой Attention Signs.
20
+ Твоя задача помогать пользователям, отвечать на их вопросы и поддерживать осмысленный диалог.
21
+
22
+ [OPTIONS]
23
+ Reasoning: IRA
24
+ """
25
+ ```
26
+
27
+ ### Ответы модели:
28
+ - Промпт: Дано, что площадь параллелограмма равна 420 квадратных сантиметров, а его высота — 35 см. Найдите соответствующую основание. Покажите все вычисления и обозначьте ответ.
29
+ - Ответ:
30
+ ```
31
+ <think>
32
+ Хорошо, давайте разберемся с этой задачей пошагово. У нас есть параллелограмм с площадью 420 см² и высотой 35 см, нужно найти соответствующее основание. Сначала вспомню формулу площади параллелограмма через длину основания и высоту. Формула выглядит так: S = a * h, где a — длина основания, h — высота. В данном случае известны площадь и высота, но не известно основание (a). Значит, мне нужно связать эти данные или найти способ выразить одно из них через другое.
33
+
34
+ <ira>
35
+ [Goal: Найти основание b] →
36
+ [H1: Использовать формулу площади S=b*h?] ↓
37
+ [H1.1: Подставить известные значения] →
38
+ | [H1.1.1: 420 = b * 35!] # Недостаточно данных
39
+ | [H1.1.2: Переписать уравнение] →
40
+ [H1.1.2.1: b = 420 / 35!]
41
+ [H1.1.2.2: Вычислить результат] !
42
+
43
+ [H2: Связать стороны через периметр?] |
44
+ [H2.1: Периметр P = 2(a + b)!]
45
+ [H2.1.1: Нужно второе уравнение?] *X
46
+ | [H2.2: Дополнительные условия? ] ?
47
+
48
+ [H3: Проверить альтернативные подходы] ?
49
+ | [H3.1: Геометрическая интерпретация] →
50
+ [H3.1.1: Площадь как проекция]
51
+ | [H3.1.1.1: Если угол между основанием и высотой α, то S=b*h_перпендикулярна] *X
52
+ | [H3.1.1.2: Альтернатива: использовать векторы] *V
53
+ | [H3.2: Координатный метод] →
54
+ [H3.2.1: Поставить систему координат]
55
+ | [H3.2.1.1: Вершины A(x₁,y₁), B(x₂,y₂)]
56
+ | [H3.2.1.2: Векторное произведение AB × AD = BC × CD] *X
57
+
58
+ [H4: Сравнить методы]
59
+ [H4.1: Результаты H1.1.2.2 совпадают?] →
60
+ | [H4.1.1: Да Ответ 12]
61
+ | [H4.1.2: Нет → Противоречие/недостаток данных] *X
62
+
63
+ [H5: Проверка вычислений] $ →
64
+ | [H5.1: Повторить деление 420/35!]
65
+ | [H5.2: Убедиться в корректности формулы площади]
66
+ </ira>
67
+
68
+
69
+ В плане решения уже указано несколько шагов. Начну с первого подхода, который предложен в H1.1.1: подставляю известные значения в формулу. Получается 420 = b * 35! Но тут возникает проблема: у меня нет информации о длине основания b. Возможно, я неправильно понял условие задачи. Может быть, имелось в виду, что известна сторона b, но тогда почему бы она была дана напрямую? Или, может быть, нужно было использовать другие параметры? Например, если бы даны были две смежные стороны и один из углов, можно было бы применить теорему косинусов для нахождения угла, а затем вычислить другую сторону. Но здесь только площадь и высота.
70
+
71
+ Возможно, план предполагает использование другого метода. В H1.1.2 предлагается переписать уравнение как b = 420 / 35!. Тогда вычисляю это значение. Давайте посчитаю: 420 делить на 35 равно 12. То есть основание должно быть 12 см. Это кажется простым решением, но нужно проверить, нет ли других возможных вариантов.
72
+
73
+ Однако в плане также упоминается второй подход H2. Здесь рассматривается связь сторон через периметр. Периметр P равен сумме всех четырех сторон: P = 2*(a + b). Но опять же, без знания двух смежных сторон невозможно определить третью. Однако в условии говорится только об одном основании (b) и высоте. Возможно, предполагается, что одна из сторон связана с другой каким-то образом, например, углом или дополнительным условием. Но в задаче этого нет. Поэтому этот путь тоже приводит к противоречию, потому что недостаточно данных для определения обеих переменных.
74
+
75
+ Третий шаг — альтернативный подход. В H3.1 предложено рассмотреть геометрическую интерпретацию. Если представить параллелограмм, площадь которого равна основанию, умноженному на высоту, перпендикулярную этому основанию. Но здесь высота дана, значит, чтобы найти основание, нужно знать эту перпендикулярную высоту. Но так как эта высота не указана, возможно, задача требует дополнительных условий. Однако в условии сказано "высота — 35 см", поэтому, наверное, подразумевается именно такая формула. Возможно, ошибка в понимании задачи, или, наоборот, имеется в виду другая форма представления.
76
+
77
+ Четвертый шаг проверяет согласованность результатов. Если по первому методу получается 12 см, то при проверке вычислений повторяем деление 420 на 35, получаем 12. Также проверяем правильность формулы площади, которая действительно S = основание * высота. Значит, ответ должен быть правильным. Другие варианты приводят к противоречиям, поэтому правильный ответ — 12 см.
78
+ </think>
79
+
80
+ Для решения задачи используем формулу площади параллелограмма $ S = \text{основание} \times \text{высота} $.
81
+ 1. **Подставляем известные значения**:
82
+ $$
83
+ \boxed{S = b \cdot h} \quad \Rightarrow \quad \boxed{420 = b \cdot 35}.
84
+ $$
85
+ Вычисляем:
86
+ $$
87
+ b = \frac{420}{35} = 12 \, \text{см}.
88
+ $$
89
+
90
+ **Проверка альтернативных подходов**:
91
+ - **Метод периметра ($P$)**: Для применения необходимо дополнительное условие (например, вторая смежная сторона $a$ или угол между сторонами). Без дополнительной информации результаты несовместимы.
92
+ - **Альтернативная геометрия**: При отсутствии данных о проекции высоты на основание требуется дополнительная информация для корректного расчета.
93
+
94
+ **От��ет**: Основание параллелограмма равно $\boxed{12}$ см.
95
+ ```
96
+
97
+ ### Развитие и доработки
98
+ Планируется дообучение GRPO-like алгоритмами на математические задачи
99
+
100
+ ### Фреймворки и технологии
101
+ Обучение велось на 2xH100 80GB с использованием:
102
+ - HuggingFace Accelerate
103
+ - Microsoft DeepSpeed
104
+ - FlashAttn3
105
+ - Liger Kernel
106
+
107
+ ### License
108
+ Лицензия и возможности использования ограничиваются коренной лицензией от Яндекса
109
+ (https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain)