Update README.md

Browse files

Files changed (1) hide show

README.md +65 -1

README.md CHANGED Viewed

@@ -1272,4 +1272,68 @@ async def main():
                 logger.error(f"Unexpected error: {e}")
 if __name__ == "__main__":
-    asyncio.run(main()) ``` </pre>

                 logger.error(f"Unexpected error: {e}")
 if __name__ == "__main__":
+    asyncio.run(main()) ``` </pre>
+# LiberalMind version 1.5 – самая точная модель до 10B параметров, созданная в россии
+🧠 Объяснимое обучение с критиком: GMPO
+Эта архитектура направлена на более объяснимое и структурированное рассуждение, используя обновления через RL с регуляризацией KL-дивергенцией и обратной связью от критика.
+🔁 GMPO-пайплайн (структурированная политика)
+Обработка задачи проходит через 4 этапа:
+G — Generate: модель генерирует черновой ответ
+M — Match: проверяет соответствие логике и требованиям задачи
+P — Plan: строит план исправлений
+O — Optimize: применяет улучшения и формирует финальный ответ
+Вся траектория {a₀, p, a*} считается развёрткой политики (policy rollout).
+🧾 Модуль Критика (внешний оценщик)
+В отличие от классического GMPO, здесь используется Critic-модуль:
+Даёт награду за корректность и качество рассуждений
+Анализирует структуру плана и логическую связанность
+Оценивает отклонение от старой политики (policy shift)
+Возвращает метаданные: тип ошибки, качество плана, интуитивный разрыв
+💡 Интуитивная оценка (Intuition Alignment)
+Вводится новый сигнал — интуиция:
+Модель сама оценивает, насколько уверена в ответе (I_model ∈ [0,1])
+Сравнивается с реальной наградой от критика → считается разрыв:
+ΔI = |I_model − r|
+Цель — минимизировать ΔI, что помогает развить метапознание: "насколько хорошо я понимаю, что делаю?"
+⚖️ Оптимизация политики с KL-дивергенцией
+Функция обучения:
+L(θ) = Eₜ[π(τ)/π_old(τ) ⋅ r(τ) − β⋅D_KL[π(·|s) || π_old(·|s)]]
+Где:
+θ — параметры только LoRA-адаптеров
+β — коэффициент KL-наказания
+r(τ) — награда от критика
+D_KL — сдерживает обновления, удерживая политику рядом с эталоном
+🛠 Только LoRA-обновления
+Обновляются только LoRA-адаптеры
+Основная модель остаётся замороженной
+Это позволяет быстро и безопасно дообучать без потери уже обученных знаний.