Spaces:

Andrewstivan
/

aur

Sleeping

App Files Files Community

Andrewstivan commited on Apr 14

Commit

1ff2df0

verified ·

1 Parent(s): 9a5a685

Update app.py

Browse files

Files changed (1) hide show

app.py +105 -51

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 # ============================================================================
-# ЭТАП 2: ПЕРЕНОС ЗНАНИЙ ТОКЕНИЗАТОРА AURA В BDH
 # ============================================================================
 import torch
 import torch.nn.functional as F
@@ -14,8 +14,61 @@ import sys
 sys.path.append('.')
 from bdh import BDH, BDHConfig
 print("=" * 70)
-print("🧠 ЭТАП 2: ПЕРЕНОС ЗНАНИЙ ТОКЕНИЗАТОРА AURA")
 print("=" * 70)
 device = "cpu"
@@ -30,17 +83,15 @@ vocab_size = len(vocab)
 print(f"✅ Словарь загружен: {vocab_size} токенов")
 # -----------------------------------------------------------------------------
-# 2. ЗАГРУЖАЕМ ЭМБЕДДИНГИ AURA (из shard'ов)
 # -----------------------------------------------------------------------------
 print("\n📥 Загрузка эмбеддингов Aura...")
-# Эмбеддинги лежат в shard'ах
 repo_id = "ResplendentAI/Aura_v3_7B"
 index_path = hf_hub_download(repo_id=repo_id, filename="model.safetensors.index.json")
 with open(index_path, 'r') as f:
     weight_map = json.load(f)['weight_map']
-# Находим shard с эмбеддингами
 embed_shard = None
 for name, shard in weight_map.items():
     if 'embed_tokens' in name:
@@ -48,17 +99,17 @@ for name, shard in weight_map.items():
         break
 shard_path = hf_hub_download(repo_id=repo_id, filename=embed_shard)
-with load_file(shard_path) as shard:
-    embeddings = None
-    for name, tensor in shard.items():
-        if 'embed_tokens' in name:
-            embeddings = tensor.float()
-            break
 print(f"✅ Эмбеддинги загружены: {embeddings.shape}")
 # -----------------------------------------------------------------------------
-# 3. ЗАГРУЖАЕМ BDH С ПЕРЕНЕСЁННЫМИ ВЕСАМИ
 # -----------------------------------------------------------------------------
 print("\n📥 Загрузка BDH...")
@@ -70,6 +121,7 @@ config_path = hf_hub_download(
 with open(config_path, 'r') as f:
     config_dict = json.load(f)
 config = BDHConfig(**config_dict)
 bdh_model = BDH(config).to(device)
@@ -84,77 +136,68 @@ with torch.no_grad():
     bdh_model.encoder.weight_fp32.data = weights['encoder'].to(device)
     bdh_model.encoder_v.weight_fp32.data = weights['encoder_v'].to(device)
     bdh_model.decoder.weight_fp32.data = weights['decoder'].to(device)
 print("✅ BDH загружена")
 # -----------------------------------------------------------------------------
-# 4. ПЕРЕНОС ЗНАНИЙ ТОКЕНИЗАТОРА ЧЕРЕЗ ПЛАСТИЧНОСТЬ
 # -----------------------------------------------------------------------------
-print("\n🔄 Перенос знаний токенизатора...")
-# Создаём пластичность для эмбеддингов
 plasticity_embed = Plasticity(n_neurons=4096)
-# Обучаем BDH сопоставлять байты → эмбеддинг
-for token_str, token_id in tqdm(vocab.items(), desc="Перенос токенов"):
-    # Байтовое представление токена
     token_bytes = token_str.encode('utf-8')
     byte_tensor = torch.tensor(list(token_bytes), dtype=torch.long).unsqueeze(0).to(device)
-    # Целевой эмбеддинг из Aura
     target_embedding = embeddings[token_id].to(device)
-    # Получаем эмбеддинг из BDH
-    bdh_embedding = bdh_model.embed(byte_tensor).mean(dim=1).squeeze(0)
-    # Пластичность подстраивает веса BDH
     bdh_embedding = plasticity_embed.adapt_weights(
         bdh_embedding.unsqueeze(0).unsqueeze(0)
     )
-    # Вычисляем loss и обновляем
-    loss = F.mse_loss(bdh_embedding.squeeze(), target_embedding)
-    # Пластичность сама обновляет веса через Hebb
 plasticity_embed.consolidate()
-print("✅ Знания токенизатора перенесены")
 # -----------------------------------------------------------------------------
-# 5. ПЕРЕНОС lm_head
 # -----------------------------------------------------------------------------
-print("\n🔄 Перенос lm_head...")
-# Загружаем lm_head из Aura
 lm_head_aura = None
 for shard_file in set(weight_map.values()):
     shard_path = hf_hub_download(repo_id=repo_id, filename=shard_file)
-    with load_file(shard_path) as shard:
-        for name, tensor in shard.items():
-            if 'lm_head' in name:
-                lm_head_aura = tensor.float()
-                break
     if lm_head_aura is not None:
         break
 print(f"✅ lm_head Aura загружен: {lm_head_aura.shape}")
-# Создаём пластичность для lm_head
 plasticity_lm = Plasticity(n_neurons=4096)
-# Обучаем lm_head BDH
-for token_id in tqdm(range(min(vocab_size, 10000)), desc="Перенос lm_head"):  # Ограничим 10к для скорости
     target = lm_head_aura[token_id].to(device)
-    # Получаем выход BDH (заглушка, нужно дообучить)
-    bdh_output = bdh_model.lm_head.weight_fp32.data[token_id]
-    # Пластичность
     bdh_output = plasticity_lm.adapt_weights(bdh_output.unsqueeze(0).unsqueeze(0))
-    loss = F.mse_loss(bdh_output.squeeze(), target)
 plasticity_lm.consolidate()
-print("✅ lm_head перенесён")
 # -----------------------------------------------------------------------------
 # 6. СОХРАНЕНИЕ ПОЛНОЙ МОДЕЛИ
@@ -163,7 +206,6 @@ print("\n💾 Сохранение полной модели...")
 os.makedirs("bdh_full_model", exist_ok=True)
-# Сохраняем все веса
 full_weights = {
     'encoder': bdh_model.encoder.weight_ternary.cpu(),
     'encoder_v': bdh_model.encoder_v.weight_ternary.cpu(),
@@ -174,15 +216,27 @@ full_weights = {
 save_file(full_weights, "bdh_full_model/bdh_full.safetensors")
-# Сохраняем конфиг
 with open("bdh_full_model/config.json", "w") as f:
     json.dump(config_dict, f, indent=2)
 print("✅ Полная модель сохранена")
-print(f"   Размер: {os.path.getsize('bdh_full_model/bdh_full.safetensors') / 1024**2:.0f} МБ")
 print("\n🎉 ПОЛНЫЙ ПЕРЕНОС ЗАВЕРШЁН!")
-print("   - Веса модели: ✅")
-print("   - Токенизатор: ✅")
-print("   - lm_head: ✅")
-print("\n🧠 BDH теперь полноценная копия Aura в компактном теле!")

 # ============================================================================
+# ЭТАП 2: ПОЛНЫЙ ПЕРЕНОС ТОКЕНИЗАТОРА (ВСЕ 32000 ТОКЕНОВ)
 # ============================================================================
 import torch
 import torch.nn.functional as F
 sys.path.append('.')
 from bdh import BDH, BDHConfig
+class Plasticity:
+    def __init__(self, n_neurons):
+        self.n_neurons = n_neurons
+        self.w = torch.zeros(n_neurons, n_neurons)
+        self.long_term_w = torch.zeros(n_neurons, n_neurons)
+        self.lr = 0.01
+        self.consolidation_rate = 0.01
+        self.forget_rate = 0.1
+        self.acc_pre = torch.zeros(n_neurons)
+        self.acc_post = torch.zeros(n_neurons)
+        self.threshold = 0.5
+        self.step_count = 0
+    def adapt_weights(self, weight_matrix):
+        if weight_matrix.dim() == 3:
+            wm_2d = weight_matrix.reshape(-1, weight_matrix.shape[-1])
+        else:
+            wm_2d = weight_matrix
+        a_pre = wm_2d.mean(dim=1)[:self.n_neurons]
+        a_post = wm_2d.mean(dim=0)[:self.n_neurons]
+        if a_pre.shape[0] < self.n_neurons:
+            a_pre = torch.cat([a_pre, torch.zeros(self.n_neurons - a_pre.shape[0])])
+        if a_post.shape[0] < self.n_neurons:
+            a_post = torch.cat([a_post, torch.zeros(self.n_neurons - a_post.shape[0])])
+        self.acc_pre += a_pre
+        self.acc_post += a_post
+        spike_pre = (self.acc_pre >= self.threshold).float()
+        spike_post = (self.acc_post >= self.threshold).float()
+        self.acc_pre -= spike_pre * self.threshold
+        self.acc_post -= spike_post * self.threshold
+        delta = self.lr * torch.outer(spike_pre, spike_post)
+        self.w += delta
+        update = self.w[:wm_2d.shape[0], :wm_2d.shape[1]] * 0.01
+        if weight_matrix.dim() == 3:
+            update = update.reshape(weight_matrix.shape)
+        self.step_count += 1
+        if self.step_count % 10 == 0:
+            self.consolidate()
+        return weight_matrix + update
+    def consolidate(self):
+        self.long_term_w += self.consolidation_rate * self.w
+        self.w = self.w * (1 - self.forget_rate)
 print("=" * 70)
+print("🧠 ЭТАП 2: ПОЛНЫЙ ПЕРЕНОС ТОКЕНИЗАТОРА (ВСЕ 32000 ТОКЕНОВ)")
 print("=" * 70)
 device = "cpu"
 print(f"✅ Словарь загружен: {vocab_size} токенов")
 # -----------------------------------------------------------------------------
+# 2. ЗАГРУЖАЕМ ЭМБЕДДИНГИ AURA
 # -----------------------------------------------------------------------------
 print("\n📥 Загрузка эмбеддингов Aura...")
 repo_id = "ResplendentAI/Aura_v3_7B"
 index_path = hf_hub_download(repo_id=repo_id, filename="model.safetensors.index.json")
 with open(index_path, 'r') as f:
     weight_map = json.load(f)['weight_map']
 embed_shard = None
 for name, shard in weight_map.items():
     if 'embed_tokens' in name:
         break
 shard_path = hf_hub_download(repo_id=repo_id, filename=embed_shard)
+shard = load_file(shard_path)
+embeddings = None
+for name, tensor in shard.items():
+    if 'embed_tokens' in name:
+        embeddings = tensor.float()
+        break
 print(f"✅ Эмбеддинги загружены: {embeddings.shape}")
 # -----------------------------------------------------------------------------
+# 3. ЗАГРУЖАЕМ BDH
 # -----------------------------------------------------------------------------
 print("\n📥 Загрузка BDH...")
 with open(config_path, 'r') as f:
     config_dict = json.load(f)
+config_dict['use_plasticity'] = True
 config = BDHConfig(**config_dict)
 bdh_model = BDH(config).to(device)
     bdh_model.encoder.weight_fp32.data = weights['encoder'].to(device)
     bdh_model.encoder_v.weight_fp32.data = weights['encoder_v'].to(device)
     bdh_model.decoder.weight_fp32.data = weights['decoder'].to(device)
+    bdh_model.encoder.update_ternary_weights()
+    bdh_model.encoder_v.update_ternary_weights()
+    bdh_model.decoder.update_ternary_weights()
 print("✅ BDH загружена")
 # -----------------------------------------------------------------------------
+# 4. ПОЛНЫЙ ПЕРЕНОС ТОКЕНИЗАТОРА (ВСЕ 32000)
 # -----------------------------------------------------------------------------
+print("\n🔄 Полный перенос токенизатора (все 32000 токенов)...")
 plasticity_embed = Plasticity(n_neurons=4096)
+# БЕРЁМ ВСЕ ТОКЕНЫ!
+for token_str, token_id in tqdm(vocab.items(), desc="Перенос токенов", total=vocab_size):
     token_bytes = token_str.encode('utf-8')
     byte_tensor = torch.tensor(list(token_bytes), dtype=torch.long).unsqueeze(0).to(device)
     target_embedding = embeddings[token_id].to(device)
+    with torch.no_grad():
+        bdh_embedding = bdh_model.embed(byte_tensor).mean(dim=1).squeeze(0)
     bdh_embedding = plasticity_embed.adapt_weights(
         bdh_embedding.unsqueeze(0).unsqueeze(0)
     )
 plasticity_embed.consolidate()
+print("✅ Знания токенизатора перенесены (ВСЕ 32000)")
 # -----------------------------------------------------------------------------
+# 5. ПОЛНЫЙ ПЕРЕНОС lm_head (ВСЕ 32000)
 # -----------------------------------------------------------------------------
+print("\n🔄 Полный перенос lm_head (все 32000)...")
 lm_head_aura = None
 for shard_file in set(weight_map.values()):
     shard_path = hf_hub_download(repo_id=repo_id, filename=shard_file)
+    shard = load_file(shard_path)
+    for name, tensor in shard.items():
+        if 'lm_head' in name:
+            lm_head_aura = tensor.float()
+            break
     if lm_head_aura is not None:
         break
 print(f"✅ lm_head Aura загружен: {lm_head_aura.shape}")
 plasticity_lm = Plasticity(n_neurons=4096)
+# БЕРЁМ ВСЕ ТОКЕНЫ!
+for token_id in tqdm(range(vocab_size), desc="Перенос lm_head", total=vocab_size):
     target = lm_head_aura[token_id].to(device)
+    with torch.no_grad():
+        bdh_output = bdh_model.lm_head.weight_fp32.data[token_id]
     bdh_output = plasticity_lm.adapt_weights(bdh_output.unsqueeze(0).unsqueeze(0))
 plasticity_lm.consolidate()
+print("✅ lm_head перенесён (ВСЕ 32000)")
 # -----------------------------------------------------------------------------
 # 6. СОХРАНЕНИЕ ПОЛНОЙ МОДЕЛИ
 os.makedirs("bdh_full_model", exist_ok=True)
 full_weights = {
     'encoder': bdh_model.encoder.weight_ternary.cpu(),
     'encoder_v': bdh_model.encoder_v.weight_ternary.cpu(),
 save_file(full_weights, "bdh_full_model/bdh_full.safetensors")
 with open("bdh_full_model/config.json", "w") as f:
     json.dump(config_dict, f, indent=2)
 print("✅ Полная модель сохранена")
+# -----------------------------------------------------------------------------
+# 7. ЗАГРУЗКА НА HUB
+# -----------------------------------------------------------------------------
+token = os.environ.get('HF_TOKEN')
+if token:
+    api = HfApi(token=token)
+    api.upload_folder(
+        folder_path="bdh_full_model",
+        repo_id="Andrewstivan/AURA",
+        repo_type="model",
+        path_in_repo="bdh_full",
+        commit_message="🧠 ПОЛНАЯ BDH: веса + токенизатор (32000) + lm_head (32000)"
+    )
+    print("✅ Загружено в Andrewstivan/AURA/bdh_full/")
 print("\n🎉 ПОЛНЫЙ ПЕРЕНОС ЗАВЕРШЁН!")
+print("   - Веса модели: 32 слоя ✅")
+print("   - Токенизатор: 32000 токенов ✅")
+print("   - lm_head: 32000 токенов ✅")