sosonsong
/

machineai-compiler-optimizer

+"""
+transfer_agent.py — Architecture-aware Transfer Learning for LoopUnrollEnv
+- arch별로 x86 / arm64 등을 선택적으로 지원
+- Backbone: 기존 {arch}_base 모델의 일부 레이어를 백본으로 사용
+- Adapter: 새 환경(또는 새 CPU)에 맞게 소형 레이어만 재학습
+"""
+import os
+import glob
+import sys
+import argparse
+import numpy as np
+import torch
+import torch.nn as nn
+import gymnasium as gym
+from stable_baselines3 import PPO
+from stable_baselines3.common.env_util import make_vec_env
+from compiler_env import LoopUnrollEnv
+# ─────────────────────────────────────────────────────────────
+# 유틸: 경로 및 기본 설정
+# ─────────────────────────────────────────────────────────────
+PROJECT_ROOT = os.path.expanduser("~/projects/machineai")
+MODELS_DIR = os.path.join(PROJECT_ROOT, "models")
+BENCH_DIR = os.path.join(PROJECT_ROOT, "benchmarks")
+def get_model_paths(arch: str):
+    """
+    아키텍처별 기본 모델/전이 모델 경로 생성
+    - base:     models/model_{arch}_base.zip
+    - transfer: models/model_{arch}_transfer.zip
+    """
+    base = os.path.join(MODELS_DIR, f"model_{arch}_base.zip")
+    transfer = os.path.join(MODELS_DIR, f"model_{arch}_transfer.zip")
+    return base, transfer
+# ─────────────────────────────────────────────────────────────
+# Backbone 가중치 추출
+# ─────────────────────────────────────────────────────────────
+def extract_backbone_weights(model_path: str) -> dict:
+    """
+    기존 PPO 모델에서 mlp_extractor의 일부 레이어를 백본으로 추출
+    - 현재는 policy_net의 첫 두 레이어를 백본으로 사용
+    """
+    print(f"[Backbone] 로드: {model_path}")
+    model = PPO.load(model_path)
+    state_dict = model.policy.state_dict()
+    backbone = {}
+    for k, v in state_dict.items():
+        if "mlp_extractor.policy_net.0" in k or "mlp_extractor.policy_net.2" in k:
+            backbone[k] = v.clone()
+    print(f"[Backbone] 추출 레이어:")
+    for k in backbone.keys():
+        print(f"  - {k}")
+    return backbone
+# ─────────────────────────────────────────────────────────────
+# Transfer PPO 빌더
+# ─────────────────────────────────────────────────────────────
+def build_transfer_model(env, backbone_weights: dict | None, freeze_backbone: bool = True):
+    """
+    Backbone 동결 + Adapter 레이어 추가한 PPO 모델 구성
+    - backbone_weights가 None이면 순수 새 모델로 시작
+    """
+    print("[Model] Transfer PPO 생성 중...")
+    model = PPO(
+        policy="MlpPolicy",
+        env=env,
+        learning_rate=1e-4,      # 전이학습은 낮은 lr
+        n_steps=256,
+        batch_size=64,
+        n_epochs=10,
+        gamma=0.99,
+        verbose=1,
+        policy_kwargs=dict(net_arch=[64, 64, 32]),  # +32 adapter layer
+    )
+    # 백본 가중치 주입
+    if backbone_weights is not None:
+        print("[Model] Backbone 가중치 주입...")
+        state_dict = model.policy.state_dict()
+        injected, skipped = 0, 0
+        for k, v in backbone_weights.items():
+            if k in state_dict and state_dict[k].shape == v.shape:
+                state_dict[k] = v
+                injected += 1
+                print(f"  ✔ 주입: {k}")
+            else:
+                skipped += 1
+                print(f"  ✗ 스킵: {k} (shape mismatch or not found)")
+        model.policy.load_state_dict(state_dict)
+        print(f"[Model] 주입 완료: {injected}개, 스킵: {skipped}개")
+    else:
+        print("[Model] Backbone 없이 새 모델로 시작")
+    # 백본 동결
+    if freeze_backbone and backbone_weights is not None:
+        print("[Model] Backbone 파라미터 동결...")
+        for name, param in model.policy.named_parameters():
+            if "mlp_extractor.policy_net.0" in name or "mlp_extractor.policy_net.2" in name:
+                param.requires_grad = False
+                print(f"  🔒 동결: {name}")
+    trainable = sum(p.numel() for p in model.policy.parameters() if p.requires_grad)
+    total = sum(p.numel() for p in model.policy.parameters())
+    print(f"\n[Model] 파라미터: {trainable}/{total} 학습가능 ({trainable/total*100:.1f}%)")
+    return model
+# ──────────────────���──────────────────────────────────────────
+# 메인 전이학습 실행
+# ─────────────────────────────────────────────────────────────
+def main():
+    parser = argparse.ArgumentParser(description="Architecture-aware transfer learning for LoopUnrollEnv")
+    parser.add_argument("--arch", type=str, default="x86", help="타겟 아키텍처 (예: x86, arm64)")
+    parser.add_argument("--timesteps", type=int, default=2000, help="전이학습 스텝 수")
+    parser.add_argument("--load-base", action="store_true", help="기존 base 모델에서 backbone을 로드할지 여부")
+    parser.add_argument("--base-path", type=str, default="", help="직접 base 모델 경로 지정 (옵션)")
+    parser.add_argument("--out-path", type=str, default="", help="전이 결과 저장 경로 직접 지정 (옵션)")
+    parser.add_argument("--repeat-runs", type=int, default=3, help="실행 시간 측정 반복 횟수")
+    parser.add_argument("--freeze-backbone", action="store_true", help="Backbone 레이어를 동결할지 여부")
+    parser.add_argument("--clang-bin", type=str, default="", help="사용할 clang 바이너리 (비우면 기본값)")
+    parser.add_argument("--opt-bin", type=str, default="", help="사용할 opt 바이너리 (비우면 기본값)")
+    parser.add_argument("--source-files", type=str, nargs="+", default=[], help="학습에 사용할 소스 파일 목록")
+    args = parser.parse_args()
+    arch = args.arch
+    print(f"[Config] arch={arch}")
+    # 경로 설정
+    os.makedirs(MODELS_DIR, exist_ok=True)
+    default_base, default_transfer = get_model_paths(arch)
+    base_model_path = args.base_path or default_base
+    transfer_model_path = args.out_path or default_transfer
+    print(f"[Config] base_model_path    = {base_model_path}")
+    print(f"[Config] transfer_model_path= {transfer_model_path}")
+    # 학습 대상 소스 파일
+    if args.source_files:
+        source_files = [os.path.abspath(f) for f in args.source_files]
+    else:
+        source_files = sorted(glob.glob(os.path.join(BENCH_DIR, "*.c")))
+    print(f"[Data] 학습 대상: {source_files}")
+    # Backbone 로드 (옵션)
+    backbone = None
+    if args.load_base:
+        if not os.path.exists(base_model_path):
+            raise FileNotFoundError(f"Base 모델을 찾을 수 없습니다: {base_model_path}")
+        backbone = extract_backbone_weights(base_model_path)
+    else:
+        print("[Backbone] base 모델 로드 생략 (순수 새 모델로 시작)")
+    # Env 생성 함수
+    def make_env():
+        return LoopUnrollEnv(
+            source_files=source_files,
+            repeat_runs=args.repeat_runs,
+            arch=arch,
+            clang_bin=args.clang_bin or None,
+            opt_bin=args.opt_bin or None,
+        )
+    vec_env = make_vec_env(make_env, n_envs=1)
+    # Transfer 모델 빌드
+    print("\n=== Transfer 모델 빌드 ===")
+    model = build_transfer_model(vec_env, backbone, freeze_backbone=args.freeze_backbone)
+    # 학습
+    print(f"\n=== Adapter 학습 ({args.timesteps} 스텝) ===")
+    model.learn(total_timesteps=args.timesteps, progress_bar=True)
+    # 저장
+    model.save(transfer_model_path.replace(".zip", ""))
+    print(f"\n저장 완료: {transfer_model_path}")
+if __name__ == "__main__":
+    main()