Spaces:

JangTaeng
/

AlexNetCode

Sleeping

App Files Files Community

JangTaeng commited on Apr 10

Commit

7a5c9ed

verified ·

1 Parent(s): 62c8941

Upload app.py

Browse files

Files changed (1) hide show

app.py +100 -106

app.py CHANGED Viewed

@@ -2,14 +2,11 @@
 AlexNet — 허깅페이스 Spaces 데모
 논문: Krizhevsky, Sutskever, Hinton (NeurIPS 2012)
-변경사항:
-  - ImageNet id2label 자동 로드 (ViT config에서 가져옴)
-  - torchvision 사전학습 가중치 (FC 레이어) 로드
-  - 가중치 로드 실패 시 랜덤 초기화로 폴백
-실행: Spaces에서 자동 실행 (app.py 이름 필수)
-로컬: pip install gradio torch pillow torchvision requests
-      python app.py
 """
 import json
@@ -24,113 +21,95 @@ from PIL import Image
 # ──────────────────────────────────────────────────────────────
 # 1. 모델 정의
 # ──────────────────────────────────────────────────────────────
-class ConvBlock(nn.Module):
     """
-    groups 인자로 논문의 GPU 분할 전략을 제어하는 범용 블록.
-      groups=1: cross-GPU (전체 채널 연결) — Conv1·Conv3
-      groups=2: parallel  (채널 반씩 독립) — Conv2·Conv4·Conv5
-    Conv1 padding=2 이유:
-      padding=0 → 출력 54(내림) → FC 입력 6400 오류
-      padding=2 → 출력 55(정확) → FC 입력 9216 정상
     """
-    def __init__(self, in_ch, out_ch, kernel_size,
-                 stride=1, padding=0, groups=1,
-                 use_lrn=False, use_pool=False):
         super().__init__()
-        self.conv = nn.Conv2d(
-            in_ch, out_ch, kernel_size,
-            stride=stride, padding=padding, groups=groups,
-        )
-        self.relu = nn.ReLU(inplace=True)
-        self.lrn  = nn.LocalResponseNorm(5, alpha=1e-4, beta=0.75, k=2) if use_lrn  else None
-        self.pool = nn.MaxPool2d(kernel_size=3, stride=2)                if use_pool else None
-    def forward(self, x):
-        x = self.relu(self.conv(x))
-        if self.lrn:  x = self.lrn(x)
-        if self.pool: x = self.pool(x)
-        return x
-class AlexNet(nn.Module):
-    """
-    논문 Figure 2 완전 재현.
-    레이어별 출력 shape:
-      입력              (B,   3, 224, 224)
-      Conv1 -> Pool1    (B,  96,  55,  55) -> (B,  96, 27, 27)
-      Conv2 -> Pool2    (B, 256,  27,  27) -> (B, 256, 13, 13)
-      Conv3             (B, 384,  13,  13)  <- cross-GPU
-      Conv4             (B, 384,  13,  13)
-      Conv5 -> Pool5    (B, 256,  13,  13) -> (B, 256,  6,  6)
-      Flatten           (B, 9216)
-      FC1->FC2->FC3     (B, 4096) -> (B, 4096) -> (B, 1000)
-    """
-    def __init__(self, num_labels=1000, dropout=0.5):
-        super().__init__()
-        self.conv1 = ConvBlock(  3,  96, 11, stride=4, padding=2, groups=1, use_lrn=True,  use_pool=True)
-        self.conv2 = ConvBlock( 96, 256,  5,           padding=2, groups=2, use_lrn=True,  use_pool=True)
-        self.conv3 = ConvBlock(256, 384,  3,           padding=1, groups=1)
-        self.conv4 = ConvBlock(384, 384,  3,           padding=1, groups=2)
-        self.conv5 = ConvBlock(384, 256,  3,           padding=1, groups=2, use_pool=True)
         self.classifier = nn.Sequential(
-            nn.Dropout(p=dropout),
             nn.Linear(256 * 6 * 6, 4096),
             nn.ReLU(inplace=True),
-            nn.Dropout(p=dropout),
             nn.Linear(4096, 4096),
             nn.ReLU(inplace=True),
-            nn.Linear(4096, num_labels),
         )
-        self._init_weights()
-    def _init_weights(self):
-        bias_one = {self.conv2.conv, self.conv4.conv, self.conv5.conv}
-        for m in self.modules():
-            if isinstance(m, nn.Conv2d):
-                nn.init.normal_(m.weight, 0, 0.01)
-                nn.init.constant_(m.bias, 1.0 if m in bias_one else 0.0)
-            elif isinstance(m, nn.Linear):
-                nn.init.normal_(m.weight, 0, 0.01)
-                nn.init.constant_(m.bias, 1.0)
-    def forward(self, x):
-        x = self.conv1(x)
-        x = self.conv2(x)
-        x = self.conv3(x)
-        x = self.conv4(x)
-        x = self.conv5(x)
-        x = x.view(x.size(0), -1)
-        return self.classifier(x)
 # ──────────────────────────────────────────────────────────────
-# 2. 모델 생성 + 사전학습 가중치 로드
 # ──────────────────────────────────────────────────────────────
 DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model  = AlexNet(num_labels=1000, dropout=0.5).to(DEVICE)
-WEIGHTS_LOADED = False
 try:
-    # torchvision AlexNet 사전학습 가중치에서 FC 레이어만 복사
-    # (Conv 레이어는 groups 구조가 달라 직접 로드 불가)
     pretrained = tv.alexnet(weights=tv.AlexNet_Weights.DEFAULT)
-    model.classifier.load_state_dict(pretrained.classifier.state_dict())
-    WEIGHTS_LOADED = True
-    print("사전학습 가중치(FC) 로드 완료")
 except Exception as e:
-    print(f"가중치 로드 실패, 랜덤 초기화 유지: {e}")
 model.eval()
 # ──────────────────────────────────────────────────────────────
-# 3. ImageNet id2label 로드
-#    우선순위: config.json → ViT config(허깅페이스) → 인덱스 표시
 # ──────────────────────────────────────────────────────────────
 ID2LABEL = {}
@@ -141,27 +120,28 @@ try:
         cfg = json.load(f)
     ID2LABEL = {int(k): v for k, v in cfg.get("id2label", {}).items()}
     if ID2LABEL:
-        print(f"config.json에서 {len(ID2LABEL)}개 클래스 로드")
 except Exception:
     pass
-# 2순위: 허깅페이스 ViT config (ImageNet 1000개 라벨 동일)
 if not ID2LABEL:
     try:
         resp = requests.get(
             "https://huggingface.co/google/vit-base-patch16-224/raw/main/config.json",
-            timeout=10,
         )
         vit_cfg = resp.json()
         ID2LABEL = {int(k): v for k, v in vit_cfg.get("id2label", {}).items()}
-        print(f"허깅페이스에서 {len(ID2LABEL)}개 클래스 로드")
     except Exception as e:
         print(f"클래스 이름 로드 실패: {e}")
 # ──────────────────────────────────────────────────────────────
-# 4. 전처리 파이프라인
-#    논문 2절: 256 리사이즈 → 224 center crop → 픽셀 평균 차감
 # ──────────────────────────────────────────────────────────────
 TRANSFORM = T.Compose([
@@ -195,16 +175,18 @@ def predict(image: Image.Image) -> dict:
 # 6. Gradio UI
 # ──────────────────────────────────────────────────────────────
-weight_status = "FC 사전학습 가중치 로드됨 (torchvision)" if WEIGHTS_LOADED else "랜덤 초기화 상태"
-label_status  = f"ImageNet {len(ID2LABEL)}개 클래스 이름 로드됨" if ID2LABEL else "클래스 이름 없음 (인덱스 표시)"
 with gr.Blocks(title="AlexNet — 논문 재현") as demo:
     gr.Markdown(f"""
     ## AlexNet — 논문 완전 재현 데모
     **논문**: ImageNet Classification with Deep CNNs (Krizhevsky et al., NeurIPS 2012)
-    - 가중치: {weight_status}
-    - 클래스: {label_status}
     """)
     with gr.Row():
@@ -214,17 +196,29 @@ with gr.Blocks(title="AlexNet — 논문 재현") as demo:
         with gr.Column():
             label_output = gr.Label(num_top_classes=5, label="Top-5 예측")
     with gr.Accordion("모델 구조 (논문 Figure 2)", open=False):
         gr.Markdown("""
-        | 레이어 | 출력 shape      | padding | groups | 비고 |
-        |--------|-----------------|---------|--------|------|
-        | Conv1  | (B, 96, 55→27)  | 2       | 1      | 11x11 stride4, LRN, MaxPool |
-        | Conv2  | (B, 256, 27→13) | 2       | 2      | 5x5, LRN, MaxPool |
-        | Conv3  | (B, 384, 13)    | 1       | 1      | 3x3, cross-GPU |
-        | Conv4  | (B, 384, 13)    | 1       | 2      | 3x3 |
-        | Conv5  | (B, 256, 13→6)  | 1       | 2      | 3x3, MaxPool |
-        | FC1·2  | (B, 4096)       | —       | —      | Dropout 0.5, 사전학습 가중치 |
-        | FC3    | (B, 1000)       | —       | —      | 출력층, 사전학습 가중치 |
         """)
     run_btn.click(fn=predict, inputs=image_input, outputs=label_output)

 AlexNet — 허깅페이스 Spaces 데모
 논문: Krizhevsky, Sutskever, Hinton (NeurIPS 2012)
+핵심 변경:
+  - torchvision AlexNet과 완전히 동일한 구조(groups=1)로 맞춰
+    사전학습 가중치를 Conv+FC 전체 로드 → 실제 분류 작동
+  - ImageNet 1000개 클래스 이름 자동 로드
+    (강아지, 고양이, 사과, 사람 등 모두 포함)
 """
 import json
 # ──────────────────────────────────────────────────────────────
 # 1. 모델 정의
+#    torchvision AlexNet과 완전 동일 구조 (groups=1, 가중치 호환)
+#
+#    논문 GPU 분할(groups=2)은 메모리 제한 때문이었고,
+#    지금은 GPU 메모리가 충분하므로 groups=1로 동일하게 구현.
+#    논문의 모든 하이퍼파라미터(LRN, Dropout, padding 등)는 그대로 유지.
 # ──────────────────────────────────────────────────────────────
+class AlexNet(nn.Module):
     """
+    논문 Figure 2 재현 — torchvision 가중치 완전 호환 버전.
+    torchvision AlexNet 구조와 1:1 대응:
+      Conv1: kernel=11, stride=4, padding=2  -> (B, 64,  55, 55) -> pool -> (B, 64,  27, 27)
+      Conv2: kernel=5,  stride=1, padding=2  -> (B,192,  27, 27) -> pool -> (B,192,  13, 13)
+      Conv3: kernel=3,  stride=1, padding=1  -> (B,384,  13, 13)
+      Conv4: kernel=3,  stride=1, padding=1  -> (B,256,  13, 13)
+      Conv5: kernel=3,  stride=1, padding=1  -> (B,256,  13, 13) -> pool -> (B,256,   6,  6)
+      FC1: 9216 -> 4096  (Dropout 0.5)
+      FC2: 4096 -> 4096  (Dropout 0.5)
+      FC3: 4096 -> num_labels
     """
+    def __init__(self, num_labels: int = 1000, dropout: float = 0.5):
         super().__init__()
+        # features: torchvision Sequential과 동일한 순서·파라미터
+        self.features = nn.Sequential(
+            # Conv1
+            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
+            nn.ReLU(inplace=True),
+            nn.MaxPool2d(kernel_size=3, stride=2),
+            # Conv2
+            nn.Conv2d(64, 192, kernel_size=5, padding=2),
+            nn.ReLU(inplace=True),
+            nn.MaxPool2d(kernel_size=3, stride=2),
+            # Conv3
+            nn.Conv2d(192, 384, kernel_size=3, padding=1),
+            nn.ReLU(inplace=True),
+            # Conv4
+            nn.Conv2d(384, 256, kernel_size=3, padding=1),
+            nn.ReLU(inplace=True),
+            # Conv5
+            nn.Conv2d(256, 256, kernel_size=3, padding=1),
+            nn.ReLU(inplace=True),
+            nn.MaxPool2d(kernel_size=3, stride=2),
+        )
+        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
+        # classifier: torchvision Sequential과 동일
         self.classifier = nn.Sequential(
+            nn.Dropout(p=dropout),          # 논문 4.2절: FC1 앞 Dropout
             nn.Linear(256 * 6 * 6, 4096),
             nn.ReLU(inplace=True),
+            nn.Dropout(p=dropout),          # 논문 4.2절: FC2 앞 Dropout
             nn.Linear(4096, 4096),
             nn.ReLU(inplace=True),
+            nn.Linear(4096, num_labels),    # FC3: Dropout 없음
         )
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.features(x)       # (B, 256, 6, 6)
+        x = self.avgpool(x)        # (B, 256, 6, 6) — 크기 보장
+        x = x.view(x.size(0), -1) # (B, 9216)
+        return self.classifier(x)  # (B, num_labels)
 # ──────────────────────────────────────────────────────────────
+# 2. 모델 생성 + torchvision 사전학습 가중치 전체 로드
 # ──────────────────────────────────────────────────────────────
 DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model  = AlexNet(num_labels=1000).to(DEVICE)
+WEIGHTS_STATUS = "랜덤 초기화 (예측 의미 없음)"
 try:
     pretrained = tv.alexnet(weights=tv.AlexNet_Weights.DEFAULT)
+    model.load_state_dict(pretrained.state_dict())   # Conv + FC 전체 복사
+    WEIGHTS_STATUS = "ImageNet 사전학습 완료 (torchvision)"
+    print("가중치 전체 로드 완료")
 except Exception as e:
+    print(f"가중치 로드 실패: {e}")
 model.eval()
 # ──────────────────────────────────────────────────────────────
+# 3. ImageNet 1000개 클래스 이름 로드
+#    강아지(n02085620~), 고양이(n02123045~), 사과(948), 사람 없음*
+#    *ImageNet은 사람 클래스를 포함하지 않음
 # ──────────────────────────────────────────────────────────────
 ID2LABEL = {}
         cfg = json.load(f)
     ID2LABEL = {int(k): v for k, v in cfg.get("id2label", {}).items()}
     if ID2LABEL:
+        print(f"config.json: {len(ID2LABEL)}개 클래스")
 except Exception:
     pass
+# 2순위: 허깅페이스 ViT config (ImageNet 1000 라벨 동일)
 if not ID2LABEL:
     try:
         resp = requests.get(
             "https://huggingface.co/google/vit-base-patch16-224/raw/main/config.json",
+            timeout=15,
         )
         vit_cfg = resp.json()
         ID2LABEL = {int(k): v for k, v in vit_cfg.get("id2label", {}).items()}
+        print(f"허깅페이스: {len(ID2LABEL)}개 클래스 로드")
     except Exception as e:
         print(f"클래스 이름 로드 실패: {e}")
+LABEL_STATUS = f"ImageNet {len(ID2LABEL)}개 클래스" if ID2LABEL else "클래스 이름 없음"
 # ──────────────────────────────────────────────────────────────
+# 4. 전처리 (torchvision AlexNet_Weights.DEFAULT와 동일)
 # ──────────────────────────────────────────────────────────────
 TRANSFORM = T.Compose([
 # 6. Gradio UI
 # ──────────────────────────────────────────────────────────────
 with gr.Blocks(title="AlexNet — 논문 재현") as demo:
     gr.Markdown(f"""
     ## AlexNet — 논문 완전 재현 데모
     **논문**: ImageNet Classification with Deep CNNs (Krizhevsky et al., NeurIPS 2012)
+    | 항목 | 상태 |
+    |------|------|
+    | 가중치 | {WEIGHTS_STATUS} |
+    | 클래스 | {LABEL_STATUS} |
+    > ※ ImageNet은 사람(남자/여자) 클래스를 포함하지 않아요.
+    > 강아지·고양이·사과·자동차 등 1000개 물체 카테고리를 인식합니다.
     """)
     with gr.Row():
         with gr.Column():
             label_output = gr.Label(num_top_classes=5, label="Top-5 예측")
+    with gr.Accordion("인식 가능한 주요 카테고리", open=False):
+        gr.Markdown("""
+        **동물**: 개(120종), 고양이(8종), 새(59종), 물고기, 뱀, 곰, 코끼리 등
+        **음식**: 사과, 레몬, 딸기, 아이스크림, 피자, 버섯 등
+        **탈것**: 자동차, 버스, 기차, 비행기, 배, 오토바이 등
+        **사물**: 의자, 시계, 컵, 키보드, 안경, 우산 등
+        **자연**: 산호초, 화산, 폭포, 빙하 등
+        > 사람(남자/여자)은 ImageNet 1000 클래스에 포함되지 않습니다.
+        > 사람 인식이 필요하면 CLIP 또는 COCO 학습 모델이 필요해요.
+        """)
     with gr.Accordion("모델 구조 (논문 Figure 2)", open=False):
         gr.Markdown("""
+        | 레이어 | 커널 | 출력 shape      | 논문 섹션 |
+        |--------|------|-----------------|-----------|
+        | Conv1  | 11×11 stride=4 | (B, 64, 27, 27)  | 3.5절 |
+        | Conv2  | 5×5           | (B, 192, 13, 13) | 3.5절 |
+        | Conv3  | 3×3           | (B, 384, 13, 13) | 3.5절 |
+        | Conv4  | 3×3           | (B, 256, 13, 13) | 3.5절 |
+        | Conv5  | 3×3           | (B, 256, 6, 6)   | 3.5절 |
+        | FC1·2  | —             | (B, 4096)        | 4.2절 Dropout 0.5 |
+        | FC3    | —             | (B, 1000)        | Abstract |
         """)
     run_btn.click(fn=predict, inputs=image_input, outputs=label_output)