# 층화 분리된 데이터 분할 ## 분할 방법 - **층화 분리 (Stratified Split)**: industry 라벨 분포를 고려하여 분할 - **design_idx 그룹화**: 동일한 디자인이 여러 split에 나뉘지 않도록 처리 - **비율**: Train 70% / Val 10% / Test 20% - **Random Seed**: 42 ## 통계 ### Design 수 - Train: 44,022개 designs - Val: 6,228개 designs - Test: 12,736개 designs - Total: 62,986개 designs ### 레코드 수 - Train: 70,109개 records - Val: 9,981개 records - Test: 20,340개 records - Total: 100,430개 records ### Industry 분포 (Train 상위 10개) - 기업/비즈니스/전문서비스 > 제조/중공업/기계/금속: 3,645개 (5.20%) - IT/테크 > IT/웹/데이터: 2,602개 (3.71%) - 부동산/건축/환경 > 건축 > 건축설계/인테리어시공: 2,127개 (3.03%) - 업종 범용 > 기획안/보고서/제안서: 2,000개 (2.85%) - 업종 범용 > 시설안내/오피스관리: 1,928개 (2.75%) - 의료/건강 > 병원/의원/의료기관: 1,640개 (2.34%) - 공공/기관 > 정부/공공기관 > 중앙정부/지자체: 1,628개 (2.32%) - 교육/커리어 > 학원/온라인교육/기타 > 일반학습학원: 1,574개 (2.25%) - 식음료/외식 > 식재료/식품판매 > 농산/청과/임산: 1,282개 (1.83%) - 부동산/건축/환경 > 환경/에너지/ESG > 환경정화/폐기물: 1,228개 (1.75%) ## 검증 각 split의 industry 분포가 전체 데이터의 분포와 유사하게 유지됩니다. ## 재현 방법 ```bash cd opensource python scripts/stratified_split.py ``` **생성일**: 2026-03-10 **방법**: Stratified sampling by industry labels with design_idx grouping