File size: 2,734 Bytes
24c2665
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
# Phase 1: 기반 인프라 ꡬ좕 μ™„λ£Œ

## πŸ“ 디렉토리 ꡬ쑰 μ„€μ •

### μƒˆλ‘œ μƒμ„±λœ ν”„λ‘œμ νŠΈ
- `/home/ubuntu/RLVR/TestTime-RLVR-v2/` - AZR 기반 μƒˆ ν”„λ‘œμ νŠΈ

### 핡심 디렉토리 ꡬ쑰
```
TestTime-RLVR-v2/
β”œβ”€β”€ absolute_zero_reasoner/
β”‚   β”œβ”€β”€ testtime/                    # TestTime μ „μš© μ»΄ν¬λ„ŒνŠΈ
β”‚   β”‚   β”œβ”€β”€ __init__.py             # λͺ¨λ“ˆ μ΄ˆκΈ°ν™”
β”‚   β”‚   └── config.py               # TestTime μ„€μ •
β”‚   β”œβ”€β”€ utils/code_utils/           # AZR Python Executor (κΈ°μ‘΄)
β”‚   β”œβ”€β”€ rewards/                    # AZR Reward Manager (κΈ°μ‘΄)
β”‚   └── trainer/ppo/                # AZR PPO Trainer (κΈ°μ‘΄)
β”œβ”€β”€ logs/                           # λ‘œκΉ… μ‹œμŠ€ν…œ
β”‚   β”œβ”€β”€ problems/                   # λ¬Έμ œλ³„ 둜그
β”‚   β”œβ”€β”€ ipo_extraction/            # IPO μΆ”μΆœ 둜그
β”‚   β”œβ”€β”€ task_generation/           # νƒœμŠ€ν¬ 생성 둜그  
β”‚   β”œβ”€β”€ training/                  # ν•™μŠ΅ 둜그
β”‚   └── performance/               # μ„±λŠ₯ λ³€ν™” 둜그
β”œβ”€β”€ evaluation/code_eval/data/      # 벀치마크 데이터
β”‚   β”œβ”€β”€ HumanEvalPlus.jsonl        # βœ… 쑴재 확인
β”‚   └── MbppPlus.jsonl             # βœ… 쑴재 확인
└── Update/                        # 변경사항 좔적
```

## πŸ”§ μƒμ„±λœ 핡심 μ»΄ν¬λ„ŒνŠΈ

### 1. TestTimeConfig 클래슀
- **μœ„μΉ˜**: `absolute_zero_reasoner/testtime/config.py`
- **κΈ°λŠ₯**: TestTime RLVR 전체 μ„€μ • 관리
- **νŠΉμ§•**: AZR ν˜Έν™˜μ„± μœ μ§€ν•˜λ©΄μ„œ TestTime νŠΉν™” μ„€μ • μΆ”κ°€

### 2. BenchmarkConfig 클래슀  
- **μœ„μΉ˜**: `absolute_zero_reasoner/testtime/config.py`
- **κΈ°λŠ₯**: λ²€μΉ˜λ§ˆν¬λ³„ μ„€μ • (HumanEval+, MBPP+)
- **νŠΉμ§•**: λ²€μΉ˜λ§ˆν¬λ³„ μ‹œμž‘ 인덱슀, 경둜 λ“± 관리

## βœ… μ™„λ£Œλœ μž‘μ—…

1. **ν”„λ‘œμ νŠΈ 볡사**: AZR β†’ TestTime-RLVR-v2
2. **디렉토리 ꡬ쑰**: 둜그 및 μ»΄ν¬λ„ŒνŠΈ 디렉토리 생성
3. **κΈ°λ³Έ μ„€μ •**: TestTimeConfig, BenchmarkConfig 클래슀 생성
4. **데이터 확인**: HumanEval+, MBPP+ 데이터 파일 쑴재 확인
5. **λͺ¨λ“ˆ ꡬ쑰**: testtime νŒ¨ν‚€μ§€ μ΄ˆκΈ°ν™”

## 🎯 λ‹€μŒ 단계 (Phase 2)

1. **BenchmarkProblemLoader** κ΅¬ν˜„ - 벀치마크 문제 λ‘œλ”©
2. **InitialSolutionGenerator** κ΅¬ν˜„ - 초기 μ†”λ£¨μ…˜ 생성  
3. **벀치마크 검증 μ‹œμŠ€ν…œ** κ΅¬ν˜„ - μ†”λ£¨μ…˜ μ •ν™•μ„± 검증

## πŸ“ μ£Όμš” 섀계 원칙

- **AZR ν˜Έν™˜μ„±**: κΈ°μ‘΄ AZR μ»΄ν¬λ„ŒνŠΈ μ΅œλŒ€ν•œ μž¬μ‚¬μš©
- **κ²½λŸ‰ν™”**: TestTime에 μ ν•©ν•œ λΉ λ₯Έ 적응 ν•™μŠ΅
- **포괄적 λ‘œκΉ…**: λͺ¨λ“  단계별 상세 둜그 기둝
- **λͺ¨λ“ˆμ„±**: 각 μ»΄ν¬λ„ŒνŠΈ 독립적 ν…ŒμŠ€νŠΈ κ°€λŠ₯

---
**생성 μΌμ‹œ**: 2025-07-16  
**μƒνƒœ**: βœ… μ™„λ£Œ