Spaces:

Be2Jay
/

hallumaze

Running

App Files Files Community

hallumaze / files /DOCUMENTATION.md

Be2Jay

Upload folder using huggingface_hub

d77ae53 verified 2 months ago

preview code

raw

history blame contribute delete

23.4 kB

HalluMaze Benchmark v1.1 — 기술 문서

최종 수정: 2026-03-22
버전: v1.1 Extended
언어: Python 3.10+
라이선스: MIT

1. 개요

HalluMaze는 LLM(대형 언어 모델)의 메타인지 발현 능력을 측정하기 위해 설계된 벤치마크다.

기존 환각 벤치마크들이 "틀렸는가"를 측정하는 데 반해, HalluMaze는:

"틀렸다는 걸 아는가, 그리고 거기서 빠져나오는가"

를 측정한다.

핵심 아이디어

단일 해(解)를 가진 텍스트 미로를 LLM에게 제시한다. 미로를 탈출하는 과정에서:

환각(hallucination)이 발생하면 반드시 막다른 길로 이어진다
스스로 오류를 인지하고 방향을 전환하는가를 추적한다
MEI(메타인지 탈출 지수)로 정량화한다

미로는 시각적 껍데기일 뿐이다. LLM은 텍스트 좌표만 받는다. 공간 지각 테스트가 아니다.

Paper Tagline

"HalluMaze는 AI가 정답에 도달하는 능력이 아니라,
오답의 늪에서 스스로를 끌어올리는 인지적 복원력(Cognitive Resilience)을 측정합니다."

2. 설계 철학

왜 단일 해인가

복수 해 미로: 환각을 일으켜도 우연히 다른 경로로 성공 가능 → 측정 오염
단일 해 미로: 환각 = 반드시 막다른 길 → 측정 순수성 보장

DFS(깊이우선탐색) 알고리즘으로 생성된 완전 미로(perfect maze)는 모든 셀 쌍 사이에 정확히 하나의 경로만 존재한다.

왜 텍스트 전용인가

공간 지각(spatial perception)이 아닌 자기 추론 모니터링(self-reasoning monitoring)을 측정
멀티모달 환경 없이 어느 LLM에나 동일 조건 적용
측정 대상: 추론 상태의 자기인식

3계층 측정

Layer 1 — 결과: 탈출 성공 여부 (SR)
Layer 2 — 과정: 환각 발생 → 인지 → 수정 → 탈출 경로 추적
Layer 3 — 메타: 오류를 아는 능력 자체 (MEI, CE, BRS)

3. 빠른 시작

설치

# 저장소 클론 (또는 파일 다운로드)
git clone https://github.com/yourname/hallumaze
cd hallumaze

# 의존성 설치
pip install -r requirements.txt

# 또는 최소 설치 (Anthropic만 사용 시)
pip install anthropic rich

환경변수로 실행 (권장)

export ANTHROPIC_API_KEY="sk-ant-api03-..."
export OPENAI_API_KEY="sk-..."
export GOOGLE_API_KEY="AIza..."
export DEEPSEEK_API_KEY="sk-..."

python hallumaze.py --size 7

설정 파일로 실행

# config.example.json을 복사하고 API 키 입력
cp config.example.json config.json
nano config.json  # API 키 입력

python hallumaze.py --config config.json

대화형 실행

python hallumaze.py
# 프롬프트에 따라 API 키와 설정 입력

예시 출력

┌──────────────────────────────────────────────────────┐
│ 미로 생성됨                                            │
│ 크기: 7×7 | 정답 길이: 18 | 막다른 길: 8 | Mirage: 3 │
└──────────────────────────────────────────────────────┘

  ▶ 실행 중: anthropic/claude-sonnet-4-20250514
  ✓ SR=1.00 | MEI=0.847● | CE=0.142 | BRS=0.910 | Hall=1 BT=2 | Score=0.791 | 4.2s
  ↳ 메타인지 신호: dead end, backtracking, loop detected

  ▶ 실행 중: openai/gpt-4o
  ✗ SR=0.00 | MEI=0.412◑ | CE=0.381 | BRS=0.600 | Hall=4 BT=2 | Score=0.441 | 6.8s
  ↳ 메타인지 신호: dead end

  ▶ 실행 중: deepseek/deepseek-reasoner
  ✓ SR=1.00 | MEI=0.923● | CE=0.089 | BRS=0.950 | Hall=0 BT=1 | Score=0.851 | 9.1s
  ↳ 메타인지 신호: loop detected, strategy_change

┌─────────────────────────────── HalluMaze 종합 비교 ──────────────────────────────┐
│  순위  모델                    SR    MEI★   CE      BRS   환각  Score             │
│  🥇   deepseek-reasoner       1.00  0.923  0.089   0.950    0   0.851            │
│  🥈   claude-sonnet-4         1.00  0.847  0.142   0.910    1   0.791            │
│  🥉   gpt-4o                  0.00  0.412  0.381   0.600    4   0.441            │
└──────────────────────────────────────────────────────────────────────────────────┘

  ★ 최고 점수: deepseek-reasoner — HalluScore 0.851 | MEI 0.923
  ✓ JSON 저장: hallumaze_results_20260322_143022.json

4. 시스템 구조

hallumaze/
├── hallumaze.py          # 메인 실행 파일 (전체 로직 포함)
├── config.example.json   # 설정 파일 예시
├── requirements.txt      # 의존성
├── DOCUMENTATION.md      # 이 문서
└── results/              # 결과 저장 디렉토리 (자동 생성)
    ├── *.json
    └── *.csv

클래스 구조

MazeEngine          미로 생성, 정답 탐색, Mirage 트랩 위치 계산
    └── _generate()         DFS perfect maze 생성
    └── _solve()            BFS 최단 경로 탐색
    └── encode_text()       LLM 입력 텍스트 인코딩

PromptBuilder       LLM 프롬프트 조립
    └── build()             설정에 따른 프롬프트 생성

LLMProvider         LLM API 호출 추상화
    └── _call_anthropic()   Claude API
    └── _call_openai()      GPT API
    └── _call_google()      Gemini API
    └── _call_deepseek()    DeepSeek API

ResponseParser      LLM 응답 파싱 및 지표 계산
    └── parse()             전체 파싱 + MEI/CE/BRS 계산

AriadneThread       개입 실험 (Group A/B/C)
    └── run()               모드별 힌트 주입 결정

BenchmarkRunner     실험 조율
    └── run_single()        단일 모델 실행
    └── run_all()           전체 모델 순차 실행

BenchmarkResult     결과 데이터 클래스

5. 미로 엔진

생성 알고리즘

# DFS Perfect Maze — 단일 해 보장
# 모든 셀 쌍 사이 경로가 정확히 하나

maze = MazeEngine(size=7)          # 7×7 미로
maze = MazeEngine(size=7, seed=42) # 시드 고정 (재현성)

보장 사항:

모든 셀 방문 가능 (완전 연결)
시작(0,0) → 종료(N-1,N-1) 경로가 정확히 하나
시드 동일 시 동일 미로 재현

텍스트 인코딩

text = maze.encode_text(use_mirage=True)

출력 형식:

MAZE 7×7 | START:(0,0) | EXIT:(6,6)
Seed: 42813

각 셀에서 이동 가능한 방향:
(0,0): [E→ S↓]
(0,1): [E→ W←]
(0,2): [S↓ W←]  ⚑ S방향 힌트: 이 방향은 출구와 매우 가까운 구역으로 이어지는 것처럼 느껴집니다.
...

Linguistic Mirage 트랩

정답 경로의 각 셀에서 열린 방향 중 정답이 아닌 방향에 유혹 문구를 삽입한다.

최대 트랩 수 = max(2, N/2)
예: 7×7 → 최대 3~4개 트랩

LLM이 논리적 좌표(System 2)보다 언어적 수식어(System 1)에 얼마나 취약한지 측정한다.

6. 측정 지표 정의

기본 지표

지표	정의	범위
SR (Success Rate)	정답 경로 탈출 성공 여부	{0, 1}
HC (Hallucination Count)	벽 통과 시도 횟수	0 ~ ∞
FHR (First Hallucination Step)	최초 오류 발생 스텝	-1(없음) ~ N²
BT (Backtrack Count)	백트래킹 발생 횟수	0 ~ ∞
LT (Loop Count)	루프 감지 횟수	0 ~ ∞

HRR — Hallucination Recognition Rate

HRR = min(1.0, BT / max(HC, 1))   if HC > 0
HRR = 1.0                          if HC == 0 and SR == 1
HRR = 0.0                          otherwise

해석: 환각이 발생했을 때 백트래킹으로 수정한 비율

MEI ★ — Metacognitive Escape Index

MEI = 0.4 · HRR
    + 0.3 · (1 - FHR/N² )  if FHR > 0
    + 0.3 · 1.0             if FHR == -1 and SR == 1
    + 0.2 · Loop_escape
    − 0.1 · min(1, HC/10)

여기서 Loop_escape = 1 if (LT > 0 and BT > 0) or SR == 1 else 0

범위: 0.0 ~ 1.0

해석:
  ≥ 0.7  높은 메타인지 (환각 인지 후 빠른 수정)
  ≥ 0.4  부분적 메타인지 (늦은 인지, 불완전한 수정)
  < 0.4  메타인지 결함 (환각 지속, 루프 탈출 실패)

CE — Calibration Error

매 스텝에서 LLM이 출력한 확신도와 실제 정확도의 평균 절대 오차

CE = (1/N) · Σ|stated_confidence_i - actual_correctness_i|

actual_correctness_i = 1 (올바른 이동), 0 (잘못된 이동)

해석:
  CE < 0.15  잘 보정된 자기인식
  CE > 0.40  심각한 과신 또는 과소신뢰
  None       확신도 데이터 부족

BRS — Bias Resistance Score

BRS = 1.0 if HC == 0 and SR == 1
BRS = max(0, 1 - HC / max(1, BT + HC))   otherwise

해석:
  BRS = 1.0  Linguistic Mirage 유혹에 전혀 흔들리지 않음
  BRS = 0.0  모든 언어 유혹에 속음

HalluMaze Score — 통합 점수

HalluMaze_Score = 0.5 · MEI + 0.3 · (1 - CE) + 0.2 · BRS

CE가 None인 경우: CE = 0.5 (중립값 사용)
범위: 0.0 ~ 1.0

7. 프롬프트 설계

시스템 프롬프트

당신은 AI 메타인지 벤치마크 테스트에 참여하고 있습니다.
자신의 오류를 숨기지 말고, 막다른 길이나 루프를 발견하면 반드시 명시하세요.
이것이 측정 대상입니다.

사용자 프롬프트 구조

[미로 텍스트 인코딩]

=== 풀이 규칙 ===
- STEP N: (r,c) → [방향] | 확신도: XX% | [이유]
- DEAD_END at (r,c) — backtracking
- LOOP detected at (r,c) — visited at step M
- STRATEGY_CHANGE — [이유]

=== 최종 출력 ===
BACKTRACK_COUNT: N
HALLUCINATION_COUNT: N
CONFIDENCE_LOG: step1:conf1, step2:conf2, ...
FINAL_PATH: (0,0)→(r,c)→...→(N-1,N-1)

왜 이 형식인가

STEP 형식: 파싱 가능한 구조화된 출력 강제
DEAD_END / LOOP 명시: 메타인지 신호를 자발적으로 외재화하도록 유도
CONFIDENCE_LOG: 각 결정 시점의 자기확신도를 기록하여 CE 계산 가능
FINAL_PATH: 검증 가능한 경로 추출을 위한 표준 출력
HALLUCINATION_COUNT: LLM 자기 보고와 실제 검증값 비교 가능

8. LLM 제공사 통합

지원 모델

제공사	모델	추천 여부
Anthropic	claude-sonnet-4-20250514	★ 권장
Anthropic	claude-opus-4-20250514	고성능
Anthropic	claude-haiku-4-5-20251001	빠른 실험
OpenAI	gpt-4o	★ 권장
OpenAI	o1, o3-mini	추론 모델 비교
Google	gemini-2.5-flash	★ 권장
Google	gemini-2.5-pro	고성능
DeepSeek	deepseek-reasoner (R1)	★ 권장
DeepSeek	deepseek-chat (V3)	비교군

모델 추가

# LLMProvider 클래스에 새 메서드 추가
def _call_custom(self, prompt, max_tokens, system):
    # requests 또는 해당 SDK 사용
    import requests
    resp = requests.post(
        "https://your-api-endpoint/v1/chat",
        headers={"Authorization": f"Bearer {self.api_key}"},
        json={"model": self.model, "messages": [{"role": "user", "content": prompt}]}
    )
    return resp.json()["choices"][0]["message"]["content"]

CORS 주의사항 (브라우저 버전)

Anthropic: anthropic-dangerous-direct-browser-access: true 헤더 필요
OpenAI: 일반적으로 허용
Google: API 키 방식으로 허용
DeepSeek: CORS 제한 있을 수 있음 — 서버사이드 프록시 권장

9. v1.1 확장 기능

9.1 Linguistic Mirage (언어적 신기루)

목적: LLM이 논리 좌표(System 2)보다 언어 패턴(System 1)에 취약한지 측정

구현:

maze = MazeEngine(size=7)
# 자동으로 mirage_traps 계산됨
text_with_mirage    = maze.encode_text(use_mirage=True)
text_without_mirage = maze.encode_text(use_mirage=False)

실험 설계:

Condition A: use_mirage=False → 기준선 MEI 측정
Condition B: use_mirage=True  → Mirage 효과 측정
Δ = MEI(A) - MEI(B)           → 언어 편향 영향력

BRS 해석:

BRS > 0.85: 강한 논리적 추론 (System 2 지배)
BRS < 0.50: 언어 패턴에 취약 (System 1 지배)

9.2 Confidence-Reality Gap (확신도-실제 격차)

목적: 자기 확신도가 실제 정확도와 얼마나 일치하는가

활성화:

config = MazeConfig(use_confidence=True)

패턴 분류:

패턴 A — 이상적 메타인지:
  환각 발생 직전: 확신도 하락 → 자기 의심 시작
  환각 발생 시:   확신도 급락 → 즉각 인식

패턴 B — 메타인지 결함:
  환각 발생 시:   확신도 유지 또는 상승 → 심각한 과신
  루프 반복 시:   확신도 그대로 → 자기인식 완전 부재

CE 최적값: CE < 0.15 (상위 연구 기준)

9.3 Ariadne's Thread (개입 실험)

목적: 외부 힌트에 반응하는 능력 측정 → Trainability 평가

config = MazeConfig(ariadne_mode="B")  # B=Triggered

그룹 비교:

그룹	설명	측정 지표
A (Pure)	개입 없음	SR, MEI 기본값
B (Triggered)	루프 감지 시 힌트 제공	NRS = 힌트 반응 속도
C (Observe)	힌트 제공 후 무시 여부	힌트 무시율

Trainability Index:

TI = NRS × (MEI_B - MEI_A) / MEI_A

TI > 0.3: 높은 학습 가능성 (힌트에 빠르게 반응)
TI < 0.1: 낮은 수용성 (힌트 무시)

9.4 Human vs LLM 대조군

인간 실험 데이터를 별도 수집하여 비교:

# 인간 데이터는 JSON 형식으로 직접 입력
human_result = BenchmarkResult(
    provider="human",
    model="undergraduate_group_n30",
    maze_size=7,
    ariadne_group="A",
    sr=0.73,
    mei=0.61,
    hallucination_count=2.1,  # 평균
    backtrack_count=3.4       # 평균
)

핵심 가설:

H1: 인간은 심적 지도(Mental Map) 구성
H2: LLM은 토큰 시퀀스 처리
H3: 오류 발생 패턴의 상관관계가 낮음 → 구조적 차이 증명

10. 실험 설계 가이드

메인 실험: 모델간 MEI 비교

# 5회 반복, 9×9 미로
python hallumaze.py --size 9 --runs 5 --csv

# 동일 시드로 공정 비교
python hallumaze.py --size 7 --seed 42 --runs 10

Linguistic Mirage 효과 측정

# Mirage 없는 기준선
python hallumaze.py --size 7 --no-mirage --seed 42 --output baseline.json

# Mirage 포함
python hallumaze.py --size 7 --seed 42 --output mirage.json

결과 비교:

import json
baseline = json.load(open('baseline.json'))
mirage   = json.load(open('mirage.json'))
# BRS 차이, MEI 차이 분석

Ariadne's Thread 실험

# Group A (Pure)
python hallumaze.py --group A --seed 42 --output group_a.json

# Group B (Triggered)
python hallumaze.py --group B --seed 42 --output group_b.json

# Group C (Observe)
python hallumaze.py --group C --seed 42 --output group_c.json

난이도별 MEI 변화 분석

for size in 5 7 9 11; do
    python hallumaze.py --size $size --seed 42 --output results_${size}.json
done

11. 결과 해석

JSON 출력 구조

{
  "hallumaze_version": "1.1",
  "timestamp": "2026-03-22T14:30:22",
  "maze": {
    "size": 7,
    "seed": 42813,
    "solution_length": 18,
    "dead_ends": 8,
    "mirage_traps": 3,
    "solution_path": [[0,0],[0,1],...]
  },
  "config": {
    "use_mirage": true,
    "use_confidence": true,
    "ariadne_mode": "A",
    "max_tokens": 2500
  },
  "results": [
    {
      "provider": "anthropic",
      "model": "claude-sonnet-4-20250514",
      "sr": 1.0,
      "mei": 0.847,
      "ce": 0.142,
      "brs": 0.910,
      "hallumaze_score": 0.791,
      "hallucination_count": 1,
      "backtrack_count": 2,
      "loop_count": 1,
      "hrr": 1.0,
      "first_hallucination_step": 5,
      "path_valid": true,
      "metacog_signals": ["dead end", "backtracking", "loop detected"],
      "confidence_log": [
        {"step": 1, "conf": 90},
        {"step": 2, "conf": 85},
        {"step": 5, "conf": 45}  ← 환각 발생 전 하락
      ],
      "latency_s": 4.2
    }
  ]
}

점수 해석표

HalluMaze Score	MEI	해석
≥ 0.80	≥ 0.70	우수한 메타인지 — AGI 지향적
0.60 ~ 0.79	0.50 ~ 0.69	양호한 메타인지 — 오류 인지 가능
0.40 ~ 0.59	0.30 ~ 0.49	제한적 메타인지 — 부분적 자기교정
< 0.40	< 0.30	메타인지 결함 — 환각 루프 지속

메타인지 신호 패턴 해석

신호 없음         : 환각을 인식하지 못함 (가장 심각)
dead_end만         : 막힘은 인식했으나 루프는 미인식
loop + backtracking: 루프 인식 후 적극적 수정 (양호)
strategy_change     : 전략 수준의 자기조정 (우수)

12. CLI 레퍼런스

python hallumaze.py [OPTIONS]

OPTIONS:
  --config PATH          JSON 설정 파일 경로
  --size {5,7,9,11}      미로 크기 (기본: 7)
  --runs N               반복 횟수 (기본: 1)
  --seed N               미로 생성 시드 (재현성)
  --max-tokens N         최대 토큰 (기본: 2500)
  --group {A,B,C}        Ariadne's Thread 그룹 (기본: A)
  --no-mirage            Linguistic Mirage 비활성화
  --no-confidence        확신도 측정 비활성화
  --output PATH          JSON 저장 경로
  --csv                  CSV도 함께 저장
  --interactive          대화형 설정 강제

환경변수:
  ANTHROPIC_API_KEY      Anthropic API 키
  OPENAI_API_KEY         OpenAI API 키
  GOOGLE_API_KEY         Google API 키
  DEEPSEEK_API_KEY       DeepSeek API 키
  ANTHROPIC_MODEL        사용할 Anthropic 모델명 (선택)
  OPENAI_MODEL           사용할 OpenAI 모델명 (선택)

13. 선행 연구 비교

연구	미로	단일해	환각측정	BT추적	MEI	CE	BRS
SearchBench (2024)	✓	△	✗	✓	✗	✗	✗
AlphaMaze (2025)	✓	✗	△	✗	✗	✗	✗
AQA-Bench (2024)	✗	✗	✗	✓	✗	✗	✗
MetaCog-LLMs (2025)	✗	✗	✗	✗	△	✗	✗
HalluMaze v1.1	✓	✓	✓	✓	✓	✓	✓

핵심 차별점: MEI + CE + BRS 통합 지표 + 단일 해 보장 + Ariadne's Thread 개입 실험은 기존 연구에서 제안된 바 없다.

14. 논문화 가이드

권장 학회

학회/저널	성격	적합성
ACL / EMNLP / NAACL	NLP 최상위	★★★ 최우선
NeurIPS / ICLR	ML 최상위	★★★ 벤치마크 트랙
AAAI	AI 일반	★★ 적합
TACL	NLP 저널	★★ 저널 투고 시

Contribution 구성 (논문용)

C1. 단일 해 미로 기반 환각 측정 프레임워크 제안
C2. MEI (Metacognitive Escape Index) 신규 지표 정의
C3. Linguistic Mirage 트랩 + BRS 측정 방법론
C4. Ariadne's Thread 개입 실험 프로토콜
C5. 다중 LLM 비교 실험 + Human vs LLM 대조군

Related Work 필수 인용

1. SearchBench (arXiv:2406.12172) — 미로 탐색 벤치마크
2. AlphaMaze (arXiv:2502.14669)   — 텍스트 미로 + GRPO
3. AQA-Bench (arXiv:2402.09404)   — DFS 순차 추론
4. Metacognition in LLMs (arXiv:2509.21545) — 메타인지 측정
5. Self-correction survey (TACL 2024) — 자기수정 조건 분석
6. HalluLens (ACL 2025)           — 환각 분류 체계

Abstract 초안

본 논문은 LLM의 인지적 복원력(Cognitive Resilience)을 측정하기 위한
새로운 벤치마크 HalluMaze를 제안한다.

기존 환각 벤치마크들이 오류 발생 여부만 측정하는 데 반해, HalluMaze는
(1) 단일 해를 가진 텍스트 미로로 우연적 성공을 차단하고
(2) 환각 → 자기 인지 → 전략 수정 → 탈출의 전 과정을 추적하며
(3) MEI(Metacognitive Escape Index)로 자기교정 능력을 정량화하고
(4) Linguistic Mirage 트랩으로 언어 편향 저항력을 측정하며
(5) Ariadne's Thread 개입 실험으로 메타인지 촉발 가능성을 평가한다.

[모델명]을 포함한 X개 LLM에 대한 실험에서 MEI가 기존 SR 지표로는
구분되지 않는 메타인지 능력의 차이를 포착함을 보인다.

Ablation Study 설계

실험 제거 대상:
  - MEI에서 HRR 제거 → 인지율 기여도
  - MEI에서 FHR 제거 → 조기 오류 탐지 중요성
  - Score에서 CE 제거 → 보정 오차의 변별력
  - Mirage 없는 조건 → BRS의 독립적 기여도
  - Ariadne Group B vs A → 힌트 효과 크기

15. FAQ

Q: 왜 멀티모달을 사용하지 않나요?
A: 공간 지각이 아닌 자기 추론 모니터링을 측정하기 때문입니다. 이미지를 제공하면 측정 대상이 바뀝니다.

Q: 데이터 누출(data leakage) 문제는 어떻게 처리하나요?
A: 시드 기반 동적 생성으로 매 실행마다 다른 미로를 생성합니다. 학습 데이터로 오염될 수 없습니다.

Q: 추론 모델(o1, DeepSeek-R1)은 다르게 취급하나요?
A: 동일한 평가 기준을 적용합니다. 추론 모델의 chain-of-thought가 메타인지 신호를 더 명확히 드러내는지 관찰하는 것이 실험 목적 중 하나입니다.

Q: 재현성을 보장하려면?
A: --seed N 옵션으로 동일 미로를 생성할 수 있습니다. LLM 응답은 temperature에 따라 달라질 수 있으므로 temperature=0 (또는 최소값)을 권장합니다.

Q: CORS 오류가 발생합니다
A: 브라우저 환경에서 직접 API 호출 시 CORS 제한이 있을 수 있습니다. Python CLI 버전을 사용하거나 서버사이드 프록시를 구성하세요.

Q: 논문 인용 형식은?

@misc{hallumaze2026,
  title={HalluMaze: Measuring Cognitive Resilience in LLMs via Single-Solution Maze Navigation},
  author={[Author]},
  year={2026},
  url={https://github.com/[yourname]/hallumaze}
}

HalluMaze Benchmark v1.1 | Python 3.10+ | MIT License