FinGraph / src /utils /research_notes.md
dev-yuje's picture
feat: implement Neo4j Client fallback auth, add disabled daily cron pipeline and update checklist
64ad66f
|
raw
history blame
3.88 kB
# πŸ“Š 졜적의 GraphRAG κ°±μ‹  μ£ΌκΈ° λ„μΆœ λ³΄κ³ μ„œ
> **Data-Driven Analysis for GraphRAG Synchronization Cycle**
λ³Έ λ³΄κ³ μ„œλŠ” μ‹€μ œ 넀이버 λ‰΄μŠ€ IT/κ³Όν•™ 및 경제 μΉ΄ν…Œκ³ λ¦¬μ—μ„œ ν•„ν„°λ§λœ **고유 AI ν•€ν…Œν¬ 기사**λ“€μ˜ λ‚ μ§œλ³„ μœ μž… λΉˆλ„λ₯Ό μ •λŸ‰ λΆ„μ„ν•˜μ—¬, μ‹œμŠ€ν…œ 운영 νš¨μœ¨μ„±κ³Ό μ΅œμ‹  정보 νšλ“ 속도(API λΉ„μš© λŒ€λΉ„ νš¨μš©μ„±)λ₯Ό λͺ¨λ‘ λ§Œμ‘±ν•˜λŠ” 졜적의 GraphRAG μ΅œμ‹ ν™” μ£ΌκΈ°λ₯Ό μˆ˜ν•™μ μœΌλ‘œ λ„μΆœν•œ κ²°κ³Όμž…λ‹ˆλ‹€.
---
## 1. μ •λŸ‰ 데이터 μˆ˜μ§‘ 및 뢄석 ν˜„ν™©
* **μˆ˜μ§‘λœ 원본 데이터셋 λͺ©λ‘**:
1. `Articles_20260518_223626.xlsx` (34건)
2. `Articles_20260519_155940.xlsx` (40건)
* **고유 기사 총합 (쀑볡 URL 제거)**: **74건**
* **κ΄€μΈ‘ κΈ°κ°„**: 2일 (2026-05-18 ~ 2026-05-19)
### πŸ“… μΌμžλ³„ 고유 λ‰΄μŠ€ μƒμ‚°λŸ‰ 좔이
| λ°œν–‰ 일자 | 생산 건수 (고유 기사) | λΉ„κ³  |
| :--- | :---: | :---: |
| **2026-05-18** | **34건** | 평일 (μ›”) |
| **2026-05-19** | **40건** | 평일 (ν™”) |
| **총합** | **74건** | |
---
## 2. μˆ˜ν•™μ  뢄석 및 κ°±μ‹  μ£ΌκΈ° λ„μΆœ
### πŸ“ˆ 일평균 λ‰΄μŠ€ 생산 속도 (Velocity)
$$\text{일평균 μƒμ‚°λŸ‰} = \frac{74\text{건}}{2\text{일}} = 37.00\text{건/일}$$
* **도메인 폭 μΈ‘μ •**: AI ν•€ν…Œν¬λΌλŠ” 도메인이 맀우 쒁닀고 μƒκ°ν•˜μ…¨μœΌλ‚˜, μ‹€μ œ 넀이버 λ‰΄μŠ€μ˜ IT/κ³Όν•™ 및 경제 λ„λ©”μΈμ—μ„œ μˆ˜μ§‘λ˜λŠ” λ‰΄μŠ€ 쀑 **AI, 인곡지λŠ₯, μƒμ„±ν˜• AI, ν•€ν…Œν¬ ν‚€μ›Œλ“œ 쀑 ν•˜λ‚˜λΌλ„ ν¬ν•¨ν•˜λŠ” κΈ°μ‚¬λŠ” 45.5%**에 μœ‘λ°•ν•©λ‹ˆλ‹€.
* **즉, κΈ°μ‚¬μ˜ μœ μž… 속도가 맀우 λΉ λ₯΄κ³  μ •λ³΄μ˜ 신선도 ꡐ체 μ£ΌκΈ°κ°€ λŒ€λ‹¨νžˆ μž¦μŠ΅λ‹ˆλ‹€.**
### πŸ’‘ 3~5일 μ£ΌκΈ° vs 맀일 1μ‹œ 주기의 νš¨μœ¨μ„± 비ꡐ
| ν•­λͺ© | 3~5일 일괄 κ°±μ‹  | 맀일 μƒˆλ²½ 1μ‹œ κ°±μ‹  (ꢌμž₯) |
| :--- | :--- | :--- |
| **데이터 μΆ•μ λŸ‰** | 110 ~ 185건 λˆ„μ  | **평균 35 ~ 40건 λˆ„μ ** |
| **OpenAI API λΆ€ν•˜** | ν•œ λ²ˆμ— λŒ€λŸ‰μ˜ LLM 토큰을 μ†Œλͺ¨ν•˜μ—¬ **API Rate Limit(λΆ„λ‹Ή μš”μ²­ ν•œλ„)에 κ±Έλ € λΉŒλ“œ μ‹€νŒ¨ν•  ν™•λ₯  λ†’μŒ** | μ†ŒλŸ‰μ˜ 데이터(40건 λ‹¨μœ„)둜 맀일 λ‚˜λˆ„μ–΄ μ²˜λ¦¬ν•˜λ―€λ‘œ **Rate Limit μœ„ν—˜μ΄ μ—†κ³  λΉŒλ“œκ°€ μ§€κ·Ήνžˆ μ•ˆμ •μ μž„** |
| **μ •λ³΄μ˜ μ‹€μ„Έμ„± (Recency)** | μƒˆλ‘œμš΄ AI 기술/μ„œλΉ„μŠ€ μΆœμ‹œ μ†Œμ‹μ΄ RAG에 λ°˜μ˜λ˜κΈ°κΉŒμ§€ μ΅œλŒ€ 5일의 **정보 μ§€μ—°(Lag)** λ°œμƒ | 맀일 μƒˆλ²½ 1μ‹œ κΈ°μ€€ **μ „λ‚ μ˜ νŠΈλ Œλ“œκ°€ μ¦‰μ‹œ 반영**λ˜μ–΄ λ©΄μ ‘/지원동기 μš©λ„λ‘œμ„œ 신뒰도 졜고쑰 |
| **μ„œλ²„ λΆ€ν•˜** | 크둀링 λΈŒλΌμš°μ €(Headless Chrome) μž₯μ‹œκ°„ κ΅¬λ™μœΌλ‘œ λ©”λͺ¨λ¦¬ λˆ„μˆ˜ 및 μ—λŸ¬ κ°€λŠ₯μ„± 있음 | 맀일 10λΆ„ λ‚΄μ™Έμ˜ μ§§κ³  μ•ˆμ „ν•œ 배치 νƒœμŠ€ν¬λ‘œ μ’…λ£Œλ˜μ–΄ μ‹œμŠ€ν…œ μ•ˆμ •μ„± 우수 |
---
## 3. μ΅œμ’… ꢌμž₯ 사항 및 μ‹œκ°ν™”
> [!IMPORTANT]
> **ꢌμž₯ κ°±μ‹  μ£ΌκΈ°: 맀일 μƒˆλ²½ 1μ‹œ (1 AM KST) μžλ™ν™” μŠ€μΌ€μ€„λ§**
>
> ν‹ˆμƒˆ λ„λ©”μΈμž„μ—λ„ λΆˆκ΅¬ν•˜κ³  맀일 35~40개 μˆ˜μ€€μ˜ μ–‘μ§ˆμ˜ 기사가 μƒμ‚°λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 맀일 μƒˆλ²½ 1μ‹œ(ν•œκ΅­ ν‘œμ€€μ‹œ)에 크둀링 νŒŒμ΄ν”„λΌμΈμ„ 돌렀 Neo4j DBλ₯Ό λΉŒλ“œν•˜λŠ” 것이 **API 과금 λ°©μ§€, Rate Limit 우회, 그리고 정보 신선도 κ·ΉλŒ€ν™” μΈ‘λ©΄μ—μ„œ κ°€μž₯ 이상적인 골든 사이클(Golden Cycle)**μž…λ‹ˆλ‹€.
### πŸ“Š 뢄석 μ‹œκ°ν™” 차트
μ•„λž˜ μ°¨νŠΈλŠ” μ‹€μ œ 뢄석기가 μƒμ„±ν•œ λ‚ μ§œλ³„ μƒμ‚°λŸ‰ μ‹œκ°ν™” λ°μ΄ν„°μž…λ‹ˆλ‹€.
![μΌμžλ³„ AI ν•€ν…Œν¬ λ‰΄μŠ€ 생산 νŠΈλ Œλ“œ](/Users/yuje/FinGraph/brain/d0b440b3-8eb7-4a53-ad37-c17d5f6cbd5e/daily_trend_analysis.png)
---
## 4. 후속 μ•‘μ…˜ ν”Œλžœ (Action Plan)
1. **[μ™„λ£Œ]** `AGENTS.md`의 νŒŒμ΄ν”„λΌμΈ ꡬ좕 일정을 **"맀일 μƒˆλ²½ 1μ‹œ μ΅œμ‹ ν™” νŒŒμ΄ν”„λΌμΈ ꡬ좕"**으둜 ν™•μ • κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€.
2. **[λŒ€κΈ°]** 이제 μˆ˜μ§‘λœ 40건의 μƒˆ μ—‘μ…€ 데이터λ₯Ό Neo4j 지식 κ·Έλž˜ν”„λ‘œ μ μž¬ν•˜μ—¬ RAG ν’ˆμ§ˆμ„ μ¦‰μ‹œ ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.