Spaces:

alexchilton
/

dnd-rag-g

Build error

App Files Files Community

dnd-rag-g / scripts /rag /initialize_rag.py

alexchilton

refactor: Organize scripts and notebooks into proper directories

44db119 6 days ago

raw

history blame contribute delete

20.5 kB

	#!/usr/bin/env python3
	"""
	D&D RAG System Initialization Script

	Loads all D&D content into ChromaDB using existing notebook parsing code.
	This is a pragmatic wrapper that uses proven parsing logic.

	Usage:
	python initialize_rag.py [--clear] [--only spells,monsters,classes,races]

	Examples:
	python initialize_rag.py # Load all content
	python initialize_rag.py --clear # Clear and reload all
	python initialize_rag.py --only spells # Load only spells
	"""

	import argparse
	import sys
	from pathlib import Path
	from typing import List, Dict, Any
	import re

	# Add project to path
	project_root = Path(__file__).parent.parent.parent
	sys.path.insert(0, str(project_root))

	# Import our core infrastructure
	from dnd_rag_system.core.chroma_manager import ChromaDBManager
	from dnd_rag_system.core.base_chunker import Chunk
	from dnd_rag_system.config import settings
	from dnd_rag_system.parsers.spell_parser import SpellParser, SpellChunker


	# =============================================================================
	# SPELL LOADER (using proper SpellParser)
	# =============================================================================

	def load_spells(db_manager: ChromaDBManager, clear: bool = False):
	"""Load spells from spells.txt and all_spells.txt into ChromaDB."""

	print("\n" + "="*70)
	print("📚 LOADING SPELLS")
	print("="*70)

	if clear:
	db_manager.clear_collection(settings.COLLECTION_NAMES['spells'])

	# Use the proper SpellParser
	parser = SpellParser()
	parsed_spells = parser.parse()
	print(f"✓ Parsed {len(parsed_spells)} spells")

	# Use SpellChunker to create optimized chunks
	chunker = SpellChunker()
	all_chunks = []

	for parsed_spell in parsed_spells:
	chunks = chunker.create_chunks(parsed_spell)
	all_chunks.extend(chunks)

	print(f"✓ Created {len(all_chunks)} spell chunks (multiple chunks per spell)")

	# Add to ChromaDB
	if all_chunks:
	db_manager.add_chunks(settings.COLLECTION_NAMES['spells'], all_chunks)
	print(f"✅ Loaded {len(all_chunks)} spell chunks into ChromaDB")

	return len(all_chunks)


	# =============================================================================
	# MONSTER LOADER (adapted from monster_to_rag.ipynb)
	# =============================================================================

	def load_monsters(db_manager: ChromaDBManager, clear: bool = False):
	"""Load monsters from extracted_monsters.txt into ChromaDB."""

	print("\n" + "="*70)
	print("👹 LOADING MONSTERS")
	print("="*70)

	if clear:
	db_manager.clear_collection(settings.COLLECTION_NAMES['monsters'])

	# Read extracted monsters
	print(f"📖 Reading {settings.EXTRACTED_MONSTERS_TXT}")

	if not settings.EXTRACTED_MONSTERS_TXT.exists():
	print("⚠️ Monster file not found, skipping")
	return 0

	with open(settings.EXTRACTED_MONSTERS_TXT, 'r', encoding='utf-8') as f:
	monsters_content = f.read()

	# Simple monster parsing
	monster_blocks = _split_monster_blocks(monsters_content)
	print(f"✓ Found {len(monster_blocks)} monster blocks")

	# Create chunks
	chunks = []
	for i, block in enumerate(monster_blocks):
	try:
	monster_chunk = _parse_monster_to_chunk(block)
	if monster_chunk:
	chunks.append(monster_chunk)

	if (i + 1) % 50 == 0:
	print(f" Processed {i + 1}/{len(monster_blocks)} monsters...")
	except Exception as e:
	print(f" Warning: Failed to parse monster {i+1}: {e}")
	continue

	print(f"✓ Created {len(chunks)} monster chunks")

	# Add to ChromaDB
	if chunks:
	db_manager.add_chunks(settings.COLLECTION_NAMES['monsters'], chunks)
	print(f"✅ Loaded {len(chunks)} monsters into ChromaDB")

	return len(chunks)


	def _split_monster_blocks(content: str) -> List[str]:
	"""Split monster text into individual blocks."""
	# Pattern: MONSTER NAME (often all caps or title case)
	blocks = content.split('\n\n')
	valid_blocks = [b.strip() for b in blocks if len(b.strip()) > 200]
	return valid_blocks


	def _parse_monster_to_chunk(block: str) -> Chunk:
	"""Parse a monster block into a Chunk object with weighted name."""
	lines = [l.strip() for l in block.split('\n') if l.strip()]

	if not lines:
	return None

	# Extract name (usually first line)
	name = lines[0].strip()

	# Clean up common formatting issues in monster names
	name = re.sub(r'\s+', ' ', name) # Normalize whitespace
	name = name.strip()

	# Try to extract CR
	cr = "Unknown"
	cr_match = re.search(r'Challenge(?:\s+Rating)?[:\s]+([^\s\(]+)', block, re.IGNORECASE)
	if cr_match:
	cr = cr_match.group(1).strip()

	# Extract monster type if present (e.g., "Large dragon", "Medium humanoid")
	monster_type = ""
	type_match = re.search(r'(Tiny\|Small\|Medium\|Large\|Huge\|Gargantuan)\s+(aberration\|beast\|celestial\|construct\|dragon\|elemental\|fey\|fiend\|giant\|humanoid\|monstrosity\|ooze\|plant\|undead)', block, re.IGNORECASE)
	if type_match:
	monster_type = f"{type_match.group(1)} {type_match.group(2)}"

	# IMPROVEMENT: Add monster name weighting for better retrieval
	# Repeat name multiple times at the start for better matching
	weighted_content = f"MONSTER: {name}\n{name}\n\n"

	# Add formatted header with key info
	weighted_content += f"{name}"
	if monster_type:
	weighted_content += f" - {monster_type}"
	if cr != "Unknown":
	weighted_content += f" (CR {cr})"
	weighted_content += "\n\n"

	# Add the full monster stat block
	weighted_content += block

	metadata = {
	'name': name,
	'challenge_rating': cr,
	'monster_type': monster_type,
	'content_type': 'monster'
	}

	tags = {'monster', f'cr_{cr.replace("/", "_")}'}
	if monster_type:
	# Add type tag (e.g., 'dragon', 'humanoid')
	type_only = monster_type.split()[-1] if monster_type else ''
	if type_only:
	tags.add(f'type_{type_only.lower()}')

	return Chunk(
	content=weighted_content,
	chunk_type='monster_stats',
	metadata=metadata,
	tags=tags
	)


	# =============================================================================
	# CLASS LOADER (adapted from classes_to_rag.ipynb)
	# =============================================================================

	def load_classes(db_manager: ChromaDBManager, clear: bool = False):
	"""Load classes from extracted_classes.txt into ChromaDB."""

	print("\n" + "="*70)
	print("⚔️ LOADING CLASSES")
	print("="*70)

	if clear:
	db_manager.clear_collection(settings.COLLECTION_NAMES['classes'])

	# Read extracted classes
	print(f"📖 Reading {settings.EXTRACTED_CLASSES_TXT}")

	if not settings.EXTRACTED_CLASSES_TXT.exists():
	print("⚠️ Classes file not found, skipping")
	return 0

	with open(settings.EXTRACTED_CLASSES_TXT, 'r', encoding='utf-8') as f:
	classes_content = f.read()

	# Simple class parsing - split by known class names
	class_blocks = _split_class_blocks(classes_content)
	print(f"✓ Found {len(class_blocks)} class blocks")

	# Create chunks
	chunks = []
	for class_name, content in class_blocks.items():
	try:
	class_chunk = _parse_class_to_chunk(class_name, content)
	if class_chunk:
	chunks.append(class_chunk)
	except Exception as e:
	print(f" Warning: Failed to parse class {class_name}: {e}")
	continue

	print(f"✓ Created {len(chunks)} class chunks")

	# Add to ChromaDB
	if chunks:
	db_manager.add_chunks(settings.COLLECTION_NAMES['classes'], chunks)
	print(f"✅ Loaded {len(chunks)} classes into ChromaDB")

	return len(chunks)


	def _split_class_blocks(content: str) -> Dict[str, str]:
	"""Split content by class names at start of line (section headers)."""
	class_blocks = {}

	for i, class_name in enumerate(settings.DND_CLASSES):
	# FIXED: Look for class name at the beginning of a line (^)
	# This finds the detailed section header, not mentions in the table
	pattern = rf'^{class_name.upper()}$'
	matches = list(re.finditer(pattern, content, re.MULTILINE))

	if matches:
	start = matches[0].start()
	# Find end (next class section or end of text)
	end = len(content)

	# Look for ANY other class name on its own line after this one
	for next_class in settings.DND_CLASSES:
	if next_class == class_name:
	continue
	next_pattern = rf'^{next_class.upper()}$'
	next_match = re.search(next_pattern, content[start+10:], re.MULTILINE)
	if next_match:
	candidate_end = start + 10 + next_match.start()
	end = min(end, candidate_end)

	class_content = content[start:end].strip()
	if len(class_content) > 500: # Substantial content
	class_blocks[class_name] = class_content

	return class_blocks


	def _parse_class_to_chunk(class_name: str, content: str) -> Chunk:
	"""Parse a class block into a Chunk object with weighted name."""
	metadata = {
	'name': class_name,
	'content_type': 'class'
	}

	tags = {'class', f'class_{class_name.lower()}'}

	# IMPROVEMENT: Add class name weighting for better retrieval
	formatted_content = f"CLASS: {class_name}\n{class_name}\n\n"
	formatted_content += f"{class_name} - D&D Class\n\n"
	formatted_content += content[:2000] # Limit size

	return Chunk(
	content=formatted_content,
	chunk_type='class_features',
	metadata=metadata,
	tags=tags
	)


	# =============================================================================
	# RACE LOADER (adapted from races_to_rag.ipynb)
	# =============================================================================

	def load_races(db_manager: ChromaDBManager, clear: bool = False):
	"""Load races from Player's Handbook PDF into ChromaDB."""

	print("\n" + "="*70)
	print("🧝 LOADING RACES")
	print("="*70)

	if clear:
	db_manager.clear_collection(settings.COLLECTION_NAMES['races'])

	# Check if PDF exists
	if not settings.PLAYERS_HANDBOOK_PDF.exists():
	print(f"⚠️ Player's Handbook PDF not found: {settings.PLAYERS_HANDBOOK_PDF}")
	print(" Skipping race loading")
	return 0

	try:
	import pdfplumber
	except ImportError:
	print("⚠️ pdfplumber not installed. Install with: pip install pdfplumber")
	return 0

	print(f"📖 Extracting race text from PDF (pages 18-46)...")

	# Extract text from PDF
	race_text = _extract_race_text_from_pdf(settings.PLAYERS_HANDBOOK_PDF)

	if not race_text:
	print("❌ Failed to extract race text from PDF")
	return 0

	print(f"✓ Extracted {len(race_text)} characters")

	# Parse race sections
	race_sections = _parse_race_sections(race_text)
	print(f"✓ Found {len(race_sections)} races")

	# Create chunks
	chunks = []
	for race_data in race_sections:
	race_name = race_data['name']
	race_content = race_data['content']

	print(f" Processing: {race_name}")

	# Create chunks for this race
	race_chunks = _create_race_chunks(race_name, race_content)
	chunks.extend(race_chunks)

	print(f"✓ Created {len(chunks)} race chunks")

	# Add to ChromaDB
	if chunks:
	db_manager.add_chunks(settings.COLLECTION_NAMES['races'], chunks)
	print(f"✅ Loaded {len(chunks)} race chunks into ChromaDB")

	return len(chunks)


	def _extract_race_text_from_pdf(pdf_path: Path, start_page: int = 18, end_page: int = 46) -> str:
	"""Extract race text from Player's Handbook PDF."""
	import pdfplumber

	extracted_text = ""

	try:
	with pdfplumber.open(pdf_path) as pdf:
	# PDF pages are 0-indexed
	for page_num in range(start_page - 1, min(end_page, len(pdf.pages))):
	if page_num < len(pdf.pages):
	page = pdf.pages[page_num]
	page_text = page.extract_text()
	if page_text:
	extracted_text += page_text + "\n"

	# Clean up the text
	extracted_text = re.sub(r'\s+', ' ', extracted_text)
	extracted_text = re.sub(r'--- PAGE \d+ ---', '', extracted_text)

	return extracted_text.strip()

	except Exception as e:
	print(f"❌ Error extracting PDF: {e}")
	return ""


	def _parse_race_sections(text: str) -> List[Dict]:
	"""Parse text into individual race sections."""
	race_names = ['DRAGONBORN', 'DWARF', 'ELF', 'GNOME', 'HALF-ELF',
	'HALFLING', 'HALF-ORC', 'HUMAN', 'TIEFLING']

	race_sections = []

	for race_name in race_names:
	# Find race section
	pattern = rf'\b{race_name}\b'
	matches = list(re.finditer(pattern, text, re.IGNORECASE))

	for match in matches:
	start_pos = match.start()

	# Check if this looks like a race header
	context_after = text[start_pos:start_pos + 500]

	# Look for indicators this is a section header
	if any(indicator in context_after for indicator in
	['Ability Score Increase', 'Age.', 'Size.', 'Speed.']):

	# Find end of section (next race or end of text)
	end_pos = len(text)
	for other_race in race_names:
	if other_race != race_name:
	next_match = re.search(rf'\b{other_race}\b', text[start_pos + 100:])
	if next_match:
	candidate_end = start_pos + 100 + next_match.start()
	if any(indicator in text[candidate_end:candidate_end + 200]
	for indicator in ['Ability Score Increase', 'Age.', 'Size.']):
	end_pos = min(end_pos, candidate_end)

	race_content = text[start_pos:end_pos].strip()

	if len(race_content) > 200:
	race_sections.append({
	'name': race_name.title(),
	'content': race_content
	})
	break # Take first good match

	return race_sections


	def _create_race_chunks(race_name: str, race_content: str) -> List[Chunk]:
	"""Create chunks from race content."""
	chunks = []

	# Extract basic metadata
	metadata = _extract_race_metadata(race_name, race_content)

	# 1. Main description chunk (first part before traits)
	trait_start = re.search(r'(Ability Score Increase\|Age\.\|Size\.)', race_content, re.IGNORECASE)
	if trait_start:
	description = race_content[:trait_start.start()].strip()
	else:
	description = race_content[:1000]

	if description:
	desc_content = f"RACE: {race_name}\n{race_name}\n\n{race_name} - D&D Race\n\n{description[:1500]}"

	chunks.append(Chunk(
	content=desc_content,
	chunk_type='race_description',
	metadata=metadata,
	tags={'race', f'race_{race_name.lower()}', 'description'}
	))

	# 2. Traits chunk
	traits_content = f"RACE: {race_name}\n{race_name} Racial Traits:\n\n"

	if metadata.get('ability_increases'):
	increases = [f"{k.title()} +{v}" for k, v in metadata['ability_increases'].items()]
	traits_content += f"Ability Score Increases: {', '.join(increases)}\n\n"

	if metadata.get('size'):
	traits_content += f"Size: {metadata['size']}\n"

	if metadata.get('speed'):
	traits_content += f"Speed: {metadata['speed']}\n"

	if metadata.get('darkvision'):
	traits_content += f"Darkvision: {metadata['darkvision']} feet\n"

	if metadata.get('languages'):
	traits_content += f"Languages: {', '.join(metadata['languages'])}\n"

	traits_content += f"\n{race_content[trait_start.start():trait_start.start() + 1000] if trait_start else ''}"

	chunks.append(Chunk(
	content=traits_content,
	chunk_type='race_traits',
	metadata=metadata,
	tags={'race', f'race_{race_name.lower()}', 'traits', 'mechanics'}
	))

	return chunks


	def _extract_race_metadata(race_name: str, content: str) -> Dict[str, Any]:
	"""Extract metadata from race content."""
	metadata = {
	'name': race_name,
	'content_type': 'race',
	'ability_increases': {},
	'size': '',
	'speed': '',
	'darkvision': 0,
	'languages': []
	}

	# Ability increases
	ability_pattern = r'Your (\w+) score increases by (\d+)'
	for ability, increase in re.findall(ability_pattern, content, re.IGNORECASE):
	metadata['ability_increases'][ability.lower()] = int(increase)

	# Size
	size_match = re.search(r'Size\.\s*([^.]{0,200}?)\.', content, re.IGNORECASE \| re.DOTALL)
	if size_match:
	size_text = size_match.group(1).strip()
	if 'Medium' in size_text:
	metadata['size'] = 'Medium'
	elif 'Small' in size_text:
	metadata['size'] = 'Small'

	# Speed
	speed_match = re.search(r'Speed\.\s*([^.]{0,200}?)\.', content, re.IGNORECASE \| re.DOTALL)
	if speed_match:
	speed_text = speed_match.group(1).strip()
	metadata['speed'] = speed_text[:50]

	# Darkvision
	darkvision_match = re.search(r'darkvision.?(\d+)\sfeet', content, re.IGNORECASE)
	if darkvision_match:
	metadata['darkvision'] = int(darkvision_match.group(1))

	# Languages
	lang_match = re.search(r'Languages\.\s*([^.]{0,200}?)\.', content, re.IGNORECASE \| re.DOTALL)
	if lang_match:
	lang_text = lang_match.group(1)
	for lang in ['Common', 'Elvish', 'Dwarvish', 'Draconic', 'Giant', 'Gnomish', 'Goblin', 'Halfling', 'Orc']:
	if lang in lang_text:
	metadata['languages'].append(lang)

	return metadata


	# =============================================================================
	# MAIN INITIALIZATION
	# =============================================================================

	def main():
	"""Main initialization function."""
	parser = argparse.ArgumentParser(description='Initialize D&D RAG System')
	parser.add_argument('--clear', action='store_true', help='Clear existing data')
	parser.add_argument('--only', type=str, help='Load only specific collections (comma-separated)')
	args = parser.parse_args()

	print("\n" + "="*70)
	print("🎲 D&D RAG SYSTEM INITIALIZATION")
	print("="*70)

	# Initialize ChromaDB
	print("\n🔧 Initializing ChromaDB...")
	db_manager = ChromaDBManager()

	# Determine what to load
	load_all = args.only is None
	to_load = args.only.split(',') if args.only else ['spells', 'monsters', 'classes', 'races']

	# Load each collection
	results = {}

	if load_all or 'spells' in to_load:
	results['spells'] = load_spells(db_manager, args.clear)

	if load_all or 'monsters' in to_load:
	results['monsters'] = load_monsters(db_manager, args.clear)

	if load_all or 'classes' in to_load:
	results['classes'] = load_classes(db_manager, args.clear)

	if load_all or 'races' in to_load:
	results['races'] = load_races(db_manager, args.clear)

	# Summary
	print("\n" + "="*70)
	print("📊 INITIALIZATION SUMMARY")
	print("="*70)

	total_chunks = sum(results.values())
	for content_type, count in results.items():
	print(f" {content_type.capitalize()}: {count} chunks")

	print(f"\n✅ Total: {total_chunks} chunks loaded into ChromaDB")

	# Show collection stats
	print("\n📈 Collection Statistics:")
	stats = db_manager.get_all_stats()
	for collection_name, col_stats in stats['collections'].items():
	print(f" {collection_name}: {col_stats.get('total_documents', 0)} documents")

	print("\n🎉 Initialization complete!")
	print(f" Database: {db_manager.persist_dir}")
	print("\n💡 Next steps:")
	print(" - Test searches: python test_rag_search.py")
	print(" - Run GM dialogue: python run_gm_dialogue.py")


	if __name__ == '__main__':
	main()