Spaces:

felipelemes
/

databricks-rag-assistant

Runtime error

App Files Files Community

databricks-rag-assistant / README.md

Felipe Lemes

Update from GitHub push

8151fd9 7 months ago

preview code

raw

history blame contribute delete

7.15 kB

	---
	title: Databricks RAG Study Assistant
	emoji: 📚
	colorFrom: blue
	colorTo: green
	sdk: streamlit
	sdk_version: 1.47.1 # IMPORTANT: Ensure this matches your streamlit version in requirements.txt
	app_file: app.py
	pinned: false
	---

	# 📚 Databricks Study Assistant with RAG

	## English

	### Project Overview

	This is an AI-powered Retrieval Augmented Generation (RAG) system designed to act as a specialized study tutor and technical consultant for Azure Databricks documentation. It aims to provide quick, precise, and context-aware answers directly from official Databricks resources, significantly enhancing study efficiency for certifications and streamlining daily technical problem-solving.

	This project aims not only to consolidate my learning in Machine Learning and data engineering but also to create a practical and accessible tool for the community.

	### Technical Details

	* Objective: Interactive consultation assistant for Azure Databricks documentation (Data Engineer Associate Certification & professional use).
	* Knowledge Corpus:
	* Official Databricks Documentation (approx. 17,800 pages, PDF).
	* Official Databricks Knowledge Base (kb.databricks.com, +900 Q&A articles via web scraping).
	* Content Processing:
	* Chunking: Text split into chunks of 1000 characters with 200 characters overlap.
	* Embeddings: `all-MiniLM-L6-v2` model (multilingual, for semantic similarity in Portuguese/English).
	* Vector Database: FAISS (Facebook AI Similarity Search) for low-latency vector indexing and retrieval.
	* Large Language Model (LLM): OpenAI GPT-4o (Generates precise, contextualized, and friendly answers, guided by prompt engineering).
	* Interface: Streamlit (interactive web application).
	* Multilingual Capability: Supports questions in Portuguese, based on English documentation, and replies in the query's language.

	### Setup and Running Locally

	1. Clone the Repository:
	```bash
	git clone [https://github.com/YOUR_GITHUB_USERNAME/databricks-rag-study-assistant.git](https://github.com/YOUR_GITHUB_USERNAME/databricks-rag-study-assistant.git)
	cd databricks-rag-study-assistant
	```
	2. Create and Activate Virtual Environment:
	```bash
	python -m venv venv
	# Windows
	.\venv\Scripts\activate
	# macOS/Linux
	source venv/bin/activate
	```
	3. Install Dependencies:
	```bash
	pip install -r requirements.txt
	```
	4. Download Databricks Documentation PDF:
	Place your `azure-databricks.pdf` file (the 17,800-page official documentation) into the `data/` directory.
	5. Prepare the Vector Database (PDF):
	This script processes the PDF and creates the initial FAISS vector database.
	```bash
	python prepare_data.py
	```
	6. Scrape Databricks Knowledge Base Articles:
	This script scrapes articles from the Databricks KB and saves them as JSONs.
	```bash
	python scrape_kb.py
	```
	7. Update Vector Database with KB Articles:
	This script integrates the scraped articles into your existing FAISS vector database.
	```bash
	python update_vector_db_with_kb.py
	```
	8. Set OpenAI API Key:
	Obtain your OpenAI API Key from [platform.openai.com](https://platform.openai.com/api-keys) and set it as an environment variable in your terminal session:
	```bash
	# Windows (PowerShell)
	$env:OPENAI_API_KEY="YOUR_API_KEY"
	# macOS/Linux
	export OPENAI_API_KEY="YOUR_API_KEY"
	```
	9. Run the Streamlit Application:
	```bash
	streamlit run app.py
	```

	---

	## Português

	### Visão Geral do Projeto

	Este é um sistema de Geração Aumentada por Recuperação (RAG) baseado em IA, projetado para atuar como um tutor de estudos especializado e consultor técnico para a documentação do Azure Databricks. Seu objetivo é fornecer respostas rápidas, precisas e contextualizadas diretamente de recursos oficiais do Databricks, aprimorando significativamente a eficiência do estudo para certificações e simplificando a resolução de problemas técnicos diários.

	Este projeto visa não apenas consolidar meu aprendizado em Machine Learning e engenharia de dados, mas também criar uma ferramenta prática e acessível para a comunidade.

	### Detalhes Técnicos

	* Objetivo: Assistente de consulta interativa para documentação do Azure Databricks (Certificação Data Engineer Associate e uso profissional).
	* Corpus de Conhecimento:
	* Documentação Oficial do Databricks (aprox. 17.800 páginas, PDF).
	* Knowledge Base Oficial do Databricks (kb.databricks.com, +900 artigos de Q&A via web scraping).
	* Processamento de Conteúdo:
	* Chunking: Texto dividido em pedaços (chunks) de 1000 caracteres com 200 caracteres de sobreposição.
	* Embeddings: Modelo `all-MiniLM-L6-v2` (multilíngue, para similaridade semântica em português/inglês).
	* Banco de Dados Vetorial: FAISS (Facebook AI Similarity Search) para indexação e recuperação de vetores de baixa latência.
	* Modelo de Linguagem Grande (LLM): OpenAI GPT-4o (Geração de respostas precisas, contextualizadas e amigáveis, guiadas por engenharia de prompt).
	* Interface: Streamlit (aplicação web interativa).
	* Capacidade Multilíngue: Suporta perguntas em português, com base em documentação em inglês, e responde no idioma da consulta.

	### Configuração e Execução Local

	1. Clone o Repositório:
	```bash
	git clone [https://github.com/SEU_USUARIO_GITHUB/databricks-rag-study-assistant.git](https://github.com/SEU_USUARIO_GITHUB/databricks-rag-study-assistant.git)
	cd databricks-rag-study-assistant
	```
	2. Crie e Ative o Ambiente Virtual:
	```bash
	python -m venv venv
	# Windows
	.\venv\Scripts\activate
	# macOS/Linux
	source venv/bin/activate
	```
	3. Instale as Dependências:
	```bash
	pip install -r requirements.txt
	```
	4. Baixe a Documentação PDF do Databricks:
	Coloque seu arquivo `azure-databricks.pdf` (a documentação oficial de 17.800 páginas) no diretório `data/`.
	5. Prepare o Banco de Dados Vetorial (PDF):
	Este script processa o PDF e cria o banco de dados vetorial FAISS inicial.
	```bash
	python prepare_data.py
	```
	6. Faça o Web Scraping dos Artigos da Knowledge Base do Databricks:
	Este script faz o scraping dos artigos da KB do Databricks e os salva como JSONs.
	```bash
	python scrape_kb.py
	```
	7. Atualize o Banco de Dados Vetorial com os Artigos da KB:
	Este script integra os artigos raspados ao seu banco de dados vetorial FAISS existente.
	```bash
	python update_vector_db_with_kb.py
	```
	8. Defina a Chave da API da OpenAI:
	Obtenha sua Chave da API da OpenAI em [platform.openai.com](https://platform.openai.com/api-keys) e defina-a como uma variável de ambiente na sua sessão do terminal:
	```bash
	# Windows (PowerShell)
	$env:OPENAI_API_KEY="SUA_CHAVE_API"
	# macOS/Linux
	export OPENAI_API_KEY="SUA_CHAVE_API"
	```
	9. Execute o Aplicativo Streamlit:
	```bash
	streamlit run app.py
	```