Spaces:
Runtime error
A newer version of the Streamlit SDK is available:
1.55.0
title: Databricks RAG Study Assistant
emoji: 📚
colorFrom: blue
colorTo: green
sdk: streamlit
sdk_version: 1.47.1
app_file: app.py
pinned: false
📚 Databricks Study Assistant with RAG
English
Project Overview
This is an AI-powered Retrieval Augmented Generation (RAG) system designed to act as a specialized study tutor and technical consultant for Azure Databricks documentation. It aims to provide quick, precise, and context-aware answers directly from official Databricks resources, significantly enhancing study efficiency for certifications and streamlining daily technical problem-solving.
This project aims not only to consolidate my learning in Machine Learning and data engineering but also to create a practical and accessible tool for the community.
Technical Details
- Objective: Interactive consultation assistant for Azure Databricks documentation (Data Engineer Associate Certification & professional use).
- Knowledge Corpus:
- Official Databricks Documentation (approx. 17,800 pages, PDF).
- Official Databricks Knowledge Base (kb.databricks.com, +900 Q&A articles via web scraping).
- Content Processing:
- Chunking: Text split into chunks of 1000 characters with 200 characters overlap.
- Embeddings:
all-MiniLM-L6-v2model (multilingual, for semantic similarity in Portuguese/English). - Vector Database: FAISS (Facebook AI Similarity Search) for low-latency vector indexing and retrieval.
- Large Language Model (LLM): OpenAI GPT-4o (Generates precise, contextualized, and friendly answers, guided by prompt engineering).
- Interface: Streamlit (interactive web application).
- Multilingual Capability: Supports questions in Portuguese, based on English documentation, and replies in the query's language.
Setup and Running Locally
- Clone the Repository:
git clone [https://github.com/YOUR_GITHUB_USERNAME/databricks-rag-study-assistant.git](https://github.com/YOUR_GITHUB_USERNAME/databricks-rag-study-assistant.git) cd databricks-rag-study-assistant - Create and Activate Virtual Environment:
python -m venv venv # Windows .\venv\Scripts\activate # macOS/Linux source venv/bin/activate - Install Dependencies:
pip install -r requirements.txt - Download Databricks Documentation PDF:
Place your
azure-databricks.pdffile (the 17,800-page official documentation) into thedata/directory. - Prepare the Vector Database (PDF):
This script processes the PDF and creates the initial FAISS vector database.
python prepare_data.py - Scrape Databricks Knowledge Base Articles:
This script scrapes articles from the Databricks KB and saves them as JSONs.
python scrape_kb.py - Update Vector Database with KB Articles:
This script integrates the scraped articles into your existing FAISS vector database.
python update_vector_db_with_kb.py - Set OpenAI API Key:
Obtain your OpenAI API Key from platform.openai.com and set it as an environment variable in your terminal session:
# Windows (PowerShell) $env:OPENAI_API_KEY="YOUR_API_KEY" # macOS/Linux export OPENAI_API_KEY="YOUR_API_KEY" - Run the Streamlit Application:
streamlit run app.py
Português
Visão Geral do Projeto
Este é um sistema de Geração Aumentada por Recuperação (RAG) baseado em IA, projetado para atuar como um tutor de estudos especializado e consultor técnico para a documentação do Azure Databricks. Seu objetivo é fornecer respostas rápidas, precisas e contextualizadas diretamente de recursos oficiais do Databricks, aprimorando significativamente a eficiência do estudo para certificações e simplificando a resolução de problemas técnicos diários.
Este projeto visa não apenas consolidar meu aprendizado em Machine Learning e engenharia de dados, mas também criar uma ferramenta prática e acessível para a comunidade.
Detalhes Técnicos
- Objetivo: Assistente de consulta interativa para documentação do Azure Databricks (Certificação Data Engineer Associate e uso profissional).
- Corpus de Conhecimento:
- Documentação Oficial do Databricks (aprox. 17.800 páginas, PDF).
- Knowledge Base Oficial do Databricks (kb.databricks.com, +900 artigos de Q&A via web scraping).
- Processamento de Conteúdo:
- Chunking: Texto dividido em pedaços (chunks) de 1000 caracteres com 200 caracteres de sobreposição.
- Embeddings: Modelo
all-MiniLM-L6-v2(multilíngue, para similaridade semântica em português/inglês). - Banco de Dados Vetorial: FAISS (Facebook AI Similarity Search) para indexação e recuperação de vetores de baixa latência.
- Modelo de Linguagem Grande (LLM): OpenAI GPT-4o (Geração de respostas precisas, contextualizadas e amigáveis, guiadas por engenharia de prompt).
- Interface: Streamlit (aplicação web interativa).
- Capacidade Multilíngue: Suporta perguntas em português, com base em documentação em inglês, e responde no idioma da consulta.
Configuração e Execução Local
- Clone o Repositório:
git clone [https://github.com/SEU_USUARIO_GITHUB/databricks-rag-study-assistant.git](https://github.com/SEU_USUARIO_GITHUB/databricks-rag-study-assistant.git) cd databricks-rag-study-assistant - Crie e Ative o Ambiente Virtual:
python -m venv venv # Windows .\venv\Scripts\activate # macOS/Linux source venv/bin/activate - Instale as Dependências:
pip install -r requirements.txt - Baixe a Documentação PDF do Databricks:
Coloque seu arquivo
azure-databricks.pdf(a documentação oficial de 17.800 páginas) no diretóriodata/. - Prepare o Banco de Dados Vetorial (PDF):
Este script processa o PDF e cria o banco de dados vetorial FAISS inicial.
python prepare_data.py - Faça o Web Scraping dos Artigos da Knowledge Base do Databricks:
Este script faz o scraping dos artigos da KB do Databricks e os salva como JSONs.
python scrape_kb.py - Atualize o Banco de Dados Vetorial com os Artigos da KB:
Este script integra os artigos raspados ao seu banco de dados vetorial FAISS existente.
python update_vector_db_with_kb.py - Defina a Chave da API da OpenAI:
Obtenha sua Chave da API da OpenAI em platform.openai.com e defina-a como uma variável de ambiente na sua sessão do terminal:
# Windows (PowerShell) $env:OPENAI_API_KEY="SUA_CHAVE_API" # macOS/Linux export OPENAI_API_KEY="SUA_CHAVE_API" - Execute o Aplicativo Streamlit:
streamlit run app.py