Ojuaragabriel commited on
Commit
a971b4c
·
1 Parent(s): aea859c

Alterar readme

Browse files
Files changed (1) hide show
  1. README.md +183 -20
README.md CHANGED
@@ -1,27 +1,190 @@
1
- # RAGStudy
2
 
3
- RAGStudy é um assistente de estudo offline que lê PDFs de uma pasta local, constrói uma base de conhecimento e permite fazer perguntas em uma interface de chat usando um LLM local (via LM Studio).
4
 
5
- ## Como funciona
6
 
7
- - Lê todos os PDFs na pasta `materiais/`
8
- - Extrai o texto e monta uma base de parágrafos
9
- - Usa um RAG simples (busca por termos) para encontrar trechos relevantes
10
- - Envia o contexto para um modelo local rodando no LM Studio (ex.: `meta-llama-3.1-8b-instruct`)
11
- - Responde em uma interface tipo chat (Tkinter)
12
 
13
- ## Requisitos
14
 
15
- - Python 3.10+
16
- - LM Studio instalado
17
- - Um modelo carregado no LM Studio (ex.: `meta-llama-3.1-8b-instruct`)
18
- - Servidor do LM Studio ativo em `http://127.0.0.1:1234`
19
 
20
- ## Instalação
 
 
21
 
22
- ```bash
23
- git clone https://huggingface.co/<seu-usuario>/RAGStudy
24
- cd RAGStudy
25
- python -m venv .venv
26
- source .venv/bin/activate # ou .venv\Scripts\Activate.ps1 no Windows
27
- pip install -r requirements.txt
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # RAGStudy 🧠📚
2
 
3
+ RAGStudy é um assistente de estudos **offline** que lê PDFs de uma pasta local, constrói uma base de conhecimento e permite fazer perguntas em uma interface de chat, usando um LLM rodando localmente via LM Studio.
4
 
5
+ A ideia é funcionar como um “NotebookLM offline”, útil para quem estuda ou trabalha em ambientes com internet limitada (hospitais, campus universitário, plantas industriais, etc.), mas quer continuar usando IA de forma segura, privada e baseada nos próprios materiais (artigos, protocolos, capítulos de livro, slides, apostilas…).
6
 
7
+ ---
 
 
 
 
8
 
9
+ ## ✨ Principais funcionalidades
10
 
11
+ - 📁 **Leitura de PDFs locais**
12
+ - automaticamente todos os arquivos `.pdf` da pasta `materiais/`.
13
+ - Extrai o texto e o organiza em parágrafos.
 
14
 
15
+ - 🧠 **RAG (Retrieval-Augmented Generation) simples**
16
+ - Faz busca por termos nos parágrafos para encontrar trechos relevantes à pergunta.
17
+ - Monta um contexto com as partes mais importantes antes de chamar o modelo de linguagem.
18
 
19
+ - 💬 **Interface em estilo chat**
20
+ - Janela gráfica (Tkinter) que imita o fluxo de um chat.
21
+ - Campo de texto para o usuário digitar qualquer pergunta.
22
+ - Histórico de perguntas e respostas na própria interface.
23
+
24
+ - **Atalhos rápidos de estudo**
25
+ - Botões dedicados para:
26
+ - **Resumo geral** dos PDFs.
27
+ - **Pontos chave** para revisão rápida.
28
+ - **Perguntas de estudo (quiz)** geradas a partir do conteúdo.
29
+
30
+ - 🔒 **100% local / offline**
31
+ - Todos os PDFs ficam na máquina do usuário.
32
+ - As perguntas e respostas são processadas usando um modelo local via LM Studio.
33
+ - Nada é enviado para a nuvem.
34
+
35
+ ---
36
+
37
+ ## 🧱 Arquitetura resumida
38
+
39
+ 1. O usuário coloca seus PDFs na pasta `materiais/`.
40
+ 2. O RAGStudy:
41
+ - extrai o texto com `pdfplumber`,
42
+ - quebra em parágrafos,
43
+ - salva uma base simples em `knowledge_base.json`.
44
+ 3. Quando o usuário faz uma pergunta ou usa um atalho:
45
+ - o sistema procura os parágrafos mais relevantes (keyword search),
46
+ - monta um **contexto** com os trechos encontrados,
47
+ - envia esse contexto + instruções para um modelo local via API (LM Studio).
48
+ 4. O modelo retorna a resposta, que é exibida na interface de chat.
49
+
50
+ ---
51
+
52
+ ## 🛠️ Stack técnica
53
+
54
+ - **Linguagem:** Python
55
+ - **Leitura de PDFs:** [`pdfplumber`](https://github.com/jsvine/pdfplumber)
56
+ - **RAG:** busca simples por termos (keyword search) + montagem de contexto
57
+ - **LLM local:** LM Studio, com modelo do tipo:
58
+ - `meta-llama-3.1-8b-instruct` (ou outro modelo Instruct compatível)
59
+ - **API local:** endpoint compatível com o padrão OpenAI Chat Completions
60
+ Exemplo de URL utilizada:
61
+ - `http://127.0.0.1:1234/v1/chat/completions`
62
+ - **Interface gráfica:** Tkinter, com layout inspirado em chat (similar a ChatGPT)
63
+ - **Empacotamento opcional:** PyInstaller para gerar `.exe` e rodar com dois cliques
64
+
65
+ ---
66
+
67
+ ## 📂 Estrutura de pastas (recomendada)
68
+
69
+ ```text
70
+ RAGStudy/
71
+ ├─ RAGStudy.py # Aplicação principal (GUI)
72
+ ├─ requirements.txt
73
+ ├─ README.md
74
+ ├─ .gitignore
75
+ ├─ materiais/ # Pasta onde o usuário coloca os PDFs
76
+ └─ knowledge_base.json # Gerado automaticamente (pode ser recriado)
77
+ ```
78
+
79
+ > Obs.: em produção / controle de versão, é recomendado **não** subir a pasta `materiais/` nem o `knowledge_base.json` (eles podem conter dados pessoais ou sensíveis). Isso já pode ser controlado via `.gitignore`.
80
+
81
+ ---
82
+
83
+ ## ✅ Pré-requisitos
84
+
85
+ - Python 3.10+ instalado
86
+ - LM Studio instalado e configurado
87
+ - Um modelo Instruct compatível carregado no LM Studio
88
+ (por exemplo: `meta-llama-3.1-8b-instruct`)
89
+ - Servidor do LM Studio iniciado na porta 1234 (ou ajuste no código):
90
+
91
+ - URL padrão utilizada no código:
92
+ ```python
93
+ LM_STUDIO_URL = "http://127.0.0.1:1234/v1/chat/completions"
94
+ ```
95
+
96
+ ---
97
+
98
+ ## 🔧 Instalação e setup
99
+
100
+ 1. **Clonar o repositório**
101
+
102
+ ```bash
103
+ git clone https://huggingface.co/Ojuaragabriel/RAGStudy
104
+ cd RAGStudy
105
+ ```
106
+
107
+ 2. **Criar e ativar um ambiente virtual (recomendado)**
108
+
109
+ **Windows (PowerShell):**
110
+
111
+ ```bash
112
+ python -m venv .venv
113
+ .\.venv\Scripts\Activate.ps1
114
+ ```
115
+
116
+ **Linux / macOS:**
117
+
118
+ ```bash
119
+ python -m venv .venv
120
+ source .venv/bin/activate
121
+ ```
122
+
123
+ 3. **Instalar as dependências**
124
+
125
+ ```bash
126
+ pip install -r requirements.txt
127
+ ```
128
+
129
+ 4. **Criar a pasta de materiais**
130
+
131
+ Na raiz do projeto:
132
+
133
+ ```bash
134
+ mkdir materiais
135
+ ```
136
+
137
+ Coloque dentro dela os PDFs que você quer usar no estudo.
138
+
139
+ ---
140
+
141
+ ## ▶️ Execução
142
+
143
+ 1. **No LM Studio:**
144
+ - Abra o LM Studio.
145
+ - Carregue um modelo do tipo Instruct (ex.: `meta-llama-3.1-8b-instruct`).
146
+ - Inicie o servidor (API) na porta 1234 (ou ajuste o código se usar outra porta).
147
+
148
+ 2. **No terminal (com venv ativa):**
149
+
150
+ ```bash
151
+ python RAGStudy.py
152
+ ```
153
+
154
+ 3. A interface de chat será aberta. Nela você pode:
155
+
156
+ - Clicar em **Recarregar PDFs** para montar/atualizar a base de conhecimento.
157
+ - Usar os atalhos:
158
+ - **Resumo geral**
159
+ - **Pontos chave**
160
+ - **Perguntas de estudo**
161
+ - Digitar qualquer pergunta no campo inferior e enviar.
162
+
163
+ ---
164
+
165
+ ## 💡 Possíveis usos
166
+
167
+ - Revisão rápida de artigos científicos.
168
+ - Estudo de protocolos, diretrizes e normas em ambientes com internet limitada.
169
+ - Apoio em disciplinas da graduação (engenharias, saúde, exatas, etc.).
170
+ - Criação de quizzes personalizados a partir dos próprios materiais.
171
+
172
+ ---
173
+
174
+ ## 🚀 Próximos passos / ideias de evolução
175
+
176
+ - Substituir a busca por termos por um RAG vetorial (FAISS / Chroma / etc.).
177
+ - Adicionar suporte a outros formatos além de PDF (Markdown, DOCX, HTML).
178
+ - Perfil por “coleções de estudo” (pastas separadas por disciplina ou tema).
179
+ - Versão web com Gradio ou FastAPI.
180
+ - Configurar modelos alternativos (por exemplo outros LLaMA, Qwen, Mistral, etc.).
181
+
182
+ ---
183
+
184
+ ## 👤 Autor
185
+
186
+ Desenvolvido por **Gabriel Cerqueira (@Ojuaragabriel)** como projeto pessoal de:
187
+
188
+ - experimentação com GenAI **offline**,
189
+ - estudo de RAG (Retrieval-Augmented Generation),
190
+ - construção de ferramentas de estudo baseadas em PDFs próprios, mantendo privacidade e controle dos dados.