SOCAR Historical Documents AI System

Advanced Document Intelligence Platform

📄

Extract text from historical PDFs using Llama-4-Maverick-17B Vision model

API Documentation

🤖

Ask questions about historical documents with RAG-powered chatbot

API Documentation

OCR Model Llama-4-Maverick-17B

Embedding Model BAAI/bge-large-en-v1.5

Vector Database Pinecone (1024 dims)

LLM Model Llama-4-Maverick-17B

Framework FastAPI + Docker

Documents 28 PDFs, 1,128 vectors

88.3%

OCR Accuracy (CSR)

1,128

Total Vectors

Documents Indexed

~2.6s

Avg Response Time