Spaces:

Mr-Hsu
/

Theoretical-Physics

No application file

App Files Files

Mr-Hsu commited on Feb 9, 2025

Commit

0a7840a

verified ·

1 Parent(s): b81cb86

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -281

app.py DELETED Viewed

@@ -1,281 +0,0 @@
-import os
-import uuid
-import fitz  # pymupdf
-import streamlit as st
-from typing import List, Tuple
-import pdfkit
-import json
-from fpdf import FPDF
-from langchain_community.document_loaders import PyPDFLoader
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-from langchain_community.vectorstores import Chroma
-from langchain_ollama import OllamaEmbeddings
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_core.prompts import ChatPromptTemplate
-from langchain_ollama.llms import OllamaLLM
-from openai import OpenAI
-#from openai import OpenAI
-#client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
-#response = client.chat.completions.create(
-#    model="deepseek-chat",
-#    messages=[
-#        {"role": "system", "content": "You are a helpful assistant"},
-#        {"role": "user", "content": "Hello"},
-#    ],
-#    stream=False
-#)
-#print(response.choices[0].message.content)
-# ========== Configuration ==========
-class Config:
-    UPLOAD_DIR = os.path.join("data", "uploads")
-    CHROMA_BASE = "chroma_db"
-    TEMPLATES = {
-        "chat": """[INST] You're a concise AI assistant. Keep answer in detail, clear and concise. The answer contains equations, mathematical derivation process, necessary references and monographs.:
-Question: {question}
-Context: {context}
-Answer: [/INST]""",
-        "summary": """[INST] Summarize key points including equations, mathematical derivation process, necessary references and monographs from:
-Context: {context}
-Summary: [/INST]"""
-    }
-    SPLITTER_CONFIG = {
-        "chunk_size": 1024,
-        "chunk_overlap": 256,
-        "separators": ["\n\n", "\n", r"(?<=[.!?])\s+"]
-    }
-config = Config()
-os.makedirs(config.UPLOAD_DIR, exist_ok=True)
-# ========== Core Services ==========
-class DocumentProcessor:
-    """Handles PDF processing and vector store operations"""
-    def __init__(self, embeddings, model_name):
-        self.embeddings = embeddings
-        self.model_name = model_name
-        self.text_splitter = RecursiveCharacterTextSplitter(**config.SPLITTER_CONFIG)
-    @st.cache_resource(show_spinner=False)
-    def _process_pdfs(_self, files: List) -> Tuple[Chroma, List]:
-        """Process PDFs into vector store with cache invalidation"""
-        docs = []
-        for file in files:
-            file_path = _self._save_temp_file(file)
-            docs.extend(PyPDFLoader(file_path).load_and_split(_self.text_splitter))
-            os.remove(file_path)
-            vector_store = Chroma.from_documents(collection_name="pdf_docs", documents=docs, embedding=_self.embeddings, persist_directory=os.path.join(_self._chroma_path,"_temp"))
-            #if os.path.exists(_self._chroma_path):
-            # Update database
-            #    vector_store = Chroma(collection_name="pdf_docs", embedding_function=_self.embeddings, persist_directory=_self._chroma_path)
-            #    vector_store.add_documents(docs)
-            #else:
-            #    vector_store = Chroma.from_documents(collection_name="pdf_docs", documents=docs, embedding=_self.embeddings, persist_directory=_self._chroma_path)
-        return vector_store, docs
-    @st.cache_resource(show_spinner=False)
-    def _load_database(_self) -> Chroma:
-        """Load Database and return vector store"""
-        vector_store = Chroma(collection_name="pdf_docs", embedding_function=_self.embeddings, persist_directory=_self._chroma_path)
-        return vector_store
-    @property
-    def _chroma_path(self) -> str:
-        return os.path.join(config.CHROMA_BASE, self.model_name.replace(":", "_"))
-    def _save_temp_file(self, file) -> str:
-        """Save uploaded file with UUID and return path"""
-        file_path = os.path.join(config.UPLOAD_DIR, f"temp_{uuid.uuid4()}.pdf")
-        with open(file_path, "wb") as f:
-            f.write(file.getbuffer())
-        return file_path
-# Function to generate a PDF with summary and topic
-    def create_pdf(output_txt, original_file_name) -> str:
-        base_name = os.path.splitext(original_file_name)[0]  # Remove the .pdf extension
-        pdf_file_name = f"{base_name} summary.pdf"  # Create the new filename
-        pdf = FPDF()
-        pdf.add_page()
-        pdf.set_font("Arial", size=12)
-        pdf.cell(200, 10, txt="Summary", ln=True, align='C')
-        pdf.multi_cell(0, 10, txt=summary)
-        # Save the PDF to a file in memory
-        pdf_file_path = f"tmp/{pdf_file_name}"
-        pdf.output(pdf_file_path)
-        return pdf_file_path
-class ChatService:
-    """Handles chat interactions and responses"""
-    def __init__(self, api_key, deepseek_reasoner=False, max_tokens=2048, temperature=1.0, frequency_penalty=0.0, presence_penalty=0.0, logprobs=False, top_logprobs=None, vector_store=None):
-        self.api_key = api_key
-        self.deepseek_reasoner = deepseek_reasoner
-        self.max_tokens = max_tokens
-        self.temperature = temperature
-        self.frequency_penalty = frequency_penalty
-        self.presence_penalty = presence_penalty
-        self.logprobs = logprobs
-        self.top_logprobs = top_logprobs
-        self.vector_store = vector_store
-    def generate_response(self, query: str, template_key: str) -> str:
-        """Generic response generator for different templates"""
-        context = self._get_context(query) if self.vector_store else query
-        prompt = ChatPromptTemplate.from_template(config.TEMPLATES[template_key])
-        try:
-            client = OpenAI(api_key=self.api_key, base_url="https://api.deepseek.com")
-            prompt_online = [{"role": "system", "content": "You're a concise AI assistant. Keep answer in detail, clear and concise. The answer contains equations, mathematical derivation process, necessary references and monographs."},{"role": "user", "content": context}]
-            if not self.deepseek_reasoner: # deepseek-chat
-               response = client.chat.completions.create(
-                 messages=prompt_online,
-                 model="deepseek-chat",frequency_penalty=self.frequency_penalty, max_tokens=self.max_tokens,presence_penalty=self.presence_penalty, response_format={'type': 'text'},stop=None,stream=False, stream_options=None,temperature=self.temperature,top_p=1,tools=None,tool_choice=None, logprobs=self.logprobs,top_logprobs=self.top_logprobs
-               ) #json_object
-               return response.choices[0].message.content
-            else: #deepseek-reasoner
-               response = client.chat.completions.create(
-                 messages=prompt_online,
-                 model="deepseek-reasoner",max_tokens=self.max_tokens,response_format={'type': 'text'}, stop=None,stream=False,stream_options=None,tools=None,tool_choice=None
-               ) #json_object
-               return response.choices[0].message.reasoning_content
-        except Exception as e:
-            st.error(f"DeepSeek Online is not available now, Processing locally: {str(e)}")
-            llm = OllamaLLM(model=model_name, temperature=temperature, frequency_penalty=frequency_penalty, max_tokens=max_tokens, presence_penalty=presence_penalty, response_format={'type': 'text'},stop=None,stream=False, stream_options=None,top_p=1,tools=None,tool_choice=None, logprobs=top_logprobs_logical,top_logprobs=top_logprobs,)
-            return (prompt | llm).invoke({"question": query, "context": context})
-    def _get_context(self, query: str) -> str:
-        """Retrieve relevant context from vector store"""
-        # Useful if your dataset has many similar documents # Fetch more documents for the MMR algorithm to consider # But only return the top 5
-        #lambda_mult: Diversity of results returned by MMR; 1 for minimum diversity and 0 for maximum. (Default: 0.5)
-        #docs = vector_store.similarity_search(question, k=3)
-        #docs = vector_store.similarity_search_with_score(question, k=3)
-        docs = self.vector_store.max_marginal_relevance_search(
-            query, k=15, fetch_k=30, lambda_mult=0.6
-        )
-        return "\n\n".join(d.page_content for d in docs[:5]) # First 5 chunks
-# ========== UI Components ==========
-def setup_sidebar() -> Tuple[bool, str, List]:
-    """Configure and return sidebar components"""
-    with st.sidebar:
-        st.subheader("⚙️ Settings")
-        deepseek_reasoner = st.toggle("DeepSeek Reasoner")
-        model_name = st.radio(
-            "Model Selection:",
-            ["deepseek-r1:1.5b", "deepseek-r1:7b", "deepseek-r1:8b", "deepseek-r1:14b", "deepseek-r1:32b"],
-            horizontal=True
-        )
-        st.divider()
-        #max_tokens = st.slider("Max Tokens:", 1, 8192, 2048)
-        max_tokens = st.select_slider("Max Tokens:", options=[128, 256, 512, 1024, 2048, 4096, 8192],value=(2048))
-        top_logprobs = st.slider("Log Probabilities of Each Output Token:", 0, 20, 1)
-        if top_logprobs==0:
-            top_logprobs_logical = False
-            top_logprobs = None
-        else:
-            top_logprobs_logical = True
-        temperature = st.slider("Creativity Level:", 0.0, 2.0, 0.8)
-        frequency_penalty = st.slider("Decreasing Repeated Topics:", -2.0, 2.0, 0.0)
-        presence_penalty = st.slider("Increasing New Topics:", -2.0, 2.0, 0.0)
-        files = st.file_uploader("Upload PDFs", type="pdf", accept_multiple_files=True)
-        if files:
-           show_pdf_preview(files)
-        return deepseek_reasoner, model_name, max_tokens, top_logprobs, top_logprobs_logical, temperature,frequency_penalty, presence_penalty, files
-def show_pdf_preview(file) -> None:
-    """Display PDF first page preview"""
-    try:
-        #with pymupdf.open(stream=file[0].getvalue()) as doc:
-        with fitz.open(stream=file[0].getvalue()) as doc:
-            pix = doc[0].get_pixmap()
-            st.image(pix.tobytes(), caption="First Page Preview", use_container_width=True)
-    except Exception as e:
-        st.error(f"Preview error: {str(e)}")
-@st.cache_resource(show_spinner=False)
-def get_embedder():
-    """Cache the embedding model to avoid reloading on every run."""
-    return HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-# ========== Main Application ==========
-def main():
-    st.set_page_config(layout="wide", page_title="🚀 PDF AI Assistant")
-    st.title("🚀 Intelligent PDF Analysis Suite")
-    DeepSeek_API_KEY = st.text_input(
-              "🔑 Enter your DeepSeek API Key (sk-...):", "", type="password"
-            )
-    deepseek_reasoner, model_name, max_tokens, top_logprobs, top_logprobs_logical, temperature,frequency_penalty, presence_penalty, files = setup_sidebar()
-    # Initialize core services
-    #embeddings  = OllamaEmbeddings(model=model_name)
-    embeddings  = get_embedder()
-    processor = DocumentProcessor(embeddings, model_name)
-    chat_service = ChatService(DeepSeek_API_KEY, deepseek_reasoner, max_tokens, temperature, frequency_penalty, presence_penalty, top_logprobs_logical, top_logprobs)
-    # Main interface
-    tab_db, tab_doc, tab_sum = st.tabs(["💬 Database Chat", "📄 Document Analysis", "📑 Smart Summary"])
-    with tab_db:
-        try:
-            with st.spinner("🔄 Loding knowledge base..."):
-                vector_store_db = processor._load_database()
-                st.success("🏛️Database ready!")
-        except Exception as e:
-            vector_store_db, _  = processor._process_pdfs("./temp.pdf")
-            st.error("No Database, Please Upload a PDF file and Update Basedata firstly: " + str(e))
-        chat_service.vector_store = vector_store_db
-        st.info("Query existing knowledge base")
-        if query := st.chat_input("Ask about the database ..."):
-            st.write("📜You ask:", query)
-            with st.spinner("🔄 Analyzing..."):
-                response = chat_service.generate_response(query, "chat")
-                st.chat_message("assistant").write(response)
-    if files:
-        #show_pdf_preview(files)
-        with st.spinner("🔄 Processing documents..."):
-            vector_store, docs = processor._process_pdfs(files)
-            chat_service.vector_store = vector_store
-        with tab_doc:
-            if query := st.chat_input("Ask about the document..."):
-                st.write("📜You ask:", query)
-                with st.spinner("🔄 Analyzing..."):
-                    response = chat_service.generate_response(query, "chat")
-                    st.chat_message("assistant").write(response)
-            if st.button("Update Database", type="primary", key=0):
-               with st.spinner("🔄 Updating Database..."):
-                    vector_store_db = processor._load_database()
-                    vector_store_db.add_documents(docs)
-                    st.write("### 🏛️ Database Was Updated !!!")
-        with tab_sum:
-            if st.button("Generate Smart Summary", type="primary", key=1):
-                with st.spinner("🤖Distilling key insights..."):
-                    summary = chat_service.generate_response("", "summary")
-                    st.markdown(f"**Document Summary:**\n{summary}")
-            if st.button("Update Database", type="primary", key=2):
-               with st.spinner("🔄 Updating Database..."):
-                    vector_store_db = processor._load_database()
-                    vector_store_db.add_documents(docs)
-                    st.write("### 🏛️ Database Was Updated !!!")
-    else:
-        st.info("📥 Please Upload a PDF File to Proceed or Ask Questions with Database.")
-if __name__ == "__main__":
-    main()