Spaces:

HimanshuGoyal2004
/

github-mcp-server

Running

App Files Files Community

HimanshuGoyal2004 commited on Oct 24, 2025

Commit

1598ff7

1 Parent(s): 943209d

fix

Browse files

Files changed (1) hide show

app.py +82 -18

app.py CHANGED Viewed

@@ -6,7 +6,53 @@ import requests
 import gradio as gr
 from dotenv import load_dotenv
 from datasets import load_dataset
-from langchain_core.documents import Document
 from langchain_community.retrievers import BM25Retriever
 # Load environment variables
@@ -81,25 +127,43 @@ class GitHubMCPServer:
                 return
             # Split documents into smaller chunks for better retrieval
-            text_splitter = RecursiveCharacterTextSplitter(
-                chunk_size=500,  # Characters per chunk
-                chunk_overlap=50,  # Overlap between chunks to maintain context
-                add_start_index=True,
-                strip_whitespace=True,
-                separators=["\n\n", "\n", ".", " ", ""],  # Priority order for splitting
-            )
-            docs_processed = text_splitter.split_documents(source_docs)
-            print(f"📚 Knowledge base prepared with {len(docs_processed)} document chunks")
             # Initialize BM25 retriever
-            self.cve_retriever = BM25Retriever.from_documents(
-                docs_processed,
-                k=3
-            )
-            print(f"✅ CVE Retriever initialized with {len(docs_processed)} document chunks")
         except Exception as e:
             print(f"❌ Error initializing CVE retriever: {str(e)}")

 import gradio as gr
 from dotenv import load_dotenv
 from datasets import load_dataset
+try:
+    from langchain_core.documents import Document
+except ImportError:
+    try:
+        from langchain.docstore.document import Document
+    except ImportError:
+        try:
+            from langchain.schema import Document
+        except ImportError:
+            # Fallback: Create a simple Document class
+            class Document:
+                def __init__(self, page_content: str, metadata: dict = None):
+                    self.page_content = page_content
+                    self.metadata = metadata or {}
+# Import RecursiveCharacterTextSplitter with fallback
+RecursiveCharacterTextSplitter = None
+try:
+    from langchain.text_splitter import RecursiveCharacterTextSplitter
+    print("✅ Using langchain.text_splitter.RecursiveCharacterTextSplitter")
+except ImportError:
+    try:
+        from langchain_text_splitters import RecursiveCharacterTextSplitter
+        print("✅ Using langchain_text_splitters.RecursiveCharacterTextSplitter")
+    except ImportError:
+        print("⚠️ Using fallback RecursiveCharacterTextSplitter")
+        # Fallback: Simple text splitter
+        class RecursiveCharacterTextSplitter:
+            def __init__(self, chunk_size=500, chunk_overlap=50, **kwargs):
+                self.chunk_size = chunk_size
+                self.chunk_overlap = chunk_overlap
+                print(f"📝 Initialized fallback text splitter with chunk_size={chunk_size}")
+            def split_documents(self, documents):
+                """Simple document splitting fallback"""
+                print(f"🔄 Splitting {len(documents)} documents using fallback method...")
+                result = []
+                for doc in documents:
+                    text = doc.page_content
+                    # Simple chunking
+                    for i in range(0, len(text), self.chunk_size - self.chunk_overlap):
+                        chunk = text[i:i + self.chunk_size]
+                        if chunk.strip():
+                            result.append(Document(page_content=chunk, metadata=doc.metadata))
+                print(f"✅ Split into {len(result)} chunks")
+                return result
 from langchain_community.retrievers import BM25Retriever
 # Load environment variables
                 return
             # Split documents into smaller chunks for better retrieval
+            print("🔄 Initializing text splitter...")
+            try:
+                text_splitter = RecursiveCharacterTextSplitter(
+                    chunk_size=500,  # Characters per chunk
+                    chunk_overlap=50,  # Overlap between chunks to maintain context
+                    add_start_index=True,
+                    strip_whitespace=True,
+                    separators=["\n\n", "\n", ".", " ", ""],  # Priority order for splitting
+                )
+                print("✅ Text splitter initialized successfully")
+            except Exception as splitter_error:
+                print(f"❌ Text splitter initialization failed: {splitter_error}")
+                # Use simple fallback
+                text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+                print("✅ Using simple fallback text splitter")
+            print("🔄 Processing documents with text splitter...")
+            try:
+                docs_processed = text_splitter.split_documents(source_docs)
+                print(f"📚 Knowledge base prepared with {len(docs_processed)} document chunks")
+            except Exception as processing_error:
+                print(f"❌ Document processing failed: {processing_error}")
+                # Use original documents without splitting as fallback
+                docs_processed = source_docs
+                print(f"✅ Using original documents without splitting: {len(docs_processed)} documents")
             # Initialize BM25 retriever
+            print("🔄 Initializing BM25 retriever...")
+            try:
+                self.cve_retriever = BM25Retriever.from_documents(
+                    docs_processed,
+                    k=3
+                )
+                print(f"✅ CVE Retriever initialized with {len(docs_processed)} document chunks")
+            except Exception as retriever_error:
+                print(f"❌ BM25 retriever initialization failed: {retriever_error}")
+                self.cve_retriever = None
         except Exception as e:
             print(f"❌ Error initializing CVE retriever: {str(e)}")