Spaces:

rbbist
/

RAG_System_with_Nepal_Kanun_Patrika_Dataset

Sleeping

App Files Files Community

rbbist commited on Aug 12, 2025

Commit

d6b3fb4

verified ·

1 Parent(s): 6299703

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -26

app.py CHANGED Viewed

@@ -59,43 +59,56 @@ def semantic_search_ui(search_text: str):
         formatted, top_docs, combined_context = semantic_search(search_text, n_results=3)
         print(f"DEBUG: Retrieved {len(top_docs)} documents")
-        # Summarize each top doc (short)
         summaries = []
         for idx, item in enumerate(top_docs, start=1):
             doc_text = item["document"]
             print(f"DEBUG: Processing document {idx}, length: {len(doc_text)}")
-            # Create a simpler prompt that works better with T5/MT5
-            if "flan-t5" in SUMMARY_MODEL.lower():
-                prompt = f"Summarize this legal case in Nepali: {doc_text[:1000]}"
-            else:
-                prompt = f"संक्षेपमा नेपालीमा सारांश बनाउनुहोस्: {doc_text[:1000]}"
-            try:
-                # Better generation parameters
-                summary_out = summarizer(
-                    prompt,
-                    max_length=150,
-                    min_length=20,
-                    do_sample=False,
-                    temperature=0.7,
-                    pad_token_id=summarizer.tokenizer.eos_token_id
-                )[0]["generated_text"]
-                print(f"DEBUG: Generated summary {idx}: {summary_out[:100]}...")
-            except Exception as e:
-                print(f"DEBUG: Error generating summary {idx}: {e}")
-                # fallback: truncated raw text
-                summary_out = (doc_text[:300] + "...")
-            # Clean/truncate extra whitespace
-            summary_out = summary_out.strip()
-            summaries.append(summary_out)
         # Build compact combined context for the answerer (limited length)
         compact_context = build_compact_context(summaries)
         print(f"DEBUG: Built compact context, length: {len(compact_context)}")
         # Save last context for Ask flow
         _last_combined_context = compact_context

         formatted, top_docs, combined_context = semantic_search(search_text, n_results=3)
         print(f"DEBUG: Retrieved {len(top_docs)} documents")
+        # Skip model-based summarization for now - use direct text extraction instead
         summaries = []
         for idx, item in enumerate(top_docs, start=1):
             doc_text = item["document"]
+            meta = item["metadata"]
             print(f"DEBUG: Processing document {idx}, length: {len(doc_text)}")
+            # Create a manual summary using metadata and document text
+            # This is more reliable than model-based summarization
+            summary_parts = []
+            # Add key metadata
+            if meta.get('mudda_type'):
+                summary_parts.append(f"मुद्दाको किसिम: {meta['mudda_type']}")
+            if meta.get('subject'):
+                summary_parts.append(f"विषय: {meta['subject']}")
+            if meta.get('nibedak'):
+                summary_parts.append(f"निवेदक: {meta['nibedak'][:100]}...")
+            if meta.get('vipakshi'):
+                summary_parts.append(f"विपक्षी: {meta['vipakshi'][:100]}...")
+            # Add relevant text snippets (look for key legal terms)
+            doc_clean = doc_text.replace('["', '').replace('"]', '').replace('\\n', ' ')
+            # Extract sentences that contain important legal terms
+            important_sentences = []
+            sentences = doc_clean.split('।')  # Split by Nepali sentence delimiter
+            for sentence in sentences[:5]:  # Take first 5 sentences
+                sentence = sentence.strip()
+                if len(sentence) > 20 and any(term in sentence.lower() for term in ['फैसला', 'ठहर', 'अदालत', 'मुद्दा', 'कानुन']):
+                    important_sentences.append(sentence[:200])  # Limit sentence length
+            if important_sentences:
+                summary_parts.append("मुख्य बुँदाहरू: " + "। ".join(important_sentences[:2]) + "।")
+            else:
+                # Fallback to first part of document
+                clean_start = doc_clean[:300].strip()
+                if clean_start:
+                    summary_parts.append(f"विवरण: {clean_start}...")
+            # Combine all parts
+            manual_summary = " | ".join(summary_parts)
+            summaries.append(manual_summary)
+            print(f"DEBUG: Created manual summary {idx}: {manual_summary[:100]}...")
         # Build compact combined context for the answerer (limited length)
         compact_context = build_compact_context(summaries)
         print(f"DEBUG: Built compact context, length: {len(compact_context)}")
+        print(f"DEBUG: Context preview: {compact_context[:200]}...")
         # Save last context for Ask flow
         _last_combined_context = compact_context