Sentinel-AI-Web-Search-Test-v2-Testing-Score

Build error

App Files Files Community

Shreyas094 commited on Jul 8, 2024

Commit

9933931

verified ·

1 Parent(s): bdf60b8

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -27

app.py CHANGED Viewed

@@ -197,8 +197,10 @@ def google_search(term, num_results=20, lang="en", timeout=5, safe="active", ssl
             print(f"Found {len(result_block)} results on this page")
             for result in result_block:
                 link = result.find("a", href=True)
-                if link:
                     link = link["href"]
                     print(f"Processing link: {link}")
                     try:
                         webpage = session.get(link, headers=headers, timeout=timeout)
@@ -206,20 +208,21 @@ def google_search(term, num_results=20, lang="en", timeout=5, safe="active", ssl
                         visible_text = extract_text_from_webpage(webpage.text)
                         if len(visible_text) > max_chars_per_page:
                             visible_text = visible_text[:max_chars_per_page] + "..."
-                        all_results.append({"link": link, "text": visible_text})
                         print(f"Successfully extracted text from {link}")
                     except requests.exceptions.RequestException as e:
                         print(f"Error retrieving webpage content: {e}")
-                        all_results.append({"link": link, "text": None})
                 else:
-                    print("No link found for this result")
-                    all_results.append({"link": None, "text": None})
             start += len(result_block)
     print(f"Search completed. Total results: {len(all_results)}")
     print("Search results:")
     for i, result in enumerate(all_results, 1):
         print(f"Result {i}:")
         print(f"  Link: {result['link']}")
         if result['text']:
             print(f"  Text: {result['text'][:100]}...")  # Print first 100 characters
@@ -229,11 +232,14 @@ def google_search(term, num_results=20, lang="en", timeout=5, safe="active", ssl
     if not all_results:
         print("No search results found. Returning a default message.")
-        return [{"link": None, "text": "No information found in the web search results."}]
     return all_results
 def summarize_content(content, model):
     # Approximate the token limit using character count
     # Assuming an average of 4 characters per token
     max_chars = 7000 * 4  # Leave some room for the prompt
@@ -282,32 +288,38 @@ def ask_question(question, temperature, top_p, repetition_penalty, web_search):
     if web_search:
         search_results = google_search(question)
-        model = get_model(temperature, top_p, repetition_penalty)
-        summaries = []
-        for result in search_results:
-            try:
-                summary = summarize_content(result["text"], model)
-                summaries.append(summary)
-            except Exception as e:
-                print(f"Error summarizing content: {str(e)}")
-                summaries.append("Error: Unable to summarize this content.")
-        # Combine summaries, ensuring we don't exceed the token limit
-        combined_summaries = ""
-        for summary in summaries:
-            if len((combined_summaries + summary).split()) > 7000:
-                break
-            combined_summaries += summary + "\n\n"
-        context_str = combined_summaries
-        titles = [result["title"] for result in search_results]
         ranks = rank_search_results(titles, summaries, model)
-        update_vector_db_with_search_results(search_results, summaries, ranks)
-        context_str = "\n".join([f"Title: {result['title']}\nSummary: {summary}\nRank: {rank}"
-                                 for result, summary, rank in zip(search_results, summaries, ranks)])
         prompt_template = """
         Answer the question based on the following web search results:

             print(f"Found {len(result_block)} results on this page")
             for result in result_block:
                 link = result.find("a", href=True)
+                title = result.find("h3")
+                if link and title:
                     link = link["href"]
+                    title = title.get_text()
                     print(f"Processing link: {link}")
                     try:
                         webpage = session.get(link, headers=headers, timeout=timeout)
                         visible_text = extract_text_from_webpage(webpage.text)
                         if len(visible_text) > max_chars_per_page:
                             visible_text = visible_text[:max_chars_per_page] + "..."
+                        all_results.append({"link": link, "title": title, "text": visible_text})
                         print(f"Successfully extracted text from {link}")
                     except requests.exceptions.RequestException as e:
                         print(f"Error retrieving webpage content: {e}")
+                        all_results.append({"link": link, "title": title, "text": None})
                 else:
+                    print("No link or title found for this result")
+                    all_results.append({"link": None, "title": None, "text": None})
             start += len(result_block)
     print(f"Search completed. Total results: {len(all_results)}")
     print("Search results:")
     for i, result in enumerate(all_results, 1):
         print(f"Result {i}:")
+        print(f"  Title: {result['title']}")
         print(f"  Link: {result['link']}")
         if result['text']:
             print(f"  Text: {result['text'][:100]}...")  # Print first 100 characters
     if not all_results:
         print("No search results found. Returning a default message.")
+        return [{"link": None, "title": "No Results", "text": "No information found in the web search results."}]
     return all_results
 def summarize_content(content, model):
+    if content is None:
+        return "No content available to summarize."
     # Approximate the token limit using character count
     # Assuming an average of 4 characters per token
     max_chars = 7000 * 4  # Leave some room for the prompt
     if web_search:
         search_results = google_search(question)
+        processed_results = []
+        for index, result in enumerate(search_results, start=1):
+            if result["text"] is not None:
+                try:
+                    summary = summarize_content(result["text"], model)
+                    processed_results.append({
+                        "title": result.get("title", f"Result {index}"),
+                        "content": result["text"],
+                        "summary": summary,
+                        "index": index
+                    })
+                except Exception as e:
+                    print(f"Error processing search result {index}: {str(e)}")
+            else:
+                print(f"Skipping result {index} due to None content")
+        if not processed_results:
+            return "No valid search results found."
+        # Rank the results
+        titles = [r["title"] for r in processed_results]
+        summaries = [r["summary"] for r in processed_results]
         ranks = rank_search_results(titles, summaries, model)
+        # Update Vector DB
+        current_date = datetime.now().strftime("%Y-%m-%d")
+        update_vector_db_with_search_results(processed_results, ranks, current_date)
+        # Prepare context for the question
+        context_str = "\n\n".join([f"Title: {r['title']}\nSummary: {r['summary']}\nRank: {ranks[i]}"
+                                   for i, r in enumerate(processed_results)])
         prompt_template = """
         Answer the question based on the following web search results: