Spaces:

ilsa15
/

chatbot

Sleeping

App Files Files Community

ilsa15 commited on Jul 27, 2025

Commit

ca748ce

verified ·

1 Parent(s): 4fd9d2a

Update app.py

Browse files

Files changed (1) hide show

app.py +265 -115

app.py CHANGED Viewed

@@ -176,139 +176,289 @@
 # #     main()
-import nest_asyncio
-import streamlit as st
 import os
 import requests
-from youtube_transcript_api import YouTubeTranscriptApi
-from groq import Groq
 from bs4 import BeautifulSoup
-nest_asyncio.apply()
-# --- CONFIGURATION ---
-YOUTUBE_API_KEY = os.environ.get("YOUTUBE_API_KEY")
-GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
-channel_id = "UCsv3kmQ5k1eIRG2R9mWN"  # iCodeGuru
-BASE_URL = "https://icode.guru"
 groq_client = Groq(api_key=GROQ_API_KEY)
-# --- Fetch recent video IDs from YouTube channel ---
-def get_latest_video_ids(channel_id, max_results=5):
-    url = f"https://www.googleapis.com/youtube/v3/search?key={YOUTUBE_API_KEY}&channelId={channel_id}&part=snippet,id&order=date&maxResults={max_results}"
-    response = requests.get(url)
-    videos = response.json().get('items', [])
-    valid_videos = []
-    for v in videos:
-        if v['id']['kind'] == 'youtube#video':
-            title = v['snippet']['title']
-            channel_title = v['snippet']['channelTitle']
-            video_id = v['id']['videoId']
-            if "icodeguru" in channel_title.lower():  # ✅ Extra validation
-                valid_videos.append((video_id, title))
-    return valid_videos
-# --- Get video transcripts ---
-def get_video_transcripts(video_info):
     results = []
-    for vid, title in video_info:
-        try:
-            transcript = YouTubeTranscriptApi.get_transcript(vid)
-            text = " ".join([t['text'] for t in transcript])
-            video_link = f"https://www.youtube.com/watch?v={vid}"
-            results.append({
-                "video_id": vid,
-                "title": title,
-                "link": video_link,
-                "transcript": text
-            })
-        except Exception as e:
-            continue
     return results
-# --- Scrape icode.guru ---
-def scrape_icodeguru(base_url=BASE_URL, max_pages=5):
-    visited = set()
-    blocks = []
-    def crawl(url):
-        if url in visited or len(visited) >= max_pages:
-            return
-        visited.add(url)
-        try:
-            res = requests.get(url, timeout=10)
-            soup = BeautifulSoup(res.content, "html.parser")
-            page_text = soup.get_text(separator=" ", strip=True)
-            if len(page_text) > 100:
-                blocks.append(f"[{url}]({url}):\n{page_text[:1500]}")
-            for link in soup.find_all("a", href=True):
-                href = link['href']
-                if href.startswith("/"):
-                    href = base_url + href
-                if href.startswith(base_url):
-                    crawl(href)
-        except:
-            pass
-    crawl(base_url)
-    return blocks
-# --- Ask Groq ---
-def ask_groq(context, question):
-    messages = [
-        {"role": "system", "content": "You are a helpful assistant. Always provide relevant video and website links if possible."},
-        {"role": "user", "content": f"Context:\n{context}\n\nQuestion: {question}\nAnswer (include links):"}
-    ]
     chat_completion = groq_client.chat.completions.create(
-        model="llama-3.3-70b-versatile",
-        messages=messages,
     )
-    return chat_completion.choices[0].message.content.strip()
-#--- STREAMLIT APP ---
-def main():
-    st.set_page_config(page_title="EduBot for iCodeGuru", layout="wide")
-    st.title("🎓 EduBot for @icodeguru0")
-    st.markdown("Ask anything based on the latest YouTube videos and website content of [icode.guru](https://icode.guru).")
-    question = st.text_input("💬 Ask your question:")
-    if question:
-        with st.spinner("📺 Fetching YouTube videos..."):
-            video_info = get_latest_video_ids(channel_id, max_results=5)
-            transcripts = get_video_transcripts(video_info)
-        yt_context = ""
-        relevant_links = []
-        for vid in transcripts:
-            yt_context += f"\n\n[Video: {vid['title']}]({vid['link']}):\n{vid['transcript'][:1500]}"
-            if question.lower() in vid['transcript'].lower():
-                relevant_links.append(vid['link'])
-        with st.spinner("🌐 Scraping icode.guru..."):
-            site_blocks = scrape_icodeguru(BASE_URL, max_pages=5)
-            site_context = "\n\n".join(site_blocks)
-        full_context = yt_context + "\n\n" + site_context
-        with st.spinner("🧠 Thinking..."):
-            answer = ask_groq(full_context, question)
-        st.success(answer)
-        if relevant_links:
-            st.markdown("### 🔗 Related YouTube Links")
-            for link in relevant_links:
-                st.markdown(f"- [Watch Video]({link})")
-    st.markdown("---")
-    st.caption("Powered by YouTube, iCodeGuru, and Groq")
 if __name__ == "__main__":
     main()

 # #     main()
+#(youtube+web)
+# import nest_asyncio
+# import streamlit as st
+# import os
+# import requests
+# from youtube_transcript_api import YouTubeTranscriptApi
+# from groq import Groq
+# from bs4 import BeautifulSoup
+# nest_asyncio.apply()
+# # --- CONFIGURATION ---
+# YOUTUBE_API_KEY = os.environ.get("YOUTUBE_API_KEY")
+# GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
+# channel_id = "UCsv3kmQ5k1eIRG2R9mWN"  # iCodeGuru
+# BASE_URL = "https://icode.guru"
+# groq_client = Groq(api_key=GROQ_API_KEY)
+# # --- Fetch recent video IDs from YouTube channel ---
+# def get_latest_video_ids(channel_id, max_results=5):
+#     url = f"https://www.googleapis.com/youtube/v3/search?key={YOUTUBE_API_KEY}&channelId={channel_id}&part=snippet,id&order=date&maxResults={max_results}"
+#     response = requests.get(url)
+#     videos = response.json().get('items', [])
+#     valid_videos = []
+#     for v in videos:
+#         if v['id']['kind'] == 'youtube#video':
+#             title = v['snippet']['title']
+#             channel_title = v['snippet']['channelTitle']
+#             video_id = v['id']['videoId']
+#             if "icodeguru" in channel_title.lower():  # ✅ Extra validation
+#                 valid_videos.append((video_id, title))
+#     return valid_videos
+# # --- Get video transcripts ---
+# def get_video_transcripts(video_info):
+#     results = []
+#     for vid, title in video_info:
+#         try:
+#             transcript = YouTubeTranscriptApi.get_transcript(vid)
+#             text = " ".join([t['text'] for t in transcript])
+#             video_link = f"https://www.youtube.com/watch?v={vid}"
+#             results.append({
+#                 "video_id": vid,
+#                 "title": title,
+#                 "link": video_link,
+#                 "transcript": text
+#             })
+#         except Exception as e:
+#             continue
+#     return results
+# # --- Scrape icode.guru ---
+# def scrape_icodeguru(base_url=BASE_URL, max_pages=5):
+#     visited = set()
+#     blocks = []
+#     def crawl(url):
+#         if url in visited or len(visited) >= max_pages:
+#             return
+#         visited.add(url)
+#         try:
+#             res = requests.get(url, timeout=10)
+#             soup = BeautifulSoup(res.content, "html.parser")
+#             page_text = soup.get_text(separator=" ", strip=True)
+#             if len(page_text) > 100:
+#                 blocks.append(f"[{url}]({url}):\n{page_text[:1500]}")
+#             for link in soup.find_all("a", href=True):
+#                 href = link['href']
+#                 if href.startswith("/"):
+#                     href = base_url + href
+#                 if href.startswith(base_url):
+#                     crawl(href)
+#         except:
+#             pass
+#     crawl(base_url)
+#     return blocks
+# # --- Ask Groq ---
+# def ask_groq(context, question):
+#     messages = [
+#         {"role": "system", "content": "You are a helpful assistant. Always provide relevant video and website links if possible."},
+#         {"role": "user", "content": f"Context:\n{context}\n\nQuestion: {question}\nAnswer (include links):"}
+#     ]
+#     chat_completion = groq_client.chat.completions.create(
+#         model="llama-3.3-70b-versatile",
+#         messages=messages,
+#     )
+#     return chat_completion.choices[0].message.content.strip()
+# #--- STREAMLIT APP ---
+# def main():
+#     st.set_page_config(page_title="EduBot for iCodeGuru", layout="wide")
+#     st.title("🎓 EduBot for @icodeguru0")
+#     st.markdown("Ask anything based on the latest YouTube videos and website content of [icode.guru](https://icode.guru).")
+#     question = st.text_input("💬 Ask your question:")
+#     if question:
+#         with st.spinner("📺 Fetching YouTube videos..."):
+#             video_info = get_latest_video_ids(channel_id, max_results=5)
+#             transcripts = get_video_transcripts(video_info)
+#         yt_context = ""
+#         relevant_links = []
+#         for vid in transcripts:
+#             yt_context += f"\n\n[Video: {vid['title']}]({vid['link']}):\n{vid['transcript'][:1500]}"
+#             if question.lower() in vid['transcript'].lower():
+#                 relevant_links.append(vid['link'])
+#         with st.spinner("🌐 Scraping icode.guru..."):
+#             site_blocks = scrape_icodeguru(BASE_URL, max_pages=5)
+#             site_context = "\n\n".join(site_blocks)
+#         full_context = yt_context + "\n\n" + site_context
+#         with st.spinner("🧠 Thinking..."):
+#             answer = ask_groq(full_context, question)
+#         st.success(answer)
+#         if relevant_links:
+#             st.markdown("### 🔗 Related YouTube Links")
+#             for link in relevant_links:
+#                 st.markdown(f"- [Watch Video]({link})")
+#     st.markdown("---")
+#     st.caption("Powered by YouTube, iCodeGuru, and Groq")
+# if __name__ == "__main__":
+#     main()
 import os
+import gradio as gr
+import json
 import requests
 from bs4 import BeautifulSoup
+from sentence_transformers import SentenceTransformer
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+from groq import Groq
+# --- CONFIG ---
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 groq_client = Groq(api_key=GROQ_API_KEY)
+embed_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+# --- UTILS ---
+def embed(text):
+    return embed_model.encode([text])[0]
+def find_best_match(query, documents, embeddings, top_k=3, threshold=0.5):
+    query_vec = embed(query).reshape(1, -1)
+    sims = cosine_similarity(query_vec, embeddings)[0]
+    top_indices = np.argsort(sims)[::-1]
     results = []
+    for idx in top_indices[:top_k]:
+        if sims[idx] >= threshold:
+            results.append((documents[idx], float(sims[idx])))
     return results
+def search_uploaded_files(query, uploaded_files):
+    texts = []
+    sources = []
+    for file in uploaded_files:
+        name = file.name.lower()
+        content = file.read().decode("utf-8")
+        if name.endswith(".json"):
+            data = json.loads(content)
+            for item in data if isinstance(data, list) else [data]:
+                text = json.dumps(item) if isinstance(item, dict) else str(item)
+                texts.append(text)
+                sources.append(name)
+        else:
+            texts.append(content)
+            sources.append(name)
+    if not texts:
+        return []
+    embeddings = [embed(t) for t in texts]
+    top_results = find_best_match(query, texts, embeddings)
+    return [f"📄 From {sources[i]}:\n{text}" for i, (text, _) in enumerate(top_results)]
+# --- FALLBACK SOURCES ---
+def scrape_icodeguru(query, max_results=3):
+    base_url = "https://icode.guru"
+    try:
+        resp = requests.get(base_url, timeout=10)
+        soup = BeautifulSoup(resp.text, "html.parser")
+        links = soup.find_all("a", href=True)
+        matching = []
+        for a in links:
+            if query.lower() in a.text.lower():
+                href = a['href']
+                full_url = href if href.startswith("http") else base_url + href
+                matching.append(f"{a.text.strip()}\n🔗 {full_url}")
+            if len(matching) >= max_results:
+                break
+        return matching
+    except Exception as e:
+        return [f"🌐 Error fetching website: {e}"]
+def search_youtube_icodeguru(query, max_results=3):
+    try:
+        api_key = os.getenv("YOUTUBE_API_KEY")
+        if not api_key:
+            return ["⚠️ YouTube API key not set."]
+        url = f"https://www.googleapis.com/youtube/v3/search?part=snippet&channelId=UCsv3kmQ5k9z7CdFtnqp1U_A&q={query}&type=video&maxResults={max_results}&key={api_key}"
+        r = requests.get(url)
+        data = r.json()
+        if "items" not in data:
+            return ["⚠️ YouTube API error or quota exceeded."]
+        results = []
+        for item in data["items"]:
+            title = item["snippet"]["title"]
+            video_id = item["id"]["videoId"]
+            video_url = f"https://www.youtube.com/watch?v={video_id}"
+            results.append(f"▶️ {title}\n🔗 {video_url}")
+        return results
+    except Exception as e:
+        return [f"📺 Error searching YouTube: {e}"]
+# --- CHAT HANDLER ---
+def chat_handler(message, history, files=None):
+    fallback_used = False
+    file_results = search_uploaded_files(message, files) if files else []
+    context_text = "\n\n".join(file_results)
+    if not context_text.strip():
+        fallback_used = True
+        yt_results = search_youtube_icodeguru(message)
+        web_results = scrape_icodeguru(message)
+        context_text = "\n\n".join(yt_results + web_results)
+    prompt = f"""You are SmartiBot, a helpful assistant trained only on iCodeGuru content.
+Answer the following question **strictly** based on this context:
+Context:
+{context_text}
+Question: {message}
+Answer:"""
     chat_completion = groq_client.chat.completions.create(
+        model="llama3-8b-8192",
+        messages=[{"role": "user", "content": prompt}],
     )
+    reply = chat_completion.choices[0].message.content.strip()
+    if fallback_used:
+        reply += "\n\n📡 Fetched from iCodeGuru YouTube or Website."
+    return reply
+# --- STREAMLIT APP ---
+def main():
+    gr.ChatInterface(
+        fn=chat_handler,
+        title="🤖 SmartiBot for iCodeGuru",
+        description="Ask any tech question — get answers only from iCodeGuru's YouTube, Website, or uploaded files!",
+        additional_inputs=[
+            gr.File(file_types=[".txt", ".json"], label="Upload Knowledge Files", file_count="multiple")
+        ],
+    ).launch()
 if __name__ == "__main__":
     main()