Spaces:

MuhammadAhmad332
/

MSDSF25A009-ver2

Sleeping

App Files Files Community

MuhammadAhmad332 commited on Mar 2

Commit

196febe

verified ·

1 Parent(s): d141170

Upload 3 files

Browse files

Files changed (3) hide show

.env +3 -0
app.py +180 -0
requirements.txt +6 -0

.env ADDED Viewed

	@@ -0,0 +1,3 @@

+GROQ_API_KEY=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
+BRIGHT_API_KEY=ded1bc00-4d84-4dee-b4d6-c896cadf2417
+BRIGHT_ZONE=web_unlocker2

app.py ADDED Viewed

	@@ -0,0 +1,180 @@

+import os
+import requests
+from bs4 import BeautifulSoup
+import pandas as pd
+from groq import Groq
+import gradio as gr
+from dotenv import load_dotenv
+from youtube_transcript_api import YouTubeTranscriptApi
+import re
+load_dotenv()
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+BRIGHT_API_KEY = os.getenv("BRIGHT_API_KEY")
+BRIGHT_ZONE = os.getenv("BRIGHT_ZONE")
+client = Groq(api_key=GROQ_API_KEY)
+# BRIGHT DATA WEB UNLOCKER
+def brightdata_request(target_url):
+    response = requests.post(
+        "https://api.brightdata.com/request",
+        headers={
+            "Content-Type": "application/json",
+            "Authorization": f"Bearer {BRIGHT_API_KEY}"
+        },
+        json={
+            "zone": BRIGHT_ZONE,
+            "url": target_url,
+            "format": "raw"
+        }
+    )
+    return response.text
+# TAB 1 — GOODREADS SCRAPER
+def scrape_goodreads(url):
+    html = brightdata_request(url)
+    print("HTML length:", len(html))
+    soup = BeautifulSoup(html, "html.parser")
+    books = []
+    rows = soup.find_all("tr")
+    for row in rows:
+        title_tag = row.find("a", class_="bookTitle")
+        author_tag = row.find("a", class_="authorName")
+        rating_tag = row.find("span", class_="minirating")
+        if title_tag and author_tag and rating_tag:
+            books.append({
+                "title": title_tag.get_text(strip=True),
+                "author": author_tag.get_text(strip=True),
+                "rating": rating_tag.get_text(strip=True)
+            })
+    print("Extracted books:", books[:3])
+    return books[:10]
+def qa_bot(url, question):
+    books = scrape_goodreads(url)
+    if not books:
+        return "No book data found."
+    context = "\n".join(
+        [f"{i+1}. {b['title']} by {b['author']} - {b['rating']}"
+         for i, b in enumerate(books)]
+    )
+    system_prompt = f"""
+    You are a helpful assistant.
+    Here is book data scraped from Goodreads:
+    {context}
+    Answer questions ONLY using this data.
+    """
+    response = client.chat.completions.create(
+        model="llama-3.1-8b-instant",
+        messages=[
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": question}
+        ]
+    )
+    return response.choices[0].message.content
+# TAB 2 — YOUTUBE TRANSCRIPT
+def extract_video_id(url):
+    pattern = r"(?:v=|youtu\.be/)([a-zA-Z0-9_-]{11})"
+    match = re.search(pattern, url)
+    return match.group(1) if match else None
+def get_youtube_transcript(url):
+    video_id = extract_video_id(url)
+    if not video_id:
+        return "Invalid YouTube URL."
+    try:
+        api = YouTubeTranscriptApi()
+        transcript = api.fetch(video_id)
+        full_text = " ".join([entry.text for entry in transcript])
+        return full_text
+    except Exception as e:
+        print("Transcript ERROR:", str(e))
+        return "No transcript available for this video."
+def youtube_qa(video_url, question):
+    transcript = get_youtube_transcript(video_url)
+    if transcript.startswith("No") or transcript.startswith("Invalid"):
+        return transcript
+    system_prompt = f"""
+    You are a helpful assistant.
+    Answer ONLY using the transcript below.
+    Transcript:
+    {transcript[:6000]}
+    """
+    response = client.chat.completions.create(
+        model="llama-3.1-8b-instant",
+        messages=[
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": question}
+        ]
+    )
+    return response.choices[0].message.content
+# GRADIO UI — VERSION 2
+with gr.Blocks() as demo:
+    gr.Markdown("# Version 2 — Website + YouTube Q&A")
+    # TAB 1
+    with gr.Tab("🌐 Website Scraper Q&A"):
+        # url_input = gr.Textbox(label="Enter Goodreads URL")
+        url_input = gr.Textbox(
+    label="Enter Goodreads URL",
+    value="https://www.goodreads.com/list/show/1.Best_Books_Ever"
+)
+        question_input = gr.Textbox(label="Ask your question")
+        output1 = gr.Textbox(label="Answer")
+        btn1 = gr.Button("Submit")
+        btn1.click(qa_bot, inputs=[url_input, question_input], outputs=output1)
+    # TAB 2
+    with gr.Tab("🎥 YouTube Transcript Q&A"):
+        video_input = gr.Textbox(label="Enter YouTube URL")
+        yt_question = gr.Textbox(label="Ask your question")
+        output2 = gr.Textbox(label="Answer")
+        btn2 = gr.Button("Submit")
+        btn2.click(youtube_qa, inputs=[video_input, yt_question], outputs=output2)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio
+groq
+requests
+beautifulsoup4
+python-dotenv
+youtube-transcript-api