Spaces:

emaaaa543
/

testing-space

Runtime error

App Files Files Community

emaaaa543 commited on Aug 15, 2024

Commit

6453a05

verified ·

1 Parent(s): 707bcd0

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -19

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import gradio as gr
-from langchain_community.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, WebBaseLoader, YoutubeLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_chroma import Chroma
 from langchain_core.documents import Document
 from youtube_transcript_api import YouTubeTranscriptApi
 import tiktoken
 import os
 from dotenv import load_dotenv
@@ -37,18 +38,8 @@ vector_store = Chroma(
 # loader = YoutubeLoader.from_youtube_url("https://www.youtube.com/watch?v=e-gwvmhyU7A", add_video_info=True)
 # data = loader.load()  # Assume this loads the transcript
-def load_youtube_data(video_id):
-    try:
-        transcript_data = YouTubeTranscriptApi.get_transcript(video_id)
-        data = "\n".join([entry['text'] for entry in transcript_data])
-        return data
-    except Exception as e:
-        return str(e)
-video_id = "e-gwvmhyU7A"  # Extract the video ID from the YouTube URL
-data = load_youtube_data(video_id)
-if isinstance(data, str):  # If error occurred
-    print(f"Error loading YouTube data: {data}")
@@ -73,14 +64,14 @@ text_splitter = RecursiveCharacterTextSplitter(
 texts = text_splitter.split_documents(data)
 # Store documents in ChromaDB
-documents = [
     Document(
         page_content=f"Source: {t.metadata['source']}, Title: {t.metadata['title']} \n\nContent: {t.page_content}",
-        metadata=t.metadata
-    )
-    for t in texts
-]
-vector_store.add_documents(documents=documents)
 # Define function to get embeddings from Hugging Face
 def get_embedding(text):

 import gradio as gr
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_chroma import Chroma
 from langchain_core.documents import Document
 from youtube_transcript_api import YouTubeTranscriptApi
+from langchain_community.document_loaders import YoutubeLoader
+from langchain_community.document_loaders import GoogleApiYoutubeLoader
 import tiktoken
 import os
 from dotenv import load_dotenv
 # loader = YoutubeLoader.from_youtube_url("https://www.youtube.com/watch?v=e-gwvmhyU7A", add_video_info=True)
 # data = loader.load()  # Assume this loads the transcript
+loader = YoutubeLoader.from_youtube_url("https://www.youtube.com/watch?v=e-gwvmhyU7A", add_video_info=True)
+data = loader.load()
 texts = text_splitter.split_documents(data)
 # Store documents in ChromaDB
+documents= [
     Document(
         page_content=f"Source: {t.metadata['source']}, Title: {t.metadata['title']} \n\nContent: {t.page_content}",
+                   metadata=t.metadata
+                   )
+    for t in texts]
+vectorstore_from_texts = vector_store.add_documents(documents=documents)
 # Define function to get embeddings from Hugging Face
 def get_embedding(text):