{title}

{publication}

{html_text}

""" return st.markdown(html, unsafe_allow_html=True) publication_map = { 'los angeles times': 'los angeles times', 'breitbart': 'breitbart', 'vox': 'vox', 'cnn': 'cnn', 'new york post': 'new york post', 'new york times': 'new york times' } st.write(""" # Example """) st.info(""" YouTube search built as [explained here](https://pinecone.io/learn/openai-whisper)! *The current search scope is limited to a few videos talking about ML, NLP, and vector search*. Add requests for channels to include in the [*Community* tab](https://huggingface.co/spaces/jamescalam/ask-youtube/discussions). """) st.markdown(""" """, unsafe_allow_html=True) query = st.text_input("Search!", "") with st.expander("Advanced Options"): publication_options = st.multiselect( 'Publications to Search', ['los angeles times','breitbart','vox','new york post','cnn','new york times'], ['los angeles times','breitbart','vox','new york post','cnn','new york times'] ) if query != "": publications = [publication_map[name] for name in publication_options] print(f"query: {query}") filter = {'$and': [ {'publication': {'$in': publications}} # {'category': {'$in': ['longform', 'newspaper']}} ] } matches = make_query( query, retriever, top_k=5, filter=filter ) results = {} order = [] for context in matches: video_id = context['metadata']['url'].split('/')[-1] if video_id not in results: results[video_id] = { 'title': context['metadata']['title'], 'thumbnail': context['metadata']['thumbnail'], 'urls': [f"{context['metadata']['url']}"], 'contexts': [context['metadata']['text']], 'starts': [int(context['metadata']['start_second'])], 'ends': [int(context['metadata']['end_second'])], 'publication': context['metadata']['publication'], 'category': context['metadata']['category'] } order.append(video_id) else: results[video_id]['urls'].append( f"{context['metadata']['url']}" ) results[video_id]['contexts'].append( context['metadata']['text'] ) results[video_id]['starts'].append(int(context['metadata']['start_second'])) results[video_id]['ends'].append(int(context['metadata']['end_second'])) # now display cards for video_id in order: card( thumbnail=results[video_id]['thumbnail'], title=results[video_id]['title'], urls=results[video_id]['urls'], contexts=results[video_id]['contexts'], starts=results[video_id]['starts'], ends=results[video_id]['ends'], publication=results[video_id]['publication'] )