Spaces:

subashdvorak
/

trygithubactions

Sleeping

App Files Files Community

subashpoudel commited on Jul 28, 2025

Commit

6c655a3

1 Parent(s): fbc17f4

Next commit

Browse files

Files changed (19) hide show

__pycache__/main.cpython-312.pyc +0 -0
brainstroming_agent/utils/__pycache__/nodes.cpython-312.pyc +0 -0
brainstroming_agent/utils/__pycache__/tools.cpython-312.pyc +0 -0
brainstroming_agent/utils/__pycache__/utils.cpython-312.pyc +0 -0
brainstroming_agent/utils/nodes.py +1 -7
brainstroming_agent/utils/tools.py +30 -62
brainstroming_agent/utils/utils.py +3 -67
ideation_agent/utils/__pycache__/tools.cpython-312.pyc +0 -0
ideation_agent/utils/tools.py +31 -23
orchestration_agent/utils/tools.py +19 -26
orchestration_agent/utils/utils.py +3 -0
requirements.txt +3 -0
utils/__init__.py +0 -0
utils/__pycache__/data_loader.cpython-312.pyc +0 -0
utils/__pycache__/models_loader.cpython-312.pyc +0 -0
utils/data_loader.py +5 -3
utils/load_embeddings.py +4 -1
utils/models_loader.py +11 -24
utils/utils.py +34 -0

__pycache__/main.cpython-312.pyc CHANGED Viewed

Binary files a/__pycache__/main.cpython-312.pyc and b/__pycache__/main.cpython-312.pyc differ

brainstroming_agent/utils/__pycache__/nodes.cpython-312.pyc CHANGED Viewed

Binary files a/brainstroming_agent/utils/__pycache__/nodes.cpython-312.pyc and b/brainstroming_agent/utils/__pycache__/nodes.cpython-312.pyc differ

brainstroming_agent/utils/__pycache__/tools.cpython-312.pyc CHANGED Viewed

Binary files a/brainstroming_agent/utils/__pycache__/tools.cpython-312.pyc and b/brainstroming_agent/utils/__pycache__/tools.cpython-312.pyc differ

brainstroming_agent/utils/__pycache__/utils.cpython-312.pyc CHANGED Viewed

Binary files a/brainstroming_agent/utils/__pycache__/utils.cpython-312.pyc and b/brainstroming_agent/utils/__pycache__/utils.cpython-312.pyc differ

brainstroming_agent/utils/nodes.py CHANGED Viewed

@@ -7,10 +7,8 @@ from utils.models_loader import llm , ST
 from utils.data_loader import load_influencer_data
 from groq import Groq
 import os
-from .prompts import image_captioning_prompt , initial_story_prompt , refined_story_prompt , brainstroming_prompt , final_story_prompt
 from langgraph.prebuilt import create_react_agent
-from pydantic import BaseModel , Field
-from langchain_core.tools import tool
 from .state import BrainstromTopicFormatter
@@ -75,9 +73,6 @@ def retrieve(state: State) -> State:
   return state
 def generate_story(state:State)-> State:
-    retrievals_from_tool = retrieve_tool(state.idea)
-    # tools=[retrieve_tool]
     react_agent=create_react_agent(
         model=llm,
         tools=[]
@@ -102,7 +97,6 @@ def generate_story(state:State)-> State:
     response = response['messages'][-1].content
     print('The genrated story: ', response)
     state.stories.append(response)
-    # return State(messages="Story generated", topic=state.topic,stories=state.stories)
     return state

 from utils.data_loader import load_influencer_data
 from groq import Groq
 import os
+from .prompts import image_captioning_prompt , initial_story_prompt , refined_story_prompt , brainstroming_prompt
 from langgraph.prebuilt import create_react_agent
 from .state import BrainstromTopicFormatter
   return state
 def generate_story(state:State)-> State:
     react_agent=create_react_agent(
         model=llm,
         tools=[]
     response = response['messages'][-1].content
     print('The genrated story: ', response)
     state.stories.append(response)
     return state

brainstroming_agent/utils/tools.py CHANGED Viewed

@@ -1,85 +1,53 @@
-from langchain_groq import ChatGroq
-from pydantic import BaseModel, Field
-from dotenv import load_dotenv
-load_dotenv()
 import os
 import numpy as np
-from langchain_core.tools import tool
-# from utils.data_loader import load_influencer_data
-from utils.models_loader import  ST , llm
 import numpy as np
-from langchain_core.messages import SystemMessage
-import re
 import faiss
-import ast
-import pandas as pd
-from .state import QueryFormatter
-from utils.load_embeddings import  embeddings , index
-os.environ['GROQ_API_KEY']=os.getenv('GROQ_API_KEY')
-# @tool("influencers_data_retrieval_tool", args_schema=QueryFormatter, return_direct=False,description="Retrieve influencer-related data for a given query.")
 def retrieve_tool(video_topic):
     '''
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **video topic**.
     '''
-    df = pd.read_csv('extracted_data.csv')
-    query_embedding = ST.encode(str(video_topic)).reshape(1, -1).astype('float32')
-    top_k=10
-    distances, indices = index.search(query_embedding, top_k)
-    # === Format results ===
-    outer_list = []
-    for i, idx in enumerate(indices[0]):
-        res = {
-            'rank': i + 1,
-            'username': df.iloc[idx]['username'],
-            'story': df.iloc[idx]['story'],
-            'visible_text_or_brandings': df.iloc[idx]['visible_texts_or_brandings'],
-            'likesCount': df.iloc[idx]['likesCount'],
-            'commentCount': df.iloc[idx]['commentCount'],
-        }
-        inner_list = []
-        inner_list.append(f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**")
-        inner_list.append(f"The story of that particular video is:\n{res['story']}")
-        inner_list.append(f"The branding or promotion done is:\n{res['visible_text_or_brandings']}")
-        outer_list.append(inner_list)
-    return str(outer_list)
-def retrieve_manual(video_topic):
-    '''
-    Always invoke this tool.
-    Retrieve influencer's data by semantic search of **video topic**.
-    '''
-    df = pd.read_csv('extracted_data.csv')
-    query_embedding = ST.encode(str(video_topic)).reshape(1, -1).astype('float32')
-    top_k=5
     distances, indices = index.search(query_embedding, top_k)
     # === Format results ===
     outer_list = []
-    for i, idx in enumerate(indices[0]):
         res = {
-            'rank': i + 1,
-            'username': df.iloc[idx]['username'],
-            'story': df.iloc[idx]['story'],
-            'visible_text_or_brandings': df.iloc[idx]['visible_texts_or_brandings'],
-            'likesCount': df.iloc[idx]['likesCount'],
-            'commentCount': df.iloc[idx]['commentCount'],
         }
-        inner_list = []
-        inner_list.append(f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**")
-        inner_list.append(f"The story of that particular video is:\n{res['story']}")
-        inner_list.append(f"The branding or promotion done is:\n{res['visible_text_or_brandings']}")
         outer_list.append(inner_list)
-    return str(outer_list)

 import os
 import numpy as np
+from utils.models_loader import  embedding_model , llm
 import numpy as np
 import faiss
+import tiktoken
+from utils.load_embeddings import  index , df
+from utils.utils import clean_text
 def retrieve_tool(video_topic):
     '''
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **video topic**.
     '''
+    query_embedding = np.array(embedding_model.embed_query(str(video_topic))).reshape(1, -1).astype('float32')
+    faiss.normalize_L2(query_embedding)
+    top_k = len(df)
     distances, indices = index.search(query_embedding, top_k)
+    similarity_threshold = 0.35
+    selected = [(idx, sim) for idx, sim in zip(indices[0], distances[0]) if sim >= similarity_threshold]
+    if not selected:
+        return "No influencers found."
     # === Format results ===
     outer_list = []
+    for rank, (idx, sim) in enumerate(selected, 1):
+        row = df.iloc[idx]
         res = {
+            'rank': rank,
+            'username': row['username'],
+            'visible_text_or_brandings': row['visible_texts_or_brandings'],
+            'likesCount': row['likesCount'],
+            'commentCount': row['commentCount'],
+            'product_or_service_details': row['product_or_service_details'],
         }
+        inner_list = [
+            f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**",
+            f"The branding or promotion done is:\n{res['visible_text_or_brandings']}",
+            f"The details of product or service is:\n{res['product_or_service_details']}"
+        ]
         outer_list.append(inner_list)
+    cleaned_response = clean_text(str(outer_list))
+    encoding = tiktoken.encoding_for_model('gpt-4o-mini')
+    tokens = encoding.encode(cleaned_response)
+    trimmed_response = tokens[:1000]
+    return encoding.decode(trimmed_response)

brainstroming_agent/utils/utils.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from langchain_core.messages import SystemMessage, ToolMessage, HumanMessage
-from .tools import retrieve_tool , retrieve_manual
 import base64
 from PIL import Image
 from io import BytesIO
@@ -11,14 +11,7 @@ import os
 from langgraph.prebuilt import create_react_agent
 import pandas as pd
 from datasets import load_dataset
-import ast
-import faiss
-import re
-import numpy as np
-from utils.models_loader import ST , llm
 def generate_final_story(final_state):
     if 'preferred_topics' in final_state:
@@ -41,7 +34,7 @@ def generate_final_story(final_state):
             return final_state['stories'][-1]
     else:
         template = final_story_prompt(final_state)
-        influencers_data = retrieve_manual(final_state)
         messages = [SystemMessage(content=template),
                         ToolMessage(content=f'''The business details is:\n{str(final_state)}\nThe data of influencers is:\n{influencers_data}''',tool_call_id='final_story_tool')]
         react_agent=create_react_agent(
@@ -130,64 +123,7 @@ def save_to_db(business_details):
     matched_df = df[df.apply(row_matches, axis=1)]
     matched_df.to_csv('extracted_data.csv')
-def manual_retrieval(messages, business_details):
-    # === Load CSV ===
-    csv_path = 'extracted_data.csv'
-    df = pd.read_csv(csv_path)
-    # === Parse stored embeddings ===
-    df['embeddings'] = df['embeddings'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
-    embeddings = np.vstack(df['embeddings'].values).astype('float32')
-    # === Build FAISS index ===
-    dimension = embeddings.shape[1]
-    index = faiss.IndexFlatL2(dimension)
-    index.add(embeddings)
-    # === Load SentenceTransformer model ===
-    # === Encode the query and search ===
-    query_embedding = ST.encode(str(messages)+str(business_details)).reshape(1, -1).astype('float32')
-    top_k=3
-    distances, indices = index.search(query_embedding, top_k)
-    # === Function to extract sections 1 and 6 ===
-    def extract_story_and_branding(full_story):
-        full_story = full_story.replace('**6. Visible Texts or Brandings**', '**6. Visible Texts or Brandings:**')
-        full_story = full_story.replace('**1. Story**', '**1. Story:**')
-        pattern = (
-            r"\*\*1\. Story:\*\*(.*?)(?=\*\*\d+\.\s)"
-            r".*?"
-            r"\*\*6\. Visible Texts or Brandings:\*\*(.*?)(?=\*\*\d+\.\s|$)"
-        )
-        match = re.search(pattern, full_story, re.DOTALL)
-        if match:
-            story_section = match.group(1).strip()
-            branding_section = match.group(2).strip()
-            return f"Story:\n{story_section}\n\nVisible Texts or Brandings:\n{branding_section}"
-        else:
-            return "Requested sections not found."
-    # === Format results ===
-    outer_list = []
-    for i, idx in enumerate(indices[0]):
-        res = {
-            'rank': i + 1,
-            'username': df.iloc[idx]['username'],
-            'agentic_story': df.iloc[idx]['agentic_story'],
-            'likesCount': df.iloc[idx]['likesCount'],
-            'commentCount': df.iloc[idx]['commentCount'],
-            'distance': distances[0][i]
-        }
-        inner_list = []
-        inner_list.append(f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**")
-        inner_list.append(f"The story of that particular video is:\n{extract_story_and_branding(res['agentic_story'])}")
-        inner_list.append(f"Distance: {res['distance']:.4f}")
-        outer_list.append(inner_list)
-    return str(outer_list)

 from langchain_core.messages import SystemMessage, ToolMessage, HumanMessage
+from .tools import retrieve_tool
 import base64
 from PIL import Image
 from io import BytesIO
 from langgraph.prebuilt import create_react_agent
 import pandas as pd
 from datasets import load_dataset
+from utils.models_loader import llm
 def generate_final_story(final_state):
     if 'preferred_topics' in final_state:
             return final_state['stories'][-1]
     else:
         template = final_story_prompt(final_state)
+        influencers_data = retrieve_tool(final_state)
         messages = [SystemMessage(content=template),
                         ToolMessage(content=f'''The business details is:\n{str(final_state)}\nThe data of influencers is:\n{influencers_data}''',tool_call_id='final_story_tool')]
         react_agent=create_react_agent(
     matched_df = df[df.apply(row_matches, axis=1)]
     matched_df.to_csv('extracted_data.csv')

ideation_agent/utils/__pycache__/tools.cpython-312.pyc CHANGED Viewed

Binary files a/ideation_agent/utils/__pycache__/tools.cpython-312.pyc and b/ideation_agent/utils/__pycache__/tools.cpython-312.pyc differ

ideation_agent/utils/tools.py CHANGED Viewed

@@ -5,8 +5,10 @@ import pandas as pd
 import numpy as np
 import ast
 import faiss
-from utils.models_loader import ST
-from utils.load_embeddings import embeddings , index
 @tool("influencers_data_retrieval_tool", args_schema=QueryFormatter, return_direct=False,description="Retrieve influencer-related data for a given query.")
 def retrieve_tool(business_details):
@@ -14,34 +16,40 @@ def retrieve_tool(business_details):
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **business details**.
     '''
-    # === Load CSV ===
-    csv_path = 'extracted_data.csv'
-    df = pd.read_csv(csv_path)
-    query_embedding = ST.encode(str(business_details)).reshape(1, -1).astype('float32')
-    top_k=7
     distances, indices = index.search(query_embedding, top_k)
     # === Format results ===
     outer_list = []
-    for i, idx in enumerate(indices[0]):
         res = {
-            'rank': i + 1,
-            'username': df.iloc[idx]['username'],
-            'story': df.iloc[idx]['story'],
-            'visible_text_or_brandings': df.iloc[idx]['visible_texts_or_brandings'],
-            'likesCount': df.iloc[idx]['likesCount'],
-            'commentCount': df.iloc[idx]['commentCount'],
-            'product_or_service_details': df.iloc[idx]['product_or_service_details'],
         }
-        inner_list = []
-        inner_list.append(f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**")
-        inner_list.append(f"The story of that particular video is:\n{res['story']}")
-        inner_list.append(f"The branding or promotion done is:\n{res['visible_text_or_brandings']}")
-        inner_list.append(f"The details of product or service is:\n{res['product_or_service_details']}")
         outer_list.append(inner_list)
-    return str(outer_list)

 import numpy as np
 import ast
 import faiss
+import tiktoken
+from utils.models_loader import embedding_model
+from utils.load_embeddings import embeddings , index , df
+from utils.utils import clean_text
 @tool("influencers_data_retrieval_tool", args_schema=QueryFormatter, return_direct=False,description="Retrieve influencer-related data for a given query.")
 def retrieve_tool(business_details):
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **business details**.
     '''
+    query_embedding = np.array(embedding_model.embed_query(str(business_details))).reshape(1, -1).astype('float32')
+    faiss.normalize_L2(query_embedding)
+    top_k = len(df)
     distances, indices = index.search(query_embedding, top_k)
+    similarity_threshold = 0.35
+    selected = [(idx, sim) for idx, sim in zip(indices[0], distances[0]) if sim >= similarity_threshold]
+    if not selected:
+        return "No influencers found."
     # === Format results ===
     outer_list = []
+    for rank, (idx, sim) in enumerate(selected, 1):
+        row = df.iloc[idx]
         res = {
+            'rank': rank,
+            'username': row['username'],
+            'visible_text_or_brandings': row['visible_texts_or_brandings'],
+            'likesCount': row['likesCount'],
+            'commentCount': row['commentCount'],
+            'product_or_service_details': row['product_or_service_details'],
         }
+        inner_list = [
+            f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**",
+            f"The branding or promotion done is:\n{res['visible_text_or_brandings']}",
+            f"The details of product or service is:\n{res['product_or_service_details']}"
+        ]
         outer_list.append(inner_list)
+    cleaned_response = clean_text(str(outer_list))
+    encoding = tiktoken.encoding_for_model('gpt-4o-mini')
+    tokens = encoding.encode(cleaned_response)
+    trimmed_response = tokens[:1000]
+    return encoding.decode(trimmed_response)

orchestration_agent/utils/tools.py CHANGED Viewed

@@ -2,51 +2,50 @@ import faiss
 import ast
 import pandas as pd
 import numpy as np
-from utils.models_loader import ST
-import json
 from utils.load_embeddings import df, embeddings , index
 def retrieve_data_for_analytics(business_details):
     '''
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **business details**.
     '''
-    df = pd.read_csv('extracted_data.csv')
     # === Encode the query and search ===
-    query_embedding = ST.encode(str(business_details)).reshape(1, -1).astype('float32')
-    top_k = 30
     distances, indices = index.search(query_embedding, top_k)
     # === Format results ===
     results = []
     for i, idx in enumerate(indices[0]):
         res = {
             'url': df.iloc[idx]['videoUrl'],
             'username': df.iloc[idx]['username'],
-            'likesCount': int(df.iloc[idx]['likesCount']),
-            'commentCount': int(df.iloc[idx]['commentCount'])
         }
         results.append(res)
     return results
 def retrieve_data_for_orchestration(query):
-    df = pd.read_csv('extracted_data.csv')
-    # === Encode and normalize query ===
-    query_embedding = ST.encode(str(query)).reshape(1, -1).astype('float32')
     faiss.normalize_L2(query_embedding)
-    # === Search with high top_k to filter later ===
     top_k = len(df)
     distances, indices = index.search(query_embedding, top_k)
-    # === Filter by similarity threshold (e.g., 0.70) ===
-    similarity_threshold = 0.60
     selected = [(idx, sim) for idx, sim in zip(indices[0], distances[0]) if sim >= similarity_threshold]
     if not selected:
-        return "❌ No influencers found."
     # === Format results ===
     outer_list = []
@@ -55,7 +54,6 @@ def retrieve_data_for_orchestration(query):
         res = {
             'rank': rank,
             'username': row['username'],
-            # 'story': row['story'],
             'visible_text_or_brandings': row['visible_texts_or_brandings'],
             'likesCount': row['likesCount'],
             'commentCount': row['commentCount'],
@@ -64,22 +62,17 @@ def retrieve_data_for_orchestration(query):
         inner_list = [
             f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**",
-            # f"The story of that particular video is:\n{res['story']}",
             f"The branding or promotion done is:\n{res['visible_text_or_brandings']}",
             f"The details of product or service is:\n{res['product_or_service_details']}"
         ]
         outer_list.append(inner_list)
-        # === Flatten and tokenize all lines ===
-    flat_lines = [line for sublist in outer_list for line in sublist]
-    tokens = ' '.join(flat_lines).split()
-        # === If >1000 tokens, trim from back, keeping top ranks ===
-    if len(tokens) > 1000:
-        tokens = tokens[:1000]
-        trimmed_response = ' '.join(tokens)
-        return trimmed_response
-    else:
-        return '\n\n'.join(flat_lines)

 import ast
 import pandas as pd
 import numpy as np
 from utils.load_embeddings import df, embeddings , index
+from utils.models_loader import embedding_model
+from utils.utils import clean_text
+import tiktoken
 def retrieve_data_for_analytics(business_details):
     '''
     Always invoke this tool.
     Retrieve influencer's data by semantic search of **business details**.
     '''
+    # df = pd.read_csv('extracted_data.csv')
     # === Encode the query and search ===
+    query_embedding = np.array(embedding_model.embed_query(str(business_details))).reshape(1, -1).astype('float32')
+    top_k = 10
     distances, indices = index.search(query_embedding, top_k)
     # === Format results ===
     results = []
     for i, idx in enumerate(indices[0]):
+        likes = df.iloc[idx]['likesCount']
+        comments = df.iloc[idx]['commentCount']
         res = {
             'url': df.iloc[idx]['videoUrl'],
             'username': df.iloc[idx]['username'],
+            'likesCount': int(likes) if pd.notnull(likes) else None,
+        'commentCount': int(comments) if pd.notnull(comments) else None
         }
         results.append(res)
     return results
 def retrieve_data_for_orchestration(query):
+    query_embedding = np.array(embedding_model.embed_query(str(query))).reshape(1, -1).astype('float32')
     faiss.normalize_L2(query_embedding)
     top_k = len(df)
     distances, indices = index.search(query_embedding, top_k)
+    similarity_threshold = 0.35
     selected = [(idx, sim) for idx, sim in zip(indices[0], distances[0]) if sim >= similarity_threshold]
     if not selected:
+        return "No influencers found."
     # === Format results ===
     outer_list = []
         res = {
             'rank': rank,
             'username': row['username'],
             'visible_text_or_brandings': row['visible_texts_or_brandings'],
             'likesCount': row['likesCount'],
             'commentCount': row['commentCount'],
         inner_list = [
             f"[{res['rank']}]. The influencer name is: **{res['username']}** — Likes: **{res['likesCount']}**, Comments: **{res['commentCount']}**",
             f"The branding or promotion done is:\n{res['visible_text_or_brandings']}",
             f"The details of product or service is:\n{res['product_or_service_details']}"
         ]
         outer_list.append(inner_list)
+    cleaned_response = clean_text(str(outer_list))
+    encoding = tiktoken.encoding_for_model('gpt-4o-mini')
+    tokens = encoding.encode(cleaned_response)
+    trimmed_response = tokens[:1000]
+    return encoding.decode(trimmed_response)

orchestration_agent/utils/utils.py CHANGED Viewed

@@ -7,6 +7,7 @@ from .prompts import captioning_prompt
 from utils.models_loader import llm
 from langchain_core.messages import FunctionMessage , AIMessage
 from .tools import  retrieve_data_for_analytics
 def caption_image(image_base64,user_input):
@@ -61,3 +62,5 @@ def extract_latest_response_block(response):
                     temp_block = []
     print('The latest block', latest_block)
     return latest_block

 from utils.models_loader import llm
 from langchain_core.messages import FunctionMessage , AIMessage
 from .tools import  retrieve_data_for_analytics
+import re
 def caption_image(image_base64,user_input):
                     temp_block = []
     print('The latest block', latest_block)
     return latest_block

requirements.txt CHANGED Viewed

@@ -18,4 +18,7 @@ langchain_openai
 nltk
 scikit-learn
 pandas

 nltk
 scikit-learn
 pandas
+langchain-community
+tiktoken
+langchain-anthropic

utils/__init__.py ADDED Viewed

File without changes

utils/__pycache__/data_loader.cpython-312.pyc CHANGED Viewed

Binary files a/utils/__pycache__/data_loader.cpython-312.pyc and b/utils/__pycache__/data_loader.cpython-312.pyc differ

utils/__pycache__/models_loader.cpython-312.pyc CHANGED Viewed

Binary files a/utils/__pycache__/models_loader.cpython-312.pyc and b/utils/__pycache__/models_loader.cpython-312.pyc differ

utils/data_loader.py CHANGED Viewed

@@ -1,9 +1,11 @@
 from datasets import load_dataset
-dataset = load_dataset("subashdvorak/tiktok-formatted-story-v2", revision="embedded")
-data = dataset['train'].add_faiss_index('embeddings')
 def load_influencer_data():
-    return data

+print('Loading Dataset..................')
 from datasets import load_dataset
+# dataset = load_dataset("subashdvorak/tiktok-formatted-story-v2", revision="embedded")
+# data = dataset['train'].add_faiss_index('embeddings')
 def load_influencer_data():
+    return 'Some error occouring'
+print('Dataset loaded.................')

utils/load_embeddings.py CHANGED Viewed

@@ -2,10 +2,13 @@ import numpy as np
 import ast
 import faiss
 import pandas as pd
 def load_index_once():
-    df = pd.read_csv('extracted_data.csv')
     df['embeddings'] = df['embeddings'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
     embeddings = np.vstack(df['embeddings'].values).astype('float32')
     faiss.normalize_L2(embeddings)

 import ast
 import faiss
 import pandas as pd
+from datasets import load_dataset
 def load_index_once():
+    dataset = load_dataset("DvorakInnovationAI/rt-genai-dataset-v1", revision="openai-embeddings")
+    df = dataset["train"]
+    df= df.to_pandas()
     df['embeddings'] = df['embeddings'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
     embeddings = np.vstack(df['embeddings'].values).astype('float32')
     faiss.normalize_L2(embeddings)

utils/models_loader.py CHANGED Viewed

@@ -1,28 +1,25 @@
 from langchain_groq import ChatGroq
 from langchain_openai import ChatOpenAI
 from langchain_google_genai import ChatGoogleGenerativeAI
-from sentence_transformers import SentenceTransformer
-# from huggingface_hub import InferenceClient
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
-import os
-import requests
-import numpy as np
-# from langchain_huggingface import HuggingFaceEndpoint
 os.environ['HUGGINGFACEHUB_ACCESS_TOKEN']=os.getenv('HUGGINGFACEHUB_ACCESS_TOKEN')
 login(os.environ['HUGGINGFACEHUB_ACCESS_TOKEN'])
 os.environ['GROQ_API_KEY']=os.getenv('GROQ_API_KEY')
 llm_gemini = ChatGoogleGenerativeAI(model="gemini-1.5-flash")
 llm = ChatGroq(
     model="llama-3.1-8b-instant",
     temperature=0.7,
 )
 llm_gpt = ChatOpenAI(
@@ -56,20 +53,10 @@ ST = HFEmbeddingAPI(
     token=os.environ.get('HUGGINGFACEHUB_ACCESS_TOKEN')
 )
-# ST = SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1")
-improver_llm = ChatOpenAI(
-    model="gpt-4o-mini",
-    temperature=0.7,
-    max_tokens=500,
-)
-ideator_llm = llm
-critic_llm = llm
-validator_llm = llm

+import os
+import requests
+import numpy as np
 from langchain_groq import ChatGroq
 from langchain_openai import ChatOpenAI
 from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_anthropic import ChatAnthropic
+from langchain_openai import OpenAIEmbeddings
 from huggingface_hub import login
 from dotenv import load_dotenv
 load_dotenv()
 os.environ['HUGGINGFACEHUB_ACCESS_TOKEN']=os.getenv('HUGGINGFACEHUB_ACCESS_TOKEN')
 login(os.environ['HUGGINGFACEHUB_ACCESS_TOKEN'])
 os.environ['GROQ_API_KEY']=os.getenv('GROQ_API_KEY')
+embedding_model = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1536)
+llm_anthropic = ChatAnthropic(model='claude-3-5-sonnet-20241022', temperature=0.7, max_tokens=500)
 llm_gemini = ChatGoogleGenerativeAI(model="gemini-1.5-flash")
 llm = ChatGroq(
     model="llama-3.1-8b-instant",
     temperature=0.7,
 )
 llm_gpt = ChatOpenAI(
     token=os.environ.get('HUGGINGFACEHUB_ACCESS_TOKEN')
 )
+improver_llm = llm_anthropic
+ideator_llm = llm_anthropic
+critic_llm = llm_anthropic
+validator_llm = llm_anthropic

utils/utils.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import re
+def clean_text(text: str) -> str:
+    """
+    General-purpose text cleaner for LLMs or downstream NLP tasks.
+    Removes special characters, escape sequences, excess spaces, and normalizes punctuation.
+    """
+    if not isinstance(text, str):
+        return ""
+    # Normalize encoded newlines and tabs
+    text = text.replace("\\n", "\n").replace("\\t", " ")
+    # Remove stray backslashes (\\), unless part of newline
+    text = re.sub(r"\\(?!n)", '', text)
+    # Remove brackets often used for metadata or markup
+    text = re.sub(r'[\[\]{}<>]', '', text)
+    # Remove quotes
+    text = re.sub(r"[\"']", '', text)
+    # Remove special characters except basic punctuation (.,!?)
+    text = re.sub(r"[^a-zA-Z0-9.,!? \n]", '', text)
+    # Remove repeated punctuation like "!!!" or "???"
+    text = re.sub(r'([!?.,]){2,}', r'\1', text)
+    # Normalize multiple spaces and newlines
+    text = re.sub(r'[ \t]+', ' ', text)
+    text = re.sub(r'\n{3,}', '\n\n', text)  # Collapse more than 2 newlines to just 2
+    text = re.sub(r' *\n *', '\n', text)    # Clean spaces around newlines
+    return text.strip()