smeas

Sleeping

App Files Files Community

Bima Ardhia commited on Nov 22, 2024

Commit

e5c6c06

1 Parent(s): c26528a

add api embed

Browse files

Files changed (2) hide show

api/api_mage_x.py +29 -16
tools/retrive.py +40 -18

api/api_mage_x.py CHANGED Viewed

@@ -18,6 +18,7 @@ import firebase_admin
 from agent.retrive_agent import run_llm
 from pinecone import Pinecone
 from langchain_openai import OpenAIEmbeddings
 # Load environment variables
@@ -113,28 +114,47 @@ def fetch_and_embed_data(user_id):
             if 'created_at' in data and data['created_at'] is not None:
                 data['created_at'] = data['created_at'].replace(tzinfo=None).isoformat()
-            if 'updated_at' in data and data['updated_at'] is not None:
-                data['updated_at'] = data['updated_at'].replace(tzinfo=None).isoformat()
             text = ' '.join(str(value) for value in data.values() if value is not None)
             print(text)
             embedding = create_embeddings(text)
             index.upsert(vectors=[{
                 "id": str(doc.id),
                 "values": embedding,
-                "metadata": {
-                    "collection_type": collection,
-                    "text": json.dumps(data),
-                    "firebase_id": str(doc.id)
-                }
             }])
             output = f"Data {user_id} berhasil di embbedings"
             return output
 def create_embeddings(text):
     return embedding_model.embed_query(text)
@@ -293,14 +313,7 @@ def get_chat_history(user_id: str, session_id: str):
     messages = [{"role": "user" if isinstance(msg, HumanMessage) else "assistant", "content": msg.content} for msg in chat_history.messages]
     return {"chat_history": messages}
-@app.post("/embeddings")
-async def get_recommendations(user_input: UserInput):
-    user_id = user_input.user_id
-    processed_documents = fetch_and_embed_data(user_id)
-    return {
-        "status": "success",
-        "processed_documents": processed_documents
-    }
 # Fungsi untuk mengunggah file ke Google Drive
 def upload_to_drive(file_path: str, folder_id: str) -> str:

 from agent.retrive_agent import run_llm
 from pinecone import Pinecone
 from langchain_openai import OpenAIEmbeddings
+from datetime import datetime
 # Load environment variables
             if 'created_at' in data and data['created_at'] is not None:
                 data['created_at'] = data['created_at'].replace(tzinfo=None).isoformat()
+            try:
+                created_at_str = data["created_at"]
+                created_at_timestamp = int(datetime.strptime(created_at_str, "%Y-%m-%dT%H:%M:%SZ").timestamp() * 1000)
+            except ValueError:
+                print(f"Error: Format tanggal tidak valid untuk item: {doc.id}")
+                created_at_timestamp = None
             text = ' '.join(str(value) for value in data.values() if value is not None)
             print(text)
             embedding = create_embeddings(text)
+            metadata = {
+                "firebase_id": str(doc.id),
+                "created_at": created_at_timestamp,  # Gunakan timestamp di metadata
+                "likes_count": data.get("likes_count"),  # Contoh metadata tambahan
+                "location": data.get("location", ""),    # Contoh metadata tambahan
+                "category": data.get("category", ""),    # Contoh metadata tambahan
+                "collection_type": collection,
+                "text": json.dumps(data)
+            }
             index.upsert(vectors=[{
                 "id": str(doc.id),
                 "values": embedding,
+                "metadata": metadata,
             }])
             output = f"Data {user_id} berhasil di embbedings"
             return output
+@app.post("/embeddings")
+async def get_recommendations(user_input: UserInput):
+    user_id = user_input.user_id
+    processed_documents = fetch_and_embed_data(user_id)
+    return {
+        "status": "success",
+        "processed_documents": processed_documents
+    }
 def create_embeddings(text):
     return embedding_model.embed_query(text)
     messages = [{"role": "user" if isinstance(msg, HumanMessage) else "assistant", "content": msg.content} for msg in chat_history.messages]
     return {"chat_history": messages}
 # Fungsi untuk mengunggah file ke Google Drive
 def upload_to_drive(file_path: str, folder_id: str) -> str:

tools/retrive.py CHANGED Viewed

@@ -3,7 +3,7 @@ from langchain_pinecone import PineconeVectorStore
 from langchain_openai import OpenAIEmbeddings
 from pinecone import Pinecone
 import json
-from datetime import datetime
 from langchain_community.tools import WikipediaQueryRun
 from langchain_community.utilities import WikipediaAPIWrapper
 import os
@@ -33,17 +33,41 @@ def retrieve_wisata(query: str) -> str:
         retrieved_texts.append({"content": text, "metadata": metadata})
     return json.dumps(retrieved_texts, indent=2)
-def retrieve_berita(query: str) -> str:
     """
-    Mengambil teks dan metadata yang relevan dari vector store UMKM berdasarkan query yang diberikan.
     """
-    search_results = docsearch.similarity_search(query, filter={'collection_type': 'data_berita'})
-    retrieved_texts = []
-    for result in search_results:
-        text = result.page_content
-        metadata = result.metadata.get("firebase_id", "")
-        retrieved_texts.append({"content": text, "metadata": metadata})
-    return json.dumps(retrieved_texts, indent=2)
 def retrieve_umkm(query: str) -> str:
     """
@@ -64,14 +88,12 @@ def retrieve_wikipedia_info(query: str) -> str:
     result = wiki.run(query)  # Menggunakan WikipediaQueryRun untuk menjalankan pencarian
     return result if result else "Tidak ditemukan hasil di Wikipedia."
-def get_current_time(*args, **kwargs) -> str:
-    """
-    Mengembalikan waktu saat ini dalam format yang mudah dibaca.
-    """
-    current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-    return current_time
 # Contoh penggunaan fungsi baru
 # print(retrieve_umkm("Produk UMKM terbaik?"))
-# print(retrieve_berita("Berita ekonomi terbaru?"))
-# print(retrieve_wisata("Tempat wisata terpopuler?"))

 from langchain_openai import OpenAIEmbeddings
 from pinecone import Pinecone
 import json
+from datetime import datetime, timedelta
 from langchain_community.tools import WikipediaQueryRun
 from langchain_community.utilities import WikipediaAPIWrapper
 import os
         retrieved_texts.append({"content": text, "metadata": metadata})
     return json.dumps(retrieved_texts, indent=2)
+def get_current_time(*args, **kwargs) -> str:
     """
+    Mengembalikan waktu saat ini dalam format yang mudah dibaca.
     """
+    current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    return current_time
+def retrieve_berita(query: str, tanggal_str: str) -> str:
+    """
+    Mengambil berita berdasarkan query dan filter tanggal (string).
+    """
+    try:
+        # Konversi string tanggal ke objek datetime
+        tanggal = datetime.strptime(tanggal_str, "%Y-%m-%dT%H:%M:%SZ")  # Sesuaikan format dengan data Anda
+        # Konversi ke timestamp numerik (milidetik)
+        timestamp = int(tanggal.timestamp() * 1000)
+        search_results = docsearch.similarity_search(
+            query,
+            filter={
+                'collection_type': 'data_berita',
+                'created_at': {'$gte': timestamp}
+            }
+        )
+        retrieved_texts = []
+        for result in search_results:
+            text = result.page_content
+            metadata = result.metadata.get("firebase_id", "")
+            retrieved_texts.append({"content": text, "metadata": metadata})
+        return json.dumps(retrieved_texts, indent=2)
+    except ValueError:
+        print("Format tanggal tidak valid.")
+        return "[]"  # Atau handling error yang sesuai
 def retrieve_umkm(query: str) -> str:
     """
     result = wiki.run(query)  # Menggunakan WikipediaQueryRun untuk menjalankan pencarian
     return result if result else "Tidak ditemukan hasil di Wikipedia."
 # Contoh penggunaan fungsi baru
 # print(retrieve_umkm("Produk UMKM terbaik?"))
+query = "berita tentang ekonomi"
+tanggal_str = "2024-11-22T16:00:00Z"
+hasil = retrieve_berita(query, tanggal_str)
+print(hasil)# print(retrieve_wisata("Tempat wisata terpopuler?"))