doc-maker

Sleeping

App Files Files Community

pvanand commited on Sep 30, 2024

Commit

83ff685

verified ·

1 Parent(s): d27546b

Update main.py

Browse files

Files changed (1) hide show

main.py +52 -15

main.py CHANGED Viewed

@@ -1,14 +1,30 @@
 import os
 import asyncio
-from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel, Field, create_model
 from typing import List, Optional
 from crawl4ai import AsyncWebCrawler
-from crawl4ai.extraction_strategy import JsonCssExtractionStrategy, LLMExtractionStrategy
 import json
 app = FastAPI()
 class CrawlerInput(BaseModel):
     url: str = Field(..., description="URL to crawl")
     columns: List[str] = Field(..., description="List of required columns")
@@ -20,31 +36,26 @@ class CrawlerOutput(BaseModel):
 async def simple_crawl():
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(url="https://www.nbcnews.com/business")
-        print(len(result.markdown))
-        return result
 @app.post("/crawl", response_model=CrawlerOutput)
-async def crawl(input: CrawlerInput):
     if len(input.columns) != len(input.descriptions):
         raise HTTPException(status_code=400, detail="Number of columns must match number of descriptions")
-    # Create a dictionary with columns as keys and descriptions as values
     extraction_info = {col: desc for col, desc in zip(input.columns, input.descriptions)}
-    # Create a dynamic Pydantic model based on the input columns and descriptions
     dynamic_model = create_model(
         'DynamicModel',
         **{col: (str, Field(..., description=desc)) for col, desc in extraction_info.items()}
     )
-    # Convert the dictionary to a JSON string for the instruction
     instruction = f"Extract the following information: {json.dumps(extraction_info)}"
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(
             url=input.url,
             extraction_strategy=LLMExtractionStrategy(
-                provider="openai/gpt-4o-mini",
                 api_token=os.getenv('OPENAI_API_KEY'),
                 schema=dynamic_model.schema(),
                 extraction_type="schema",
@@ -52,15 +63,41 @@ async def crawl(input: CrawlerInput):
                 instruction=instruction
             )
         )
     extracted_data = json.loads(result.extracted_content)
     return CrawlerOutput(data=extracted_data)
 @app.get("/test")
-async def test():
     result = await simple_crawl()
     return {"markdown": result.markdown}
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=8000)

 import os
 import asyncio
+from fastapi import FastAPI, HTTPException, Security, Depends
+from fastapi.security import APIKeyHeader
 from pydantic import BaseModel, Field, create_model
 from typing import List, Optional
 from crawl4ai import AsyncWebCrawler
+from crawl4api.extraction_strategy import JsonCssExtractionStrategy, LLMExtractionStrategy
 import json
+import logging
+# Set up logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 app = FastAPI()
+# API key configuration
+API_KEY = os.getenv("API_KEY")
+api_key_header = APIKeyHeader(name="X-API-Key", auto_error=False)
+async def verify_api_key(api_key: str = Security(api_key_header)):
+    if api_key != API_KEY:
+        logger.warning("Invalid API key used")
+        raise HTTPException(status_code=403, detail="Could not validate credentials")
+    return api_key
 class CrawlerInput(BaseModel):
     url: str = Field(..., description="URL to crawl")
     columns: List[str] = Field(..., description="List of required columns")
 async def simple_crawl():
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(url="https://www.nbcnews.com/business")
+    print(len(result.markdown))
+    return result
 @app.post("/crawl", response_model=CrawlerOutput)
+async def crawl(input: CrawlerInput, api_key: str = Depends(verify_api_key)):
     if len(input.columns) != len(input.descriptions):
         raise HTTPException(status_code=400, detail="Number of columns must match number of descriptions")
     extraction_info = {col: desc for col, desc in zip(input.columns, input.descriptions)}
     dynamic_model = create_model(
         'DynamicModel',
         **{col: (str, Field(..., description=desc)) for col, desc in extraction_info.items()}
     )
     instruction = f"Extract the following information: {json.dumps(extraction_info)}"
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(
             url=input.url,
             extraction_strategy=LLMExtractionStrategy(
+                provider="openai/gpt-4-mini",
                 api_token=os.getenv('OPENAI_API_KEY'),
                 schema=dynamic_model.schema(),
                 extraction_type="schema",
                 instruction=instruction
             )
         )
     extracted_data = json.loads(result.extracted_content)
     return CrawlerOutput(data=extracted_data)
 @app.get("/test")
+async def test(api_key: str = Depends(verify_api_key)):
     result = await simple_crawl()
     return {"markdown": result.markdown}
+from fastapi.middleware.cors import CORSMiddleware
+# CORS middleware setup
+app.add_middleware(
+    CORSMiddleware,
+     #allow_origins=["*"],
+    allow_origins=[
+        "http://127.0.0.1:5501/",
+        "http://localhost:5501",
+        "http://localhost:3000",
+        "https://www.elevaticsai.com",
+        "https://www.elevatics.cloud",
+        "https://www.elevatics.online",
+        "https://www.elevatics.ai",
+        "https://elevaticsai.com",
+        "https://elevatics.cloud",
+        "https://elevatics.online",
+        "https://elevatics.ai",
+        "https://pvanand-specialized-agents.hf.space",
+        "https://pvanand-audio-chat.hf.space/"
+    ],
+    allow_credentials=True,
+    allow_methods=["GET", "POST"],
+    allow_headers=["*"],
+)
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=8000)