URL2Text2

Sleeping

tregu0458 commited on Jun 22, 2024

Commit

d0a97bd

verified ·

1 Parent(s): 94c7fa7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,7 +17,7 @@ async def validate_token(token: str = Depends(oauth2_scheme)):
         raise HTTPException(status_code=401, detail="Invalid API Key")
 @app.post("/extract_text", tags=["Text Extraction"], dependencies=[Depends(validate_token)])
-def extract_text(url: str, language: str = "ja", length: int = 150000):
     try:
         if "youtube.com" in url or "youtu.be" in url:
             # YouTubeの場合
@@ -38,7 +38,11 @@ def extract_text(url: str, language: str = "ja", length: int = 150000):
             # loader = WebBaseLoader(url)
             # docs = loader.load()
             # text_content = docs[0].page_content
-            text_content = str(fetch_and_convert_to_markdown(url))
         if len(text_content) < length:
             return {"text_content": text_content}
@@ -54,9 +58,9 @@ def extract_text(url: str, language: str = "ja", length: int = 150000):
 def fetch_and_convert_to_markdown(url):
     response = requests.get(url,timeout = 10)
     if response.status_code != 200:
-        response = requests.get("https://r.jina.ai/"+ url)
-        return response.text
-        # return f"エラー: ステータスコード {response.status_code}"
     soup = BeautifulSoup(response.text, 'html.parser')
     markdown = ""

         raise HTTPException(status_code=401, detail="Invalid API Key")
 @app.post("/extract_text", tags=["Text Extraction"], dependencies=[Depends(validate_token)])
+def extract_text(url: str, language: str = "ja", length: int = 150000,jina:bool = true):
     try:
         if "youtube.com" in url or "youtu.be" in url:
             # YouTubeの場合
             # loader = WebBaseLoader(url)
             # docs = loader.load()
             # text_content = docs[0].page_content
+            if jina:
+                response = requests.get("https://r.jina.ai/"+ url)
+                return response.text
+            else:
+                text_content = str(fetch_and_convert_to_markdown(url))
         if len(text_content) < length:
             return {"text_content": text_content}
 def fetch_and_convert_to_markdown(url):
     response = requests.get(url,timeout = 10)
     if response.status_code != 200:
+        # response = requests.get("https://r.jina.ai/"+ url)
+        # return response.text
+        return f"エラー: ステータスコード {response.status_code}"
     soup = BeautifulSoup(response.text, 'html.parser')
     markdown = ""