Spaces:

OrganizedProgrammers
/

arXiv

Sleeping

Omar ID EL MOUMEN commited on Mar 26, 2025

Commit

c2b2088

1 Parent(s): aea4c94

Update title extraction

Files changed (1) hide show

app.py CHANGED Viewed

@@ -90,8 +90,15 @@ async def extract_text_pdf(id_doc: str):
         postprocess_text = remove_in_betweens(postprocess_text)
         postprocess_text = remove_punctuations(postprocess_text)
         regex_titles = r"(?:[IVX]+|[0-9]+)\.\s[A-Z0-9\s]+$"
-        titles = re.findall(regex_titles, postprocess_text, flags=re.MULTILINE) if len(doc.get_toc()) <= 0 else doc.get_toc()
-        return {"message": titles, "pub_id": id_doc, "error": False}
     else:
         print("ID: " + id_doc)
         print("URL: " + f"http://arxiv.org/pdf/{id_doc}")

         postprocess_text = remove_in_betweens(postprocess_text)
         postprocess_text = remove_punctuations(postprocess_text)
         regex_titles = r"(?:[IVX]+|[0-9]+)\.\s[A-Z0-9\s]+$"
+        titles = doc.get_toc()
+        main_titles = []
+        if len(titles) <= 0:
+            main_titles = re.findall(regex_titles, postprocess_text, flags=re.MULTILINE)
+        else:
+            for title in titles:
+                if title[0] == 1:
+                    main_titles.append(title[1])
+        return {"message": main_titles, "pub_id": id_doc, "error": False}
     else:
         print("ID: " + id_doc)
         print("URL: " + f"http://arxiv.org/pdf/{id_doc}")