Spaces:

nelsonjq
/

pdf2tmx

Sleeping

nelsonjq commited on Jan 20, 2025

Commit

b120a5a

verified ·

1 Parent(s): b24478e

deprecated

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -1,19 +1,19 @@
 import os
 import pandas as pd
-from lingtrain_aligner import preprocessor, splitter, aligner, resolver, reader, vis_helper
 from PyPDF2 import PdfReader
 def pdf_to_text(pdf_path):
     text = ""
     with open(pdf_path, "rb") as file:
         reader = PdfReader(file)
-        for page_num in range(reader.numPages):
-            page = reader.getPage(page_num)
             text += page.extract_text() + "\n"
     return text
 def align_text(txt1: str, txt2: str, lang1: str, lang2: str) -> pd.DataFrame:
-    db_path = "docsdata.db"
     models = ["sentence_transformer_multilingual", "sentence_transformer_multilingual_labse"]
     model_name = models[0]
@@ -65,6 +65,6 @@ def align_text(txt1: str, txt2: str, lang1: str, lang2: str) -> pd.DataFrame:
     df = pd.DataFrame(data)
     return df
 def save_to_excel(df, file_name: str):
     df.to_excel(file_name, index=False)

 import os
 import pandas as pd
 from PyPDF2 import PdfReader
+from lingtrain_aligner import preprocessor, splitter, aligner, resolver, reader, vis_helper
 def pdf_to_text(pdf_path):
     text = ""
     with open(pdf_path, "rb") as file:
         reader = PdfReader(file)
+        for page_num in range(len(reader.pages)):
+            page = reader.pages[page_num]
             text += page.extract_text() + "\n"
     return text
 def align_text(txt1: str, txt2: str, lang1: str, lang2: str) -> pd.DataFrame:
+    db_path = "bilingualdata.db"
     models = ["sentence_transformer_multilingual", "sentence_transformer_multilingual_labse"]
     model_name = models[0]
     df = pd.DataFrame(data)
     return df
 def save_to_excel(df, file_name: str):
     df.to_excel(file_name, index=False)