Spaces:

ymcmy
/

physics_pdf

Runtime error

App Files Files Community

ymcmy commited on Jul 25, 2024

Commit

37e2932

verified ·

1 Parent(s): a4f4309

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -38

app.py CHANGED Viewed

@@ -3,17 +3,20 @@ from bs4 import BeautifulSoup
 import requests
 from jinja2 import Template
 from weasyprint import HTML
-import base64
 from urllib.parse import urljoin
-import time
 import os
 import warnings
 warnings.filterwarnings("ignore")
-phy2_conceptual_link="https://openstax.org/books/college-physics-ap-courses-2e/pages/{}-conceptual-questions"
-phy2_problem_link="https://openstax.org/books/college-physics-ap-courses-2e/pages/{}-problems-exercises"
-img_base_url='https://openstax.org'
-href_base_url='https://openstax.org/books/college-physics-ap-courses-2e/pages/'
 def get_html(url):
     headers = {
@@ -24,49 +27,48 @@ def get_html(url):
         response.encoding = 'utf-8'
         response.raise_for_status()  # Raise an HTTPError for bad responses
         soup = BeautifulSoup(response.text, 'html.parser')
-        #print(soup)
         return soup
     except requests.RequestException as e:
-        print(f"An error occurred when getting html: {e}")
         return None
-def get_question(exercises, question_index, img_base_url=img_base_url,href_base_url=href_base_url):
     question_index = question_index - 1
     if question_index >= len(exercises):
         return "Question index out of range."
     exercise_div = exercises[question_index]
-    print(exercise_div)
     for img_tag in exercise_div.find_all('img'):
         img_tag['src'] = urljoin(img_base_url, img_tag['data-lazy-src'])
-        #print("src changed")
     for a_tag in exercise_div.find_all('a'):
         a_tag['href'] = urljoin(href_base_url, a_tag['href'])
-        #print("href changed")
     return str(exercise_div)
-def get_all_questions(unit_num,conceptual_list,problem_list,conceptual_url,problem_url):
-    conceptual_html=get_html(conceptual_url)
-    problem_html=get_html(problem_url)
     conceptual_exercises = conceptual_html.find_all('div', {'data-type': 'exercise'})
     problem_exercises = problem_html.find_all('div', {'data-type': 'exercise'})
-    questions=[]
     for i in conceptual_list:
-        questions.append(get_question(conceptual_exercises,i,img_base_url,href_base_url))
     for i in problem_list:
-        questions.append(get_question(problem_exercises,i,img_base_url,href_base_url))
     return questions
-from jinja2 import Template
 def generate_html(chapter_num, conceptual_input, problem_input, path):
     conceptual_list = list(map(int, conceptual_input.split(",")) if conceptual_input else [])
     problem_list = list(map(int, problem_input.split(",")) if problem_input else [])
@@ -130,27 +132,39 @@ def generate_html(chapter_num, conceptual_input, problem_input, path):
     with open(path, 'w', encoding='utf-8') as f:
         f.write(rendered_html)
 def generate_pdf(input_path, output_path):
-    HTML(input_path).write_pdf(output_path)
 def main_function(unit_num, conceptual_input, problem_input):
-    if not conceptual_input and not problem_input:
-        return "Both lists cannot be empty. Please provide at least one."
-    for file_name in os.listdir( "./" ):
-        if file_name.endswith(".pdf"):
-            os.remove(os.path.join("./",file_name))
-    abs_path = "D:\\projects\\phy_pdf" + "\\questions_" + str(int(unit_num))
-    html_path = abs_path + ".html"
-    generate_html(unit_num, conceptual_input, problem_input, html_path)
-    pdf_path = abs_path + ".pdf"
-    generate_pdf(html_path, pdf_path)
-    print("pdf generated")
-    print(pdf_path)
-    return pdf_path
 iface = gr.Interface(
     fn=main_function,

 import requests
 from jinja2 import Template
 from weasyprint import HTML
 from urllib.parse import urljoin
 import os
 import warnings
+import logging
 warnings.filterwarnings("ignore")
+# Set up logging
+logging.basicConfig(level=logging.DEBUG, filename='app.log', filemode='w', format='%(name)s - %(levelname)s - %(message)s')
+phy2_conceptual_link = "https://openstax.org/books/college-physics-ap-courses-2e/pages/{}-conceptual-questions"
+phy2_problem_link = "https://openstax.org/books/college-physics-ap-courses-2e/pages/{}-problems-exercises"
+img_base_url = 'https://openstax.org'
+href_base_url = 'https://openstax.org/books/college-physics-ap-courses-2e/pages/'
 def get_html(url):
     headers = {
         response.encoding = 'utf-8'
         response.raise_for_status()  # Raise an HTTPError for bad responses
         soup = BeautifulSoup(response.text, 'html.parser')
         return soup
     except requests.RequestException as e:
+        logging.error(f"An error occurred when getting HTML: {e}")
         return None
+def get_question(exercises, question_index, img_base_url=img_base_url, href_base_url=href_base_url):
     question_index = question_index - 1
     if question_index >= len(exercises):
         return "Question index out of range."
     exercise_div = exercises[question_index]
+    logging.debug(f"Processing exercise: {exercise_div}")
     for img_tag in exercise_div.find_all('img'):
         img_tag['src'] = urljoin(img_base_url, img_tag['data-lazy-src'])
     for a_tag in exercise_div.find_all('a'):
         a_tag['href'] = urljoin(href_base_url, a_tag['href'])
     return str(exercise_div)
+def get_all_questions(unit_num, conceptual_list, problem_list, conceptual_url, problem_url):
+    conceptual_html = get_html(conceptual_url)
+    if conceptual_html is None:
+        return []
+    problem_html = get_html(problem_url)
+    if problem_html is None:
+        return []
     conceptual_exercises = conceptual_html.find_all('div', {'data-type': 'exercise'})
     problem_exercises = problem_html.find_all('div', {'data-type': 'exercise'})
+    questions = []
     for i in conceptual_list:
+        questions.append(get_question(conceptual_exercises, i, img_base_url, href_base_url))
     for i in problem_list:
+        questions.append(get_question(problem_exercises, i, img_base_url, href_base_url))
     return questions
 def generate_html(chapter_num, conceptual_input, problem_input, path):
     conceptual_list = list(map(int, conceptual_input.split(",")) if conceptual_input else [])
     problem_list = list(map(int, problem_input.split(",")) if problem_input else [])
     with open(path, 'w', encoding='utf-8') as f:
         f.write(rendered_html)
 def generate_pdf(input_path, output_path):
+    try:
+        HTML(input_path).write_pdf(output_path)
+    except Exception as e:
+        logging.error(f"An error occurred when generating PDF: {e}")
 def main_function(unit_num, conceptual_input, problem_input):
+    try:
+        if not conceptual_input and not problem_input:
+            return "Both lists cannot be empty. Please provide at least one."
+        # Ensure the directory exists
+        abs_path = "D:\\projects\\phy_pdf"
+        if not os.path.exists(abs_path):
+            os.makedirs(abs_path)
+        # Delete all existing PDFs in the directory
+        for file_name in os.listdir(abs_path):
+            if file_name.endswith(".pdf"):
+                os.remove(os.path.join(abs_path, file_name))
+        file_name = "questions_" + str(int(unit_num))
+        html_path = os.path.join(abs_path, file_name + ".html")
+        pdf_path = os.path.join(abs_path, file_name + ".pdf")
+        generate_html(unit_num, conceptual_input, problem_input, html_path)
+        generate_pdf(html_path, pdf_path)
+        logging.info("PDF generated successfully")
+        return pdf_path
+    except Exception as e:
+        logging.error(f"An error occurred in main_function: {e}")
+        return "An error occurred. Please check the logs for more details."
 iface = gr.Interface(
     fn=main_function,