Spaces:

Dannyar608
/

Final_project

Runtime error

App Files Files Community

Dannyar608 commited on Apr 25, 2025

Commit

ea801f3

verified ·

1 Parent(s): 3957ec0

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -6

app.py CHANGED Viewed

@@ -7,7 +7,6 @@ from PyPDF2 import PdfReader
 from collections import defaultdict
 # ========== TRANSCRIPT PARSING FUNCTIONS (UPDATED) ==========
 def extract_courses_with_grade_levels(text):
     grade_level_pattern = r"(Grade|Year)\s*[:]?\s*(\d+|Freshman|Sophomore|Junior|Senior)"
     grade_match = re.search(grade_level_pattern, text, re.IGNORECASE)
@@ -51,12 +50,24 @@ def parse_transcript(file):
         text = ''
         reader = PdfReader(file)
         for page in reader.pages:
-            text += page.extract_text() + '\n'
         courses_by_grade = extract_courses_with_grade_levels(text)
-        output_text = "Courses by Grade Level:\n\n"
-        for grade_level, courses in courses_by_grade.items():
-            output_text += f"Grade {grade_level}:\n"
             for course in courses:
                 output_text += f"- {course['course']}"
                 if 'grade' in course:
@@ -64,10 +75,16 @@ def parse_transcript(file):
                 output_text += "\n"
             output_text += "\n"
-        return output_text, courses_by_grade
     else:
         return "Unsupported file format", None
     gpa = "N/A"
     for col in ['GPA', 'Grade Point Average', 'Cumulative GPA']:
         if col in df.columns:

 from collections import defaultdict
 # ========== TRANSCRIPT PARSING FUNCTIONS (UPDATED) ==========
 def extract_courses_with_grade_levels(text):
     grade_level_pattern = r"(Grade|Year)\s*[:]?\s*(\d+|Freshman|Sophomore|Junior|Senior)"
     grade_match = re.search(grade_level_pattern, text, re.IGNORECASE)
         text = ''
         reader = PdfReader(file)
         for page in reader.pages:
+            page_text = page.extract_text()
+            if page_text:
+                text += page_text + '\n'
+        # GPA extraction
+        gpa_match = re.search(r'GPA[:\s]*(\d\.\d{1,2})', text, re.IGNORECASE)
+        gpa = gpa_match.group(1) if gpa_match else "N/A"
+        # Grade level extraction
+        grade_match = re.search(r'(Grade|Year)[\s:]*(\d+|Freshman|Sophomore|Junior|Senior)', text, re.IGNORECASE)
+        grade_level = grade_match.group(2) if grade_match else "Unknown"
+        # Courses grouped by grade
         courses_by_grade = extract_courses_with_grade_levels(text)
+        output_text = f"Grade Level: {grade_level}\nGPA: {gpa}\n\nCourses by Grade Level:\n\n"
+        for level, courses in courses_by_grade.items():
+            output_text += f"Grade {level}:\n"
             for course in courses:
                 output_text += f"- {course['course']}"
                 if 'grade' in course:
                 output_text += "\n"
             output_text += "\n"
+        return output_text, {
+            "gpa": gpa,
+            "grade_level": grade_level,
+            "courses": courses_by_grade
+        }
     else:
         return "Unsupported file format", None
+    # For CSV/XLSX:
     gpa = "N/A"
     for col in ['GPA', 'Grade Point Average', 'Cumulative GPA']:
         if col in df.columns: