Spaces:

sid22669
/

Resume_classifier

Sleeping

App Files Files Community

sid22669 commited on May 21, 2025

Commit

2231637

verified ·

1 Parent(s): 7132f90

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -22

app.py CHANGED Viewed

@@ -6,36 +6,38 @@ import pandas as pd
 import os
 import uuid
 from datetime import datetime
-from docx import Document
 import tempfile
 # Load model and vectorizer
 classifier_model = joblib.load('resume_classifier')
 resume_vectorizer = joblib.load('resume_vectorizer')
-def read_file(file_path):
-    try:
-        ext = os.path.splitext(file_path)[1].lower()
         if ext == ".pdf":
-            with open(file_path, "rb") as file:
-                reader = PyPDF2.PdfReader(file)
-                text = ""
-                for page in reader.pages:
-                    page_text = page.extract_text()
-                    if page_text:
-                        text += page_text + "\n"
-                return text.strip()
         elif ext == ".txt":
-            with open(file_path, "r", encoding="utf-8") as file:
-                return file.read().strip()
         elif ext in [".doc", ".docx"]:
             try:
                 import textract
-                text = textract.process(file_path)
                 return text.decode("utf-8").strip()
             except Exception as e:
                 return f"Error reading Word file with textract: {str(e)}"
@@ -84,10 +86,8 @@ uploaded_file = st.file_uploader(
 )
 if uploaded_file:
-    # Save uploaded file to a temp file in /tmp
-    with tempfile.NamedTemporaryFile(delete=False, dir="/tmp", suffix=os.path.splitext(uploaded_file.name)[1]) as temp_file:
-        temp_file.write(uploaded_file.read())
-        temp_path = temp_file.name
     # Track upload session
     if (
@@ -98,11 +98,10 @@ if uploaded_file:
         st.session_state.serial_id = str(uuid.uuid4())
         st.session_state.corrected_prediction = None
-    extracted_text = read_file(temp_path)
-    os.remove(temp_path)
     if "Error" in extracted_text or not extracted_text.strip():
-        st.warning("Could not extract text from the uploaded file.")
     else:
         cleaned_text = clean_resume(extracted_text)
         new_input = resume_vectorizer.transform([cleaned_text])

 import os
 import uuid
 from datetime import datetime
 import tempfile
+from io import BytesIO
 # Load model and vectorizer
 classifier_model = joblib.load('resume_classifier')
 resume_vectorizer = joblib.load('resume_vectorizer')
+def read_uploaded_file(uploaded_file):
+    ext = os.path.splitext(uploaded_file.name)[1].lower()
+    try:
         if ext == ".pdf":
+            reader = PyPDF2.PdfReader(uploaded_file)
+            text = ""
+            for page in reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text + "\n"
+            return text.strip()
         elif ext == ".txt":
+            return uploaded_file.read().decode("utf-8").strip()
         elif ext in [".doc", ".docx"]:
             try:
                 import textract
+                with tempfile.NamedTemporaryFile(delete=False, suffix=ext) as tmp:
+                    tmp.write(uploaded_file.read())
+                    tmp_path = tmp.name
+                text = textract.process(tmp_path)
+                os.remove(tmp_path)
                 return text.decode("utf-8").strip()
             except Exception as e:
                 return f"Error reading Word file with textract: {str(e)}"
 )
 if uploaded_file:
+    # Reset the file read pointer in case it was read earlier
+    uploaded_file.seek(0)
     # Track upload session
     if (
         st.session_state.serial_id = str(uuid.uuid4())
         st.session_state.corrected_prediction = None
+    extracted_text = read_uploaded_file(uploaded_file)
     if "Error" in extracted_text or not extracted_text.strip():
+        st.warning("⚠️ Could not extract text from the uploaded file.")
     else:
         cleaned_text = clean_resume(extracted_text)
         new_input = resume_vectorizer.transform([cleaned_text])