Spaces:

mlkorra
/

Product-doc-classifier

Sleeping

App Files Files Community

mlkorra commited on Jan 11, 2025

Commit

9df3fc4

verified ·

1 Parent(s): 389e9dd

Update pages/Project_Wiki.py

Browse files

Files changed (1) hide show

pages/Project_Wiki.py +45 -11

pages/Project_Wiki.py CHANGED Viewed

@@ -39,31 +39,65 @@ def main():
     """, unsafe_allow_html=True)
     # Q2: Solution Explanation
     st.markdown("""
         <div class="question-card">
             <div class="question">🔍 Q2: Can you explain your solution approach?</div>
             <div class="answer">
                 The solution implements a multi-stage document classification pipeline:
                 <br><br>
-                <b>1. Direct URL Text Approach:</b>
                 <ul>
-                    <li>Initially considered direct URL text extraction</li>
-                    <li>Found limitations in accuracy and reliability</li>
                 </ul>
                 <br>
-                <b>2. Baseline Approach (ML Model):</b>
                 <ul>
-                    <li>Implemented TF-IDF vectorization</li>
-                    <li>Used Logistic Regression for classification</li>
-                    <li>Provided quick and efficient results</li>
                 </ul>
                 <br>
-                <b>3. (DL Model):</b>
                 <ul>
-                    <li>Utilized BERT-based model architecture</li>
-                    <li>Fine-tuned on construction document dataset</li>
-                    <li>Achieved superior accuracy and context understanding</li>
                 </ul>
             </div>
         </div>
     """, unsafe_allow_html=True)

     """, unsafe_allow_html=True)
     # Q2: Solution Explanation
+        # Q2: Solution Explanation
     st.markdown("""
         <div class="question-card">
             <div class="question">🔍 Q2: Can you explain your solution approach?</div>
             <div class="answer">
                 The solution implements a multi-stage document classification pipeline:
                 <br><br>
+                <b>1. Data Collection & Processing:</b>
                 <ul>
+                    <li>Dataset: 2500+ training URLs and 250+ test URLs</li>
+                    <li>Implemented ThreadPooling with 20 workers for parallel processing</li>
+                    <li>Reduced download time to ~40 minutes (vs. 3+ hours sequential)</li>
+                    <li>Used PDFPlumber for robust text extraction</li>
                 </ul>
                 <br>
+                <b>2. Model Development Pipeline:</b>
                 <ul>
+                    <li><i>Baseline Approach:</i>
+                        <ul>
+                            <li>TF-IDF vectorization for text representation</li>
+                            <li>Logistic Regression for initial classification</li>
+                            <li>Quick inference and resource-efficient</li>
+                        </ul>
+                    </li>
+                    <br>
+                    <li><i>Advanced Approach:</i>
+                        <ul>
+                            <li>BERT-based architecture for deep learning</li>
+                            <li>Fine-tuned on construction document dataset</li>
+                            <li>Superior context understanding and accuracy</li>
+                        </ul>
+                    </li>
                 </ul>
                 <br>
+                <b>3. Evaluation Strategy:</b>
                 <ul>
+                    <li>Comprehensive metric suite (Precision, Recall, F1)</li>
+                    <li>Special consideration for class imbalance</li>
+                    <li>Comparative analysis between baseline and BERT</li>
                 </ul>
+                <br>
+                <b>4. Deployment & Demo:</b>
+                <ul>
+                    <li>Streamlit-based interactive web interface</li>
+                    <li>Real-time document classification</li>
+                    <li>Comprehensive project documentation</li>
+                    <li>Performance visualization and analytics</li>
+                </ul>
+                <br>
+                <div style='
+                    background-color: #e8f4f8;
+                    padding: 15px;
+                    border-radius: 5px;
+                    border-left: 4px solid #1f77b4;
+                '>
+                    <b>💡 Key implementation:</b> The parallel processing implementation significantly reduced data preparation time,
+                    allowing for faster iteration and model experimentation. This, combined with the dual-model approach,
+                    provides both efficiency and accuracy in document classification.
+                </div>
             </div>
         </div>
     """, unsafe_allow_html=True)