Spaces:

Seth0330
/

AIEXTRACT1

Sleeping

App Files Files Community

Seth0330 commited on Dec 4, 2025

Commit

d0cfc3b

verified ·

1 Parent(s): a486933

Update frontend/src/components/ocr/ExtractionOutput.jsx

Browse files

Files changed (1) hide show

frontend/src/components/ocr/ExtractionOutput.jsx +40 -6

frontend/src/components/ocr/ExtractionOutput.jsx CHANGED Viewed

@@ -119,21 +119,55 @@ function prepareFieldsForOutput(fields, format = "json") {
   const output = { ...fields };
-  // Remove full_text if pages array exists (to avoid duplication)
   if (output.pages && Array.isArray(output.pages) && output.pages.length > 0) {
     delete output.full_text;
   }
-  // For JSON: restructure pages into separate top-level fields (page_1, page_2, etc.)
-  if (format === "json" && output.pages && Array.isArray(output.pages)) {
     output.pages.forEach((page, idx) => {
       const pageNum = page.page_number || idx + 1;
-      output[`page_${pageNum}`] = {
         text: page.text || "",
-        fields: page.fields || {},
         confidence: page.confidence || 0,
         doc_type: page.doc_type || "other"
       };
     });
     // Remove pages array - we now have page_1, page_2, etc. as separate fields
     delete output.pages;
@@ -488,7 +522,7 @@ export default function ExtractionOutput({ hasFile, isProcessing, isComplete, ex
               >
                 <Sparkles className="h-8 w-8 text-indigo-500" />
               </motion.div>
-              <p className="text-slate-700 font-medium mb-1">AI is extracting data...</p>
               <p className="text-slate-400 text-sm">Analyzing document structure</p>
               <div className="mt-6 flex items-center justify-center gap-1">

   const output = { ...fields };
+  // Remove full_text from top-level if pages array exists (to avoid duplication)
   if (output.pages && Array.isArray(output.pages) && output.pages.length > 0) {
     delete output.full_text;
+    // Clean up each page: remove full_text from page.fields (it duplicates page.text)
+    output.pages = output.pages.map(page => {
+      const cleanedPage = { ...page };
+      if (cleanedPage.fields && typeof cleanedPage.fields === "object") {
+        const cleanedFields = { ...cleanedPage.fields };
+        // Remove full_text from page fields (duplicates page.text)
+        delete cleanedFields.full_text;
+        cleanedPage.fields = cleanedFields;
+      }
+      return cleanedPage;
+    });
   }
+  // For JSON and XML: restructure pages into separate top-level fields (page_1, page_2, etc.)
+  if ((format === "json" || format === "xml") && output.pages && Array.isArray(output.pages)) {
+    // Get top-level field keys (these are merged from all pages - avoid duplicating in page fields)
+    const topLevelKeys = new Set(Object.keys(output).filter(k => k !== "pages" && k !== "full_text"));
     output.pages.forEach((page, idx) => {
       const pageNum = page.page_number || idx + 1;
+      const pageFields = page.fields || {};
+      // Remove duplicate fields from page.fields:
+      // 1. Remove full_text (duplicates page.text)
+      // 2. Remove fields that match top-level fields (already shown at root)
+      const cleanedPageFields = {};
+      for (const [key, value] of Object.entries(pageFields)) {
+        // Skip full_text and fields that match top-level exactly
+        if (key !== "full_text" && (!topLevelKeys.has(key) || (value !== output[key]))) {
+          cleanedPageFields[key] = value;
+        }
+      }
+      const pageObj = {
         text: page.text || "",
         confidence: page.confidence || 0,
         doc_type: page.doc_type || "other"
       };
+      // Only add fields if there are unique page-specific fields
+      if (Object.keys(cleanedPageFields).length > 0) {
+        pageObj.fields = cleanedPageFields;
+      }
+      output[`page_${pageNum}`] = pageObj;
     });
     // Remove pages array - we now have page_1, page_2, etc. as separate fields
     delete output.pages;
               >
                 <Sparkles className="h-8 w-8 text-indigo-500" />
               </motion.div>
+              <p className="text-slate-700 font-medium mb-1">Extracting data...</p>
               <p className="text-slate-400 text-sm">Analyzing document structure</p>
               <div className="mt-6 flex items-center justify-center gap-1">