yousbek commited on
Commit
ddb435e
·
verified ·
1 Parent(s): aab9edf

Upload 8 files

Browse files
Files changed (1) hide show
  1. app/main.py +17 -11
app/main.py CHANGED
@@ -2,7 +2,6 @@ from fastapi import FastAPI, File, UploadFile, Form, HTTPException
2
  from fastapi.middleware.cors import CORSMiddleware
3
  from fastapi.responses import HTMLResponse
4
  from fastapi.staticfiles import StaticFiles
5
- import pytesseract
6
  from PIL import Image
7
  import PyPDF2
8
  from PyPDF2 import PdfFileReader
@@ -13,6 +12,9 @@ import os
13
  import easyocr
14
  import numpy as np
15
 
 
 
 
16
  app = FastAPI()
17
 
18
  # Servir les fichiers statiques (CSS, JS, etc.)
@@ -37,21 +39,25 @@ def extract_text_from_pdf(file):
37
  # Passer l'objet fichier à PyPDF2
38
  reader = PyPDF2.PdfReader(pdf_file)
39
  text = ""
40
- for page_num in range(reader.numPages):
41
- text += reader.getPage(page_num).extract_text()
42
  return text
43
 
44
 
45
 
46
  def extract_text_from_pptx(file):
47
-
48
- # prs = Presentation(file)
49
- text = ""
50
- # for slide in prs.slides:
51
- # for shape in slide.shapes:
52
- # if hasattr(shape, "text"):
53
- # text += shape.text + "\n"
54
- return text
 
 
 
 
55
 
56
 
57
 
 
2
  from fastapi.middleware.cors import CORSMiddleware
3
  from fastapi.responses import HTMLResponse
4
  from fastapi.staticfiles import StaticFiles
 
5
  from PIL import Image
6
  import PyPDF2
7
  from PyPDF2 import PdfFileReader
 
12
  import easyocr
13
  import numpy as np
14
 
15
+ from pptx import Presentation
16
+ from io import BytesIO
17
+
18
  app = FastAPI()
19
 
20
  # Servir les fichiers statiques (CSS, JS, etc.)
 
39
  # Passer l'objet fichier à PyPDF2
40
  reader = PyPDF2.PdfReader(pdf_file)
41
  text = ""
42
+ for page in reader.pages:
43
+ text += page.extract_text()
44
  return text
45
 
46
 
47
 
48
  def extract_text_from_pptx(file):
49
+ # Lire le contenu du fichier
50
+ file_content = file.read()
51
+ # Utiliser BytesIO pour créer un objet fichier en mémoire
52
+ pptx_file = BytesIO(file_content)
53
+ # Passer l'objet fichier à python-pptx
54
+ prs = Presentation(pptx_file)
55
+ text = ""
56
+ for slide in prs.slides:
57
+ for shape in slide.shapes:
58
+ if hasattr(shape, "text"):
59
+ text += shape.text + "\n"
60
+ return text
61
 
62
 
63