Spaces:

TOPSInfosol
/

light-weightocr

Sleeping

App Files Files Community

light-weightocr / app.py

TOPSInfosol

Update app.py

2c18b4d verified 10 months ago

raw

history blame contribute delete

2.05 kB

	import streamlit as st
	import pdfplumber
	import io
	from PyPDF2 import PdfReader
	from pdf2image import convert_from_bytes


	def extract_text_from_pdf(pdf_file):
	text = ""
	with pdfplumber.open(pdf_file) as pdf:
	for page in pdf.pages:
	text += page.extract_text() + "\n\n"
	return text


	def main():
	st.title("Tops Infosolutions Pvt. Ltd.")
	st.write("Upload a PDF, view its pages, and convert it to Markdown.")

	uploaded_file = st.file_uploader("Choose a PDF file", type=["pdf"])

	if uploaded_file is not None:
	# Create a byte stream of the PDF without consuming the file pointer
	pdf_bytes = uploaded_file.getvalue()

	pdf_reader = PdfReader(io.BytesIO(pdf_bytes))
	total_pages = len(pdf_reader.pages)
	st.session_state.page_number = st.session_state.get("page_number", 0)

	col1, col2 = st.columns([1, 6])
	with col1:
	if st.button("Previous"):
	st.session_state.page_number = max(0, st.session_state.page_number - 1)
	with col2:
	if st.button("Next"):
	st.session_state.page_number = min(total_pages - 1, st.session_state.page_number + 1)

	# Convert PDF to images using the raw bytes
	images = convert_from_bytes(pdf_bytes, first_page=st.session_state.page_number + 1,
	last_page=st.session_state.page_number + 1)

	if images:
	st.image(images[0], use_column_width=True)

	page = pdf_reader.pages[st.session_state.page_number]
	text = page.extract_text()

	st.subheader(f"Page {st.session_state.page_number + 1} of {total_pages}")
	st.text_area("Extracted Text", text, height=300)

	md_file = io.BytesIO()
	md_file.write(text.encode('utf-8'))
	md_file.seek(0)

	st.download_button(
	label="Download Markdown",
	data=md_file,
	file_name="converted.md",
	mime="text/markdown"
	)


	if __name__ == "__main__":
	main()