domingo, 30 de julio de 2023

TUTORIAL PARA MANIPULACION DE ARCHIVOS PDF

 

  
# instalando modulo en el entorno de Google colab
 
!pip install pypdf 
from pypdf import PdfReader # Importando lector pdf desde el modulo
from pathlib import Path
# importando lector de ruta de ubicación del archivo 
 
# Leer archivo pdf ubicado en Google Drive
pdf_reader=PdfReader('/content/drive/MyDrive/Colab Notebooks/Convert Pdf/Libro1.pdf')
len(pdf_reader.pages) # Determinando la cantidad de paginas que contiene el pdf 
 
>>>>
2

first_page = pdf_reader.pages[0] # Determinar el tipo de objeto de la primera
pagina
type(first_page) # class 'pypdf._page.PageObject'> 
 
>>>>
pypdf._page.PageObject
 
print(first_page.extract_text()) # extrayendo el texto de la primera pagina del pdf
 
>>>>


 
 
 
 


No hay comentarios.:

Publicar un comentario

Entradas recientes

Thinkcspy 7.7 Condicionales encadenados

  7.7. Condicionales encadenados Python proporciona una forma alternativa de escribir una selección anidada, como la que se muestra en la s...

Entradas Populares