TUTORIAL PARA MANIPULACION DE ARCHIVOS PDF

 

  
# instalando modulo en el entorno de Google colab
 
!pip install pypdf 
from pypdf import PdfReader # Importando lector pdf desde el modulo
from pathlib import Path
# importando lector de ruta de ubicación del archivo 
 
# Leer archivo pdf ubicado en Google Drive
pdf_reader=PdfReader('/content/drive/MyDrive/Colab Notebooks/Convert Pdf/Libro1.pdf')
len(pdf_reader.pages) # Determinando la cantidad de paginas que contiene el pdf 
 
>>>>
2

first_page = pdf_reader.pages[0] # Determinar el tipo de objeto de la primera
pagina
type(first_page) # class 'pypdf._page.PageObject'> 
 
>>>>
pypdf._page.PageObject
 
print(first_page.extract_text()) # extrayendo el texto de la primera pagina del pdf
 
>>>>


 
 
 
 


Comentarios

Entradas más populares de este blog

TEST DE VARIABLES EN PYTHON

PySDR: una guía para SDR y DSP usando Python by Dr. Marc Lichtman. Introducciòn.

LEER Y CONVERTIR AUDIOS CON PYTHON EN GOOGLE COLAB