# instalando modulo en el entorno de Google colab
!pip install pypdf
from pypdf import PdfReader # Importando lector pdf desde el modulo
from pathlib import Path # importando lector de ruta de ubicación del archivo
from pathlib import Path # importando lector de ruta de ubicación del archivo
# Leer archivo pdf ubicado en Google Drive
pdf_reader=PdfReader('/content/drive/MyDrive/Colab Notebooks/Convert Pdf/Libro1.pdf')
len(pdf_reader.pages) # Determinando la cantidad de paginas que contiene el pdf
pdf_reader=PdfReader('/content/drive/MyDrive/Colab Notebooks/Convert Pdf/Libro1.pdf')
len(pdf_reader.pages) # Determinando la cantidad de paginas que contiene el pdf
>>>>
2
first_page = pdf_reader.pages[0] # Determinar el tipo de objeto de la primera
pagina
type(first_page) # class 'pypdf._page.PageObject'>
type(first_page) # class 'pypdf._page.PageObject'>
>>>>
pypdf._page.PageObject
print(first_page.extract_text()) # extrayendo el texto de la primera pagina del pdf
>>>>
No hay comentarios.:
Publicar un comentario