Entradas

Mostrando las entradas de julio, 2023

EXTRACCION Y EDICION DE INFORMACION DE UN ARCHIVO PDF EN PYTHON

Imagen
 Fuente: https://tinyurl.com/2ar5k4x8 Traducciòn: Google translator    Este artículo fue publicado como parte del Data Science Blogathon Introducción PDF significa formato de documento portátil. Utiliza la extensión .pdf. Este tipo de archivo se usa principalmente para compartir. No se pueden modificar, por lo que se conserva intacto el formato del archivo. Por lo tanto, se pueden compartir y descargar fácilmente. Están destinados a la lectura y no a la edición. Se ven similares en cualquier dispositivo en el que se abran, independientemente del hardware, el software y el sistema operativo. Por lo tanto, son el formato más utilizado. Fue inventado por Adobe . Ahora es un estándar abierto de la Organización Internacional de Normalización ( ISO ).   En este tutorial, aprenderemos a trabajar con archivos PDF en Python. Se tratarán los siguientes temas: Cómo extraer texto de un archivo PDF. Cómo rotar páginas de un archivo PDF. Cómo extraer información de un documento de

TUTORIAL PARA MANIPULACION DE ARCHIVOS PDF

  https://realpython.com/creating-modifying-pdf/     # instalando modulo en el entorno de Google colab   !pip install pypdf  from pypdf import PdfReader # Importando lector pdf desde el modulo from pathlib import Path # importando lector de ruta de ubicación del archivo    # Leer archivo pdf ubicado en Google Drive pdf_reader=PdfReader('/content/drive/MyDrive/Colab Notebooks/Convert Pdf/Libro1.pdf') len(pdf_reader.pages) # Determinando la cantidad de paginas que contiene el pdf    >>>> 2 first_page = pdf_reader.pages[0] # Determinar el tipo de objeto de la primera pagina type(first_page) # class 'pypdf._page.PageObject'>    >>>> pypdf._page.PageObject   print ( first_page.extract_text ()) # extrayendo el texto de la primera pagina del pdf   >>>>