domingo, 19 de octubre de 2025

Python For Everybody (Py4E) Seccion 16. Visualizacion de datos.

 Aquí tienes un resumen del documento "Pythonlearn-16-Data-Viz.pptx":

Resumen elaborado con Gemini.
 
El documento "Pythonlearn-16-Data-Viz.pptx" se centra en la recuperación y visualización de datos, haciendo hincapié en el "Personal Data Mining" para mejorar las habilidades de programación en Python, más que en convertir a los usuarios en expertos en minería de datos.

Análisis de Datos Multi-Paso:

El proceso de análisis de datos se describe en varias etapas:
  • Recopilar (Gather): Obtener los datos de una fuente.
  • Limpiar/Procesar (Clean/Process): Preparar los datos para el análisis.
  • Analizar (Analyze): Realizar el análisis de los datos.
  • Visualizar (Visualize): Presentar los datos de forma gráfica.
Tecnologías de Minería de Datos:

Se mencionan diversas tecnologías de minería de datos como Hadoop, Spark, AWS Redshift y Pentaho, pero el enfoque del curso es el "Personal Data Mining" para el desarrollo de programadores Python.

Proyectos de Visualización de Datos:
  1. OpenGeo:
    • Crea un mapa anotado de Open Street Map a partir de datos introducidos por el usuario.
    • Utiliza la API GeoAPI con un proxy.
    • Almacena los datos en una base de datos para evitar límites de tasa y permitir reinicios.
    • Se visualiza en un navegador usando Open Street Map.
    • Los archivos asociados incluyen geodata.sqlite, geoload.py, geodump.py, where.data, where.js, where.html.
  2. Page Rank:
    • Implica escribir un rastreador de páginas web simple.
    • Calcula una versión simplificada del algoritmo Page Rank de Google.
    • Visualiza la red resultante.
    • Los archivos asociados incluyen spider.sqlite, spider.py, spdump.py, force.js, force.html, d3.js, spreset.py, sprank.py, spjson.py.
  3. Listas de Correo - Gmane:
    • Rastrea el archivo de una lista de correo.
    • Realiza análisis y limpieza de datos.
    • Visualiza los datos como una nube de palabras y gráficos de líneas.
    • Se advierte que el conjunto de datos es grande (> 1GB) y que la fuente original (gmane.org) ha sido cerrada. Se proporciona una copia de un subconjunto de datos para pruebas.
    • Los archivos asociados incluyen content.sqlite, gmane.py, mbox.dr-chuck.net, gword.js, gword.htm, d3.js, gword.py, gmodel.py, gbasic.py, gline.js, gline.htm, d3.js, gline.py, content.sqlite, mapping.sqlite.
Arquitectura de Motores de Búsqueda:

Se describe la arquitectura de los motores de búsqueda, que incluye:
  • Rastreo Web (Web Crawling): Un programa de computadora que navega por la World Wide Web de manera metódica y automatizada para crear una copia de las páginas visitadas para su posterior procesamiento.
    • Política de Rastreo Web: Incluye políticas de selección, revisión, cortesía y paralelización.
    • robots.txt: Un estándar informal y voluntario para que un sitio web se comunique con los rastreadores web, indicando qué partes del sitio no deben ser rastreadas.
  • Construcción de Índices (Index Building): Recopila, analiza y almacena datos para facilitar la recuperación rápida y precisa de información.
  • Búsqueda (Searching): La etapa final donde se utilizan los índices para encontrar documentos relevantes para una consulta de búsqueda.
Agradecimientos:

Las diapositivas son Copyright 2010- Charles R. Severance de la Universidad de Michigan y están disponibles bajo una licencia Creative Commons Attribution 4.0.

No hay comentarios.:

Publicar un comentario

Entradas recientes

Introducción a funciones y sentencias condicionales en Python

Fuente: Coursera & Google Funciones y sentencias condicionales En este curso, vamos a seguir construyendo sobre su base de conocimientos...

Entradas Populares