domingo, 19 de octubre de 2025

Python For Everybody (Py4E) Seccion 16. Visualizacion de datos.

 Aquí tienes un resumen del documento "Pythonlearn-16-Data-Viz.pptx":

Resumen elaborado con Gemini.
 
El documento "Pythonlearn-16-Data-Viz.pptx" se centra en la recuperación y visualización de datos, haciendo hincapié en el "Personal Data Mining" para mejorar las habilidades de programación en Python, más que en convertir a los usuarios en expertos en minería de datos.

Análisis de Datos Multi-Paso:

El proceso de análisis de datos se describe en varias etapas:
  • Recopilar (Gather): Obtener los datos de una fuente.
  • Limpiar/Procesar (Clean/Process): Preparar los datos para el análisis.
  • Analizar (Analyze): Realizar el análisis de los datos.
  • Visualizar (Visualize): Presentar los datos de forma gráfica.
Tecnologías de Minería de Datos:

Se mencionan diversas tecnologías de minería de datos como Hadoop, Spark, AWS Redshift y Pentaho, pero el enfoque del curso es el "Personal Data Mining" para el desarrollo de programadores Python.

Proyectos de Visualización de Datos:
  1. OpenGeo:
    • Crea un mapa anotado de Open Street Map a partir de datos introducidos por el usuario.
    • Utiliza la API GeoAPI con un proxy.
    • Almacena los datos en una base de datos para evitar límites de tasa y permitir reinicios.
    • Se visualiza en un navegador usando Open Street Map.
    • Los archivos asociados incluyen geodata.sqlite, geoload.py, geodump.py, where.data, where.js, where.html.
  2. Page Rank:
    • Implica escribir un rastreador de páginas web simple.
    • Calcula una versión simplificada del algoritmo Page Rank de Google.
    • Visualiza la red resultante.
    • Los archivos asociados incluyen spider.sqlite, spider.py, spdump.py, force.js, force.html, d3.js, spreset.py, sprank.py, spjson.py.
  3. Listas de Correo - Gmane:
    • Rastrea el archivo de una lista de correo.
    • Realiza análisis y limpieza de datos.
    • Visualiza los datos como una nube de palabras y gráficos de líneas.
    • Se advierte que el conjunto de datos es grande (> 1GB) y que la fuente original (gmane.org) ha sido cerrada. Se proporciona una copia de un subconjunto de datos para pruebas.
    • Los archivos asociados incluyen content.sqlite, gmane.py, mbox.dr-chuck.net, gword.js, gword.htm, d3.js, gword.py, gmodel.py, gbasic.py, gline.js, gline.htm, d3.js, gline.py, content.sqlite, mapping.sqlite.
Arquitectura de Motores de Búsqueda:

Se describe la arquitectura de los motores de búsqueda, que incluye:
  • Rastreo Web (Web Crawling): Un programa de computadora que navega por la World Wide Web de manera metódica y automatizada para crear una copia de las páginas visitadas para su posterior procesamiento.
    • Política de Rastreo Web: Incluye políticas de selección, revisión, cortesía y paralelización.
    • robots.txt: Un estándar informal y voluntario para que un sitio web se comunique con los rastreadores web, indicando qué partes del sitio no deben ser rastreadas.
  • Construcción de Índices (Index Building): Recopila, analiza y almacena datos para facilitar la recuperación rápida y precisa de información.
  • Búsqueda (Searching): La etapa final donde se utilizan los índices para encontrar documentos relevantes para una consulta de búsqueda.
Agradecimientos:

Las diapositivas son Copyright 2010- Charles R. Severance de la Universidad de Michigan y están disponibles bajo una licencia Creative Commons Attribution 4.0.

No hay comentarios.:

Publicar un comentario

Entradas recientes

Thinkcspy 7.7 Condicionales encadenados

  7.7.  Condicionales encadenados  Python proporciona una forma alternativa de escribir selecciones anidadas como la que se muestra en la se...

Entradas Populares