Aquí tienes un resumen del documento "Pythonlearn-16-Data-Viz.pptx":
- Recopilar (Gather): Obtener los datos de una fuente.
- Limpiar/Procesar (Clean/Process): Preparar los datos para el análisis.
- Analizar (Analyze): Realizar el análisis de los datos.
- Visualizar (Visualize): Presentar los datos de forma gráfica.
- OpenGeo:
- Crea un mapa anotado de Open Street Map a partir de datos introducidos por el usuario.
- Utiliza la API GeoAPI con un proxy.
- Almacena los datos en una base de datos para evitar límites de tasa y permitir reinicios.
- Se visualiza en un navegador usando Open Street Map.
- Los archivos asociados incluyen
geodata.sqlite,geoload.py,geodump.py,where.data,where.js,where.html.
- Page Rank:
- Implica escribir un rastreador de páginas web simple.
- Calcula una versión simplificada del algoritmo Page Rank de Google.
- Visualiza la red resultante.
- Los archivos asociados incluyen
spider.sqlite,spider.py,spdump.py,force.js,force.html,d3.js,spreset.py,sprank.py,spjson.py.
- Listas de Correo - Gmane:
- Rastrea el archivo de una lista de correo.
- Realiza análisis y limpieza de datos.
- Visualiza los datos como una nube de palabras y gráficos de líneas.
- Se advierte que el conjunto de datos es grande (> 1GB) y que la fuente original (gmane.org) ha sido cerrada. Se proporciona una copia de un subconjunto de datos para pruebas.
- Los archivos asociados incluyen
content.sqlite,gmane.py,mbox.dr-chuck.net,gword.js,gword.htm,d3.js,gword.py,gmodel.py,gbasic.py,gline.js,gline.htm,d3.js,gline.py,content.sqlite,mapping.sqlite.
- Rastreo Web (Web Crawling): Un programa de computadora que navega por la World Wide Web de manera metódica y automatizada para crear una copia de las páginas visitadas para su posterior procesamiento.
- Política de Rastreo Web: Incluye políticas de selección, revisión, cortesía y paralelización.
- robots.txt: Un estándar informal y voluntario para que un sitio web se comunique con los rastreadores web, indicando qué partes del sitio no deben ser rastreadas.
- Construcción de Índices (Index Building): Recopila, analiza y almacena datos para facilitar la recuperación rápida y precisa de información.
- Búsqueda (Searching): La etapa final donde se utilizan los índices para encontrar documentos relevantes para una consulta de búsqueda.