Aquí tienes un resumen del documento "Pythonlearn-16-Data-Viz.pptx":
- Recopilar (Gather): Obtener los datos de una fuente.
- Limpiar/Procesar (Clean/Process): Preparar los datos para el análisis.
- Analizar (Analyze): Realizar el análisis de los datos.
- Visualizar (Visualize): Presentar los datos de forma gráfica.
- OpenGeo:
- Crea un mapa anotado de Open Street Map a partir de datos introducidos por el usuario.
- Utiliza la API GeoAPI con un proxy.
- Almacena los datos en una base de datos para evitar límites de tasa y permitir reinicios.
- Se visualiza en un navegador usando Open Street Map.
- Los archivos asociados incluyen
geodata.sqlite
,geoload.py
,geodump.py
,where.data
,where.js
,where.html
.
- Page Rank:
- Implica escribir un rastreador de páginas web simple.
- Calcula una versión simplificada del algoritmo Page Rank de Google.
- Visualiza la red resultante.
- Los archivos asociados incluyen
spider.sqlite
,spider.py
,spdump.py
,force.js
,force.html
,d3.js
,spreset.py
,sprank.py
,spjson.py
.
- Listas de Correo - Gmane:
- Rastrea el archivo de una lista de correo.
- Realiza análisis y limpieza de datos.
- Visualiza los datos como una nube de palabras y gráficos de líneas.
- Se advierte que el conjunto de datos es grande (> 1GB) y que la fuente original (gmane.org) ha sido cerrada. Se proporciona una copia de un subconjunto de datos para pruebas.
- Los archivos asociados incluyen
content.sqlite
,gmane.py
,mbox.dr-chuck.net
,gword.js
,gword.htm
,d3.js
,gword.py
,gmodel.py
,gbasic.py
,gline.js
,gline.htm
,d3.js
,gline.py
,content.sqlite
,mapping.sqlite
.
- Rastreo Web (Web Crawling): Un programa de computadora que navega por la World Wide Web de manera metódica y automatizada para crear una copia de las páginas visitadas para su posterior procesamiento.
- Política de Rastreo Web: Incluye políticas de selección, revisión, cortesía y paralelización.
- robots.txt: Un estándar informal y voluntario para que un sitio web se comunique con los rastreadores web, indicando qué partes del sitio no deben ser rastreadas.
- Construcción de Índices (Index Building): Recopila, analiza y almacena datos para facilitar la recuperación rápida y precisa de información.
- Búsqueda (Searching): La etapa final donde se utilizan los índices para encontrar documentos relevantes para una consulta de búsqueda.