viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas

 

Exploración de datos con NumPy y Pandas

Completado 100 XP

Los científicos de datos pueden usar diversas herramientas y técnicas para explorar, visualizar y manipular datos. Una de las formas más comunes en las que los científicos de datos trabajan con los datos es mediante el lenguaje de programación Python y algunos paquetes específicos para el procesamiento de datos.

Qué es NumPy

NumPy es una biblioteca de Python que ofrece una funcionalidad comparable a la de herramientas matemáticas como MATLAB y R. Aunque NumPy simplifica considerablemente la experiencia del usuario, también ofrece funciones matemáticas completas.

Comentario de PPI: puedes ampliar la información sobre Numpy con su documentación y tutoriales en su sitio web oficial: https://numpy.org/

 

Qué es Pandas

Pandas es una biblioteca de Python muy conocida para el análisis y la manipulación de datos. Pandas es como la aplicación de hoja de cálculo de Python: proporciona una funcionalidad fácil de usar para las tablas de datos.

 Diagrama de Pandas DF.  

Comentario de PPI:  Puedes ampliar y profundizar el conocimiento sobre pandas en su sitio oficial, https://pandas.pydata.org/

 

Exploración de datos en un cuaderno de Jupyter Notebook

Los cuadernos de Jupyter Notebooks son una forma conocida de ejecutar scripts básicos mediante el explorador web. Normalmente, estos cuadernos son una sola página web, dividida en secciones de texto y secciones de código que se ejecutan en el servidor en lugar de en la máquina local. Al ejecutar código en cuadernos de Jupyter Notebook en un servidor, puede empezar a trabajar rápidamente sin necesidad de instalar Python u otras herramientas en el equipo local.

Comentario de PPI: Puedes visitar el sitio oficial de Jupyter para conocer mas, https://jupyter.org/

Prueba de hipótesis

La exploración y el análisis de datos suele ser un proceso iterativo en el que el científico de datos toma una muestra de los datos y realiza las siguientes tareas para analizarlos y probar hipótesis:

  • Limpiar los datos para controlar errores, valores que faltan y otros problemas.
  • Aplicación de técnicas estadísticas para comprender mejor los datos y cómo se puede esperar que la muestra represente la población de datos del mundo real, lo que permite una variación aleatoria.
  • Visualizar los datos para determinar las relaciones entre variables y, en el caso de un proyecto de aprendizaje automático, identificar las características que potencialmente se pueden predecir de la etiqueta.
  • Revisión de hipótesis y repetición del proceso.


No hay comentarios.:

Publicar un comentario

Entradas recientes

Thinkcspy 6.6. Las funciones pueden llamar a otras funciones

E s importante comprender que cada una de las funciones que escribimos se puede usar y llamado desde otras funciones que escribimos. Este es...

Entradas Populares