viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio

Ejercicio: Exploración de datos con NumPy y Pandas

100 XP

12 minutos

Para completar este módulo, se necesita un espacio aislado. Un espacio aislado te da acceso a recursos gratuitos. La suscripción personal no se te cobrará. El espacio aislado solo se puede usar para realizar los cursos de Microsoft Learn. Está prohibido el uso con cualquier otro fin y puede dar lugar a la pérdida permanente del acceso al espacio aislado.

Microsoft proporciona esta experiencia de laboratorio y contenido relacionado con fines educativos. Toda la información presentada es propiedad de Microsoft y está destinada únicamente a conocer los productos y servicios cubiertos en este módulo de Microsoft Learn.

Tenga en cuenta que, por el momento, el espacio aislado de Jupyter Notebook solo admite el idioma inglés.

Comentario de PPI: el contenido de las celdas de texto ha sido traducido por medio de google para facilitar su lectura en este blog.

Explorando datos con Python

Una parte importante del papel de AA Data Scientist es explorar, analizar y visualizar datos. Hay muchas herramientas y lenguajes de programación que pueden usar para hacer esto. Uno de los enfoques más populares es usar cuadernos Jupyter (como este) y Python.

Python es un lenguaje de programación flexible que se utiliza en una amplia gama de escenarios, desde aplicaciones web hasta programación de dispositivos. Es extremadamente popular en las comunidades de ciencia de datos y aprendizaje automático debido a los muchos paquetes que admite para el análisis y la visualización de datos.

En este cuaderno, exploraremos algunos de estos paquetes y aplicaremos técnicas básicas para analizar datos. Esto no pretende ser un ejercicio integral de programación de Python o incluso una inmersión profunda en el análisis de datos. Más bien, se pretende como un curso de bloqueo en algunas de las formas comunes en que los científicos de datos pueden usar Python para trabajar con datos.

Nota : Si nunca ha usado el entorno de los cuadernos Jupyter antes, hay algunas cosas de las cuales debe tener en cuenta:

Los cuadernos están formados por céldas . Algunas celdas (como esta) contienen de Markdown , mientras que otras (como la que sigue a este) contienen código.
Puede ejecutar cada celda de código utilizando el ► Ejecutar . El de ejecución ► aparece cuando se desplaza sobre la celda.
La salida de cada celda de código se muestra inmediatamente debajo de la celda.
Aunque puede ejecutar las celdas de código individualmente, algunas variables que usa el código son globales para el cuaderno. Eso significa que debe ejecutar todas las celdas del código en orden . Puede haber dependencias entre las celdas de código, por lo que si omite una celda, las celdas posteriores pueden no funcionar correctamente.

Explorando matrices de datos con Numpy

Comencemos mirando algunos datos simples.

Supongamos que un profesor universitario toma una muestra de calificaciones de estudiantes de una clase para analizar.

Ejecute el código en la siguiente celda seleccionando el de ejecución ► para ver los datos.

>>data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]

>>print(data)
 
# Lectura del codigo por parte de PPI:
# la variable del codigo de ejemplo recibe el nombre de data
# es un arreglo de numeros tipo int entre corchetes, es decir que data es tipo lista 
# El codigo termina con la instruccion print para mostrar por pantalla el contenido
# de la lista
# En PPI vamos a trabajar los ejemplos y ejercicios en el Notebook de Google colab
# https://colab.research.google.com 
 
>>data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
>>print(data)
>>>[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
>>type(data) #comprabando el tipo de dato almacenado en data
>>>list
>>len(data)  # comprobando la longitud o cantidad de elementos de la lista>>>22
>>primer_elemento = data[0]
>>primer_elemento
>>>50
>>ultimo_elemento = data[-1]
>>ultimo_elemento 
>>>64Los datos se han cargado en una de la lista ,
que es un buen tipo de datos para la manipulación general de datos, 
pero no está optimizado para el análisis numérico. Para eso, vamos a 
utilizar el Numpy , que incluye tipos de datos específicos y funciones
para trabajar con números en python. 
Ejecute la siguiente celda para cargar los datos en una matriz (array).
>>import numpy as np  # Importacion del modulo Numpy con un alias abreviado

>>grades = np.array(data)  # Se define la matriz grades a partir de la lista data
>>print(grades)
>>>[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]>>type(grades)  # comprobando el tipo de grades es tipo matriz 
>>>numpy.ndarray
En caso de que se pregunte sobre las diferencias entre una lista y numpy matriz,comparemos cómo se comportan estos tipos de datos cuando los usamos en una 
expresión que los multiplica por dos. 
>>print (type(data),'x 2:', data * 2)
>>print('---')
>>print (type(grades),'x 2:', grades * 2)
>>> <class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15,
 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62,
 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
>>> <class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70 96 104 126 128]Tenga en cuenta que: 
multiplicar una lista de dos crea una nueva lista de dos 
veces la longitud con la secuencia original de los elementos de la lista
repetidos. Multiplicar una matriz numpy, por otro lado, realiza un 
cálculo en el elemento en el que la matriz se comporta como un vector,
por lo que terminamos con una matriz del mismo tamaño en el que cada
elemento ha sido multiplicado por dos. 
La conclusión clave de esto es que: 
las matrices numpy están específicamente diseñadas para admitir 
operaciones matemáticas en datos numéricos, lo que los hace más útiles 
para el análisis de datos que una lista genérica. 
Es posible que haya visto que el tipo de clase para la matriz Numpy
anterior es numpy.ndarray . El ND indica que esta es una estructura
que puede consistir en múltiples dimensiones. (Puede tener n dimensiones).
Nuestra instancia específica tiene una dimensión única de las calificaciones
de los estudiantes. 
Ejecute la siguiente celda para ver la forma de la matriz. 
>>grades.shape
>>>(22,)La forma confirma que esta matriz solo tiene una dimensión, que contiene22 elementos. (Hay 22 grados en la lista original). Puede acceder a los elementosindividuales en la matriz por su posición ordinal basada en cero. Obtengamos el primer 
elemento (el que está en la posición 0). >>grades[0]
>>>50
 
Ahora que conoce una matriz Numpy, es hora de realizar algún análisis de los datos
de los grados. Puede aplicar agregaciones en los elementos de la matriz, 
así que encontremos la calificación promedio simple 
(en otras palabras, el valor medio o medina de grados). 
>>grades.mean()
>>>49.18181818181818 

Por lo tanto, la calificación media es de alrededor de 50, más o menos en el medio
del posible rango de 0 a 100. 

viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio

Ejercicio: Exploración de datos con NumPy y Pandas

Explorando datos con Python

Explorando matrices de datos con Numpy

No hay comentarios.:

Publicar un comentario

Entradas recientes

Sabes que es SfePy y para que sirve?

Entradas Populares

Entradas populares

viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio

Ejercicio: Exploración de datos con NumPy y Pandas

Explorando datos con Python

Explorando matrices de datos con Numpy

No hay comentarios.:

Publicar un comentario

Entradas recientes

Sabes que es SfePy y para que sirve?

Entradas Populares

Suscribirse a

Entradas populares