Ejercicio: Exploración de datos con NumPy y Pandas
Para completar este módulo, se necesita un espacio aislado. Un espacio aislado te da acceso a recursos gratuitos. La suscripción personal no se te cobrará. El espacio aislado solo se puede usar para realizar los cursos de Microsoft Learn. Está prohibido el uso con cualquier otro fin y puede dar lugar a la pérdida permanente del acceso al espacio aislado.
Microsoft proporciona esta experiencia de laboratorio y contenido relacionado con fines educativos. Toda la información presentada es propiedad de Microsoft y está destinada únicamente a conocer los productos y servicios cubiertos en este módulo de Microsoft Learn.
Tenga en cuenta que, por el momento, el espacio aislado de Jupyter Notebook solo admite el idioma inglés.
Comentario de PPI: el contenido de las celdas de texto ha sido traducido por medio de google para facilitar su lectura en este blog.
Explorando datos con Python
Una parte importante del papel de AA Data Scientist es explorar, analizar y visualizar datos. Hay muchas herramientas y lenguajes de programación que pueden usar para hacer esto. Uno de los enfoques más populares es usar cuadernos Jupyter (como este) y Python.
Python es un lenguaje de programación flexible que se utiliza en una amplia gama de escenarios, desde aplicaciones web hasta programación de dispositivos. Es extremadamente popular en las comunidades de ciencia de datos y aprendizaje automático debido a los muchos paquetes que admite para el análisis y la visualización de datos.
En este cuaderno, exploraremos algunos de estos paquetes y aplicaremos técnicas básicas para analizar datos. Esto no pretende ser un ejercicio integral de programación de Python o incluso una inmersión profunda en el análisis de datos. Más bien, se pretende como un curso de bloqueo en algunas de las formas comunes en que los científicos de datos pueden usar Python para trabajar con datos.
Nota : Si nunca ha usado el entorno de los cuadernos Jupyter antes, hay algunas cosas de las cuales debe tener en cuenta:
- Los cuadernos están formados por céldas . Algunas celdas (como esta) contienen de Markdown , mientras que otras (como la que sigue a este) contienen código.
- Puede ejecutar cada celda de código utilizando el ► Ejecutar . El de ejecución ► aparece cuando se desplaza sobre la celda.
- La salida de cada celda de código se muestra inmediatamente debajo de la celda.
- Aunque puede ejecutar las celdas de código individualmente, algunas variables que usa el código son globales para el cuaderno. Eso significa que debe ejecutar todas las celdas del código en orden . Puede haber dependencias entre las celdas de código, por lo que si omite una celda, las celdas posteriores pueden no funcionar correctamente.
Explorando matrices de datos con Numpy
Comencemos mirando algunos datos simples.
Supongamos que un profesor universitario toma una muestra de calificaciones de estudiantes de una clase para analizar.
Ejecute el código en la siguiente celda seleccionando el de ejecución ► para ver los datos.
>>data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
>>print(data)
>>>[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
>>type(data) #comprabando el tipo de dato almacenado en data
>>>list
>>len(data) # comprobando la longitud o cantidad de elementos de la lista
>>>22
>>primer_elemento = data[0]
>>primer_elemento
>>>50
>>ultimo_elemento = data[-1]
>>ultimo_elemento
>>>64
Los datos se han cargado en una de la lista , que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para eso, vamos a utilizar el Numpy , que incluye tipos de datos específicos y funciones
para trabajar con números en python.
Ejecute la siguiente celda para cargar los datos en una matriz (array).
>>>[50 50 47 97 49 3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]
>>>numpy.ndarray
En caso de que se pregunte sobre las diferencias entre una lista y numpy matriz,
comparemos cómo se comportan estos tipos de datos cuando los usamos en una
expresión que los multiplica por dos.
---
>>> <class 'numpy.ndarray'> x 2: [100 100 94 194 98 6 106 84 52 148 164
124 74 30 140 54 72 70 96 104 126 128]
Tenga en cuenta que:
multiplicar una lista de dos crea una nueva lista de dos veces la longitud con la secuencia original de los elementos de la lista repetidos. Multiplicar una matriz numpy, por otro lado, realiza un cálculo en el elemento en el que la matriz se comporta como un vector,
por lo que terminamos con una matriz del mismo tamaño en el que cada
elemento ha sido multiplicado por dos.
La conclusión clave de esto es que:
las matrices numpy están específicamente diseñadas para admitir operaciones matemáticas en datos numéricos, lo que los hace más útiles para el análisis de datos que una lista genérica.
Es posible que haya visto que el tipo de clase para la matriz Numpy
anterior es numpy.ndarray . El ND indica que esta es una estructura
que puede consistir en múltiples dimensiones. (Puede tener n dimensiones).
Nuestra instancia específica tiene una dimensión única de las calificaciones
de los estudiantes.
Ejecute la siguiente celda para ver la forma de la matriz.
>>>(22,)
La forma confirma que esta matriz solo tiene una dimensión, que contiene
22 elementos. (Hay 22 grados en la lista original). Puede acceder a los elementos
individuales en la matriz por su posición ordinal basada en cero. Obtengamos el primer
elemento (el que está en la posición 0).
>>grades[0]Ahora que conoce una matriz Numpy, es hora de realizar algún análisis de los datos
de los grados. Puede aplicar agregaciones en los elementos de la matriz,
así que encontremos la calificación promedio simple
(en otras palabras, el valor medio o medina de grados).
>>grades.mean()49.18181818181818
Por lo tanto, la calificación media es de alrededor de 50, más o menos en el medio
del posible rango de 0 a 100.
No hay comentarios.:
Publicar un comentario