PYTHON PARA INGENIEROS: Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio Pandas

viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio Pandas

Agreguemos un segundo conjunto de datos para los mismos estudiantes. Esta vez, registraremos la cantidad típica de horas por semana que dedicaron a estudiar.

>># Define an array of study hours
>>study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Recordemos que grades fue definido en un post anterior como:
>>data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
>>print(data)
>>>[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35,
 48, 52, 63, 64] 
>>import numpy as np
>>grades = np.array(data)
>>print(grades)
>>>[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]
>># Create a 2D array (an array of arrays)
>>student_data = np.array([study_hours, grades])

>># display the array
>>student_data

>>>array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en una matriz bidimensional; una variedad de matrices. Veamos su forma.

>># Show shape of 2D array
>>student_data.shape

>>>(2, 22)

La Student_Data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar esta estructura, debe especificar la posición de cada elemento en la jerarquía. Entonces, para encontrar el primer valor en la primera matriz (que contiene los datos de las horas de estudio), puede usar el siguiente código.

>># Show the first element of the first element
>>student_data[0][0]

>>>10.0

Ahora tiene una matriz multidimensional que contiene el tiempo de estudio del estudiante y la información de calificación, que puede usar para comparar el tiempo de estudio con la calificación de un estudiante.

>># Get the mean value of each sub-array

>>avg_study = student_data[0].mean()
>>avg_grade = student_data[1].mean()
>>print('Average study hours: {:.2f}\n 
>>Average grade: {:.2f}'.format(avg_study, avg_grade))
 
>>>Average study hours: 10.52
>>>Average grade: 49.18
 
Explorando datos tabulares con pandas 
Numpy proporciona una gran parte de la funcionalidad y las herramientas
que necesita para trabajar con números, como matrices de valores numéricos.
Sin embargo, cuando comienza a lidiar con tablas de datos bidimensionales,
el Pandas ofrece una estructura más conveniente para trabajar: DataFrame. 

Ejecute la siguiente celda para importar la biblioteca Pandas y crear un 

marco de datos con tres columnas. La primera columna es una lista de nombres

de estudiantes, y la segunda y tercera columna son las matrices numpy 

que contienen el tiempo de estudio y los datos de grado. 
 
>>import pandas as pd

>>df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie',
 'Ethan', 'Vicky', 'Frederic', 'Jimmie','Rhonda', 'Giovanni', 'Francesca',
 'Rajab', 'Naiyana', 'Kian', 'Jenny','Jakeem','Helena','Ismat','Anila',
 'Skye','Daniel','Aisha'],'StudyHours':student_data[0],'Grade':student_data[1]})

>>df_students 
 
>>> 


      name
      StudyHours
      Grade
    

  
      0
      Dan
      10.00
      50.0
    

      1
      Joan
      11.50
      50.0
    

      2
      Pedro
      9.00
      47.0
    

      3
      Rosie
      16.00
      97.0
    

      4
      Ethan
      9.25
      49.0
    

      5
      Vicky
      1.00
      3.0
    

      6
      Fredric
      11.50
      53.0
    

      7
      Jimmie
      9.00
      42.0
    

      8
      Rhonda
      8.50
      26.0
    

      9
      Giovanni
      14.50
      74.0
    

      10
      Francesca
      15.50
      82.0
    

      11
      Rajab
      13.75
      62.0
    

      12
      Naiyana
      9.00
      37.0
    

      13
      Kian
      8.00
      15.0
    

      14
      Jenny
      15.50
      70.0
    

      15
      Jakeem
      8.00
      27.0
    

      16
      Helena
      9.00
      36.0
    

      17
      Ismat
      6.00
      35.0
    

      18
      Anila
      10.00
      48.0
    

      19
      Skye
      12.00
      52.0
    

      20
      Daniel
      12.50
      63.0
    

      21
      Aisha
      12.00
      64.0
    

 
# Aprovechando las sugerencias de google Colab 
# vamos a graficar por medio de matplotlib
# Puedes conocer mas sobre esta libreria en su sitio web: 
# https://matplotlib.org/
 
>># @title StudyHours

>>from matplotlib import pyplot as plt
>>df_students['StudyHours'].plot(kind='line', figsize=(8, 4),\n
title='StudyHours')
>>plt.gca().spines[['top', 'right']].set_visible(False)
 
 
>># @title Grade

>>from matplotlib import pyplot as plt
>>df_students['Grade'].plot(kind='line', figsize=(8, 4), title='Grade')
>>plt.gca().spines[['top', 'right']].set_visible(False)
Tenga en cuenta que, además de las columnas que especificó, 
el DataFrame incluye un índice para identificar de manera única cada fila.
Podríamos haber especificado el índice explícitamente y asignado cualquier
tipo de valor apropiado (por ejemplo, una dirección de correo electrónico).
Sin embargo, debido a que no especificamos un índice, uno se ha creado con
un valor entero único para cada fila. 
Encontrar y filtrar datos en un marco de datos Puede usar el LOC para recuperar datos para un valor de índice específico,
como este. 
>># Get the data for index value 5
>>df_students.loc[5]
>>> 


      5
    

  
      name
      Vicky
    

      StudyHours
      1.0
    

      Grade
      3.0
    


>>>dtype: object
También puede obtener los datos en una gama de valores de índice,
como este: 
 
>># Get the rows with index values from 0 to 5
>>df_students.loc[0:5]
 
>>> 
 


      name
      StudyHours
      Grade
    

  
      0
      Dan
      10.00
      50.0
    

      1
      Joan
      11.50
      50.0
    

      2
      Pedro
      9.00
      47.0
    

      3
      Rosie
      16.00
      97.0
    

      4
      Ethan
      9.25
      49.0
    

      5
      Vicky
      1.00
      3.0
    


Además de poder usar el LOC para encontrar filas basadas en el índice, 
puede usar el ILOC para encontrar filas basadas en su posición ordinal 
en el DataFrame (independientemente del índice): 
 
>># Get data in the first five rows
>>df_students.iloc[0:5]
 
>>>


      name
      StudyHours
      Grade
    

  
      0
      Dan
      10.00
      50.0
    

      1
      Joan
      11.50
      50.0
    

      2
      Pedro
      9.00
      47.0
    

      3
      Rosie
      16.00
      97.0
    

      4
      Ethan
      9.25
      49.0
 
# Graficar el histograma de frecuencia
 
>>from matplotlib import pyplot as plt
>>_df_8['StudyHours'].plot(kind='hist', bins=20, title='StudyHours')
>>plt.gca().spines[['top', 'right',]].set_visible(False) 
>>>>>from matplotlib import pyplot as plt
>>_df_9['Grade'].plot(kind='hist', bins=20, title='Grade')
>>plt.gca().spines[['top', 'right',]].set_visible(False)

>>>
 
Mira cuidadosamente el iloc[0:5] resultados y compararlos con el loc[0:5] 
Resultados que obtuvo anteriormente. ¿Puedes detectar la diferencia? 
El LOC devolvió las filas con la etiqueta en la lista de valores de 0 a 5 , 
que incluye 0 , 1 , 2 , 3 , 4 y 5 (seis filas). Sin embargo, 
el ILOC devuelve las filas en las posiciones incluidas en el rango 0 a 5. 
Dado que los rangos enteros no incluyen el valor superior, esto incluye
las posiciones 0 , 1 , 2 , 3 y 4 (cinco filas). 
ILOC identifica los valores de datos en un marcado de datos por posición ,
que se extiende más allá de las filas a las columnas. Entonces, por 
ejemplo, puede usarlo para encontrar los valores para las columnas en 
las posiciones 1 y 2 en la fila 0, como esta: 
>>df_students.iloc[0,[1,2]]
 
>>>


      0
    

  
      StudyHours
      10.0
    

      Grade
      50.0
    



>>>dtype: object 
 
Volvamos al LOC y veamos cómo funciona con columnas. Recuerde que
usa LOC para ubicar elementos de datos basados ​​en valores de índice
en lugar de posiciones. En ausencia de una columna de índice explícito,
las filas en nuestro marco de datos se indexan como valores enteros, 
pero las columnas se identifican por nombre: 
 
>>df_students.loc[0,'Grade']
>>>50.0
 
Aquí hay otro truco útil. Puede usar el LOC para
encontrar filas indexadas basadas en una expresión de filtrado que hace
referencia a columnas con nombre que no sea el índice, como este: 
 
>>df_students.loc[df_students['name']=='Aisha']
 
>>>

      name
      StudyHours
      Grade
    

  
      21
      Aisha
      12.0
      64.0
    


En realidad, no necesita usar explícitamente el LOC para hacerlo.Simplemente puede aplicar una expresión de filtrado de DataFrame, como esta: 
>>df_students[df_students['name']=='Aisha']
 
>>> name
      StudyHours
      Grade
    

  
      21
      Aisha
      12.0
      64.0
 
 
Y en buena medida, puede lograr los mismos resultados utilizando el de consulta,
como este:
 
>>df_students.query('name=="Aisha"')
>>>


      name
      StudyHours
      Grade
    

  
      21
      Aisha
      12.0
      64.0

 
Los tres ejemplos anteriores subrayan una verdad confusa sobre trabajar con
pandas. A menudo, hay múltiples formas de lograr los mismos resultados.
Otro ejemplo de esto es la forma en que se refiere a un nombre de columna DataFrame.
Puede especificar el nombre de la columna como un valor de índice con nombre
(como en el df_students['Name'] Ejemplos que hemos visto hasta ahora), o puede
usar la columna como propiedad del DataFrame, como este: 
>>df_students[df_students.name == 'Aisha']
>>>


      name
      StudyHours
      Grade
    

  
      21
      Aisha
      12.0
      64.0
    

 
 
Carga de un marco de datos desde un archivo Construimos el marco de datos a  partir de algunas matrices existentes. 
Sin embargo, en muchos escenarios del mundo real, los datos se cargan de 
fuentes como archivos. Reemplacemos el marcado de datos de los alumnos
con el contenido de un archivo de texto. 
 
>>!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
>>df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
>>df_students.head()

>>>--2025-02-08 02:05:49--   https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 322 [text/plain]
Saving to: ‘grades.csv’grades.csv   100%[===================>]     322  --.-KB/s in 0s      

2025-02-08 02:05:49 (3.98 MB/s) - ‘grades.csv’ saved [322/322]


  
      

      Name
      StudyHours
      Grade
    

  
      0
      Dan
      10.00
      50.0
    

      1
      Joann
      11.50
      50.0
    

      2
      Pedro
      9.00
      47.0
    

      3
      Rosie
      16.00
      97.0
    

      4
      Ethan
      9.25
      49.0
    


de DataFrame Read_CSV se usa para cargar datos de archivos de texto. 
Como puede ver en el código de ejemplo, puede especificar opciones como
el delimitador de la columna y qué fila (si los hay) contiene encabezados de columna.
(En este caso, el delimitador es una coma y la primera fila contiene los nombres 
de la columna. Estas son la configuración predeterminada, por lo que podríamos
haber omitido los parámetros). 
Manejo de valores faltantes Uno de los problemas más comunes con los que los científicos de datos deben
tratar son los datos incompletos o faltantes. Entonces, ¿cómo sabríamos que DataFrame 
contiene valores faltantes? Puede usar el ISNull para identificar qué valores
individuales son nulos, así: 
 
>>df_students.isnull()
 
>>>
Name
      StudyHours
      Grade
    

  
      0
      False
      False
      False
    

      1
      False
      False
      False
    

      2
      False
      False
      False
    

      3
      False
      False
      False
    

      4
      False
      False
      False
    

      5
      False
      False
      False
    

      6
      False
      False
      False
    

      7
      False
      False
      False
    

      8
      False
      False
      False
    

      9
      False
      False
      False
    

      10
      False
      False
      False
    

      11
      False
      False
      False
    

      12
      False
      False
      False
    

      13
      False
      False
      False
    

      14
      False
      False
      False
    

      15
      False
      False
      False
    

      16
      False
      False
      False
    

      17
      False
      False
      False
    

      18
      False
      False
      False
    

      19
      False
      False
      False
    

      20
      False
      False
      False
    

      21
      False
      False
      False
    

      22
      False
      False
      True
    

      23
      False
      True
      True
    


Por supuesto, con un marco de datos más grande, sería ineficiente revisar
todas las filas y columnas individualmente, por lo que podemos obtener
la suma de valores faltantes para cada columna como esta: 
>>df_students.isnull().sum()
>>>


      0
    

  
      Name
      0
    

      StudyHours
      1
    

      Grade
      2
    


dtype: int64 
 
 
Así que ahora sabemos que falta un de estudio de estudio y dos de grado valores 
Para verlos en contexto, podemos filtrar el marco de datos para incluir solo
filas donde cualquiera de las columnas (eje 1 del marco de datos) es nula. 
 
>>df_students[df_students.isnull().any(axis=1)]
>>>


      Name
      StudyHours
      Grade
    

  
      22
      Bill
      8.0
      NaN
    

      23
      Ted
      NaN
      NaN
    


Cuando se recupera el marco de datos, los valores numéricos faltantes se muestran
como nan ( no un número ).Entonces, ahora que hemos encontrado los valores nulos,
¿qué podemos hacer con ellos? Un enfoque común es imputar valores
de reemplazo. Por ejemplo, si falta el número de horas de estudio, 
podríamos suponer que el estudiante estudió durante una cantidad 
promedio de tiempo y reemplazar el valor que falta con las horas medias 
de estudio. Para hacer esto, podemos usar el Fillna , como este: 
>>df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
>>df_students
 
>>> Name
      StudyHours
      Grade
    

  
      0
      Dan
      10.000000
      50.0
    

      1
      Joann
      11.500000
      50.0
    

      2
      Pedro
      9.000000
      47.0
    

      3
      Rosie
      16.000000
      97.0
    

      4
      Ethan
      9.250000
      49.0
    

      5
      Vicky
      1.000000
      3.0
    

      6
      Frederic
      11.500000
      53.0
    

      7
      Jimmie
      9.000000
      42.0
    

      8
      Rhonda
      8.500000
      26.0
    

      9
      Giovanni
      14.500000
      74.0
    

      10
      Francesca
      15.500000
      82.0
    

      11
      Rajab
      13.750000
      62.0
    

      12
      Naiyana
      9.000000
      37.0
    

      13
      Kian
      8.000000
      15.0
    

      14
      Jenny
      15.500000
      70.0
    

      15
      Jakeem
      8.000000
      27.0
    

      16
      Helena
      9.000000
      36.0
    

      17
      Ismat
      6.000000
      35.0
    

      18
      Anila
      10.000000
      48.0
    

      19
      Skye
      12.000000
      52.0
    

      20
      Daniel
      12.500000
      63.0
    

      21
      Aisha
      12.000000
      64.0
    

      22
      Bill
      8.000000
      NaN
    

      23
      Ted
      10.413043
      NaN
  
Alternativamente, puede ser importante asegurarse de que solo use los datos
que sabe que son absolutamente correctos. En este caso, puede soltar filas
o columnas que contienen valores nulos utilizando el Dropna. 
Por ejemplo, eliminaremos las filas (Eje ​​0 del DataFrame) donde cualquiera
de las columnas contiene valores nulos: 

 
>>df_students = df_students.dropna(axis=0, how='any')
>>df_students
>>>


      Name
      StudyHours
      Grade
    

  
      0
      Dan
      10.00
      50.0
    

      1
      Joann
      11.50
      50.0
    

      2
      Pedro
      9.00
      47.0
    

      3
      Rosie
      16.00
      97.0
    

      4
      Ethan
      9.25
      49.0
    

      5
      Vicky
      1.00
      3.0
    

      6
      Frederic
      11.50
      53.0
    

      7
      Jimmie
      9.00
      42.0
    

      8
      Rhonda
      8.50
      26.0
    

      9
      Giovanni
      14.50
      74.0
    

      10
      Francesca
      15.50
      82.0
    

      11
      Rajab
      13.75
      62.0
    

      12
      Naiyana
      9.00
      37.0
    

      13
      Kian
      8.00
      15.0
    

      14
      Jenny
      15.50
      70.0
    

      15
      Jakeem
      8.00
      27.0
    

      16
      Helena
      9.00
      36.0
    

      17
      Ismat
      6.00
      35.0
    

      18
      Anila
      10.00
      48.0
    

      19
      Skye
      12.00
      52.0
    

      20
      Daniel
      12.50
      63.0
    

      21
      Aisha
      12.00
      64.0
 
 
Explore los datos en el marco de datos Ahora que hemos limpiado los valores faltantes, estamos listos para explorar
los datos en DataFrame. Comencemos por comparar las horas y calificaciones
medias de estudio. 
>># Get the mean study hours using to column name as an index
>>mean_study = df_students['StudyHours'].mean()

>># Get the mean grade using the column name as a property (just to make the point!)
>>mean_grade = df_students.Grade.mean()

>># Print the mean study hours and mean grade
>>print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))
 
>>>Average weekly study hours: 10.52
Average grade: 49.18 
Ok, filtremos el marco de datos para encontrar solo a los estudiantes que
estudiaron por más de la cantidad promedio de tiempo. 
 
>># Get students who studied for the mean or more hours
>>df_students[df_students.StudyHours > mean_study]
>>>
Name
      StudyHours
      Grade
    

  
      1
      Joann
      11.50
      50.0
    

      3
      Rosie
      16.00
      97.0
    

      6
      Frederic
      11.50
      53.0
    

      9
      Giovanni
      14.50
      74.0
    

      10
      Francesca
      15.50
      82.0
    

      11
      Rajab
      13.75
      62.0
    

      14
      Jenny
      15.50
      70.0
    

      19
      Skye
      12.00
      52.0
    

      20
      Daniel
      12.50
      63.0
    

      21
      Aisha
      12.00
      64.0
    




  
Tenga en cuenta que el resultado filtrado es en sí mismo un marcado de datos,
por lo que puede trabajar con sus columnas como cualquier otro marco de datos. 
Por ejemplo, encontremos la calificación promedio para los estudiantes
que emprendieron más de la cantidad promedio de tiempo de estudio. 
>># What was their mean grade?
>>df_students[df_students.StudyHours > mean_study].Grade.mean()
>>>66.7 
 Supongamos que la calificación aprobatoria para el curso es de 60. 
Podemos usar esa información para agregar una nueva columna a DataFrame
que indica si se aprobó o no cada estudiante. 
Primero, crearemos una serie que contenga el indicador PASS/FALLA  
(Verdadero o Falso), y luego concatenaremos esa serie como una nueva
columna (Eje ​​1) en el DataFrame. 
>>passes  = pd.Series(df_students['Grade'] >= 60)
>>df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)
>>df_students
 
>>>
Name
      StudyHours
      Grade
      Pass
    

  
      0
      Dan
      10.00
      50.0
      False
    

      1
      Joann
      11.50
      50.0
      False
    

      2
      Pedro
      9.00
      47.0
      False
    

      3
      Rosie
      16.00
      97.0
      True
    

      4
      Ethan
      9.25
      49.0
      False
    

      5
      Vicky
      1.00
      3.0
      False
    

      6
      Frederic
      11.50
      53.0
      False
    

      7
      Jimmie
      9.00
      42.0
      False
    

      8
      Rhonda
      8.50
      26.0
      False
    

      9
      Giovanni
      14.50
      74.0
      True
    

      10
      Francesca
      15.50
      82.0
      True
    

      11
      Rajab
      13.75
      62.0
      True
    

      12
      Naiyana
      9.00
      37.0
      False
    

      13
      Kian
      8.00
      15.0
      False
    

      14
      Jenny
      15.50
      70.0
      True
    

      15
      Jakeem
      8.00
      27.0
      False
    

      16
      Helena
      9.00
      36.0
      False
    

      17
      Ismat
      6.00
      35.0
      False
    

      18
      Anila
      10.00
      48.0
      False
    

      19
      Skye
      12.00
      52.0
      False
    

      20
      Daniel
      12.50
      63.0
      True
    

      21
      Aisha
      12.00
      64.0
      True
    


Los marcos de datos están diseñados para datos tabulares, y puede usarlos 
para realizar muchos de los mismos tipos de operaciones de análisis de 
datos que puede hacer en una base de datos relacional, como agrupar y 
agregar tablas de datos. 
Por ejemplo, puede usar el Groupby para agrupar los datos del estudiante
en grupos en función de la de aprobación que agregó anteriormente y para
contar el número de nombres en cada grupo. 
En otras palabras, puede determinar cuántos estudiantes pasaron y fallaron. 
   
>>print(df_students.groupby(df_students.Pass).Name.count())
>>>Pass
False    15
True      7
Name: Name, dtype: int64
Puede agregar múltiples campos en un grupo utilizando cualquier función
de agregación disponible. Por ejemplo, puede encontrar el tiempo de estudio
y la calificación promedio para los grupos de estudiantes que aprobaron
y fallaron el curso.          
>>print(df_students.groupby(df_students.Pass)[['StudyHours', 'Grade']].mean())
>>>
       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857 
Los marcos de datos son increíblemente versátiles y facilitan la 
manipulación de datos. Muchas operaciones de DataFrame devuelven una 
nueva copia del DataFrame, por lo que si desea modificar un marcado de 
datos pero mantenga la variable existente, debe asignar el resultado de 
la operación a la variable existente. Por ejemplo, el siguiente código 
clasifica los datos del estudiante en orden descendente por calificación
y asigna el marco de datos ordenado resultante a la DF_STUDENTS . 
>># Create a DataFrame with the data sorted by Grade (descending)
>>df_students = df_students.sort_values('Grade', ascending=False)

>># Show the DataFrame
>>df_students
 
>>>
 

      Name
      StudyHours
      Grade
      Pass
    

  
      3
      Rosie
      16.00
      97.0
      True
    

      10
      Francesca
      15.50
      82.0
      True
    

      9
      Giovanni
      14.50
      74.0
      True
    

      14
      Jenny
      15.50
      70.0
      True
    

      21
      Aisha
      12.00
      64.0
      True
    

      20
      Daniel
      12.50
      63.0
      True
    

      11
      Rajab
      13.75
      62.0
      True
    

      6
      Frederic
      11.50
      53.0
      False
    

      19
      Skye
      12.00
      52.0
      False
    

      1
      Joann
      11.50
      50.0
      False
    

      0
      Dan
      10.00
      50.0
      False
    

      4
      Ethan
      9.25
      49.0
      False
    

      18
      Anila
      10.00
      48.0
      False
    

      2
      Pedro
      9.00
      47.0
      False
    

      7
      Jimmie
      9.00
      42.0
      False
    

      12
      Naiyana
      9.00
      37.0
      False
    

      16
      Helena
      9.00
      36.0
      False
    

      17
      Ismat
      6.00
      35.0
      False
    

      15
      Jakeem
      8.00
      27.0
      False
    

      8
      Rhonda
      8.50
      26.0
      False
    

      13
      Kian
      8.00
      15.0
      False
    

      5
      Vicky
      1.00
      3.0
      False
 
 
Resumen Numpy y DataFrames son los caballos de batalla de la ciencia de datos en Python.
Nos proporcionan formas de cargar, explorar y analizar datos tabulares. 
Como aprenderemos en módulos posteriores, incluso los métodos de análisis avanzados 
generalmente dependen de Numpy y Pandas para estos roles importantes. 
En nuestro próximo libro de trabajo, veremos cómo crear gráficos y explorar
sus datos de manera más interesante. 

  
 
 
 
 
 
 

PYTHON PARA INGENIEROS

viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio Pandas

Explorando datos tabulares con pandas

Encontrar y filtrar datos en un marco de datos

Carga de un marco de datos desde un archivo

Manejo de valores faltantes

Explore los datos en el marco de datos

Resumen

No hay comentarios.:

Publicar un comentario

Entradas recientes

Geeksforgeeks. Cadenas segunda parte

Entradas Populares

Entradas populares

	name	StudyHours	Grade
0	Dan	10.00	50.0
1	Joan	11.50	50.0
2	Pedro	9.00	47.0
3	Rosie	16.00	97.0
4	Ethan	9.25	49.0
5	Vicky	1.00	3.0
6	Fredric	11.50	53.0
7	Jimmie	9.00	42.0
8	Rhonda	8.50	26.0
9	Giovanni	14.50	74.0
10	Francesca	15.50	82.0
11	Rajab	13.75	62.0
12	Naiyana	9.00	37.0
13	Kian	8.00	15.0
14	Jenny	15.50	70.0
15	Jakeem	8.00	27.0
16	Helena	9.00	36.0
17	Ismat	6.00	35.0
18	Anila	10.00	48.0
19	Skye	12.00	52.0
20	Daniel	12.50	63.0
21	Aisha	12.00	64.0

	Name	StudyHours	Grade
0	Dan	10.00	50.0
1	Joann	11.50	50.0
2	Pedro	9.00	47.0
3	Rosie	16.00	97.0
4	Ethan	9.25	49.0

Name	StudyHours	Grade
0	False	False	False
1	False	False	False
2	False	False	False
3	False	False	False
4	False	False	False
5	False	False	False
6	False	False	False
7	False	False	False
8	False	False	False
9	False	False	False
10	False	False	False
11	False	False	False
12	False	False	False
13	False	False	False
14	False	False	False
15	False	False	False
16	False	False	False
17	False	False	False
18	False	False	False
19	False	False	False
20	False	False	False
21	False	False	False
22	False	False	True
23	False	True	True

Name	StudyHours	Grade
0	Dan	10.000000	50.0
1	Joann	11.500000	50.0
2	Pedro	9.000000	47.0
3	Rosie	16.000000	97.0
4	Ethan	9.250000	49.0
5	Vicky	1.000000	3.0
6	Frederic	11.500000	53.0
7	Jimmie	9.000000	42.0
8	Rhonda	8.500000	26.0
9	Giovanni	14.500000	74.0
10	Francesca	15.500000	82.0
11	Rajab	13.750000	62.0
12	Naiyana	9.000000	37.0
13	Kian	8.000000	15.0
14	Jenny	15.500000	70.0
15	Jakeem	8.000000	27.0
16	Helena	9.000000	36.0
17	Ismat	6.000000	35.0
18	Anila	10.000000	48.0
19	Skye	12.000000	52.0
20	Daniel	12.500000	63.0
21	Aisha	12.000000	64.0
22	Bill	8.000000	NaN
23	Ted	10.413043	NaN

viernes, 7 de febrero de 2025

Microsoft Learn / Curso / Exploracion analisis de datos con Python / Exploración de datos con NumPy y Pandas / Ejercicio Pandas

Explorando datos tabulares con pandas

Encontrar y filtrar datos en un marco de datos

Carga de un marco de datos desde un archivo

Manejo de valores faltantes

Explore los datos en el marco de datos

Resumen

No hay comentarios.:

Publicar un comentario

Entradas recientes

Geeksforgeeks. Cadenas segunda parte

Entradas Populares

Suscribirse a

Entradas populares