sábado, 3 de enero de 2026

Python para ciencia de datos. Pandas y EDA

 

Guía de referencia: Métodos Pandas para el descubrimiento de un conjunto de datos.

Fuente: Coursera & Google

Guía de referencia de Python para EDA: Descubriendo

Utilice los siguientes métodos y atributos de Pandas para aprender sobre un conjunto de datos cuando lo encuentre por primera vez.

Guardar este elemento del curso

Es posible que desee guardar una copia de esta guía para futuras consultas. Puede utilizarla como recurso para prácticas adicionales o en sus futuros proyectos profesionales. Para acceder a una versión descargable de este elemento del curso, haga clic en el enlace que aparece a continuación y seleccione "Usar plantilla."

Guía de referencia: Métodos Pandas para el descubrimiento de un conjunto de datos

O

Si no dispone de una cuenta de Google, puede descargar el elemento directamente desde el archivo adjunto a continuación.

DataFrame.head()

  • El método head() mostrará las primeras n filas del marco de datos.

  • En el campo de argumentos, introduce el número de filas que quieres que se muestren en un Notebook de Python. Por defecto son 5 filas.

  • Una vez ejecutado, el método head() devuelve algo como esto:

df.head(10)

índice

fecha

número de golpes

punto central geom

0

2018-01-03

194

PUNTO(-75 27)

1

2018-01-03

41

PUNTO(-78,4 29)

2

2018-01-03

33

PUNTO(-73,9 27)

3

2018-01-03

38

PUNTO(-73.8 27)

4

2018-01-03

92

PUNTO(-79 28)

5

2018-01-03

119

PUNTO(-78 28)

6

2018-01-03

35

PUNTO(-79,3 28)

7

2018-01-03

60

PUNTO(-79,1 28)

8

2018-01-03

41

PUNTO(-78,7 28)

9

2018-01-03

119

POINT(-78.6 28)

Nota: En un cuaderno Python, los resultados de head() no incluirán una tabla con líneas de cuadrícula visibles.

DataFrame.info(X)

  • El método info() mostrará un resumen del dataframe, incluyendo el índice de rango, dtypes, cabeceras de columna y uso de memoria.

  • Si se deja en blanco el campo de argumentos, se obtendrá un resumen completo. Como opción, en el campo de argumentos puede escribir show_counts=True, que devolverá el recuento de valores no nulos para cada columna.

  • Una vez ejecutado, el método info() devuelve algo parecido a esto:

Nota: El siguiente bloque de código no es interactivo.

>>

df.info()

>>>
<class ‘pandas.core.frame.DataFrame’>
RangeIndex:3401012 entries, 0 to 3401011
Data columns (total 3 columns):
#     Column                   Dtype
--    ----                     ----- 
0     date                     object
1     number_of_strikes        int64
2     center_point_geom        object
Dtypes: int64(1), object(2)
Memory usage 77.8+ MB


DataFrame.describe()

  • El método describe() devolverá estadísticas descriptivas de todo el conjunto de datos, incluyendo recuento total, media, mínimo, máximo, dispersión y distribución.

  • Si deja el campo de argumentos en blanco, devolverá por defecto un resumen de las estadísticas del marco de datos. Como opción, puede utilizar "include=[X]" y "exclude=[X]", que limitarán los resultados a tipos de datos específicos, dependiendo de lo que introduzca entre paréntesis.

  • Una vez ejecutado, el método describe() devuelve algo parecido a esto:

df_joined.describe()

N/A

longitud

latitud

número_de_huelgas_x

número_de_huelgas_y

count

717530.00

717530.00

717530.00

323700.00000

media

-90.875445

33.328572

21.637081

25.410587

std

13.648429

7.938831

48.02952

57.421824

mIN

-133.9000

16.600000

1.00000

1.000000

25%

-102.80000

26.900000

3.00000

3.000000

50%

-90.300000

33.200000

6.00000

8.000000

75%

-80.900000

39.400000

21.00000

24.000000

mAX

-43.800000

51.700000

2211.00000

2211.000000

Nota: En un cuaderno Python, los resultados de describe() no incluirán una tabla con líneas de cuadrícula visibles.

DataFrame.shape

  • shape es un atributo que devuelve una tupla que representa las dimensiones del dataframe por número de filas y columnas. Recuerde que los atributos no van seguidos de paréntesis. El código será algo parecido a esto

Nota: El siguiente bloque de código no es interactivo.

>>df.shape
>>>(34010123)



Puntos clave

head() info(), , y son herramientas de Pandas que los científicos de datos pueden utilizar para entender un conjunto de datos a alto nivel. La información aprendida del uso de estas herramientas servirá para informar el resto de su trabajo EDA cuando utilice pandas para analizar datos a lo largo de su carrera. describe() shape

Recursos para más información

Para obtener más información sobre las funciones de descubrimiento de EDA anteriores y otras similares, puede utilizar la guía de referencia de Pandas en línea:

Entradas recientes

Python para ciencia de datos. Pandas y EDA

  Guía de referencia: Métodos Pandas para el descubrimiento de un conjunto de datos. Fuente: Coursera & Google Guía de referencia de Pyt...

Entradas Populares