Guía de referencia: Métodos Pandas para el descubrimiento de un conjunto de datos.
Guía de referencia de Python para EDA: Descubriendo
Utilice los siguientes métodos y atributos de Pandas para aprender sobre un conjunto de datos cuando lo encuentre por primera vez.
Guardar este elemento del curso
Es posible que desee guardar una copia de esta guía para futuras consultas. Puede utilizarla como recurso para prácticas adicionales o en sus futuros proyectos profesionales. Para acceder a una versión descargable de este elemento del curso, haga clic en el enlace que aparece a continuación y seleccione "Usar plantilla."
Guía de referencia: Métodos Pandas para el descubrimiento de un conjunto de datos
O
Si no dispone de una cuenta de Google, puede descargar el elemento directamente desde el archivo adjunto a continuación.
DataFrame.head()
El método head() mostrará las primeras n filas del marco de datos.
En el campo de argumentos, introduce el número de filas que quieres que se muestren en un Notebook de Python. Por defecto son 5 filas.
Una vez ejecutado, el método head() devuelve algo como esto:
df.head(10)
índice | fecha | número de golpes | punto central geom |
|---|---|---|---|
0 | 2018-01-03 | 194 | PUNTO(-75 27) |
1 | 2018-01-03 | 41 | PUNTO(-78,4 29) |
2 | 2018-01-03 | 33 | PUNTO(-73,9 27) |
3 | 2018-01-03 | 38 | PUNTO(-73.8 27) |
4 | 2018-01-03 | 92 | PUNTO(-79 28) |
5 | 2018-01-03 | 119 | PUNTO(-78 28) |
6 | 2018-01-03 | 35 | PUNTO(-79,3 28) |
7 | 2018-01-03 | 60 | PUNTO(-79,1 28) |
8 | 2018-01-03 | 41 | PUNTO(-78,7 28) |
9 | 2018-01-03 | 119 | POINT(-78.6 28) |
Nota: En un cuaderno Python, los resultados de head() no incluirán una tabla con líneas de cuadrícula visibles.
DataFrame.info(X)
El método info() mostrará un resumen del dataframe, incluyendo el índice de rango, dtypes, cabeceras de columna y uso de memoria.
Si se deja en blanco el campo de argumentos, se obtendrá un resumen completo. Como opción, en el campo de argumentos puede escribir show_counts=True, que devolverá el recuento de valores no nulos para cada columna.
Una vez ejecutado, el método info() devuelve algo parecido a esto:
Nota: El siguiente bloque de código no es interactivo.
>>
DataFrame.describe()
El método describe() devolverá estadísticas descriptivas de todo el conjunto de datos, incluyendo recuento total, media, mínimo, máximo, dispersión y distribución.
Si deja el campo de argumentos en blanco, devolverá por defecto un resumen de las estadísticas del marco de datos. Como opción, puede utilizar "include=[X]" y "exclude=[X]", que limitarán los resultados a tipos de datos específicos, dependiendo de lo que introduzca entre paréntesis.
Una vez ejecutado, el método describe() devuelve algo parecido a esto:
df_joined.describe()
N/A | longitud | latitud | número_de_huelgas_x | número_de_huelgas_y |
|---|---|---|---|---|
count | 717530.00 | 717530.00 | 717530.00 | 323700.00000 |
media | -90.875445 | 33.328572 | 21.637081 | 25.410587 |
std | 13.648429 | 7.938831 | 48.02952 | 57.421824 |
mIN | -133.9000 | 16.600000 | 1.00000 | 1.000000 |
25% | -102.80000 | 26.900000 | 3.00000 | 3.000000 |
50% | -90.300000 | 33.200000 | 6.00000 | 8.000000 |
75% | -80.900000 | 39.400000 | 21.00000 | 24.000000 |
mAX | -43.800000 | 51.700000 | 2211.00000 | 2211.000000 |
Nota: En un cuaderno Python, los resultados de describe() no incluirán una tabla con líneas de cuadrícula visibles.
DataFrame.shape
shape es un atributo que devuelve una tupla que representa las dimensiones del dataframe por número de filas y columnas. Recuerde que los atributos no van seguidos de paréntesis. El código será algo parecido a esto
Nota: El siguiente bloque de código no es interactivo.
Puntos clave
head() info(), , y son herramientas de Pandas que los científicos de datos pueden utilizar para entender un conjunto de datos a alto nivel. La información aprendida del uso de estas herramientas servirá para informar el resto de su trabajo EDA cuando utilice pandas para analizar datos a lo largo de su carrera. describe() shape
Recursos para más información
Para obtener más información sobre las funciones de descubrimiento de EDA anteriores y otras similares, puede utilizar la guía de referencia de Pandas en línea: