martes, 13 de enero de 2026

Python para ciencia de datos. Estructurar un conjunto de Datos en Python

 

Guía de referencia: Herramientas de Pandas para estructurar un conjunto de datos

Fuente: Coursera & Google

ASÍ COMO has aprendido, hay demasiadas funciones de Python como para memorizarlas todas. Por eso, como todo profesional de los datos le dirá, utilizará hojas de referencia y librerías de codificación casi a diario en su trabajo de análisis de datos.

La siguiente guía de referencia le ayudará a identificar las herramientas de Pandas más utilizadas para estructurar datos. Tenga en cuenta que esto es sólo para referencia. Para obtener información detallada sobre el funcionamiento de cada método, incluyendo explicaciones de cada parámetro y ejemplos, consulte la documentación vinculada.

Guardar este elemento del curso

Si lo desea, puede guardar una copia de esta guía para consultarla en el futuro. Puede utilizarla como recurso para prácticas adicionales o en sus futuros proyectos profesionales. Para acceder a una versión descargable de este elemento del curso, haga clic en el siguiente enlace y seleccione "Usar plantilla".

Guía de referencia: Herramientas Pandas para estructurar un conjunto de datos

O

Si no dispone de una cuenta de Google, puede descargar el elemento directamente desde el archivo adjunto a continuación.


Combinar datos

Tenga en cuenta que para muchas situaciones que requieren combinar datos, puede utilizar una serie de funciones, métodos o enfoques diferentes. Normalmente no estás limitado a una única función "correcta". Así que si estas funciones y métodos te parecen muy similares, ¡no te preocupes! Es porque lo son La mejor forma de aprenderlos, determinar qué funciona mejor para usted y entenderlos es utilizarlos

df.merge()

  • Un método disponible para la clase DataFrame.

  • Utiliza df.merge() para tomar columnas o índices de otros marcos de datos y combinarlos con aquel al que estás aplicando el método.

  • Ejemplo:

  • Nota: El siguiente bloque de código no es interactivo.

>>df1.merge(df2, how=‘inner’, on=[‘month’,’year’])

pd.concat()

  • Una función de pandas para combinar series y/o dataframes

  • Use pd.concat() para unir columnas, filas, o dataframes a lo largo de un eje particular

  • Ejemplo:

  • Nota: El siguiente bloque de código no es interactivo.

>>df3 = pd.concat([df1.drop(['column_1','column_2'], axis=1), df2])


df.join()

  • Método disponible en la clase DataFrame.

  • Utilice df.join() para combinar columnas con otro marco de datos, ya sea en un índice o en una columna clave. Une de forma eficiente varios objetos DataFrame por índice a la vez pasando una lista.

  • Ejemplo:

  • Nota: El siguiente bloque de código no es interactivo.

>>df1.set_index('key').join(df2.set_index('key'))

Representación visual de una combinación:

Las columnas de diferentes conjuntos de datos se combinan en una hoja de cálculo

Extraer o seleccionar datos

df[[columns]]

  • Utilice df[[columns]] para extraer/seleccionar columnas de un marco de datos. Ejemplo:

>>print(df)
>>print()
>>df[['animal''legs']]
>>>
animal class color legs 0 cardinal Aves red 2 1 gecko Reptilia green 4 2 raven Aves black 2 animal legs 0 cardinal 2 1 gecko 4 2 raven 2

df.select_dtypes()

  • Método disponible en la clase DataFrame.

  • Utilice df.select_dtypes() para devolver un subconjunto de columnas del marco de datos basado en los dtipos de columna (por ejemplo, float64, int64, bool, object, etc.). Ejemplo:

>>print(df)
>>print()
>>df2 = df.select_dtypes(include=['int64'])
>>df2
>>>
animal class color legs 0 cardinal Aves red 2 1 gecko Reptilia green 4 2 raven Aves black 2 legs 0 2 1 4 2 2


Representación visual de la extracción:

Las columnas azules seleccionadas se extraen de las columnas rojas y amarillas y se colocan en su propio marco de datos.

Filtrar datos

Recuerde del Curso 2 que las máscaras booleanas se utilizan para filtrar marcos de datos.

df[condition]

  • Utilice df[condition] para crear una máscara booleana y, a continuación, aplique la máscara al marco de datos para filtrar según la condición seleccionada.

  • Ejemplo:

>>print(df)
>>print()
>>df[df['class']=='Aves']

>>>
animal class color legs 0 cardinal Aves red 2 1 gecko Reptilia green 4 2 raven Aves black 2 animal class color legs 0 cardinal Aves red 2 2 raven Aves black 2

Representación visual del filtrado:
Las columnas se filtran para obtener un conjunto de datos más pequeño en una hoja de cálculo.

Ordenar datos

df.ordenar_valores()

  • Método disponible en la clase DataFrame.

  • Utiliza df.sort_values() para ordenar los datos según los parámetros seleccionados.

  • Ejemplo:

>>print(df)
>>print()
>>df.sort_values(by=['legs'], ascending=False)

>>>
animal class color legs 0 cardinal Aves red 2 1 gecko Reptilia green 4 2 raven Aves black 2 animal class color legs 1 gecko Reptilia green 4 0 cardinal Aves red 2 2 raven Aves black 2

Representación visual de la ordenación:
Se muestra un par de columnas de 3 filas ordenadas alfabética y numéricamente.

Rebanar datos

df.iloc[]

  • Utilice df.iloc[] para dividir un marco de datos en función de un índice entero.

  • Ejemplos:

    df.iloc[5:10, 2:] → selecciona sólo las filas 5 a 9, en las columnas 2+

    df.iloc[5:10] → selecciona sólo las filas 5 a 9, todas las columnas df.iloc[1, 2] → selecciona el valor en la fila 1, columna 2 df.iloc[[0, 2], [2, 4]] → selecciona sólo las filas 0 y 2, en las columnas 2 y 4

df.loc[]

  • Utilice df.loc[] para cortar un marco de datos en función de una etiqueta o una matriz booleana.

  • Ejemplo:

>>print(df)
>>print()
>>df.loc[:, ['color''class']]
>>>
animal class color legs 0 cardinal Aves red 2 1 gecko Reptilia green 4 2 raven Aves black 2 color class 0 red Aves 1 green Reptilia 2 black Aves

Puntos clave

Las herramientas de esta guía de referencia son fundamentales para la estructuración de datos, incluidos el filtrado, la ordenación, la combinación y el corte. Las utilizará a lo largo de su carrera como profesional de los datos.

Recursos para obtener más información

Consulte estos enlaces para obtener más información sobre las funciones de Python y sus distintos parámetros.

2 comentarios:

  1. Aquí encontraras una hoja de trucos para las principales librerías de Python. https://drive.google.com/drive/u/1/folders/1dbi7eJ8Rk4BUIbNe8l1ndZklVB9I6ff0

    ResponderBorrar
  2. https://drive.google.com/file/d/1i6RJITYFEOk6aSTzybFEY2jhDwfY_UYW/view?usp=sharing

    ResponderBorrar

Entradas recientes

Paradón a la ignorancia en identificación de operadores de comparación en Python

Estaba resolviendo ejercicios de W3School y me encontré con el siguiente: Exercise:  Python Identity Operators What is the result of  [1,2] ...

Entradas Populares