Los fundamentos de los pandas
Usted ha aprendido que Python tiene muchas bibliotecas y paquetes de código abierto-incluyendo NumPy y pandas -que lo convierten en uno de los lenguajes de codificación más útiles. En esta lectura, revisarás los fundamentos de los dataframes de pandas y aprenderás más sobre cómo trabajar con ellos. Comprender los fundamentos de Pandas es esencial para convertirse en un profesional de datos capaz y competente.
Estructuras de los datos primarios
Pandas tiene dos estructuras de datos primarias: Series y DataFrame.
Series: Una Serie es un array unidimensional etiquetado que puede contener cualquier tipo de datos. Es similar a una columna en una hoja de cálculo o a un array unidimensional de NumPy. Cada elemento de una serie tiene una etiqueta asociada llamada índice. El índice permite una manipulación de datos más eficaz e intuitiva, ya que facilita la referencia a elementos específicos de los datos.
DataFrame: Un dataframe es una estructura de datos bidimensional etiquetada-esencialmente una tabla u hoja de cálculo-donde cada columna y fila está representada por una Serie.
Crear un DataFrame
Para usar pandas en tu Notebook, primero impórtalo. Similar a NumPy, pandas tiene su propio alias estándar, pd, que es utilizado por profesionales de datos de todo el mundo:
>>import pandas as pd
Una vez que hayas importado pandas a tu entorno de trabajo, crea un dataframe. Estas son algunas de las formas de crear un objeto DataFrame en un Notebook de Jupyter.
FROM un diccionario:
FROM un array numpy:
(Ten en cuenta que esta celda no se ejecutará, pero se proporciona para ilustrar la sintaxis)
>>df3 = pd.read_csv('/file_path/file_name.csv')
Atributos y métodos
La clase DataFrame es potente y práctica porque viene con un conjunto de características incorporadas que simplifican las tareas comunes de análisis de datos. Estas funciones se denominan atributos y métodos. Un atributo es un valor asociado a un objeto o clase al que se hace referencia por su nombre mediante expresiones de puntos. Un método es una función que se define dentro del cuerpo de una clase y que normalmente realiza una acción. Una forma más sencilla de pensar en la distinción entre atributos y métodos es recordar que los atributos son características del objeto, mientras que los métodos son acciones u operaciones.
Atributos comunes de DataFrame
Los profesionales de los datos utilizan atributos y métodos constantemente. Algunos de los atributos más utilizados de DataFrame son:
Atributo | Descripción |
|---|---|
Devuelve las etiquetas de las columnas del marco de datos | |
Devuelve los tipos de datos del marco de datos | |
Accede a un grupo de filas y columnas utilizando una indexación basada en números enteros | |
Accede a un grupo de filas y columnas por etiqueta(s) o una matriz booleana | |
Devuelve una tupla que representa la dimensionalidad del marco de datos | |
Devuelve una representación NumPy del marco de datos |
Métodos comunes de DataFrame
Algunos de los métodos más utilizados de DataFrame son:
Método | Descripción |
|---|---|
Aplica una función sobre un eje del marco de datos | |
Hace una copia de los índices y datos del dataframe | |
Devuelve estadísticas descriptivas del marco de datos, incluidos los valores mínimo, máximo, medio y percentil de sus columnas numéricas; el recuento de filas; y los tipos de datos | |
Elimina las etiquetas especificadas de las filas o columnas | |
Divide el marco de datos, aplica una función y combina los resultados | |
Devuelve las n primeras filas del marco de datos (por defecto=5) | |
Devuelve un resumen conciso del marco de datos | |
Devuelve un marco de datos booleano del mismo tamaño que indica si cada valor es nulo (también puede utilizar isnull() como alias) | |
Ordena por los valores de un eje determinado | |
Devuelve una serie que contiene los recuentos de filas únicas en el marco de datos | |
Sustituye los valores del marco de datos cuando una condición dada es falsa |
Éstos son sólo algunos de los atributos y métodos más utilizados: ¡hay muchísimos más! Algunos de ellos también se pueden utilizar en los objetos de Pandas Series. Para una lista más detallada, consulte la documentación de Pandas DataFrame, que incluye ejemplos útiles de cómo utilizar cada herramienta.
Sentencias de selección
Una vez que sus datos son leídos en un dataframe, querrá hacer cosas con ellos seleccionando, manipulando y evaluando los datos. En esta sección, aprenderá a seleccionar filas, columnas, combinaciones de filas y columnas y subconjuntos básicos de datos.
Selección de filas
Las filas de un marco de datos se seleccionan por su índice. El índice puede referenciarse por nombre o por posición numérica.
loc[]
loc[] permite seleccionar filas por su nombre. He aquí un ejemplo:
iloc[]
iloc[] le permite seleccionar filas por posición numérica, de forma similar a como accedería a los elementos de una lista o una matriz. He aquí un ejemplo.
Selección de columnas
Notación entre corchetes
La selección de columnas funciona del mismo modo que la selección de filas, pero también existen algunos atajos para facilitar el proceso. Por ejemplo, para seleccionar una columna individual, basta con ponerla entre paréntesis de selección después del nombre del marco de datos:
>>print(df['C'])
>>>
row_0 coconut row_1 curse row_2 cassava row_3 cuckoo row_4 clarinet Name: C, dtype: object
Y para seleccionar varias columnas, utilice una lista entre paréntesis de selección:
Notación por puntos
Es posible seleccionar columnas utilizando la notación de puntos en lugar de la notación de corchetes. Por ejemplo:
>>print(df.A)
>>>
row_0 alpha row_1 apple row_2 arsenic row_3 angel row_4 android Name: A, dtype: object
La notación por puntos suele ser cómoda y fácil de escribir. Sin embargo, puede dificultar la lectura del código, especialmente en sentencias largas que impliquen el encadenamiento de métodos o la selección basada en condiciones. Por este motivo, a menudo se prefiere la notación entre corchetes.
loc[]
También puede utilizar la notación loc[]:
iloc[]
Del mismo modo, puede utilizar la notación iloc[]. De nuevo, al utilizar iloc[], debe especificar las filas, incluso si desea seleccionar todas las filas:
>>print(df.iloc[:, [1,3]])
>>>
B D row_0 1 6 row_1 2 7 row_2 3 8 row_3 4 9 row_4 5 10
Seleccionar filas y columnas
Tanto loc[] como iloc[] pueden utilizarse para seleccionar conjuntamente filas y columnas específicas.
loc[]
iloc[]
Los dataframes de Pandas son una forma práctica de trabajar con datos tabulares. Cada fila y cada columna pueden ser representadas por un pandas Series, que es similar a un array unidimensional. Tanto los dataframes como las series tienen una gran colección de métodos y atributos para realizar tareas comunes y recuperar información. Pandas también tiene su propia notación especial para seleccionar datos. A medida que trabajes más con Pandas, te sentirás más cómodo con esta notación y sus muchas aplicaciones en la ciencia de datos.
No hay comentarios.:
Publicar un comentario