Fuente: Google & Coursera
Como ha ido aprendiendo, el propósito del Análisis exploratorio de datos (EDA) es justo lo que su nombre indica: explorar y analizar los datos. Como profesional de los datos, casi siempre empezará con una pregunta u objetivo guía, como "¿Dónde se encuentran los mayores emisores de dióxido de carbono?" o "Determinar las características de las personas con más probabilidades de comprar el producto X" Reflexionar sobre ello a menudo a lo largo del proceso crea una fuerza motriz que te mantiene en el buen camino.
Una de las herramientas más importantes a su disposición a la hora de explorar datos es el histograma. Un histograma es una representación gráfica de una distribución de frecuencias, que muestra la frecuencia con la que aparece cada valor en un conjunto de datos o variable. Es esencial que los profesionales de los datos comprendan las distribuciones de sus datos, ya que este conocimiento impulsa muchas decisiones posteriores en torno al diseño de experimentos, el modelado y el análisis posterior. En esta lectura, aprenderás sobre los histogramas, qué son, cómo hacerlos y cómo interpretarlos.
Introducción a los histogramas
Los histogramas se utilizan habitualmente para ilustrar la forma de una distribución, incluida la presencia de valores atípicos, el centro de la distribución y la dispersión de los datos. Los histogramas se representan normalmente mediante una serie de barras, donde cada barra representa un rango de valores. La altura de las barras representa la frecuencia o el recuento de los puntos de datos dentro de ese rango.
El siguiente ejemplo es un histograma del número de segundos transcurridos entre las erupciones del géiser Old Faithful en el Parque Nacional de Yellowstone, Wyoming, Estados Unidos.
El eje x representa el número de segundos entre erupciones. El eje y representa el número de erupciones. Así, como indica la segunda barra del gráfico, hay 20 erupciones que se produjeron tras un tiempo de espera de 45-49 segundos.
La importancia de los histogramas
Los histogramas son una herramienta esencial para comprender las características de un conjunto de datos. Proporcionan una representación visual de la distribución de los datos y permiten a los profesionales de datos identificar patrones, tendencias o valores atípicos dentro de los datos. Los histogramas también pueden ayudar a los profesionales de datos a elegir pruebas y modelos estadísticos apropiados para los datos y a determinar si los datos cumplen los supuestos necesarios para el análisis. Los histogramas se utilizan ampliamente en cualquier campo y situación que requiera cualquier tipo de análisis de datos, incluidas las finanzas, la sanidad, la ingeniería y las ciencias sociales.
Cómo interpretar histogramas
Interpretar histogramas implica comprender la forma, el centro y la dispersión de la distribución. Hay varias formas comunes de histogramas, incluyendo:
1. Simétrico: Un histograma simétrico tiene una curva en forma de campana con un pico en el centro, lo que indica que los datos se distribuyen uniformemente alrededor de la media. También se conoce como distribución normal o gaussiana.
Una distribución sesgada a la izquierda tiene una cola más larga en el lado izquierdo, lo que indica que hay más puntos de datos en el lado derecho.
3. Bimodal: Un histograma bimodal tiene dos picos distintos, lo que indica que los datos tienen dos modos.
Los ejemplos proporcionados no son las únicas distribuciones que encontrarás, pero son algunas de las más comunes. Pronto aprenderás más sobre las distribuciones.
Ahora, vuelve al histograma del géiser Old Faithful del principio de esta lectura. Pregúntate: ¿qué tipo de distribución representa ese gráfico? Además de la forma, es importante entender el centro y la dispersión. El centro de la distribución suele estar representado por la media o mediana, mientras que la dispersión está representada por la desviación estándar o rango de los datos. El centro y la dispersión pueden proporcionar información sobre la concentración y variabilidad de los datos.
Cómo crear histogramas
Las bibliotecas Seaborn y Matplotlib de Python proporcionan opciones sencillas y potentes para crear histogramas.
plt.hist(x, bins=10, ...)
Para generar un histograma en matplotlib, utilice la función hist() del módulo pyplot. La función puede tomar muchos argumentos diferentes, pero los principales son:
x: Una secuencia de valores que representan los datos que desea trazar. Puede ser una lista, tupla, matriz NumPy, serie Pandas, etc.
bins: El número de bins en los que quieres ordenar los datos. El valor por defecto es 10, pero este parámetro puede ser un int, una secuencia o una cadena. Si utiliza una secuencia, ésta define los bordes de las casillas, incluyendo el borde izquierdo de la primera casilla y el borde derecho de la última. En otras palabras, si bins = [1, 3, 5, 7], entonces el primer bin es [1-3) (incluyendo 1, pero excluyendo 3) y el segundo [3-5). Sin embargo, el último bin es [5-7], que incluye el 7. Una cadena se refiere a una estrategia de binning predefinida soportada por numpy. Consulta la documentación para obtener más información.
El siguiente ejemplo demuestra cómo generar el histograma del géiser Old Faithful desde el principio de esta lectura usando la función plt.hist().
En este caso, los datos que se grafican son la columna de segundos del marco de datos. Los intervalos comienzan en 40 segundos y van hasta 100 segundos en pasos de cinco, para un total de 12 intervalos.
sns.histplot(x, bins, binrange, binwidth ...)
Una forma de generar un histograma en Seaborn es utilizar la función sns.histplot(). Al igual que la función matplotlib, sns.histplot() puede tomar muchos argumentos. Éstos son algunos importantes:
x: La secuencia de datos. Igual que plt.hist()
bins: Lo mismo que plt.hist()
binrange: Valor mínimo y máximo de los bordes de los contenedores; puede utilizarse con bins o binwidth; por defecto son los extremos de los datos
binwidth: Anchura de cada bin, anula bins pero puede usarse con binrange
El siguiente ejemplo es el código utilizado para generar el histograma del géiser Old Faithful utilizando la función seaborn histplot() . Utiliza todos los parámetros mencionados anteriormente. Ejecute este bloque de código para generar un histograma.
Observe en este caso que binrange se define de 40 a 100 y binwidth se establece en 5. Esto produce los mismos resultados que definir bins=range(40, 101, 5). Este ejemplo también hace uso de un par de parámetros de estilo especificando un color concreto mediante notación de código hexadecimal y estableciendo el nivel de saturación del color al 100%, como indica el parámetro alpha.
Puntos clave
Los histogramas ayudan a los profesionales de los datos a comprender las distribuciones de frecuencia de sus conjuntos de datos y variables. El conocimiento de la forma y el tipo de distribución de los datos afectará a importantes decisiones posteriores, como las pruebas estadísticas y la selección de la arquitectura del modelo. Además, conocer la forma de los datos proporciona información valiosa sobre la historia que cuentan los datos, ya que ayuda a comprender sus tendencias de distribución.
No hay comentarios.:
Publicar un comentario