Guía de referencia: El proceso AED (EDA).
Las seis prácticas del AED son iterativas y no secuenciales
El Análisis exploratorio de datos (AED) no es como la receta de un pastel. No es un proceso que se sigue paso a paso. En su lugar, las seis prácticas del AED son iterativas y no secuenciales.
Iterativo: Relativo o que implica la repetición de un proceso
No secuencial: No dispuesto en o siguiendo un orden o secuencia.
Debido a la naturaleza variable de los conjuntos de datos, el enfoque para explorar esos datos será diferente cada vez. Eso significa que tendrá que utilizar su lógica y experiencia a lo largo del proceso EDA para determinar cuál de las seis prácticas utilizar, cuántas veces aplicarlas y en qué momento del proceso debe aplicarlas.
Guarde este tema del curso
Puede que desee guardar una copia de esta guía para futuras consultas. Puede utilizarla como recurso para prácticas adicionales o en sus futuros proyectos profesionales. Para acceder a una versión descargable de este elemento del curso, haga clic en el siguiente enlace y seleccione "Usar plantilla".
Guía de referencia: El proceso EDA
O
Si no dispone de una cuenta de Google, puede descargar el elemento directamente desde el siguiente archivo adjunto.
Ejemplo visual
Imagine que le asignan un conjunto de datos que sólo tiene 200 filas y cinco columnas de datos sobre los árboles de un bosque de coníferas de Noruega. Usted sabe que para completar su análisis completo necesitará más de 1.000 filas y al menos dos columnas más. Incluso sin muchos más detalles que esos, todo su proceso EDA podría parecerse a esto:

Descubrir: Usted comprueba la forma general, el tamaño y el contenido del conjunto de datos. Descubre que le faltan datos.
Uniendo: Usted añade más datos.
Validar: Realiza una comprobación rápida de que los nuevos datos no tienen errores ni faltas de ortografía.
Estructurando: Usted estructura los datos en diferentes periodos de tiempo y segmentos para comprender las tendencias.
Validación: Realiza otra comprobación rápida para asegurarse de que las nuevas columnas que ha realizado en la estructuración están correctamente diseñadas.
Limpieza: Usted comprueba si hay valores atípicos, datos que faltan y necesidades de conversiones o transformaciones.
Validación: Tras la limpieza, vuelve a comprobar que los cambios realizados son correctos y precisos.
Presentación: Comparte su conjunto de datos con un compañero.
Observe que realizó la práctica de "validación" de forma iterativa, o varias veces, para asegurarse de que sus cambios en los datos no introducían errores involuntariamente. Además, como reconoció la necesidad de más datos por adelantado, la práctica de "unir" se realizó inmediatamente después de la práctica de "descubrir".
Después de presentar su conjunto de datos depurado a un compañero, es muy probable que reciba notas o ideas para una mayor exploración y/o depuración. Por ello, verá aún más iteraciones.
Consejo profesional: Los científicos de datos esperan realizar las prácticas de EDA varias veces en un conjunto de datos antes de sentirse cómodos declarándolo "limpio" y listo para el modelado o los algoritmos de aprendizaje automático.
La importancia del EDA en el Aprendizaje automático ético
A medida que los algoritmos y las redes de aprendizaje automático empiezan a tomar cada vez más decisiones en nombre de las personas, las empresas e incluso los gobiernos, el debate sobre la ética y la regulación adquiere cada vez más importancia. Según el Institute for Ethical IA & Aprendizaje automático, existen ocho principios para desarrollar sistemas de aprendizaje automático de forma responsable.
Principios clave del proceso EDA
Los dos principios siguientes forman parte inherente del proceso EDA:
Aumento humano: Este principio garantiza la inserción de humanos en todos los sistemas de IA o de algoritmos de aprendizaje automático para su supervisión. Un EDA minucioso, realizado por científicos de datos, es quizá una de las mejores maneras de limitar el sesgo, el desequilibrio y las imprecisiones que se introducen en un algoritmo.
Evaluación del Sesgo: Sin la interferencia humana, el sesgo se inyecta y reproduce con demasiada facilidad en los Modelos de Aprendizaje automático. Llevar a cabo procesos metódicos de EDA hará que los científicos de datos sean conscientes de los sesgos y desequilibrios en los datos y actúen en consecuencia.
Consejo profesional: Nunca se insistirá lo suficiente en la importancia de garantizar el cumplimiento de las normas éticas en el espacio profesional de los datos. Los profesionales de los datos necesitan aumentar continuamente sus capacidades para reconocer los sesgos y la discriminación aplicando sistemáticamente una mentalidad ética a su trabajo de EDA.
Más allá del aprendizaje automático, el EDA es aplicable a casi cualquier decisión importante basada en datos. A continuación, conocerá muchas aplicaciones de EDA y la necesidad de un enfoque iterativo y no secuencial.
No hay comentarios.:
Publicar un comentario