Yizinet

Preliminares de formulación del problema

Jesús Jiménez — Sun, 21 Aug 2022 20:21:47 +0000

En proyectos de ciencia de datos, es importante la formulación del problema, incluso antes de que pueda comenzar la recopilación de datos. Se debe aclarar el propósito por el cual se realiza la recopilación de datos. No podemos dejar pasar la importancia de la formulación del problema: es el primer paso en cualquier proyecto de investigación, y para un proyecto de ciencia de datos es parte de esto.

Además, incluso las pequeñas desviaciones de la ruta prevista al comienzo de la trayectoria de un proyecto pueden conducir a un destino muy diferente al previsto. Dicho esto, la formulación del problema a menudo puede ser un tema difícil de resolver. Por lo que intentaremos describir los pasos generales previos a la descripción del problema.

Tabla de contenidos

Reflexiones iniciales de la formulación del problema
Hacia un marco de formulación del problema
Claridad del problema y tipo de investigación

Reflexiones iniciales de la formulación del problema

Estas son reflexiones cotidianas en la vida de personas enfocados a negocio y están lejos de ser inusuales. Dependiendo de la identificación del problema, las estrategias de recopilación de datos, los recursos y los enfoques serán diferentes. La dificultad de poder identificar fácilmente cualquier causa o una combinación de causas como un problema específico resaltan los problemas que surgen en la formulación del problema. Existen cuatro puntos importantes:

La realidad es desordenada. A diferencia de los ejemplos de problemas de los libros de texto, en los que la información irrelevante se filtra a priori y solo se retiene la que se requiere para resolver exactamente «el problema» identificado, la vida rara vez simplifica los problemas de una manera tan clara.
Tomando prestada una analogía médica, hay síntomas (manifestaciones observables de un problema o dolencia subyacente) y luego está la causa o dolencia en sí. Los síntomas pueden ser fiebre o un resfriado y las causas pueden ser agentes bacterianos o virales. Sin embargo, curar los síntomas puede no curar la dolencia. De manera similar, vemos síntomas (por ejemplo, las ventas están cayendo) e hipotetizamos la existencia de uno o más problemas o causas subyacentes.
Tengamos en cuenta el patrón de conexiones entre los síntomas y las posibles causas. Se supone que un síntoma (caída de las ventas) proviene de una o más causas potenciales (línea de productos, compensación de la fuerza de ventas, economía débil, competidores, etc.).
¿Cómo podemos diagnosticar un problema (o causa)? Una estrategia sería reducir el campo de las «dolencias» al descartar las que no podrían causar un problema, de la manera más rápida y económica posible.

Hacia un marco de formulación del problema

Consideremos el siguiente problema en donde algún analítico tomará deciciones:

Las ventas se quedaron cortas el año pasado. Pero las ventas se habrían acercado al objetivo excepto en 6 territorios en 2 regiones donde los resultados fueron deficientes. Por supuesto, implementamos un aumento de precios generalizado el año pasado, por lo que nuestros objetivos de margen de ganancias se cumplieron, a pesar de que los ingresos por ventas no fueron suficientes. Sin embargo, 2 de nuestros competidores registraron aumentos de ventas por encima de la tendencia el año pasado.

Aún así, otro competidor parece estar luchando, y se dice en la calle que han estado recortando los precios para cerrar tratos. Por supuesto, la economía fue bastante desigual en nuestras geografías el año pasado y las 2 regiones en cuestión, débiles de todos modos, lo fueron particularmente el año pasado. Luego estaba ese lío con la nueva política de compensación de la fuerza de ventas que entró en vigor el año pasado. 1 de las 2 regiones débiles experimentó mucha rotación de personal de ventas el año pasado.

Con fines ilustrativos, consideremos una lista de tres causas probables de una confusa realidad de un problema:

la línea de productos es obsoleta
la conexión con el cliente es ineficaz
el precio del producto no es competitivo (digamos)

Entonces, a partir de esta realidad desordenada podemos formular problemas de decisión (PD) que correspondan a las tres causas probables identificadas:

“¿Deberían introducirse nuevos productos?”
“¿Debería cambiarse la campaña publicitaria?”
“¿Deberían cambiarse los precios de los productos?”

Tengamos en cuenta lo que estamos haciendo en términos matemáticos: si la realidad desordenada es un gran objeto multidimensional, entonces estos PD son subconjuntos de pequeña dimensión de esa realidad. Esto «reduce» un objeto desordenado de grandes dimensiones a uno relativamente más manejable de pequeñas dimensiones.

El PD a pesar de que es de pequeña dimensión, puede no contener suficientes detalles para mapear directamente en las herramientas. Por lo tanto, puede ser necesario otro nivel de refinamiento llamado objetivo de investigación (OI). Mientras que el PD es un objeto de pequeñas dimensiones, el OI es un objeto unidimensional. Es posible que se necesiten varias OI para «cubrir» por completo o abordar una sola PD.

Además, debido a que cada OI es unidimensional, se asigna fácil y directamente a una o más herramientas específicas en la caja de herramientas de análisis. Es mejor que un componente de formulación de problemas unidimensional esté bien definido. El OI consta de tres partes esenciales que juntas dan la necesaria claridad a su definición.

Los OI’s se componen de (a) un verbo de acción y (b) un objeto procesable, y normalmente caben dentro de una línea escrita a mano (para imponer la brevedad). Por ejemplo, la declaración de voz activa “Identifique las brechas reales y percibidas en nuestra línea de productos frente a la de nuestros principales competidores” es una OI porque se satisfacen sus componentes verbo de acción (“identificar”), objeto procesable (“brechas reales y percibidas”) y brevedad.

Estructura para la formulación del problema.

En la figura anterior mostramos el marco de formulación de problemas que acabamos de describir. Está claro a partir de la figura que a medida que imponemos una estructura preliminar, reducimos efectivamente la dimensionalidad del problema de grande (realidad desordenada) a algo pequeño (PD) a lo conciso y preciso (OI).

Claridad del problema y tipo de investigación

Una cita atribuida al exsecretario de defensa estadounidense Donald Rumsfeld en el periodo previo a la guerra de Irak dice lo siguiente: “Hay conocidos-conocidos. Estas son cosas que sabemos que sabemos. Hay conocidos-desconocidos. Es decir, hay cosas que sabemos que no sabemos. Pero también hay incógnitas desconocidas. Hay cosas no sabemos que no sabemos.” Esta declaración es útil porque ayuda a discernir los diferentes grados de conciencia de nuestra ignorancia sobre el verdadero estado de las cosas. Para comprender por qué la declaración anterior puede ser relevante para la formulación de problemas, considere que, en general, existen tres tipos de investigación que corresponden a tres niveles de claridad en la definición de problemas.

La primera es la investigación exploratoria en la que el problema es, en el mejor de los casos, ambiguo. Por ejemplo, “Nuestras ventas están cayendo. . . . ¿Por qué?» o “Nuestra campaña publicitaria no está funcionando. No sé por qué. Cuando identificar el problema es en sí mismo un problema, debido a desconocidos-desconocidos, adoptamos un enfoque exploratorio para rastrear y enumerar las posibles fuentes de problemas y luego definir cuáles pueden ser los problemas.

El segundo tipo es la investigación descriptiva en la que la identidad del problema es algo clara. Por ejemplo, «¿Qué tipo de personas compran nuestros productos?» o «¿Quién es percibido como competencia para nosotros?» Estos son ejemplos de incógnitas conocidas.

El tercer tipo es la investigación causal en la que el problema está claramente definido. Por ejemplo, «¿Cambiar esta campaña promocional en particular aumentará las ventas?» es un conocido-desconocido claramente identificado. La investigación causal (la causa en causal proviene de la causa en porque) trata de descubrir el “por qué” detrás de los fenómenos de interés y su herramienta más poderosa y práctica es el método de experimentación. No es difícil ver que el nivel de claridad en la definición del problema afecta enormemente las opciones disponibles en términos de recopilación de datos y análisis posterior.

5 tipos de preguntas en ciencia de datos

Jesús Jiménez — Sat, 06 Aug 2022 01:17:04 +0000

La formulación de preguntas en ciencia de datos son esenciales para tomar un rumbo en el modelado, es útil considerar cuáles son los diferentes tipos de preguntas. Gran parte de la discusión que sigue proviene de este artículo.

Si comprendemos el tipo de pregunta que estamos haciendo estamos avanzando a un paso fundamental para asegurar de que nuestra interpretación de los resultados sea correcta. Enlistamos 6 grandes tipos de preguntas de ciencia de datos:

Tabla de contenidos

Preguntas en ciencia de datos descriptivas
Preguntas en ciencia de datos exploratorias
Preguntas en ciencia de datos inferenciales
Preguntas en ciencia de datos predictivas
Preguntas en ciencia de datos causales
Preguntas en ciencia de datos mecanicistas
Algo adicional

Preguntas en ciencia de datos descriptivas

Las preguntas en ciencia de datos descriptivas buscan resumir una característica de un conjunto de datos. Los ejemplos incluyen determinar la proporción de hombres, la cantidad media de porciones de frutas y verduras frescas por día o la frecuencia de enfermedades virales en un conjunto de datos recopilados de un grupo de personas. No hay interpretación del resultado en sí mismo, ya que el resultado es un hecho, un atributo del conjunto de datos con el que estamos trabajando.

Ejemplos de preguntas de esta índole serían: “¿Cuánto?”, “¿Con qué frecuencia?”, “¿Qué porcentaje?”, “¿A qué hora?”, “¿Cuánto es?.

Preguntas en ciencia de datos exploratorias

Las preguntas en ciencia de datos exploratorias son aquellas en la que analizan los datos para ver si hay patrones, tendencias o relaciones entre las variables. Estos tipos de análisis también se denominan análisis de “generación de hipótesis” porque, en lugar de probar una hipótesis como se haría con una pregunta inferencial, causal o mecanicista, se buscan patrones que apoyen la propuesta de una hipótesis. Si teníamos una idea general de que la dieta estaba relacionada de alguna manera con las enfermedades virales, podríamos explorar esta idea examinando las relaciones entre una variedad de factores dietéticos y enfermedades virales.

Por ejemplo, encuentramos en el análisis exploratorio que las personas que comieron una dieta alta en ciertos alimentos tenían menos enfermedades virales que aquellos cuya dieta no estaba enriquecida con estos alimentos, por lo que proponemos la hipótesis de que entre los adultos, comer al menos 5 porciones al día de fruta fresca y las verduras se asocia con menos enfermedades virales por año.

Ejemplo de estas preguntas serían: «¿Sientes que tienes una buena o mala relación con la comida?» «¿Cuál es el efecto de las redes sociales en la capacidad de atención de los adolescentes?».

Preguntas en ciencia de datos inferenciales

Las preguntas en ciencia de datos inferenciales serían una reafirmación de nuestra hipótesis propuesta como una pregunta y se respondería analizando un conjunto diferente de datos, que en este ejemplo es una muestra representativa de adultos en México. Al analizar este conjunto diferente de datos, estamos determinando si la asociación que observamos en nuestro análisis exploratorio se mantiene en una muestra diferente y si se mantiene en una muestra que es representativa de la población adulta de México, lo que sugeriría que la asociación es aplicable a todos los adultos en México.

En otras palabras, podremos inferir que nuestra hipótesis es cierta, en promedio, para la población adulta en los México, a partir del análisis que realice en la muestra representativa.

Ejemplo de estas preguntas serían: «¿Cómo llegaste a esa conclusión?» y «¿Por qué la sal hace que el hielo no se derrita?».

Preguntas en ciencia de datos predictivas

Las preguntas en ciencia de datos predictivas se proponen para predecir automáticamente las mejores opciones de respuesta posibles según el contexto de la pregunta. Las preguntas predictivas se pueden usar ampliamente en la fase de diseño del modelo. Las preguntas predictivas se utilizan más ampliamente en los estudios de investigación cuantitativa para una empresa.

Preguntas de este tipo serían: «¿Cuáles son los beneficios comerciales?», «¿Qué conocimientos técnicos necesito?», «¿Qué tan claros serán los resultados?», «¿Qué pasa con las preguntas de seguimiento?», «¿Y qué pasa con los usuarios comerciales?» , «¿Qué tan precisas, completas y consistentes son las técnicas analíticas?», «¿Podemos realizar un análisis incremental?», «¿Qué tan efectivo es el manejo de datos?», «¿Se puede integrar el sistema analítico con nuestros sistemas existentes?», » ¿Qué soporte estará disponible?»

Preguntas en ciencia de datos causales

Aunque una pregunta inferencial podría decirnos que las personas que comen cierto tipo de alimentos tienden a tener menos enfermedades virales, la respuesta a esta pregunta no nos dice si comer estos alimentos provoca una reducción en el número de enfermedades virales, que sería el caso de una pregunta causal.

Las preguntas de ciencia de datos causales plantean hipótesis de que si cambiar un factor cambiará otro factor en una población. A veces, el diseño subyacente de la recopilación de datos permite que la pregunta que hace sea causal. Un ejemplo de esto serían los datos recopilados en el contexto de un ensayo aleatorio, en el que se asignó aleatoriamente a las personas a comer una dieta alta en frutas y verduras frescas o una dieta baja en frutas y verduras frescas. En otros casos, incluso si nuestros datos no provienen de un ensayo aleatorio, podemos adoptar un enfoque analítico diseñado para responder una pregunta causal.

Preguntas se este tipo serían: «¿Cuál es el efecto del ejercicio en la frecuencia cardíaca?», «¿Cuál es el efecto de la fatiga de la mano en el tiempo de reacción?», «¿Cuáles son los vectores más potentes para la transmisión de enfermedades?», «¿Cómo afecta el ejercicio la tasa de producción de dióxido de carbono? «, «¿Cómo influye la temperatura en la difusión del ambientador?», «¿Cómo afecta la concentración de nitrato de plata a la formación de cristales de plata?»

Preguntas en ciencia de datos mecanicistas

Finalmente, ninguna de las preguntas en ciencia de datos descritas hasta ahora conducirá a una respuesta que nos diga, si la dieta realmente causa una reducción en el número de enfermedades virales, cómo la dieta conduce a una reducción en el número de enfermedades virales. Una pregunta que indague cómo una dieta alta en frutas y verduras frescas conduce a una reducción en el número de enfermedades virales sería una pregunta mecanicista.

Las preguntas en ciencia de datos mecanicistas son más del tipo de describir el cómo en cada paso del proceso.

Algo adicional

Hay un par de puntos adicionales sobre los tipos de preguntas que son importantes. Primero, muchos análisis de datos responden a múltiples tipos de preguntas. Por ejemplo, si un análisis tiene como objetivo responder una pregunta inferencial, las preguntas descriptivas y exploratorias también deben responderse durante el proceso de respuesta a la pregunta inferencial.

Para continuar con nuestro ejemplo de dieta y enfermedades virales, nos saltaríanis directamente a un modelo estadístico de la relación entre una dieta rica en frutas y verduras frescas y el número de enfermedades virales sin haber determinado la frecuencia de este tipo de dieta y enfermedades virales. y su relación entre sí en esta muestra.

Un segundo punto es que el tipo de pregunta que hacemos está determinado en parte por los datos disponibles (a menos que planeenis realizar un estudio y recopilar los datos necesarios para realizar el análisis). Por ejemplo, es posible que hagamos una pregunta causal sobre la dieta y las enfermedades virales para saber si una dieta rica en frutas y verduras frescas provoca una disminución en la cantidad de enfermedades virales, y el mejor tipo de datos para responder a esta pregunta causal es uno en el que la dieta de las personas cambia de una rica en frutas y verduras frescas a otra que no lo es, o viceversa.

Si este tipo de conjunto de datos no existe, entonces lo mejor que podemos hacer es aplicar métodos de análisis causal a los datos de observación o responder una pregunta inferencial sobre la dieta y las enfermedades virales.

8 formas en que un científico de datos usa la estadística

Jesús Jiménez — Sat, 23 Jul 2022 22:40:55 +0000

El científico de datos trabaja y/o estudia un campo multidisciplinario e interdisciplinario. Forma parte de acciones (por lo general digitales) de funciones como: búsquedas en Internet, recomendación de compras, abastecimiento de comercios, rutas de entrega, análisis de sentimientos, etc. Está en todas partes. ¿Qué hace que un científico de datos encaje en la mayoría de las decisones humanas? Pues bien, la estadística es una de las disciplinas más importantes para los científicos de datos. Y hay algunos conceptos fundamentales que se usan de manera «automática» al analizar los datos. Veremos algunas de ellas a continuación.

Tabla de contenidos

1 Estado general del negocio a partir de un análisis rápido de los datos
2 Decisión sobre productos y/o sevicios – Diseño de experimentos
3 Creación de modelos que estimen un comportamiento o señal y no el ruido
4 Panorama general a través del análisis de grandes volúmenes de datos
5 Comprender la participación, la retención, la conversión y los clientes potenciales del negocio
6 Dar a los clientes lo que quieren
7 Estimación inteligente
8 Contar la historia con los datos

1 Estado general del negocio a partir de un análisis rápido de los datos

Estadísticas Utilizadas: Media, mediana, moda, varianza, etc.

El científico de datos puede hacer un análisis relativamente rápido del estado general del los datos que empezará a estudiar más a fondo. Pero al mismo tiempo tendrá un panorama general del comportamiento de variables, así como la intución (adquirida a través de la experiencia) de las posibles mejoras simples y rápidas que pueden implementarse de manera inmediata para la optimización de algún área del negocio.

2 Decisión sobre productos y/o sevicios – Diseño de experimentos

Estadísticas Utilizadas: Diseño de Experimentos, Estadísticas Frecuentistas (Pruebas de Hipótesis e Intervalos de Confianza)

El científico de datos puede ayudarnos a determinar si una diferencia es lo suficientemente significativa como para justificar una mayor atención, enfoque e inversión. Puede ayudarnos a comprender los resultados experimentales, esto es especialmente útil cuando estamos midiendo muchas métricas, ejecutando experimentos que se afectan entre sí, o tiene alguna paradoja de Simpson en sus resultados.

Por ejemplo, supongamos que un minorista nacional está tratando de probar el efecto de una nueva campaña de marketing. El científicos de datos nos ayuda a decidir qué tiendas debe asignar al grupo experimental tipos A-B para obtener un buen equilibrio entre los grupos experimental y de control, qué tamaño de muestra debe asignar al grupo experimental para obtener resultados claros y cómo ejecutar el gasto del estudio con el mínimo costo posible.

3 Creación de modelos que estimen un comportamiento o señal y no el ruido

Estadísticas utilizadas: regresión, clasificación, series de tiempo, etc.

El científico de datos puede estimar las razones del por qué las ventas han aumentado un cierto porcentaje. Además puede ayudarnos a comprender qué impulsa las ventas, cómo podrían ser las ventas el próximo mes y las posibles tendencias a las que debe prestar atención.

4 Panorama general a través del análisis de grandes volúmenes de datos

Estadísticas utilizadas: agrupamiento, reducción de dimensionalidad, análisis de variables latentes.

El científico de datos nos ayuda a etiquetar a cada cliente, agruparlos con clientes similares y comprender sus hábitos de compra. Esto permite ver cómo los desarrollos comerciales pueden afectar a ciertos grupos de la población, en lugar de mirar a todos como un todo o mirar a todos individualmente.

Por ejemplo, a partir de un análisis podemos dividir a los compradores de comestibles en grupos que incluyen compradores con un presupuesto limitado, enfocados en la familia, cuidando la cintura, derrochador y ahorrador.

5 Comprender la participación, la retención, la conversión y los clientes potenciales del negocio

Hay muchas preguntas que nos podemos hacer para potenciar las ventas, y al mismo tiempo, dar el mejor servicio a nuestros clientes, especialmente a los que son leales al negocio. Las preguntas pueden ser muy diversas, como por ejemplo:

¿Por qué sus clientes compran artículos de su sitio? ¿Cómo logras que tus clientes regresen? ¿Por qué los usuarios abandonan su embudo de ventas? ¿Cuándo saldrán después? ¿Qué tipo de correos electrónicos de la empresa atraen a los usuarios con más éxito? ¿Cuáles son algunos de los principales indicadores de compromiso, actividad o éxito? ¿Cuáles son algunas buenas oportunidades de venta?

6 Dar a los clientes lo que quieren

Estadísticas utilizadas: modelado predictivo, análisis de variables latentes, reducción de dimensionalidad, agrupamiento.

Dada una tabla de clientes y sus interacciones (clics, compras, calificaciones, etc) con los artículos de un negocio (anuncios, productos, películas), ¿puede sugerir qué artículos querrán sus usuarios a continuación?

7 Estimación inteligente

Estadísticas utilizadas: análisis de datos bayesianos

El científico de datos puede incorporar datos globales y conocimientos previos para obtener una estimación deseable, decirle las propiedades de esa estimación y resumir lo que significa la estimación.

8 Contar la historia con los datos

Estadísticas utilizadas: presentación y comunicación de datos, visualización de datos (no son precisamente conceptos de estadística, sino visualización de la aplicación de conceptos en los datos)

El papel del científico de datos en la empresa es servir como intermediarios entre los datos y la empresa. La comunicación es clave, y el científico de datos debe ser capaz de explicar sus conocimientos de manera que la empresa pueda participar, sin sacrificar la fidelidad de los datos.

El científico de datos no solo resume los números, sino que explica por qué los números son importantes y qué información procesable se puede obtener de ellos.

El científico de datos es el narrador de la empresa, comunica el significado de los datos y por qué son importantes para la empresa.

La paradoja de Simpson en ciencia de datos

Jesús Jiménez — Sat, 23 Jul 2022 22:38:55 +0000

La paradoja de Simpson, también llamada efecto de Yule-Simpson es una paradoja o antilogía y sugiere una idea lógicamente contradictoria u opuesta a lo que se considera verdadero a la opinión. La paradoja de Simpson destaca un concepto importante sobre los datos: la necesidad de una buena intuición con respecto al mundo real y cómo la mayoría de los datos son una representación de dimensión finita de un dominio mucho más grande y complejo.

Tabla de contenidos

¿Qué es la paradoja de Simpson?
¿Por qué ocurre la paradoja de Simpson?
El famoso ejemplo de UC Berkeley
Los juegos de beisbol
Datos de casos graves de COVID-19

¿Qué es la paradoja de Simpson?

La paradoja de Simpson, consiste en la desaparición o inversión de una relación entre diferentes variables cuando los datos se agrupan de forma diferente, en función de otra variable no considerada previamente. Aunque otros autores habían mencionado el efecto anteriormente, fue Simpson el primero que publicó un trabajo de carácter técnico en el que la describía.

La paradoja de Simpson es más fácil de entender mediante una visualización de datos como la siguiente. La idea básica es que una correlación elevada encontrada entre dos variables puede ser interpretada erróneamente, si una tercera variable usada para separar en grupos los datos analizados conlleva implícita otra asociación que puede ser también relevante, pero de signo contrario. Por lo tanto, el orden de selección de variables cuando se analizan correlaciones es importante y, como siempre, una inspección visual previa de los datos puede ser de ayuda.

La tendencia general se invierte cuando los datos se agrupan por alguna categoría representada por colores.

¿Por qué ocurre la paradoja de Simpson?

La paradoja de Simpson ocurre porque la desagregación de los datos (por ejemplo, dividirlos en subgrupos) puede causar que ciertos subgrupos tengan una representación desequilibrada en comparación con otros subgrupos. Esto puede deberse a la relación entre las variables, o simplemente a la forma en que los datos se dividieron en subgrupos.

El famoso ejemplo de UC Berkeley

Un ejemplo famoso de la paradoja de Simpson aparece en los datos de admisión para la escuela de posgrado en UC Berkeley en 1973. Al observar los datos de admisión de posgrado en general, parecía que los hombres tenían más probabilidades de ser admitidos que las mujeres, pero al observar los datos de cada departamento individualmente, los hombres tenían menos probabilidades de ser admitidos que las mujeres. Y sucede porque:

Los diferentes departamentos tenían índices de aceptación muy diferentes (algunos eran mucho más «difíciles» de ingresar que otros).
Más mujeres aplicaron a los departamentos «más duros».
Por lo tanto, las mujeres tuvieron una tasa de aceptación más baja en conjunto.

Esto nos lleva a preguntarnos: ¿cuál es la visión correcta? ¿Los hombres o las mujeres tienen una mayor tasa de aceptación? ¿Existe un sesgo de género en las admisiones en esta universidad?

En este caso, parece más razonable concluir que mirar las tasas de admisión por departamento tiene más sentido y que la vista desagregada es correcta.

Los juegos de beisbol

Los promedios de bateo de dos jugadores de béisbol famosos, Derek Jeter y David Justice, de 1995 y 1996. David Justice tuvo un promedio de bateo más alto tanto en 1995 como en 1996 individualmente, pero Derek Jeter tuvo un promedio de bateo más alto en los dos años combinados. Y explicamos que pasó:

Ambos jugadores tuvieron promedios de bateo significativamente más altos en 1996 que en 1995.
Derek Jeter tuvo muchos más turnos al bate en 1996; David Justice tenía significativamente más en 1995.
Por lo tanto, Derek Jeter tuvo un promedio de bateo más alto en el agregado.

Una vez más, podemos preguntarnos: ¿cuál es la vista correcta? ¿Fue Derek Jeter o David Justice mejor bateador? En este caso, parece más razonable concluir que el punto de vista agregado es el punto de vista correcto y que Derek Jeter fue el mejor bateador durante los dos años.

Es difícil sacar conclusiones de los datos cuando los datos nos cuentan dos historias opuestas al mismo tiempo. Uno podría estar tentado a pensar que la vista desagregada siempre es mejor ya que contiene más información, pero es posible que desagregar una variable adicional proporcione una perspectiva innecesaria o confusa.

Datos de casos graves de COVID-19

Para los casos de eficiencia vs severidad de la vacunación por COVD 19 en Israel

De los 515 pacientes actualmente hospitalizados con cuadros graves en el país, 301 (58%) de estos casos era gente completamente vacunada, es decir, habían recibido dos dosis de Pfizer. El 60% de todos los hospitalizados graves por covid-19 era gente vacunada. ¿Significa eso que la vacuna tiene una baja eficacia? ¿Que es estadísticamente mejor no vacunarse que hacerlo para evitar los cuadros graves?

No precisamente. Significa que faltan datos para entender el contexto. Si en ese entonces había en torno a un 80% de personas mayores de 12 años vacunadas, hay mucha, mucha más gente en ese grupo que en el de no vacunados, así que la comparativa no es proporcional. Por eso lo primero que habría que hacer es estimar las tasas de hospitalización con cuadros graves segregando vacunados de no vacunados.

Ganancia de información y entropía

Jesús Jiménez — Thu, 14 Jul 2022 02:10:15 +0000

La ganancia de información y entropía están involucradas en muchos temas de aprendizaje automático, como el árbol de decisión y el bosque aleatorio. Necesitamos aprender el papel de la ganancia de información y la entropía en la construcción de un modelo de machine learning. Nos centraremos en la parte estadística de la ganancia de información y entropía.

Tabla de contenidos

¿Qué es entropía?
¿Qué es ganancia de información?
Ejemplo práctico
Cálculo de la ganancia de la información

¿Qué es entropía?

La teoría de la información es una parte de las matemáticas relacionado con la transmisión de datos a través de un canal ruidoso. Una piedra angular de la teoría de la información es la idea de cuantificar cuánta información hay en un mensaje. De manera más general, esto se puede usar para cuantificar la información en un evento y una variable aleatoria, llamada entropía.

Calcular información y entropía es una herramienta útil en machine learning y se utiliza como base para técnicas como la selección de características, la construcción de árboles de decisión y, de manera más general, el ajuste de modelos de clasificación. Como tal, un científico de datos requiere una gran comprensión e intuición de la información y la entropía.

La entropía es una medida de cualquier tipo de incertidumbre que está presente en los datos. Se puede medir utilizando la fórmula:

$$H(S) = -\sum_{i=1}^{N}P_i\log_2 P_i$$

Donde $S$ es el conjunto de datos, $N$ es el número de las distintas clases de valores y $P_i$ es la probabilidad de un evento.

¿Qué es ganancia de información?

La ganancia de información indica cuánta información nos brinda una característica particular o una variable particular sobre los resultados finales. Se puede medir utilizando la fórmula

$$\text{Ganancia}(A,S) = H(S)-\sum_{j=1}^{v}\frac{|S_j|}{|S|}. H(S_j) = H(S)-H(A,S)$$

Donde $H(S)$ es la entropía del conjunto $S$, $|S_j|$ es el número de instancia $j$ de un atributo $A$, |S| es el número total de instancias de un conjunto $S$, $v$ es el conjunto de valores distintos de un atributo $A$, $H(S_j)$ es la entropía del subconjunto de instancias para el atributo $A$ y $H(A,S)$ es la entropía de un atributo $A$.

Ejemplo práctico

Ejemplifiquemos la situación donde hay que pronosticar si el partido se puede jugar o no, indicando las condiciones meteorológicas. Las variables predictoras aquí son el pronóstico, la humedad y el viento.

El valor de la variable objetivo es que se pueda o no jugar el juego. La predicción «No» significa que las condiciones climáticas no son buenas y por lo tanto, no se puede jugar. La predicción «Sí» significa que se puede jugar, por lo que la jugada tiene un valor que es «sí» o «no». Ahora, para resolver tal problema, hacemos uso de un árbol de decisión.

Consideremos un árbol donde cada rama del árbol denota alguna decisión. Cada rama se conoce como un nodo de rama, y en cada rama, debemos decidir de tal manera que pueda obtener un resultado al final de la rama. En la siguiente imagen muestra que de las 14 observaciones, 9 observaciones dan como resultado un sí, lo que significa que de los 14 días, el partido se puede jugar solo en 9 días. Así que aquí si ven los días 1, 2, 8, 9 y 11, el panorama ha sido soleado. Básicamente, estamos tratando de agrupar conjuntos de datos según la perspectiva. Cuando hace sol, tenemos dos “Sí” y tres “No”; cuando la perspectiva está nublada, tenemos los cuatro como Sí, lo que significa que en los 4 días en que la perspectiva estaba nublada, podemos jugar el juego.

Cuando se trata de lluvia, tenemos tres «Sí» y dos «No». La decisión se puede tomar según la variable de perspectiva en el nodo raíz. Entonces, el nodo raíz es el nodo superior en un árbol de decisión. Ahora, lo que hemos hecho aquí es que hemos creado un árbol de decisiones que comienza con el nodo pronóstico y luego lo dividimos aún más según otros parámetros, como soleado, nublado y lluvioso.

Lo que estamos haciendo es tomar el árbol de decisiones eligiendo la variable de perspectiva en el nodo raíz. El nodo raíz es el nodo superior en un árbol de decisión. El nodo Pronóstico tiene tres ramas que salen: soleado, nublado y lluvioso. Estos tres valores se asignan al nodo de la rama intermedia y se calculan para la posibilidad de jugar igual a «sí». Para ramas soleadas y lluviosas, si es una mezcla de sí y no, dará una salida impura (entrópicamente hablando). Pero cuando se trata de la variable nublada, da como resultado un salida 100% pura (entrópicamente hablando). Esto muestra que la variable nublada dará como resultado una salida definida y cierta. Esto es exactamente lo que se usa para medir la entropía que calcula la impureza o la incertidumbre. Entonces, cuanto menor es la incertidumbre o la entropía de una variable, más significativa es esa variable.

Cuando se trata de días nublados que no tienen impurezas en un conjunto de datos, es un subconjunto puro perfecto. No siempre tenemos suerte y no siempre encontramos variables que den como resultado un subconjunto para medir la entropía. Por lo tanto, cuanto menor sea la entropía de una variable particular, más significativa será esa variable. En el árbol de decisión, el atributo asignado del nodo raíz se considera para el resultado preciso. Esto significa que el nodo raíz debe tener la variable más significativa, razón por la cual elegimos el pronóstico.

El nodo nublado no es una variable sino el subconjunto del nodo raíz pronóstico. Ahora la pregunta es ¿Cómo decidir qué variable o atributo divide mejor los datos?. Cuando se trata de árboles de decisión, ganancia de información y entropía, nos ayudará a comprender qué variable dividirá mejor el conjunto de datos o qué variable se usa para asignar al nodo raíz. Las variables asignadas al nodo raíz se dividirán según el conjunto de datos con las variables más significativas.

Cálculo de la ganancia de la información

De acuerdo a la fórmulas anteriores, podemos encontrar la ganancia de información y la entropía. Del total de 14 instancias que vimos, 9 dijeron que sí y 5 dijeron que no, lo que significa que no puedes jugar ese día en particular. Entonces podemos calcular la entropía usando el árbol de decisión anterior para la predicción. Susutituimos los valores en la fórmula:

$$H(s)=-\frac{9}{14}\log_2\frac{9}{14}-\frac{5}{14}\log_2\frac{5}{14}=0.94$$

Cuando sustituye los valores en la fórmula, obtiene un valor de 0.94. Esta es la entropía y esta es la incertidumbre de los datos presentes en la muestra. Ahora, para asegurarnos de elegir la mejor variable para el nodo raíz, veamos las posibles combinaciones que puede usar en el nodo raíz.

Todas las combinaciones posibles que puede usar en el nodo raíz se muestran en la siguiente figura. La combinación posible puede ser pronóstico, viento, humedad o temperatura. Estas son cuatro variables y puede tener cualquiera de estas variables como su nodo raíz. Pero ¿Cómo selecciona la variable que mejor se ajusta al nodo raíz? Aquí, podemos usar la ganancia de información y la entropía. Por lo tanto, la tarea es encontrar la ganancia de información para cada uno de estos atributos, es decir, para perspectiva, viento, humedad y temperatura. Debe elegirse la variable que resulte en la mayor ganancia de información porque proporciona la información de salida más precisa.

La ganancia de información para el atributo viento calculará primero ese atributo; aquí, tenemos seis instancias de verdadero y ocho instancias de falso. Cuando sustituyamo todos los valores en la fórmula obtendremos el valor para la ganancia de información:

$$\text{Ganancia}(A_{\text{viento}}, S) = 0.94-\frac{8}{14}.(-(\frac{6}{8}.\log_2\frac{6}{8}+\frac{2}{8}.\log_2\frac{2}{8}))+$$

$$\frac{6}{14}.(-(\frac{3}{6}.\log_2\frac{3}{6}+\frac{3}{6}.\log_2\frac{3}{6}))=0.048$$

Análogamente, calculamos la ganancia de información de la perspectiva del atributo soleado. De un total de 14 instancias, tenemos 5 instancias de soleado, 4 instancias de nublado y 5 instancias de lluvia. Para soleado, tenemos tres sí y dos no; para nublado, tenemos los cuatro como Sí; y para lluvioso, tenemos tres sí y dos no. Entonces, cuando calcule la ganancia de información de la variable de pronóstico, obtendremos un valor de 0.247. En comparación con este valor, la ganancia de información del atributo viento es buena, es decir, 0.247 para la ganancia de información.

Similarmente, la ganancia de información del atributo humedad. Aquí encontramos siete instancias que ven «alto» y siete instancias ven «normal». El valor «alto» en el nodo de rama tiene siete instancias y el resto del valor «normal». De manera similar, en la rama normal, tenemos siete instancias que dicen que sí y una instancia que dice que no. Al calcular la ganancia de información para la variable de humedad, obtendremos un valor de 0.151. Este también es un valor muy decente, pero en comparación con la ganancia de información de pronóstico, es menor.

Ahora, observemos la ganancia de información de los atributos como temperatura. La temperatura puede tener tres atributos básicos: caliente, templado y frío. Bajo caliente, tenemos dos instancias sí y dos instancias no; bajo suave, tenemos cuatro instancias sí y dos instancias no; y bajo frío, tenemos tres instancias de sí y una instancia de no. Si calculamos la ganancia de información para este atributo, obtendremos un valor de 0.029.

Para resumir, si observamos la ganancia de información para cada una de estas variables, verá que para pronóstico, tenemos la ganancia máxima. Tenemos 0.247, que es el valor de ganancia de información más alta, y siempre debemos elegir la variable con la ganancia de información más alta para dividir los datos en el nodo raíz, por eso asignamos la variable de pronóstico en el nodo raíz.

Una mirada a la prueba A-B

Jesús Jiménez — Sun, 03 Jul 2022 20:10:32 +0000

Uno de los mayores placeres de la vida es poner a prueba el modelo que estabamos desarrollando, y esto es usando la prueba A-B. Empecemos con un ejemplo, y hablando de limonadas.
Ya hemos estado ajustando hiperparámetros utilizando el antiguo método de «adivinar y comprobar». Vamos hacia el refrigerador. Para nuestro descubrimiento, nos dimos cuenta que ayer bebimos el último vaso de la limonada perfecta, y ahora todo lo que tenemos en el refri es agua, azúcar y limones enteros. «¿Ahora que?». El lote de limonada que se terminó tenía la proporción perfecta de ingredientes, pero olvidamos la receta de las cantidades de los ingredientes. Como buenos modeladores, entra en acción diseñar una prueba A-B que determinará la proporción perfecta de agua, azúcar y limones.

Tabla de contenidos

¿Qué es una prueba A-B?
Un camino simple de la prueba A-B
Una mejor forma de la prueba A-B
¿Cómo construmos la prueba A-B?
¿Cuál es la receta de la limonada perfecta?

¿Qué es una prueba A-B?

Imaginemos que somos analistas de datos de compras de un gran e-commerce y que lleva el nombre de una enorme selva tropical, Congo. Su sitio web vende toneladas de productos todos los días. Sin embargo, creemos que los cambios en la página del producto pueden aumentar aún más las ventas y las ganancias.

Nuestro plan actual, al que llamaremos Plan B, tiene el botón Comprar antes de la información sobre lo que estamos vendiendo. Creemos que los clientes estarían mejor informados y terminarían comprando nuestro producto si el botón viniera después de la información del producto. Las pruebas A-B son una forma de probar esa hipótesis y determinar con certeza qué página de producto es mejor para el cliente y el negocio.

Hay muchas maneras de ejecutar una buena prueba A-B. Muchos de ellos pueden volverse muy complicados a medida que trabaja con más y más opciones. Exploremos el tipo más simple de prueba A-B, antes de echar un vistazo a las versiones más complicadas.

Un camino simple de la prueba A-B

La forma simple puede ser la forma más fácil inicialmente. Continuando con el ejemplo de la página del producto, obtenemos el visto bueno de la gerencia para ejecutar una prueba durante las próximas dos semanas. Trabajamos con ingeniería para construir un sistema que dirige a las personas a una de las dos páginas, al azar.

Digamos que un 1 significa que un cliente fue dirigido a la página y luego compró el artículo. Un 0 significa que se fueron sin comprar nada. Estamos haciendo algunas suposiciones sobre el comportamiento del cliente aquí que son importantes. Por ejemplo, ignoramos el caso en el que un cliente vuelve más tarde y compra el artículo. Esto es similar al ejemplo de la limonada del mundo real que veremos más adelante.

Usando el método simple, tomamos los datos y contamos el número de 0 y el número de 1. Si observamos estos recuentos ordenados de nuestro método, encontramos que la página A tiene más valores de 1 que la página B, mientras que
ambos tienen 5,000 puntos de datos registrados.

La página A tiene una tasa de conversión del 66%, mientras que la página B solo tiene una tasa de conversión del 56%. Esto parece ser una diferencia significativa. Pero para estar seguros, ejecutamos una prueba $p-2$. Efectivamente, encontramos que nuestros resultados son estadísticamente significativos.

Al final del día, esto funciona bien, sin embargo, hay algunos problemas potenciales. La primera de ellas es que necesitábamos 10,000 visitantes y 2 semanas para recoger estos resultados. Si queremos probar otro cambio en la página, tenemos que pasar mucho más tiempo en otra ronda de pruebas A-B. Además, esa diferencia del 14% es la pérdida real de ingresos para la empresa. Lo que es más importante, si queremos realizar una prueba A-B para determinar la mejor combinación de limonada, es probable que no tengamos 10,000 amigos dispuestos a probar nuestros brebajes.

Una mejor forma de la prueba A-B

Resulta que las pruebas A-B se pueden modelar como un problema de bandidos con múltiples brazos.

El nombre «bandido de un solo brazo» se usa a menudo para describir las máquinas tragamonedas. Estas máquinas tienen una sola palanca tiramos que produce un pago aleatorio y obtienes lo que obtienes. En la versión de brazos múltiples, cada brazo tiene un pago aleatorio, pero algunos tienen un pago promedio más alto que otros, por lo que queremos tirar de esas palancas una vez que las encontremos. En el caso de nuestro dilema de la limonada, estamos tratando de averiguar qué brazo (combinación de ingredientes) da como resultado la puntuación más alta cuando se tira (sabe mejor).

Imaginemos una máquina tragamonedas con tres palancas. El primero da 10 cuando se jala, el segundo 1 y el tercero 25. Obviamente, una vez que averigüemos esto, nos gustaría jalar la Palanca Tres todo el tiempo y dado que los números aquí son fijos, es fácil tirar de las palancas y averiguar cuál es mejor.

Sin embargo, en nuestra vida cotidiana, necesitamos probar nuestra limonada en varias personas que tienen preferencias ligeramente diferentes. Dado que los tipos de limonada provocan diferentes reacciones de diferentes personas, el tirar de palancas ahora es probabilístico. Tendríamos que darle a mucha gente cada combinación para descubrir qué limonada tiene mejor puntaje, por lo que debemos mover las palancas de una manera inteligente para descubrir cuál es la mejor. O, en otras palabras, esto significa que debemos obsequiar a nuestros amigos con tazas de limonada de una manera inteligente para descubrir qué receta es la mejor.

En general, deseamos realizar la menor cantidad de intentos para encontrar la mejor opción posible, ya que luego podemos concentrarnos en tirar de la palanca correcta con la mayor frecuencia posible. Dado que solo tenemos un número limitado de amigos para que preueben nuestra limonada, deberemos usar la información obtenida durante la prueba para que sea más eficiente mientras realiza la prueba.

Bien, ¿cómo hacemos eso? La primera idea podría ser un enfoque «codicioso». Una vez que probemos todas las palancas, siempre tiraremos de la palanca que nos da la máxima recompensa. Esto está bien en el caso de unas pocas opciones (2 o 3), pero cuando el número de palancas/combinaciones (también conocido como espacio de estado) es enorme, rápidamente se vuelve imposible probarlas todas. Además, incluso con unos pocos brazos, un solo tirón puede darte resultados engañosos. Si una persona califica una mala receta de limonada como excelente durante la ronda inicial de pruebas, podría terminar atrapado con esa mala combinación cuando más tiros hubieran revelado una mejor receta para su limonada.

Resulta que hay una solución simple llamada muestreo de Thompson. El muestreo de Thompson es un algoritmo para la toma de decisiones en línea en el que, después de que le damos a una persona una muestra aleatoria para que la pruebe, usamos su respuesta para cambiar qué tan «aleatoria» será la siguiente muestra. Entonces, si hay varias personas a las que les gusta la Opción A, entonces es más probable que le demos a los futuros probadores la Opción A. Se introdujo por primera vez en 1933, pero fue prácticamente ignorada por la comunidad académica hasta décadas después. Luego, a principios de la década de 2010, se demostró que tenía aplicaciones prácticas muy sólidas, lo que llevó a una adopción generalizada del método.

La idea puede ser complicada de entender pero simple de implementar e increíblemente poderosa. Para configurar el problema a resolver con el muestreo de Thompson para limonada, vamos a simplificar un poco y solo consideraremos dos recetas potenciales. Podemos tratar cada receta (partes de azúcar, agua y limón) como un brazo sobre el bandido.

La razón por la que el muestreo de Thompson funciona es porque las preferencias de las personas tienen una cierta forma matemática, llamada distribución. En nuestras pruebas anteriores, estábamos usando un lanzamiento de moneda para determinar qué receta dejar probar a la gente, que se modela usando lo que se llama una distribución de Bernoulli, que simplemente cambia aleatoriamente entre dos opciones. Sin embargo, para el muestreo de Thompson, usaremos lo que se llama una distribución Beta que tiene un par de variables $\alpha$ y $\beta$ que representan éxitos y fracasos anteriores.

Existe una cierta probabilidad subyacente sobre la preferencia de las personas por cada receta de limonada. Elegimos inteligentemente una taza para obsequiar a nuestro amigo y puede optar por beberlo todo o dejarlo después de un sorbo. La preferencia de nuestro amigo se puede modelar con una probabilidad similar a la del lanzamiento de una moneda. La distribución de lanzamiento de moneda se denomina distribución de Bernoulli $p(1 -p)$ si $k = 1$. El muestreo de Thompson intentará calcular las probabilidades de esta distribución. La pieza clave del genio es qué distribución usar como apriori, que se completará como supongamos. El muestreo de Thompson utiliza una distribución Beta que tiene dos parámetros que representan el éxito y el fracaso $\alpha$, $\beta$.

Debido a que el muestreo de Thompson se actualiza después de cada nueva información, no tenemos que esperar 2 semanas para obtener nuestros resultados. En cambio, cada persona que probemos mejorará el modelo a medida que probamos, permitiéndonos usar solo nuestro pequeño grupo de amigos, en lugar de 10,000 personas. Es mucho más eficiente que el método ingenuo que probamos primero, y nuestros amigos obtendrán una buena limonada mucho más rápida, lo que resultará en menos tiempo perdido bebiendo limonada mala.

¿Cómo construmos la prueba A-B?

Cuando comenzamos el experimento, cada receta de limonada tiene dos valores: la cantidad de ganancias, o la cantidad de veces que nuestros amigos terminaron el vaso lleno de limonada, y la cantidad de pérdidas, o la cantidad de veces que se detuvieron después de unos pocos sorbos. Los dos parámetros de la distribución Beta($\alpha$, $\beta$) representan el número de ganancias y pérdidas respectivamente.

Aquí está la parte inteligente. Elegimos qué receta de limonada presentar a nuestros amigos en función de la propia distribución Beta. Comenzamos con Beta(1,1) para ambas limonadas, lo que representa un número igual de ganancias y pérdidas y elegimos un número aleatorio usando la distribución Beta. Esto nos da un número entre cero y uno para cada receta. Si el número de limonada A es mayor que el de la limonada B, entonces le damos a probar la limonada A a nuestro amigo. De lo contrario, les damos limonada B.

Cuando prueban la limonada, registramos si beben todo el vaso o no en los parámetros $\alpha$ y $\beta$ para cada limonada. Entonces, si la primera persona bebió toda la Limonada A, entonces la distribución de la Limonada A cambiaría a Beta(2,1). Si solo tomaran un sorbo, cambiaría a Beta (1,2) en su lugar. A medida que aumenta el número de ganancias de una limonada, los números entre 0 y 1 elegidos para esa limonada también serán mayores, lo que hace que sea más probable que esa limonada sea elegida en el futuro. Lo contrario también es cierto a medida que las pérdidas aumentan, y es menos probable que se recoja la limonada. Después de probar estas dos recetas con algunos amigos, es posible que tengamos Beta (8,2) 6 para la limonada A y Beta (1, 6) para la limonada B.

Esto significa que nuestros amigos prefirieron la limonada A porque el valor de A es más alto. que la de la limonada B y nuestro algoritmo ahora sugerirá la limonada A a nuestros amigos con más frecuencia para que no se pierdan la receta más sabrosa.

¿Cuál es la receta de la limonada perfecta?

Al final, tenemos unas pocas líneas de código de toma de decisiones basadas en sólidos principios probabilísticos que garantizan la convergencia. Podemos aumentar la satisfacción de nuestros amigos y descubrir rápidamente qué limonada es la mejor. En este caso, según nuestros experimentos, la respuesta es 1:1:5, que es 1 taza de jugo de limón, 1 taza de azúcar y 5 tazas de agua. No necesitábamos probar nuestro método contra 10,000 amigos para tener confianza estadística. Y al final, tenemos un método infalible que podemos aplicar a cualquier cantidad de necesidades culinarias.

Breve introducción a los tipos de datos

Jesús Jiménez — Mon, 27 Jun 2022 00:00:12 +0000

Vamos a describir una breve taxonomía de los tipos de datos, describiendo terminologías usadas en las ciencia de datos.

Tabla de contenidos

tipos de datos estructurados vs datos no estructurados
Tipo de datos cuantitativos vs categóricos
Big data vs little data

tipos de datos estructurados vs datos no estructurados

Ciertos tipos de datos están bien estructurados, como las tablas en una base de datos o un programa de hoja de cálculo. Otros registran información sobre el estado del mundo, pero de forma más heterogénea. Tal vez sea un gran corpus de texto con imágenes y enlaces como Wikipedia, o la complicada combinación de notas y resultados de pruebas que aparecen en los registros médicos personales.

Los datos a menudo se representan mediante una matriz, donde las filas de la matriz representan elementos o registros distintos, y las columnas representan propiedades distintas de estos elementos. Por ejemplo, un conjunto de datos sobre ciudades de México puede contener una fila para cada ciudad, con columnas que representan características como el estado, la población y el área.

Cuando nos enfrentamos a una fuente de datos no estructurada, como una colección de tweets de Twitter, nuestro primer paso generalmente es construir una matriz para estructurarla. Un modelo o un algoritmo puede onstruir una matriz con una fila para cada tweet y una columna para cada palabra de vocabulario de uso frecuente. Entrada de matriz $M_{ij}$ luego denota la cantidad de veces que el tweet $i$ contiene la palabra $j$.

Tipo de datos cuantitativos vs categóricos

Los datos cuantitativos consisten en valores numéricos, como la altura y el peso. Dichos datos pueden incorporarse directamente en fórmulas algebraicas y modelos matemáticos, o mostrarse en gráficos y cuadros convencionales.

Por el contrario, los datos categóricos consisten en etiquetas que describen las propiedades de los objetos que se investigan, como el género, el color del cabello y la ocupación. Esta información descriptiva puede ser tan precisa y significativa como los datos numéricos, pero no se puede trabajar con las mismas técnicas.

Los datos categóricos generalmente se pueden codificar numéricamente. Por ejemplo, el género puede representarse como masculino = 0 o femenino = 1. Pero las cosas se complican más cuando hay más de dos caracteres por característica, especialmente cuando no hay un orden implícito entre ellos. Es posible que podamos codificar los colores de cabello como números asignando a cada tono un valor distinto, como canas = 0, cabello rojo = 1 y cabello rubio = 2. Sin embargo, no podemos tratar estos valores como números, para nada más que simple pruebas de identidad ¿Tiene algún sentido hablar de color de pelo máximo o mínimo? Cuál es la interpretación de mi color de cabello menos el color de tu cabello?.

Big data vs little data

La ciencia de datos se ha convertido en el ojo público con big data, el análisis de conjuntos de datos masivos resultantes de registros de computadora y dispositivos de sensores. En principio, tener más datos siempre es mejor que tener menos, porque siempre puede desechar algunos mediante muestreo para obtener un conjunto más pequeño si es necesario.

Big data es un fenómeno emocionante. Pero en la práctica, existen dificultades para trabajar con grandes conjuntos de datos, ya que las cosas se vuelven más difíciles una vez que el volumen es demasiado grande. Los desafíos de los grandes datos incluyen:

El tiempo del ciclo de análisis se ralentiza a medida que crece el tamaño de los datos: las operaciones computacionales en conjuntos de datos tardan más a medida que aumenta su volumen. Las hojas de cálculo pequeñas brindan una respuesta instantánea, lo que le permite experimentar y jugar ¿y si? Pero las hojas de cálculo grandes pueden ser lentas y complicadas para trabajar, y los conjuntos de datos lo suficientemente grandes pueden tardar horas o días en obtener respuestas. Los algoritmos inteligentes pueden permitir que se hagan cosas asombrosas con big data, pero mantenerse pequeño generalmente conduce a un análisis y una exploración más rápidos.
Los grandes conjuntos de datos son complejos de visualizar: los gráficos con millones de puntos son imposibles de mostrar en pantallas de computadora o imágenes impresas, y mucho menos comprender conceptualmente. ¿Cómo podemos esperar entender realmente algo que no podemos ver?
Los modelos simples no requieren datos masivos para entrenar o evaluar: una tarea típica de ciencia de datos podría ser tomar una decisión (por ejemplo, si debo ofrecer un seguro de vida a un cliente) en función de una pequeña cantidad de variables: digamos edad, sexo , altura, peso y la presencia o ausencia de condiciones médicas existentes. Si tengo los datos sobre 1 millón de personas con sus resultados de vida asociados, debería poder construir un buen modelo general de riesgo de cobertura. Probablemente no me ayudaría a construir un modelo sustancialmente mejor si tuviera estos datos de cientos de millones de personas. Los criterios de decisión sobre solo unas pocas variables (como la edad y el estado civil) no pueden ser demasiado complejos y deben ser sólidos para una gran cantidad de solicitantes. Cualquier observación que sea tan sutil que requiera datos masivos para desentrañar resultará irrelevante para una gran empresa que se basa en el volumen, y en la automatización del flujo puede consumir demasiados recursos.

El big data a veces se denominan tipos de datos incorrectos. A menudo se recopilan como el subproducto de un sistema o procedimiento determinado, en lugar de recopilarse a propósito para responder a su pregunta en cuestión. El resultado es que quizás tengamos que hacer esfuerzos heroicos para darle sentido a algo simplemente porque lo tenemos.

Consideremos el problema de obtener un pulso sobre las preferencias de los votantes entre los candidatos presidenciales. El enfoque de big data podría analizar feeds masivos de Twitter o Facebook, interpretando pistas de sus opiniones en el texto. El enfoque de datos pequeños podría consistir en realizar una encuesta, haciéndoles a unos cientos de personas esta pregunta específica y tabulando los resultados. ¿Qué procedimiento crees que resultará más preciso? El conjunto de datos correcto es el más directamente relevante para las tareas en cuestión, no necesariamente el más grande.

Descripción general del flujo de modelos con machine learning

Jesús Jiménez — Sun, 19 Jun 2022 20:41:31 +0000

El flujo de modelos con machine learning comienza con la ingestión de nuevos datos de entrenamiento y termina con la recepción de algún tipo de retroalimentación sobre el rendimiento del modelo recién entrenado. Estos pasos pueden ser medidas de rendimiento de producción (la importancia de dicho flujo la podemos leer aquí). El flujo incluye una variedad de pasos, incluido el preprocesamiento de datos, el entrenamiento del modelo y el análisis del modelo, así como la implementación del modelo. Seguir estos pasos manualmente es tedioso y muy propenso a errores.

El flujo del modelado es en realidad un ciclo recurrente. Los datos se pueden recopilar continuamente y entonces, los modelos de machine learning se pueden actualizar y mejorar. Debido a esta constante afluencia de datos conviene automatizar, como los modelos desplegados, deseamos volver a entrenarlos con frecuencia. Ya que si no lo hace, en muchos casos la precisión disminuirá porque los datos de entrenamiento son diferentes de los nuevos datos sobre los que el modelo hace predicciones. Si el reentrenamiento es un proceso manual, donde es necesario validar manualmente los nuevos datos de entrenamiento o analizar los modelos actualizados, un científico de datos no tendría tiempo para desarrollar nuevos modelos para problemas comerciales completamente diferentes.

Tabla de contenidos

Ingestión de datos y control de versiones
Validación de datos
Preprocesamiento de datos
Entrenamiento y ajuste de modelos
Análisis del modelo
Control de versiones del modelo
Implementación del modelo
Proceso de retroalimentación
Privacidad de los datos
Gobernanza del flujo de modelado
Gráficos acíclicos dirigidos

Ingestión de datos y control de versiones

La ingestión de datos, es el comienzo del flujo de modelos de machine learning. En este paso procesamos los datos en un formato que los siguientes pasos pueden digerir. El paso de ingestión de datos no realiza ninguna procesamiento de datos (esto sucede después del paso de validación de datos). También es un buen momento para versionar los datos entrantes para conectar una instantánea de datos con el modelo entrenado al final del flujo.

Validación de datos

Antes de entrenar una nueva versión de un modelo, necesitamos validar los nuevos datos. La validación de datos se enfoca en verificar que las estadísticas de los nuevos datos sean las esperadas (por ejemplo, el rango, el número de categorías y la distribución de categorías). También nos alerta si se detectan anomalías. Por ejemplo, si estamos entrenando un modelo de clasificación binaria, los datos de entrenamiento podrían contener un 50% de muestras de clase X y un 50 % de muestras de clase Y. Las herramientas de validación de datos brindan alertas si la división entre estas clases cambia, porque se entrenaría un modelo sesgado.

Si un modelo está siendo entrenado con datos desequilibrados y no hemos ajustado la función de pérdida del modelo, o el muestreo de los datos de categoría X o Y no son representativas, las predicciones del modelo podrían estar sesgadas hacia la categoría dominante. Las herramientas comunes de validación de datos también permiten comparar diferentes conjuntos de datos. Si tenemos un conjunto de datos con una etiqueta dominante y dividimos el conjunto en un conjunto de entrenamiento y validación, debemos asegurar que la división de la etiqueta sea aproximadamente la misma entre los dos conjuntos de datos. Las herramientas de validación de datos nos permitirán comparar conjuntos de datos y resaltar anomalías.

Si la validación resalta algo fuera de lo común, el flujo se puede detener aquí y nos puede alertar. Si se detecta un cambio en los datos, podemos cambiar el muestreo de las clases individuales (por ejemplo, elegir solo la misma cantidad de ejemplos de cada clase) o cambiar la función de pérdida del modelo, iniciar un nuevo flujo de creación de modelos y reiniciar el ciclo nuevamente.

Preprocesamiento de datos

Es muy probable que no podamos usar los datos recién recopilados y entrenar un modelo de machine learning directamente. En casi todos los casos, deberemos preprocesar los datos para usarlos en el modelado. Las etiquetas a menudo deben convertirse en uno o varios vectores, lo mismo se aplica a las entradas del modelo. Si entrenamos un modelo a partir de datos de texto, debemos convertir los caracteres del texto en índices o tokens de texto a vectores de palabras. Dado que el preprocesamiento solo se requiere antes del entrenamiento del modelo y no con cada parte de entrenamiento, tiene más sentido ejecutar el preprocesamiento en el propio paso del ciclo de vida antes de entrenar el modelo.

Las herramientas de preprocesamiento de datos pueden variar desde un simple script de Python hasta modelos gráficos elaborados. Si bien la mayoría de nosotros nos centramos en las capacidades de procesamiento de nuestras herramientas preferidas, también es importante que las modificaciones de los pasos de preprocesamiento se puedan vincular a los datos procesados y viceversa. Esto significa que si alguien modifica un paso de procesamiento (por ejemplo, permite una etiqueta adicional en una conversión de un vector), los datos de entrenamiento anteriores deberían volverse inválidos y forzar una actualización de todo el flujo.

Entrenamiento y ajuste de modelos

El paso de entrenamiento del modelo es el núcleo del flujo de modelos con machine learning. En este paso, entrenamos un modelo para tomar entradas y predecir una salida con el menor error posible. Con modelos más grandes y especialmente con conjuntos de entrenamiento grandes, este paso puede volverse difícil de manejar rápidamente. Dado que la memoria es generalmente un recurso finito para nuestros cálculos, la distribución eficiente del entrenamiento del modelo es crucial.

El ajuste de modelos ha recibido mucha atención últimamente porque puede generar mejoras significativas en el rendimiento y proporcionar una ventaja competitiva. Dependiendo del proyecto de machine learning, podemos elegir ajustar el modelo antes de comenzar a pensar en cómo ajustarlo como parte de su flujo. Debido a que nuestro flujo es escalables, gracias a su arquitectura subyacente, podemos generar una gran cantidad de modelos en paralelo o en secuencia. Esto nos permite seleccionar los hiperparámetros de modelo óptimos para nuestro modelo de producción final.

Análisis del modelo

En general, usaríamos la precisión o la pérdida para determinar el conjunto óptimo de parámetros del modelo. Pero una vez que nos hemos decidido por la versión final del modelo, es extremadamente útil llevar a cabo un análisis más profundo del rendimiento del modelo. Esto puede incluir el cálculo de otras métricas, como precisión, recuperación y AUC (área bajo la curva), o el cálculo del rendimiento en un conjunto de datos más grande que el conjunto de validación utilizado en el entrenamiento.

Otra razón para un análisis profundo del modelo es verificar que las predicciones del modelo sean justas. Es imposible saber cómo funcionará el modelo para diferentes grupos de usuarios a menos que el conjunto de datos esté dividido y se calcule el rendimiento para cada porción. También podemos investigar la dependencia del modelo de las funciones utilizadas en el entrenamiento y explorar cómo cambiarían las predicciones del modelo si modificamos las funciones de un solo conjunto de entrenamiento.

Similar al paso de ajuste del modelo y la selección final del modelo de mejor rendimiento, este paso de flujo de trabajo requiere una revisión por parte de nosotros. Sin embargo, se puede automatizar todo el análisis con solo la revisión final realizada por un ser humano. La automatización mantendrá el análisis de los modelos consistente y comparable con otros análisis.

Control de versiones del modelo

El propósito del paso de validación y control de versiones del modelo es realizar un seguimiento de qué modelo, conjunto de hiperparámetros y conjuntos de datos se han seleccionado como la próxima versión que se implementará.

El control de versiones semántico en ingeniería de software requiere que aumentemos el número de versión principal cuando realizamos un cambio incompatible en su API o cuando agregamos características principales. De lo contrario, aumenta el número de versiones secundarias. La gestión de puesta en producción de modelos tiene otro grado de libertad: el conjunto de datos. Hay situaciones en que podemos lograr una diferencia significativa en el rendimiento del modelo sin cambiar un solo parámetro del modelo o descripción de la arquitectura proporcionando significativamente más y/o mejores datos para el proceso de entrenamiento. ¿Ese aumento de rendimiento justifica una actualización de versión principal?.

Si bien la respuesta a esta pregunta puede ser diferente para cada proyecto, es esencial documentar todas las entradas en una nueva versión del modelo (hiperparámetros, conjuntos de datos, arquitectura) y realizar un seguimiento como parte de este paso de lanzamiento.

Implementación del modelo

Una vez que haya entrenado, ajustado y analizado el modelo, estará listo para la puesta en producción. Desafortunadamente, se implementan demasiados modelos con implementaciones únicas, lo que hace que la actualización de modelos sea un proceso frágil.

Los servidores de modelos modernos permiten implementar modelos sin escribir el código de la aplicación web. A menudo, proporcionan varias interfaces de API, como transferencia de estado representacional (REST) o protocolos de llamada a procedimiento remoto (RPC), y permiten alojar varias versiones del mismo modelo simultáneamente. Alojar varias versiones al mismo tiempo nos permitirá ejecutar pruebas A/B en modelos y brindar comentarios valiosos sobre las mejoras del modelo.

Los servidores modelo también le permiten actualizar una versión modelo sin volver a implementar su aplicación, lo que reducirá el tiempo de inactividad de la aplicación y reducirá la comunicación entre el desarrollo de la aplicación y los equipos de machine learning.

Proceso de retroalimentación

El último paso del flujo de modelos de machine learning a menudo se olvida, pero es crucial para el éxito de los proyectos de ciencia de datos, que es cerrar el ciclo. A continuación, podemos medir la eficacia y el rendimiento del modelo recién implementado. Durante este paso, podemos capturar información valiosa sobre el rendimiento del modelo. En algunas situaciones, también podemos capturar nuevos datos de entrenamiento para aumentar nuestros conjuntos de datos y actualizar nuestro modelo. Esto puede involucrar a un humano en el ciclo, o puede ser automático.

Excepto por los dos pasos de revisión manual (el paso de análisis del modelo y el paso de retroalimentación), podemos automatizar todo el flujo. Los científicos de datos deberíamos poder concentrarnos en el desarrollo de nuevos modelos, no en actualizar y mantener los modelos existentes.

Privacidad de los datos

Hasta ahora privacidad de datos quedan fuera del flujo estándar de modelos con machine learning. Esperamos que esto cambie en el futuro a medida que aumentan las preocupaciones de los consumidores sobre el uso de sus datos y se introducen nuevas leyes para restringir el uso de datos personales. Esto conducirá a que los métodos de preservación de la privacidad se integren en herramientas para construcción de flujos de modelos.
Discutimos varias opciones actuales para aumentar la privacidad en los modelos de machine learning:

Privacidad diferencial, donde las matemáticas garantizan que las predicciones del modelo no exponen los datos de un usuario.
Aprendizaje descentralizado, donde los datos sin procesar no salen del dispositivo de un usuario.
Aprendizaje automático cifrado, en el que se puede ejecutar todo el proceso en un espacio encriptado.

Gobernanza del flujo de modelado

Todos los componentes del flujo de modelos con machine learning descritos en la sección anterior deben ejecutarse en el orden correcto. Las entradas a un componente deben calcularse antes de que se ejecute un componente. El órden de estos pasos se realiza mediante herramientas como Apache Beam, Apache Airflow o Kubeflow Pipelines para la infraestructura de Kubernetes.

Mientras que las herramientas de flujo de datos coordinan los pasos del flujo de modelado, los almacenes de artefactos de canalización como TensorFlow ML MetadataStore capturan los resultados de los procesos individuales.

En 2015, un grupo de ingenieros de aprendizaje automático de Google llegó a la conclusión de que una de las razones por las que los proyectos de aprendizaje automático suelen fallar porque la mayoría de los proyectos vienen con un código personalizado, esto cierra la brecha entre los pasos del flujo de modelado.

Sin embargo, este código personalizado no se transfiere fácilmente de un proyecto a otro. Los investigadores resumieron sus hallazgos en el artículo «Deuda técnica oculta en sistemas de aprendizaje automático«. Con el tiempo, se han desarrollado herramientas como Apache Beam, Apache Airflow o Kubeflow Pipelines. Estas herramientas se pueden usar para administrar las tareas del flujo de modelado. permiten una gobernanza estandarizada y una abstracción del código de unión entre tareas.

Si bien al principio puede parecer engorroso aprender una nueva herramienta (por ejemplo, Beam o Airflow) o un nuevo marco (por ejemplo, Kubeflow) y configurar una infraestructura de aprendizaje automático adicional (por ejemplo, Kubernetes), la inversión de tiempo se verá recompensada muy pronto. Al no adoptar flujos de machine learning estandarizadas, los equipos de ciencia de datos se enfrentarán a configuraciones de proyectos únicas, ubicaciones arbitrarias de archivos de registro, pasos de depuración únicos, etc. La lista de complicaciones puede ser interminable.

Gráficos acíclicos dirigidos

Las herramientas de canalización como Apache Beam, Apache Airflow y Kubeflow Pipelines administran el flujo de tareas a través de una representación gráfica de las dependencias de tareas.

Los pasos de canalización están dirigidos. Esto significa que un flujo comienza con la Tarea A y termina con la Tarea Z, lo que garantiza que la ruta de ejecución esté claramente definida por las dependencias de las tareas. Los gráficos dirigidos evitan situaciones en las que algunas tareas comienzan sin que todas las dependencias se hayan calculado por completo. Dado que sabemos que debemos preprocesar nuestros datos de entrenamiento antes de entrenar un modelo, la representación como un gráfico dirigido evita que la tarea de entrenamiento se ejecute antes de que se complete el paso de preprocesamiento.

Los gráficos del flujo también deben ser acíclicos, lo que significa que un gráfico no se vincula a una tarea completada anteriormente. Esto significaría que alguna tarea podría ejecutarse indefinidamente y por lo tanto, no terminaría el flujo de trabajo. Debido a las dos condiciones (ser dirigido y acíclico), los gráficos del flujo se denominan gráficos acíclicos dirigidos (DAG). Descubriremos más adelante que los DAG son un concepto central detrás de la mayoría de las herramientas de flujo de trabajo.

Automatización de flujo de modelos con machine learning

Jesús Jiménez — Mon, 13 Jun 2022 02:04:00 +0000

El beneficio clave de la creación del flujo de modelos con machine learning radica en la automatización de los pasos del ciclo de vida del modelo. Cuando hay nuevos datos de entrenamiento disponibles, debemos activar un flujo de trabajo que incluya validación de datos, preprocesamiento, entrenamiento de modelos, análisis e implementación. Usualmente estos pasos se realizan manualmente, pero con la desventaja de que es es costoso y también una posible fuente de errores. Veamos algunos detalles de los beneficios de los flujos de modelos de machine learning:

Tabla de contenidos

Capacidad para centrarse en nuevos modelos, sin mantener los modelos existentes
Prevención de errores
Registro de versiones
Estandarización
Impacto en negocio del flujo de modelos

Capacidad para centrarse en nuevos modelos, sin mantener los modelos existentes

El flujo de modelos con machine learning automatizado libera al científico de datos del mantenimiento de los modelos existentes. Usualmente, el científico de datos dedica sus días a mantener actualizados los modelos desarrollados previamente. Ejecuta scripts manualmente para preprocesar sus datos de entrenamiento, escriben scripts de implementación únicos o ajustan manualmente sus modelos. El flujo automatizado permite al científico de datos desarrollar nuevos modelos, que es la parte divertida de su trabajo. En última instancia, esto conducirá a una mayor satisfacción laboral.

Prevención de errores

El flujo de modelos con machine learning automatizado puede prevenir errores. Los modelos recién creados se vincularán a un conjunto de datos versionados y los pasos de preprocesamiento se vincularán al modelo desarrollado. Esto significa que si se recopilan nuevos datos, se generará un nuevo modelo. Si se actualizan los pasos de preprocesamiento, los datos de entrenamiento dejarán de ser válidos y se generará un nuevo modelo. En los flujos de trabajo manual de machine learning, una fuente común de errores es un cambio en el paso de preprocesamiento después de entrenar un modelo. En este caso, implementaríamos un modelo con instrucciones de procesamiento diferentes a las que usamos para entrenar el modelo. Estos errores pueden ser realmente difíciles de depurar ya que aún es posible una inferencia del modelo pero incorrecta. Con flujos de trabajo automatizados, estos errores se pueden prevenir.

Registro de versiones

El seguimiento del experimento y la gestión de la liberación del modelo generan un registro de los cambios del modelo. El experimento registrará los cambios en los hiperparámetros del modelo, los conjuntos de datos utilizados y las métricas del modelo resultante (por ejemplo pérdida o precisión). La gestión del paso en productivo de modelos hará un seguimiento de qué modelo se seleccionó e implementó finalmente. Este rastro de versiones es especialmente valioso si el equipo de ciencia de datos necesita volver a crear un modelo o realizar un seguimiento del rendimiento del modelo.

Estandarización

El flujo de modelos con machine learning estandarizado mejoran la experiencia de un equipo de ciencia de datos. Debido a las configuraciones estandarizadas, los científicos de datos pueden incorporarse rápidamente o moverse entre equipos y encontrar los mismos entornos de desarrollo. Esto mejora la eficiencia y reduce el tiempo dedicado a configurar un nuevo proyecto. La inversión de tiempo en la configuración del flujo de modelos con machine learning también puede conducir a una tasa de innovación alta.

Impacto en negocio del flujo de modelos

La implementación de un flujo de modelos automatizado conducirá a tres impactos clave:

Más tiempo de desarrollo para modelos novedosos.
Procesos más simples para actualizar los modelos existentes.
Menos tiempo dedicado a reproducir modelos.

Todos estos aspectos reducirán los costes de los proyectos de ciencia de datos. Pero además, la automatización del flujo:

Ayudar a detectar posibles sesgos en los conjuntos de datos o en los modelos entrenados. Detectar sesgos puede evitar daños a las personas que interactúan con el modelo. Por ejemplo, Amazon se descubrió que el filtro de currículum impulsado por el aprendizaje automático estaba sesgado en contra de candidatas.
Se crea un registro de versiones (mediante el seguimiento de experimentos y la gestión de liberación de modelos) que ayudará si surgen preguntas sobre las leyes de protección de datos.
Liberar tiempo de desarrollo para el científico de datos y aumentar su satisfacción laboral.

Sesgo de selección

Jesús Jiménez — Mon, 06 Jun 2022 00:39:17 +0000

El sesgo de selección se refiere a la práctica de elegir datos de manera selectiva, consciente o inconscientemente, de una manera que conduce a una conclusión engañosa o efímera.

Tabla de contenidos

¿Cómo vemos el sesgo de selección?
Regresión a la media
Comentarios finales

¿Cómo vemos el sesgo de selección?

A menudo, vemos los datos disponibles y tratamos de discernir patrones. Pero, ¿los patrones son reales? ¿O son solo el producto de la indagación de datos, es decir, una búsqueda exhaustiva a través de los datos hasta que surge algo interesante?.

La diferencia entre un fenómeno que verifica cuando pruebamos una hipótesis usando un experimento y un fenómeno que descubrimos al leer detenidamente los datos disponibles puede iluminarse con el siguiente experimento mental: Imaginemos que alguien nos dice que podemos lanzar una moneda y hacer que caiga cara en los próximos 10 lanzamientos. Los desafíamos (el equivalente a un experimento), y ellos proceden a lanzar la moneda 10 veces, y todos los lanzamientos caen en cara. Claramente, le atribuimos algún talento especial a esta persona: la probabilidad de que 10 lanzamientos de moneda caigan en cara con solo la probabilidad es de 1 en 1,000.

Ahora imaginemos que un locutor en un estadio deportivo le pide a las 20,000 personas presentes que lancen una moneda 10 veces y que informen si obtienen 10 caras seguidas. La probabilidad de que alguien en el estadio obtenga 10 caras es extremadamente alta (más del 99%, es 1 menos la probabilidad de que nadie obtenga 10 caras). Claramente, seleccionar a posteriori a la persona (o personas) que obtienen 10 caras en el estadio no indica que tengan ningún talento especial, lo más probable es que sea suerte.

Dado que la revisión repetida de grandes conjuntos de datos es una propuesta de valor clave en la ciencia de datos, el sesgo de selección es algo de lo que debemos preocuparnos. Una forma de sesgo de selección que preocupa particularmente a los científicos de datos es lo que John Elder, llama el efecto de «búsqueda amplia». Si ejecutamos repetidamente diferentes modelos y tienen resultados diferentes con un gran conjunto de datos, seguramente encontraremos algo interesante. Pero, ¿el resultado que encontramos es realmente algo interesante, o es un caso atípico? Podemos protegernos contra el sesgo mediante el uso de un conjunto reservado y, a veces, más de un conjunto reservado, contra el cual validar el rendimiento. Elder también aboga por el uso de lo que él llama barajar objetivos (una prueba de permutación, en esencia) para probar la validez de la predicción.
asociaciones que sugiere un modelo de minería de datos.

Las formas típicas de sesgo de selección en la estadística, además del amplio efecto de búsqueda, incluyen el muestreo no aleatorio (aquí hablamos al respecto), datos de selección selectiva, selección de intervalos de tiempo que acentúan un efecto estadístico particular y detener un experimento cuando los resultados parecen «interesantes».

Regresión a la media

La regresión a la media se refiere a un fenómeno que involucra mediciones sucesivas de una variable dada: las observaciones extremas tienden a ser seguidas por otras más centrales. Darle un enfoque y significado especial al valor extremo puede conducir a una forma de sesgo de selección.

Los fanáticos de los deportes están familiarizados con el fenómeno del «novato del año, mala racha de segundo año». Entre los atletas que comienzan su carrera en una temporada determinada (la clase de novatos), siempre hay uno que se desempeña mejor que todos los demás. En general, este «novato del año» no le va tan bien en su segundo año. ¿Por que no?
En casi todos los deportes principales, al menos en los que se juegan con pelota, hay dos elementos que juegan un papel en el rendimiento general: Habilidad y suerte.

La regresión a la media es consecuencia de una forma particular de sesgo de selección. Cuando seleccionamos al novato con el mejor desempeño, la habilidad y la buena suerte probablemente estén contribuyendo. En su próxima temporada la habilidad seguirá estando ahí pero muy a menudo la suerte no estará por lo que su desempeño decaerá, retrocederá. El fenómeno fue identificado por primera vez por Francis Galton en 1886, quien escribió sobre él en relación con las tendencias genéticas. Por ejemplo, los hijos de hombres extremadamente altos tienden a no ser tan altos como su padre.

La regresión a la media, que significa «retroceder», es distinta del método de modelado estadístico de regresión lineal, donde estima la relación entre las variables predictoras y un resultado variable.

Comentarios finales

La regresión a la media describe la característica de que los resultados «extremos» tienden a ser seguidos por otros más «normales». Es un concepto estadístico que es fácil de entender y fácil de olvidar. Cuando somos testigos de eventos «extremos», como éxitos o fracasos improbables, olvidamos cuán raros son esos eventos. Cuando estos eventos son seguidos por eventos más «normales», tratamos de explicar por qué ocurrieron estos eventos «normales», olvidamos que estos eventos «normales» son normales y que deberíamos esperar que sucedan. Esto a menudo nos lleva a atribuir poderes causales a personas, eventos e intervenciones que pueden no haber desempeñado ningún papel en provocar ese evento «normal».

Para evitar cometer errores, primero debemos darnos cuenta cuando estamos tratando de explicar algún evento o resultado (ya sea positivo o negativo). Entonces, debemos hacernos las siguientes preguntas:

¿Hay algo «anormal» en este resultado o es esto lo que debo esperar, estadísticamente hablando?
¿Fue este evento precedido por algún resultado «extremo» que hace que el «normal» parezca «extraño» en comparación?
¿Habría sucedido el evento «normal» de todos modos, incluso si eliminamos los eventos anteriores?

Por ejemplo, ¿el pie de atleta se habría sentido mejor incluso si no lo remojara en agua con ajo?.
La pregunta 1 nos obliga a considerar la probabilidad de que suceda el evento normal. La pregunta 2 nos anima a pensar en los resultados en relación unos con otros, no como observaciones aisladas. La pregunta 3 nos empuja a involucrarnos en un pensamiento contrafactual, imaginando un mundo donde la entidad que creemos que causó el evento «normal» ha sido eliminada. Al hacernos estas tres preguntas, es menos probable que atribuyamos poderes injustificados a eventos, personas, sistemas e intervenciones.