2010-01-29 27 views
10

Estoy haciendo una prueba A/B y enfrento la paradoja de Simpson en mis resultados (día contra mes versus duración total de la prueba).¿Qué implica la paradoja de Simpson en las pruebas AB?

  1. ¿Significa que mi prueba a/b no es correcta/representativa? (¿Algún factor externo afectó las pruebas?)
  2. Si es un signo de problema, ¿cuáles son las instrucciones a seguir?

Gracias por su gran ayuda.

Más información: http://en.wikipedia.org/wiki/Simpson%27s_paradox

+0

Pregunta similar aquí, puede proporcionar información: http://stats.stackexchange.com/questions/226994/how-to-deal-with-unequal-proportions-in-an-ab-test/227097#227097 –

Respuesta

10

Es un poco difícil de decir sin ver los datos exactos & las dimensiones que está probando, pero en general quiere tomar decisiones basadas en los datos no combinados. This article from Microsoft da un ejemplo bastante claro de la paradoja de Simpson en las pruebas de software.

¿Puede proporcionar un ejemplo claro de sus datos combinados y no combinados y un breve resumen de la prueba?

+0

+1 para un buen enlace –

+0

La palabra clave es: datos no combinados. :) ¡¡¡Gracias!!! – Toto

+1

No me gustan los artículos que comienzan con 'Las paradojas son divertidas'. o lo hago ...? –

1

paradoja de Simpson sólo se produce cuando los tamaños de los grupos son diferentes. En realidad, los resultados finales son un promedio ponderado de los resultados de cada grupo (y en esta ponderación, puede aparecer la paradoja).

No es realmente causado por factores externos o cosas. Es simplemente porque un grupo es mucho más significativo (porque tiene más elementos en el grupo).

Si proporciona más información, probablemente podamos ayudarlo mejor.

3

Si A es claramente, significativamente mejor en las pruebas individuales A/B, mientras que B puntúa mejor en conjunto, entonces la principal implicancia es que no puede agregar esos conjuntos de datos de esa manera. A es mejor.

Si las pruebas obtuvieron los mismos resultados todos los días, no obtendría este resultado claro, incluso con diferentes tamaños de muestra por día. Así que creo que implica adicionalmente que algo ha cambiado. Sin embargo, podría ser cualquier cosa. Tal vez lo que probaste cada día cambió (quizás de una manera muy sutil, como la velocidad del servidor). O tal vez la gente con la que lo estás probando cambió (tal vez demográficamente, tal vez solo en términos de su estado de ánimo). Eso no significa que su prueba sea mala o inválida. Simplemente significa que estás midiendo algo que se está moviendo, y eso hace que las cosas sean complicadas.

Y yo podría estar calculando mal o no se entiende la situación, pero yo creo también es necesariamente cierto que usted no ha estado probando A y B el mismo número de veces. Es decir, si el lunes probó A 50 veces y B 50 veces, y el martes probó A 600 veces y B 600 veces, y así sucesivamente, y A superó B cada día, entonces no veo cómo podría obtener un resultado agregado donde B late A. Si esto es cierto para la configuración de su prueba, ciertamente parece algo que podría solucionar para que sus datos sean más fáciles de razonar.

Cuestiones relacionadas