Si A es claramente, significativamente mejor en las pruebas individuales A/B, mientras que B puntúa mejor en conjunto, entonces la principal implicancia es que no puede agregar esos conjuntos de datos de esa manera. A es mejor.
Si las pruebas obtuvieron los mismos resultados todos los días, no obtendría este resultado claro, incluso con diferentes tamaños de muestra por día. Así que creo que implica adicionalmente que algo ha cambiado. Sin embargo, podría ser cualquier cosa. Tal vez lo que probaste cada día cambió (quizás de una manera muy sutil, como la velocidad del servidor). O tal vez la gente con la que lo estás probando cambió (tal vez demográficamente, tal vez solo en términos de su estado de ánimo). Eso no significa que su prueba sea mala o inválida. Simplemente significa que estás midiendo algo que se está moviendo, y eso hace que las cosas sean complicadas.
Y yo podría estar calculando mal o no se entiende la situación, pero yo creo también es necesariamente cierto que usted no ha estado probando A y B el mismo número de veces. Es decir, si el lunes probó A 50 veces y B 50 veces, y el martes probó A 600 veces y B 600 veces, y así sucesivamente, y A superó B cada día, entonces no veo cómo podría obtener un resultado agregado donde B late A. Si esto es cierto para la configuración de su prueba, ciertamente parece algo que podría solucionar para que sus datos sean más fáciles de razonar.
Pregunta similar aquí, puede proporcionar información: http://stats.stackexchange.com/questions/226994/how-to-deal-with-unequal-proportions-in-an-ab-test/227097#227097 –