Pruebas A / B

Las pruebas A / B (también conocidas como pruebas de depósito o pruebas de ejecución dividida ) son una metodología de investigación de la experiencia del usuario. ^[1] Las pruebas A / B consisten en un experimento aleatorio con dos variantes, A y B. ^[2]^[3] Incluye la aplicación de pruebas de hipótesis estadísticas o " pruebas de hipótesis de dos muestras " como se usa en el campo de la estadística . La prueba A / B es una forma de comparar dos versiones de una sola variable, generalmente probando la respuesta de un sujeto a la variante A con la variante B, y determinando cuál de las dos variantes es más efectiva. ^[4]

Ejemplo de prueba A / B en un sitio web. Al servir aleatoriamente a los visitantes dos versiones de un sitio web que solo difieren en el diseño de un solo botón, se puede medir la eficacia relativa de los dos diseños.

Descripción general

La prueba A / B es la abreviatura de un experimento controlado simple. ^[1] Como su nombre lo indica, se comparan dos versiones (A y B) de una sola variable, que son idénticas excepto por una variación que podría afectar el comportamiento de un usuario. Las pruebas A / B se consideran ampliamente la forma más simple de experimento controlado. Sin embargo, al agregar más variantes a la prueba, esto se vuelve más complejo. ^[5]

Las pruebas A / B son útiles para comprender la participación del usuario y la satisfacción de las funciones en línea, como una nueva función o producto. ^{[6] Los} grandes sitios de redes sociales como LinkedIn, Facebook e Instagram utilizan pruebas A / B para hacer que las experiencias de los usuarios sean más exitosas y como una forma de optimizar sus servicios. ^[6]

Hoy en día, las pruebas A / B se utilizan para ejecutar experimentos más complejos, como los efectos de red cuando los usuarios están fuera de línea, cómo los servicios en línea afectan las acciones de los usuarios y cómo los usuarios se influyen entre sí. ^[6] Muchos trabajos utilizan los datos de las pruebas A / B. Esto incluye ingenieros de datos, especialistas en marketing, diseñadores, ingenieros de software y emprendedores. ^[7] Muchos puestos se basan en los datos de las pruebas A / B, ya que permiten a las empresas comprender el crecimiento, aumentar los ingresos y optimizar la satisfacción del cliente. ^[7]

La versión A podría ser la versión actualmente utilizada (control), mientras que la versión B está modificada en algún aspecto (tratamiento). Por ejemplo, en un sitio web de comercio electrónico, el embudo de compra suele ser un buen candidato para las pruebas A / B, ya que incluso disminuciones marginales en las tasas de abandono pueden representar una ganancia significativa en las ventas. A veces se pueden ver mejoras significativas a través de elementos de prueba como copiar texto, diseños, imágenes y colores, ^[8] pero no siempre. En estas pruebas, los usuarios solo ven una de las dos versiones, ya que el objetivo es descubrir cuál de las dos versiones es preferible. ^[9]

Las pruebas multivariadas o multinomiales son similares a las pruebas A / B, pero pueden probar más de dos versiones al mismo tiempo o usar más controles. Las pruebas A / B simples no son válidas para situaciones de observación , cuasi-experimentales u otras situaciones no experimentales , como es común con datos de encuestas, datos fuera de línea y otros fenómenos más complejos.

Algunas personas han comercializado las pruebas A / B como un cambio en la filosofía y la estrategia empresarial en ciertos nichos, aunque el enfoque es idéntico al diseño entre sujetos , que se usa comúnmente en una variedad de tradiciones de investigación. ^[10]^[11]^[12] Las pruebas A / B como filosofía del desarrollo web alinean el campo con un movimiento más amplio hacia la práctica basada en la evidencia . Se considera que los beneficios de las pruebas A / B son que se pueden realizar de forma continua en casi cualquier cosa, especialmente porque la mayoría del software de automatización de marketing ahora normalmente viene con la capacidad de ejecutar pruebas A / B de forma continua.

Estadísticas de prueba comunes

Las "pruebas de hipótesis de dos muestras" son apropiadas para comparar las dos muestras donde las muestras se dividen por los dos casos de control en el experimento. Las pruebas Z son apropiadas para comparar medias en condiciones estrictas con respecto a la normalidad y una desviación estándar conocida. Las pruebas t de Student son apropiadas para comparar medias en condiciones relajadas cuando se supone menos. La prueba t de Welch supone el mínimo y, por lo tanto, es la prueba más utilizada en una prueba de hipótesis de dos muestras en la que se debe optimizar la media de una métrica. Si bien la media de la variable a optimizar es la elección más común de estimador , otros se utilizan regularmente.

Para una comparación de dos distribuciones binomiales , como una tasa de clics, se usaría la prueba exacta de Fisher .

Distribución supuesta	Caso de ejemplo	Prueba estándar	Prueba alternativa
Gaussiano	El ingreso promedio por usuario	Prueba t de Welch ( prueba t para datos no apareados)	Prueba t de Student
Binomio	Clic por calificaciones	Prueba exacta de Fisher	Prueba de Barnard
Poisson	Transacciones por usuario de pago	Prueba electrónica ^[13]	Prueba C
Multinomial	Número de cada producto comprado	Prueba de chi-cuadrado
Desconocido		Prueba U de Mann-Whitney	Muestreo de Gibbs

Historia

Como la mayoría de los campos, es difícil establecer una fecha para la llegada de un nuevo método. En 1835 tenemos un ensayo aleatorio doble ciego para evaluar la eficacia de un fármaco homeopático. ^{[14] La} experimentación con campañas publicitarias, que se ha comparado con las pruebas A / B modernas, comenzó a principios del siglo XX. ^[15] El pionero de la publicidad Claude Hopkins utilizó cupones promocionales para probar la eficacia de sus campañas. Sin embargo, este proceso, que Hopkins describió en su Publicidad científica , no incorporó conceptos como la significación estadística y la hipótesis nula , que se utilizan en la prueba de hipótesis estadísticas . ^[16] Los métodos estadísticos modernos para evaluar la importancia de los datos de la muestra se desarrollaron por separado en el mismo período. Este trabajo fue realizado en 1908 por William Sealy Gosset cuando alteró la prueba Z para crear la prueba t de Student . ^[17]^[18]

Con el crecimiento de Internet, están disponibles nuevas formas de muestrear poblaciones. Los ingenieros de Google realizaron su primera prueba A / B en el año 2000 en un intento de determinar cuál sería el número óptimo de resultados para mostrar en la página de resultados de su motor de búsqueda. ^[4] La primera prueba no tuvo éxito debido a fallas que resultaron de tiempos de carga lentos. La investigación posterior de las pruebas A / B sería más avanzada, pero la base y los principios subyacentes generalmente siguen siendo los mismos, y en 2011, 11 años después de la primera prueba de Google, Google ejecutó más de 7,000 pruebas A / B diferentes. ^[4]

En 2012, un empleado de Microsoft que trabajaba en el motor de búsqueda Bing creó un experimento para probar diferentes formas de mostrar titulares publicitarios. En cuestión de horas, el formato alternativo produjo un aumento de ingresos del 12% sin impacto en las métricas de experiencia del usuario. ^[3] En la actualidad, empresas como Microsoft y Google realizan cada una más de 10.000 pruebas A / B al año. ^[3]

Muchas empresas ahora utilizan el enfoque de "experimento diseñado" para tomar decisiones de marketing, con la expectativa de que los resultados de muestras relevantes puedan mejorar los resultados de conversión positivos. ^{[ cita requerida ]} Es una práctica cada vez más común a medida que las herramientas y la experiencia crecen en esta área. ^{[ cita requerida ]}

Ejemplos de

Correo de propaganda

Una empresa con una base de datos de clientes de 2.000 personas decide crear una campaña de correo electrónico con un código de descuento para generar ventas a través de su sitio web. Crea dos versiones del correo electrónico con diferentes llamadas a la acción (la parte de la copia que anima a los clientes a hacer algo, en el caso de una campaña de ventas, realizar una compra) y un código de identificación promocional.

A 1,000 personas, envía el correo electrónico con la llamada a la acción que dice: "¡La oferta termina este sábado! Use el código A1",
ya otras 1,000 personas envía el correo electrónico con la llamada a la acción que dice: "¡La oferta termina pronto! Use el código B1".

Todos los demás elementos de la copia y el diseño de los correos electrónicos son idénticos. Luego, la empresa monitorea qué campaña tiene la tasa de éxito más alta analizando el uso de los códigos promocionales. El correo electrónico que usa el código A1 tiene una tasa de respuesta del 5% (50 de las 1,000 personas enviadas por correo electrónico usaron el código para comprar un producto), y el correo electrónico que usa el código B1 tiene una tasa de respuesta del 3% (30 de los destinatarios usaron el código para comprar un producto). Por lo tanto, la empresa determina que en esta instancia, el primer Call To Action es más efectivo y lo utilizará en futuras ventas. Un enfoque más matizado implicaría la aplicación de pruebas estadísticas para determinar si las diferencias en las tasas de respuesta entre A1 y B1 eran estadísticamente significativas (es decir, es muy probable que las diferencias sean reales, repetibles y no debidas al azar). ^[19]

En el ejemplo anterior, el propósito de la prueba es determinar cuál es la forma más eficaz de alentar a los clientes a realizar una compra. Sin embargo, si el objetivo de la prueba hubiera sido ver qué correo electrónico generaría la tasa de clics más alta , es decir, la cantidad de personas que realmente hacen clic en el sitio web después de recibir el correo electrónico, entonces los resultados podrían haber sido diferentes.

Por ejemplo, aunque más de los clientes que recibieron el código B1 accedieron al sitio web, debido a que el llamado a la acción no indicó la fecha de finalización de la promoción, muchos de ellos pueden no sentir la urgencia de realizar una compra inmediata. En consecuencia, si el propósito de la prueba hubiera sido simplemente ver qué correo electrónico traería más tráfico al sitio web, entonces el correo electrónico que contiene el código B1 podría haber tenido más éxito. Una prueba A / B debe tener un resultado definido que sea medible, como la cantidad de ventas realizadas, la tasa de conversión de clics o la cantidad de personas que se registran. ^[20]

Pruebas A / B de precios de productos

Las pruebas A / B se pueden utilizar para determinar el precio correcto para el producto, ya que esta es quizás una de las tareas más difíciles cuando se lanza un nuevo producto o servicio.

Las pruebas A / B (especialmente válidas para productos digitales) son una excelente manera de averiguar qué precio y qué oferta maximizan los ingresos totales.

Pruebas políticas A / B

Las pruebas A / B se utilizan para más que corporaciones, pero también impulsan campañas políticas. En 2007, la campaña presidencial de Barack Obama utilizó las pruebas A / B como una forma de atraer la atención en línea y comprender lo que los votantes querían ver del candidato presidencial. ^[21] Por ejemplo, el equipo de Obama probó cuatro botones distintos en su sitio web que llevaron a los usuarios a suscribirse a los boletines. Además, el equipo utilizó seis imágenes de acompañamiento diferentes para atraer a los usuarios. A través de las pruebas A / B, el personal pudo determinar cómo atraer votantes de manera efectiva y obtener un interés adicional. ^[21]

Segmentación y focalización

Las pruebas A / B suelen aplicar la misma variante (p. Ej., Elemento de interfaz de usuario) con la misma probabilidad para todos los usuarios. Sin embargo, en algunas circunstancias, las respuestas a las variantes pueden ser heterogéneas. Es decir, mientras que una variante A puede tener una tasa de respuesta más alta en general, la variante B puede tener una tasa de respuesta aún mayor dentro de un segmento específico de la base de clientes. ^[22]

Por ejemplo, en el ejemplo anterior, el desglose de las tasas de respuesta por género podría haber sido:

Género	General	Hombres	Mujeres
Envíos totales	2.000	1.000	1.000
Respuestas totales	80	35	45
Variante A	50/ 1.000 (5%)	10/ 500 (2%)	40/ 500 (8%)
Variante B	30/ 1.000 (3%)	25/ 500 (5%)	5/ 500 (1%)

En este caso, podemos ver que si bien la variante A tuvo una tasa de respuesta más alta en general, la variante B en realidad tuvo una tasa de respuesta más alta con los hombres.

Como resultado, la empresa podría seleccionar una estrategia segmentada como resultado de la prueba A / B, enviando la variante B a los hombres y la variante A a las mujeres en el futuro. En este ejemplo, una estrategia segmentada produciría un aumento en las tasas de respuesta esperadas de ${\ textstyle 5 \% = {\ frac {40 + 10} {500 + 500}}}$ a ${\ textstyle 6.5 \% = {\ frac {40 + 25} {500 + 500}}}$ - lo que constituye un aumento del 30%.

Es importante tener en cuenta que si se esperan resultados segmentados de la prueba A / B, la prueba debe diseñarse correctamente desde el principio para distribuirse uniformemente entre los atributos clave del cliente, como el género. Es decir, la prueba debe (a) contener una muestra representativa de hombres frente a mujeres y (b) asignar hombres y mujeres al azar a cada "variante" (variante A frente a variante B). Si no lo hace, podría producirse un sesgo del experimento y extraer conclusiones inexactas de la prueba. ^[23]

Este enfoque de segmentación y focalización se puede generalizar aún más para incluir múltiples atributos del cliente en lugar de un solo atributo del cliente, por ejemplo, la edad y el género de los clientes , para identificar patrones más matizados que pueden existir en los resultados de la prueba.

Ver también

Control adaptativo
Modelado de elección
Bandido de múltiples brazos
Prueba multivariante
Ensayo controlado aleatorio
Control científico
Estadística de prueba

Referencias

^ a b Young, Scott WH (agosto de 2014). "Mejora de la experiencia del usuario de la biblioteca con pruebas A / B: principios y proceso" . Weave: Journal of Library User Experience . 1 (1). doi : 10.3998 / weave.12535642.0001.101 . hdl : 2027 / spo.12535642.0001.101 .
^ Kohavi, Ron; Longbotham, Roger (2017). "Experimentos controlados en línea y pruebas A / B" (PDF) . En Sammut, Claude; Webb, Geoff (eds.). Enciclopedia de Machine Learning y Data Mining . Saltador.
^ a b c Kohavi, Ron; Thomke, Stefan (septiembre de 2017). "El sorprendente poder de los experimentos en línea" . Harvard Business Review : 74–82.
^ a b c "El ABC de las pruebas A / B - Pardot" . Pardot . Consultado el 21 de febrero de 2016 .
^ Kohavi, Ron; Longbotham, Roger (2017). "Experimentos controlados en línea y pruebas A / B". Enciclopedia de Machine Learning y Data Mining . págs. 922–929. doi : 10.1007 / 978-1-4899-7687-1_891 . ISBN 978-1-4899-7685-7.
^ a b c Xu, Ya; Chen, Nanyu; Fernández, Addrian; Sinno, Omar; Bhasin, Anmol (10 de agosto de 2015). "De la infraestructura a la cultura: desafíos de las pruebas A / B en las redes sociales a gran escala". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos : 2227–2236. doi : 10.1145 / 2783258.2788602 . S2CID 15847833 .
^ a b Siroker, Dan; Koomen, Pete (7 de agosto de 2013). Pruebas A / B: la forma más eficaz de convertir los clics en clientes . John Wiley e hijos. ISBN 978-1-118-65920-5.
^ "Guía de prueba dividida para tiendas online" . webics.com.au. 27 de agosto de 2012 . Consultado el 28 de agosto de 2012 .
^ Kaufman, Emilie (2014). "Sobre la complejidad de las pruebas A / B" (PDF) . 35 . arXiv : 1405.3224 . Bibcode : 2014arXiv1405.3224K - vía JMLR: Actas de talleres y conferencias. Cite journal requiere |journal=( ayuda )
^ Christian, Brian (27 de febrero de 2000). "La prueba A / B: dentro de la tecnología que está cambiando las reglas del negocio | Wired Business" . Wired.com . Consultado el 18 de marzo de 2014 .
^ Christian, Brian. "Probar todo: notas sobre la revolución A / B | Wired Enterprise" . Wired.com . Consultado el 18 de marzo de 2014 .
^ Cory Doctorow (26 de abril de 2012). "Pruebas A / B: el motor secreto de creación y refinamiento para el siglo XXI" . Boing Boing . Consultado el 18 de marzo de 2014 .
^ Krishnamoorthy, K .; Thomson, Jessica (2004). "Una prueba más poderosa para comparar dos medias de Poisson". Revista de Planificación e Inferencia Estadística . 119 : 23–35. doi : 10.1016 / S0378-3758 (02) 00408-1 .
^ Stolberg, M (diciembre de 2006). "Inventar el ensayo aleatorio doble ciego: la prueba de sal de Nuremberg de 1835" . Revista de la Real Sociedad de Medicina . 99 (12): 642–643. doi : 10.1258 / jrsm.99.12.642 . PMC 1676327 . PMID 17139070 .
^ "¿Qué son las pruebas A / B?" Convertir. Consultado el 28 de enero de 2020.
^ "Claude Hopkins convirtió la publicidad en una ciencia". Consultado el 1 de noviembre de 2019.
^ "Breve historia y antecedentes de la prueba t de una muestra" .
^ Cuadro, Joan Fisher (1987). "Guinness, Gosset, Fisher y pequeñas muestras" . Ciencia estadística . 2 (1): 45–52. doi : 10.1214 / ss / 1177013437 .
^ Amazon.com. "Las matemáticas detrás de las pruebas A / B" . Archivado desde el original el 21 de septiembre de 2015 . Consultado el 12 de abril de 2015 .
^ Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (febrero de 2009). "Experimentos controlados en la web: encuesta y guía práctica" . Minería de datos y descubrimiento de conocimientos . 18 (1): 140–181. doi : 10.1007 / s10618-008-0114-1 . S2CID 17165746 .
^ a b Siroker, Dan; Koomen, Pete (7 de agosto de 2013). Pruebas A / B: la forma más eficaz de convertir los clics en clientes . John Wiley e hijos. ISBN 978-1-118-65920-5.
^ "Tácticas avanzadas de pruebas A / B que debe conocer | Pruebas y usabilidad" . Online-behavior.com. Archivado desde el original el 19 de marzo de 2014 . Consultado el 18 de marzo de 2014 .
^ "Ocho formas en que ha configurado mal su prueba A / B" . Dr. Jason Davis. 2013-09-12 . Consultado el 18 de marzo de 2014 .

[Young2014-1] Young, Scott WH (agosto de 2014). "Mejora de la experiencia del usuario de la biblioteca con pruebas A / B: principios y proceso" . Weave: Journal of Library User Experience . 1 (1). doi : 10.3998 / weave.12535642.0001.101 . hdl : 2027 / spo.12535642.0001.101 .

[2] Kohavi, Ron; Longbotham, Roger (2017). "Experimentos controlados en línea y pruebas A / B" (PDF) . En Sammut, Claude; Webb, Geoff (eds.). Enciclopedia de Machine Learning y Data Mining . Saltador.

[:1-3] Kohavi, Ron; Thomke, Stefan (septiembre de 2017). "El sorprendente poder de los experimentos en línea" . Harvard Business Review : 74–82.

[:0-4] "El ABC de las pruebas A / B - Pardot" . Pardot . Consultado el 21 de febrero de 2016 .

[:12-5] Kohavi, Ron; Longbotham, Roger (2017). "Experimentos controlados en línea y pruebas A / B". Enciclopedia de Machine Learning y Data Mining . págs. 922–929. doi : 10.1007 / 978-1-4899-7687-1_891 . ISBN 978-1-4899-7685-7.

[:2-6] Xu, Ya; Chen, Nanyu; Fernández, Addrian; Sinno, Omar; Bhasin, Anmol (10 de agosto de 2015). "De la infraestructura a la cultura: desafíos de las pruebas A / B en las redes sociales a gran escala". Actas de la 21ª Conferencia Internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos : 2227–2236. doi : 10.1145 / 2783258.2788602 . S2CID 15847833 .

[:42-7] Siroker, Dan; Koomen, Pete (7 de agosto de 2013). Pruebas A / B: la forma más eficaz de convertir los clics en clientes . John Wiley e hijos. ISBN 978-1-118-65920-5.

[8] "Guía de prueba dividida para tiendas online" . webics.com.au. 27 de agosto de 2012 . Consultado el 28 de agosto de 2012 .

[:3-9] Kaufman, Emilie (2014). "Sobre la complejidad de las pruebas A / B" (PDF) . 35 . arXiv : 1405.3224 . Bibcode : 2014arXiv1405.3224K - vía JMLR: Actas de talleres y conferencias. Cite journal requiere |journal=( ayuda )

[wired-10] Christian, Brian (27 de febrero de 2000). "La prueba A / B: dentro de la tecnología que está cambiando las reglas del negocio | Wired Business" . Wired.com . Consultado el 18 de marzo de 2014 .

[11] Christian, Brian. "Probar todo: notas sobre la revolución A / B | Wired Enterprise" . Wired.com . Consultado el 18 de marzo de 2014 .

[12] Cory Doctorow (26 de abril de 2012). "Pruebas A / B: el motor secreto de creación y refinamiento para el siglo XXI" . Boing Boing . Consultado el 18 de marzo de 2014 .

[13] Krishnamoorthy, K .; Thomson, Jessica (2004). "Una prueba más poderosa para comparar dos medias de Poisson". Revista de Planificación e Inferencia Estadística . 119 : 23–35. doi : 10.1016 / S0378-3758 (02) 00408-1 .

[14] Stolberg, M (diciembre de 2006). "Inventar el ensayo aleatorio doble ciego: la prueba de sal de Nuremberg de 1835" . Revista de la Real Sociedad de Medicina . 99 (12): 642–643. doi : 10.1258 / jrsm.99.12.642 . PMC 1676327 . PMID 17139070 .

[15] "¿Qué son las pruebas A / B?" Convertir. Consultado el 28 de enero de 2020.

[16] "Claude Hopkins convirtió la publicidad en una ciencia". Consultado el 1 de noviembre de 2019.

[17] "Breve historia y antecedentes de la prueba t de una muestra" .

[18] Cuadro, Joan Fisher (1987). "Guinness, Gosset, Fisher y pequeñas muestras" . Ciencia estadística . 2 (1): 45–52. doi : 10.1214 / ss / 1177013437 .

[19] Amazon.com. "Las matemáticas detrás de las pruebas A / B" . Archivado desde el original el 21 de septiembre de 2015 . Consultado el 12 de abril de 2015 .

[20] Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (febrero de 2009). "Experimentos controlados en la web: encuesta y guía práctica" . Minería de datos y descubrimiento de conocimientos . 18 (1): 140–181. doi : 10.1007 / s10618-008-0114-1 . S2CID 17165746 .

[:4-21] Siroker, Dan; Koomen, Pete (7 de agosto de 2013). Pruebas A / B: la forma más eficaz de convertir los clics en clientes . John Wiley e hijos. ISBN 978-1-118-65920-5.

[22] "Tácticas avanzadas de pruebas A / B que debe conocer | Pruebas y usabilidad" . Online-behavior.com. Archivado desde el original el 19 de marzo de 2014 . Consultado el 18 de marzo de 2014 .

[23] "Ocho formas en que ha configurado mal su prueba A / B" . Dr. Jason Davis. 2013-09-12 . Consultado el 18 de marzo de 2014 .

[1]