Retomemos el problema de hacer un test del efecto de un tratamiento sobre un carácter dado (por ejemplo la tasa de colesterol). Los valores de colesterol medidos a un grupo de control sin tratamiento corresponden a una primera muestra de la ley . En otro grupo, con tratamiento, los valores medidos son los de una segunda muestra correspondientes a la ley . Las dos leyes y son desconocidas. Si el tratamiento no tiene ningún efecto (hipótesis nula), las dos leyes son idénticas.
La idea del test de Wilcoxon es la siguiente: si unimos las dos muestras, y ponemos los valores en orden, la alternancia entre las y las debería ser bastante regular. Tendríamos dudas sobre si los eran en general más grandes que los , o más pequeños, o más frecuentes en ciertos tramos de la sucesión de valores. Comenzamos por tanto por escribir los estadígrafos de orden de la muestra global (si hay valores iguales se escoge al azar una permutación de ellos) Se obtiene así una sucesión de los valores y mezclados. A continuación se calcula la suma de los rangos de los , que denotamos por (es el estadígrafo de Wilcoxon). Bajo la hipótesis , la ley de se calcula fácilmente: en una muestra de tamaño hay ordenes posibles. El número de formas posibles de distribuir a los es , y son todos equiprobables. Por tanto para todo entero entre y tenemos:
Es fácil tabular numéricamente la ley de para valores razonables de y . Para valores grandes, se dispone del siguiente resultado de aproximación normal:
Aquí presentamos dos muestras de tamaño .
Este es el estadígrafo de orden de la muestra reagrupada de tamaño (los valores de la primera muestra están subrayados).
El estadígrafo toma el valor:
Los valores de la primera muestra tienen tendencia a ser más pequeños que los de la segunda muestra. Se quiere saber si esta tendencia es significativa, realizaremos por tanto un test unilateral a la izquierda (rechazo de un valor muy pequeño de ). El p-valor correspondiente es:
El test de Mann-Whitney se obtiene a partir de otro punto de vista, pero es equivalente al anterior. En el ejemplo presentado anteriormente, queríamos verificar que los valores de la primera muestra eran con mayor frecuencia más pequeños que los de la segunda muestra. Para esto podíamos haber contado el número de pares para los cuales (con una decisión aleatoria en caso de igualdad):
Los dos tests son, por tanto, completamente equivalentes. En nuestro ejemplo, el estadígrafo toma el valor :