Supongamos que un laboratorio quiera sacar al mercado un
medicamento nuevo. Antes de ponerlo a disposición de la población
en general, se realizan una serie de ensayos clínicos. Estos
tratan de observar el efecto del medicamento sobre un grupo de
enfermos, comparándolo eventualmente con el efecto de otros
tratamientos. Para simplificar, supongamos que el nuevo
medicamento ha curado a enfermos en un primer grupo de ,
mientras que el tratamiento tradicional ha curado a enfermos
de un grupo de empleado como control. ¿La mejoría es
suficiente para lanzar el nuevo medicamento? No se podrá tomar una
decisión a menos que se suponga que las personas observadas
son representativas del conjunto de personas que seguirán el
tratamiento y que los resultados hubiesen sido no muy diferentes
en otro grupo de personas. La modelación consiste en suponer que
las reacciones de los individuos a los tratamientos son
realizaciones de variables aleatorias. Es el postulado básico de
la Estadística:
Una serie de datos estadísticos se presenta bajo la forma de una
-tupla de valores observados en una cierta población de
individuos. La modelación interviene cuando uno quiere emplear
estos valores para sacar conclusiones que serán aplicadas a
individuos para los cuales todavía no se han realizado las
observaciones. La teoría de las probabilidades provee instrumentos
como la
Ley
de los Grandes Números o el
Teorema
del Límite Central, que permiten extraer de los datos
lo que es reproducible y
que podrá por tanto ser el fundamento para una predicción o
una decisión.
Una vez que se admite este postulado de base, las hipótesis de modelación son enunciados que tienen que ver con la ley de probabilidad de la -tupla de variables aleatorias que modelan las observaciones. Según el caso, algunas de estas hipótesis parecerán naturales y no serán sometidas a validación. Por ejemplo, cuando se observa un carácter estadístico en una población, si el orden en que se toman los individuos no es importante, se tomará como hipótesis que los datos son realizaciones de variables aleatorias independientes y con una misma ley.
Definición 1.1 Sea una ley de probabilidad en . Se llama muestra de la ley a una -tupla de variables aleatorias independientes y con la misma ley .
En el caso de un medicamento nuevo, para
el que se quiere probar su eficacia, se considerará que los
individuos son independientes y que sus respuestas (curado o no) es
una variable binaria ( o 0). Estamos entonces en el caso de
una muestra de una ley de
Bernoulli. La
hipótesis que el laboratorio intenta validar es que el parámetro
de la ley de Bernoulli, probabilidad de curarse por el nuevo
medicamento, es superior al del antiguo tratamiento.
Todo el quehacer científico consiste en proponer
teorías, que son a continuación confirmadas o rechazadas. Una
teoría hace predicciones sobre el resultado de experimentos o
mediciones futuras. Si una sola de estas predicciones resulta ser
falsa, entonces toda la teoría es rechazada. Por el contrario, una
predicción que resulta exacta, no hace más que reforzar la teoría,
la cual no podrá ser nunca definitivamente demostrada. En
estadística, las teorías son modelos probabilistas, que en
general no pueden ser rechazados: ningún resultado observado es
nunca totalmente incompatible con el modelo. En el caso de un
medicamento no es imposible que por un hecho fortuito, ninguno de
los individuos tratados se cure : es solamente muy poco verosímil.
Al igual que sería sospechoso, pero no excluido, que todos los
individuos sin excepción, se curen. El
objetivo de los
tests
estadísticos es distinguir lo que es
plausible de lo que es poco verosímil.
Las predicciones que surgen de una teoría son consecuencias especiales de ella. Consideremos, por ejemplo, la situación siguiente: queremos probar un generador aleatorio a partir de los valores que el da. En la práctica, un generador pseudo-aleatorio (función Random) calcula los términos sucesivos de una sucesión iterada determinista. Estos valores deben comportarse como ``números reales al azar entre 0 y ''. Esta frase esconde de hecho el modelo probabilista siguiente: los valores que da la función Random son realizaciones de variables aleatorias independientes con una misma ley, uniforme sobre . Este modelo probabilista tiene una infinitud de consecuencias que se pueden comprobar. Por ejemplo si el modelo es correcto, en llamadas a la función, el número de los valores que están entre y sigue la ley binomial . No está completamente excluido que no se observe ninguno, pero es muy improbable (probabilidad ). Si en llamadas de la función Random, ningún valor se encuentra entre y , tendremos buenas razones para poner en duda el modelo. Pero si el número de valores dados por Random que se encuentran entre y es de 46, lo más que se podrá decir es que este resultado es plausible. Esto puede reforzar nuestra confianza en el modelo, pero esto no predice el resultado de otros tests: ningún test estadístico podrá nunca demostrar que el modelo es el bueno, ni que es el único posible.
Podemos pensar en otras formas de probar un generador pseudo-aleatorio. Por ejemplo : sobre pares de llamadas consecutivas, el número de pares para los cuales el primer elemento es inferior al segundo sigue también la ley binomial ; o también, el número de llamadas sucesivas entre dos valores que están en el intervalo sigue la ley geométrica : cualquier valor positivo es posible, pero un valor superior a es muy poco verosímil ; el opuesto del logaritmo del producto de valores sigue la ley gamma : todo valor estrictamente positivo es posible pero un valor inferior a es muy poco verosímil.
Podríamos dar muchos otros ejemplos: la validación estadística de
los generadores pseudo-aleatorios ha sido el objeto de estudio de
una gran cantidad de trabajos.
En resumen la situación es la siguiente. Los datos observados son modelados por variables aleatorias . Toda función de las se llama un estadígrafo o un estadístico de las variables. En particular la decisión que se tomará a partir de los datos, es un estadígrafo binario (rechazo o no). Las hipótesis tienen que ver con la ley conjunta de las . Buscamos hacer un test sobre una hipótesis en particular, que lleva tradicionalmente el nombre de hipótesis nula, y que denotaremos por . En el ejemplo del test de la eficacia de un medicamento, la hipótesis nula podría ser que el medicamento no hace efecto. Para una -tupla de llamadas de la función Random, la hipótesis nula podría ser que la presencia de un valor entre y sigue la ley de Bernoulli de parámetro . Un test es una decisión tomada a partir de los datos, para la cual se controla la probabilidad de rechazar erróneamente.
Definición 1.2 Un test de umbral (o nivel) para la hipótesis es un estadígrafo binario (rechazo o no de ), tal que: