Resumen del capítulo XI de Botella | Estadística (Atorresi - 2015) | Psicología

BOTELLA - CAPÍTULO 11: INTRODUCCIÓN A LA PROBABILIDAD.

No hay ninguna pregunta de las sacadas de internet que sea sobre este tema, de todos modos lo resumo. Al principio hay una serie de definiciones de conceptos básicos (experimento aleatorio, suceso, verificación, etc.) están todos juntos en un cuadro en la página 273. Yo lo salteo. -

Tipos de espacio muestral

Los espacios muestrales son conjuntos de sucesos elementales y estos se clasifican en espacios muestrales finitos e infinitos y a su vez estos últimos se subdividen en numerables y no numerables:

Espacios muestrales finitos: un espacio muestral finito es finito si tiene un número de sucesos elementales finito. Ej: ratas en un laboratorio.

Espacios muestrales infinitos numerables: Tiene infinitos sucesos elementales que pueden ponerse en correspondencia biunívoca con los números naturales. Ej: El tamaño (número) de camada (hijos) que una rata tvo tras un experimento de inyección de cortisol.

Espacios muestrales infinitos no numerables: Tiene infinitos sucesos elementales que no pueden ponerse en correspondencia biunívoca con los números naturales. Ej: tiempo invertido en realizar una determinada tarea.

(En ciencia resulta extremadamente útil representar a los sucesos elementales por números, creando lo que se denominan variables aleatorias.)

Definición de probabilidad

El concepto de probabilidad hace referencia a cómo los eventos puntuales que tienen resultados inciertos, al estudiar su repetición un número grande de veces, comienzan a tener resultados globalmente previsibles y a mostrarse sujetos a ciertas leyes. Es un concepto ideal porque se refiere a la frecuencia con la que ocurrirán las cosas en el caso hipotético de que los eventos se repitiesen un número infinitamente grande de veces y en las mismas condiciones. La confianza puesta en cada uno de los resultados posibles en la próxima realización del evento debe ser proporcional al número de repeticiones que cada una de estas alternativas se daría en el futuro. La asignación de números (o probabilidades) a esos grados de confianza depositados en la obtención de cada resultado es la clave del concepto de probabilidad.

La probabilidad de un suceso es un número que cuantifica en términos relativos las opciones de verificación de ese suceso.

Las opciones se cuantifican en términos relativos para que las probabilidades sean números comparables. Desde sus orígenes se ha hecho con los siguientes parámetros:

Un suceso sin opción alguna tendría una probabilidad igual a 0 y un suceso con todas las opciones tendría una probabilidad igual a 1.

Existen tres enfoques desde los cuales puede definirse la probabilidad. El enfoque clásico o a priori, el enfoque frecuencialista o a posteriori y el enfoque formal, matemático que queda excluido porque no lo necesitamos porque estudiamos psicología :).

El enfoque clásico o a priori.

El enfoque clásico o a priori implica la aceptación del principio de inferencia, según el cual todos los elementos del espacio muestral tienen las mismas opciones de ser verificadas al realizar un experimento aleatorio. Desde este enfoque, entonces, la probabilidad de un suceso se define como la frecuencia relativa de ese suceso en el espacio muestral.

En otras palabras y siguiendo los términos de Laplace (1812) desde este enfoque la probabilidad de un suceso es igual al cociente entre los números de casos favorables y posibles:

Probabilidad de un suceso = Número de casos favorables

Número de casos posibles

Esta forma de definir la probabilidad puede entenderse como un reparto equitativo de la “masa de opciones” entre los elementos del espacio muestral. Al repartirla entre n elementos a cada uno le toca 1/n y la probabilidad de un suceso no será más que la suma de las opciones de los elementos que lo integran.

Puede ocurrir que exista una dificultad práctica para computar el número de casos favorables y el número de casos posibles, el procedimiento habitual utilizado para determinar esas cantidades recibe el nombre de técnicas de contar o combinatoria.

Consecuencias y propiedades de este enfoque:

La probabilidad de un suceso es un valor que oscila entre 0 y 1.

Un suceso que no contiene ningún suceso elemental tiene una probabilidad igual a 0 y por ello el nombre de suceso imposible.

Un suceso que contiene todos los sucesos elementales del espacio muestral tiene una probabilidad igual a 1, y por ello recibe el nombre de suceso seguro.

La suma de probabilidades de un suceso y su complementario es igual a 1.

Enfoque frecuencialista o a posteriori.

En algunos casos no puede aplicarse el método clásico porque a) no se tiene un conocimiento exhaustivo del espacio muestral -se desconoce nA y/o n- y b) no se puede asumir el principio de inferencia.

Desde este enfoque, la probabilidad se determina mediante una operación lineal de repetición sistemática del experimento aleatorio y de conteo del número de veces que se verifican los sucesos. Las opciones de verificación de un suceso se manifiestan en el número de veces que se repite éste al realizar una y otra vez el experimento aleatorio. Sin embargo, para estar seguros de que las veces que se realiza el suceso representa proporcionalmente a su probabilidad, el número de veces que se realiza el experimento debe ser infinitamente grande. Por tanto, desde el enfoque frecuencialista la probabilidad de un suceso A se define como el límite de la frecuencia relativa de apariciones de ese suceso cuando el número de repeticiones del experimento aleatorio tiende a infinito. No obstante, este valor no dice nada acerca de repeticiones concretas del experimento. Así, según este enfoque, la probabilidad no puede calcularse con exactitud, puesto que ningún experimento aleatorio se puede repetir un número infinito de veces.

Las consecuencias y propiedades de este enfoque son las mismas que del enfoque clásico con excepción de

Si se quiere, ver el teorema de Bernouilli, pág. 277 -

ANÁLISIS DE DATOS EN PSICOLOGÍA

El objetivo último del análisis de datos es el de extraer conclusiones sobre las propiedades de una población a partir de la información contenida en una muestra procedente de esa población. Ese salto de lo concreto (la muestra) a lo general (la población) se conoce con el nombre de estadística inferencial.

Una de las formas básicas de la estadística inferencial es el contraste de hipótesis.

Un contraste de hipótesis, también llamado prueba de significación o prueba estadística,, es un procedimiento que nos permite decidir si una proposición puede ser mantenida o debe ser rechazada. Resumiendo:

Un contraste de hipótesis es un proceso de decisión en el que una hipótesis formulada en términos estadísticos es puesta en relación con los datos empíricos para determinar si es o no compatible con ellos.

En el seno de una teoría que intenta dar cuenta de una parcela de la realidad surgen problemas que se plantean con la intención de cubrir alguna laguna concreta de conocimiento que o para corroborar una parte o el total de esa teoría.

Surgido el problema el paso siguiente consiste en aventurar algún tipo de solución al mismo. Esta solución provisional suele tomar forma de afirmación directamente verificable (es decir, empíricamente contrastable; de no ser así se estaría en el terreno de la especulación y no en el de la ciencia) en la que se establece de forma operativa el comportamiento de la variable o las variables involucradas en el problema. Esta información verificable recibe el nombre de hipótesis científica. Ej: ante la pregunta (problema de conocimiento) ¿difieren los hombres y las mujeres en inteligencia? podríamos aventurar la hipótesis de que “los varones y las mujeres no difieren en inteligencia”. Por supuesto, debe definirse con precisión qué se entiende por inteligencia y cómo medirla para que la afirmación sea una hipótesis científica (constructo).

La lógica del contraste de hipótesis.

Pasos en una verificación de una hipótesis

Formular estadísticamente la hipótesis científica que se desea contrastar.

No todas las hipótesis pueden ser formuladas en términos estadísticos, para hacerlo una hipótesis debe afirmar una distribución de probabilidades de una o más variables, ya sea en cuanto a su forma o en cuanto a sus parámetros. Por ejemplo: la hipótesis científica “los varones no difieren en inteligencia de las mujeres” podría formularse, en términos estadísticos, de la siguiente manera: v = m; es decir, en la población de varones el promedio de la distribución de la variable inteligencia es igual al promedio de la misma distribución en la población de mujeres.

En general, la hipótesis científica proporciona la base para la formulación de la hipótesis estadística. Mientras que una hipótesis científica se refiere a algún aspecto de la realidad, una hipótesis estadística se refiere a algún aspecto de una distribución de probabilidad. (Por esto es que la expresión v = m no es la única que puede usarse, también puede usarse la Mdn o F(x))

Pero todo contraste de hipótesis se basa en la formulación de dos hipótesis.

1- la hipótesis nula: H0

2- la hipótesis alternativa: H1

Estas hipótesis suelen plantearse como hipótesis rivales. Son hipótesis exhaustivas y mutuamente excluyentes, lo cual implica que si una es verdadera, la otra necesariamente es falsa.

La hipótesis nula es la que se somete a contraste. Consiste en una afirmación sobre la forma de una distribución o sobre los parámetros de esa distribución.

La hipótesis alternativa es la negación de la hipótesis nula. Incluye todo lo que H0 excluye. Mientras que H0 suele ser una hipótesis exacta (tal cosa es igual a tal otra) H1 suele ser inexacta (tal cosa es distinta, mayor o menor que tal otra).

H0: v = m = “los varones no difieren en inteligencia de las mujeres”

H1: v m = “los varones difieren en inteligencia de las mujeres”

En este caso el contraste es bidireccional (). Cuando aparecen los signos < o > decimos que el contraste es unilateral o unidireccional.

El signo = tanto si va solo como si va acompañado ( con < o > ) siempre va e la hipótesis nula. H0 es la que se somete a contraste. Esto significa que es a partir de la afirmación concreta establecida en H0 (y la única afirmación concreta establecida es la que corresponde al signo ( = ) desde donde se inicia todo el proceso de contrastación.

Las hipótesis bilaterales no contienen ninguna predicción sobre la dirección en la que se puede producir un resultado muestral incompatible con la afirmación establecida en H0 (esto se refleja en H1 con el signo ). En cambio en los contrastes unilaterales, el investigador ya posee una idea previa sobre la dirección en la que se producirán los resultados muestrales incompatibles con H0 o bien considera que sólo son relevantes los resultados muestrales que se muestren incompatibles con H0 en una sola dirección

Los supuestos

Para conseguir determinar la distribución de probabilidad en la que se basará nuestra decisión sobre H0 es necesario definir ciertos supuestos:

Los supuestos de un contraste de hipótesis son un conjunto de afirmaciones que necesitamos establecer (sobre la población de partida y sobre la muestra utilizada) para conseguir determinar la distribución de probabilidad en la que se basará nuestra decisión sobre H0.

Por ejemplo, si se sabe que una población es normal de media y desvío estándar (supuestos), se puede inferir que la media muestral x sigue una distribución normal con media y desvío estándar /n. Según esta información de la que se parte se determina el estadístico de contraste.

El incumplimiento de uno o varios supuestos podría invalidar el contraste y llevarnos a una decisión errónea.

El estadístico de contraste

El estadístico de contraste es una variable aleatoria (), que toma un valor definido (e) para cada muestra en particular (es un resultado muestral). Tiene la propiedad de que posee distribución conocida y queda determinada bajo la suposición de que H0 sea verdadera.

Es decir, un estadístico de contraste cumple la doble condición de 1) se debe recurrir a un estadístico que sea capaz de detectar cualquier desviación empírica de la afirmación establecida en H0 y 2) debe poseer una distribución muestral conocida porque, un estadístico, es una variable aleatoria y como tal tiene su propia distribución de probabilidad a la que se denomina distribución muestral. Es precisamente en la distribución muestral del estadístico de contraste en la que se apoya la decisión respecto a la H0 en términos de probabilidad.

En este punto debe establecerse una regla de decisión y esta regla de decisión debe establecerse en términos de probabilidad. La regla de decisión proporciona un criterio para decidir si a partir de lo observado en una muestra se rechaza la hipótesis nula y por lo tanto se acepta la alternativa o si los datos muestrales no dan suficiente evidencia en contra de la hipótesis nula por lo que se puede rechazar.

Básicamente el criterio se funda en el siguiente razonamiento:

Una discrepancia importante entre la evidencia empírica (de la muestra) y la hipótesis nula formulada (en base a la población) puede significar dos cosas:

1) o que la hipótesis es correcta y la discrepancia observada es producto de fluctuaciones esperables por azar o bien

2) la hipótesis es incorrecta y por lo tanto incapaz de proporcionar predicciones acertadas.

La cuestión clave que se nos plantea en ese momento es la de determinar cuando la discrepancia encontrada es lo bastante grande como para poder considerar que el resultado muestral observado es incompatible con la hipótesis formulada y en consecuencia que el resultado muestral no es incompatible por causas del azar sino porque la hipótesis formulada es incorrecta.

La teoría de la decisión se ha encargado de elaborar algunos principios elementales que pueden ser trasladados al contexto de contraste de hipótesis como parámetros para tomar efectivamente una de las hipótesis como correcta. La regla de decisión que se utilizará será de este tipo:

Si el resultado muestral observado es, suponiendo correcta nuestra hipótesis, muy poco probable, se considera que la hipótesis es incompatible con los datos.

Se rechaza la H0.

Por el contrario, el resultado muestral observado es, suponiendo correcta la hipótesis, probable, consideramos que nuestra hipótesis si es compatible.

No rechazar la H0.

(Ver anexo)

Pero estas decisiones traen consecuencias:

Errores de tipo I y II

El Error de tipo I se comete cuando se decide rechazar la H0 que en realidad es válida. La probabilidad de cometer este error se denomina nivel de significación y se designa con la letra .

La hipótesis H0 se rechazará equivocadamente cada vez que se llegue a uno de los resultados que son “poco probables” de ser observadas (producto de fluctuaciones esperables por azar) cuando la H0 es verdadera; por lo tanto, es poco probable cometer este tipo de error.

Por convención se considera “poco probable” cuando se toma como valor de números menores o iguales a 0.10. En rutina, en la práctica científica se toman los siguientes valores: 0.01; 0.05; 0.10.

El error de tipo II se comete cuando se decide mantener una H0 cuando en realidad es falsa. La probabilidad de cometer ese error es .

depende de tres factores:

La verdadera H1. El valor de depende en primer lugar de la hipótesis alternativa que consideremos verdadera, es decir, del valor concreto 1 que se considere verdadero dentro de todos los afirmados por H1. Esto es porque cuanto más se aleje el valor 1 de 0 , más hacia la derecha se desplazará la curva H y, en consecuencia, más pequeña se hará el área de (permaneciendo todo lo demás constante). Y al contrario, cuando se aproxima más 1 y 0 más hacia la izquierda se desplazará la curva H1 y más grande se hará el área .

El valor de . Los valores de y se relacionan de forma inversa: permaneciendo todo lo demás constante, cuanto mayor sea , menor será .

El tamaño del error típico muestral utilizado para efectuar el contraste. El tamaño del área depende de este error típico muestral porque cuanto mayor es el error, más ancha (mayor) es la distribución y por esto, para una distancia dada 0 y 1, el solapamiento entre las curvas correspondientes a uno y otro parámetro será mayor. (Para una mejor imágen de esto, ver los gráficos de la página 146 y 147 o pág 11 de la guía)

Un buen contraste o una buena regla de decisión debe tender a minimizar los dos tipos de error inherentes a toda decisión. Lo más razonable parece ser detenerse a considerar cuál de los dos errores que se puede cometer podría resultar más grave en una situación concreta y procurar disminuirlo a costa del otro. Así si es importante evitar un error del tipo I, conviene seleccionar un valor pequeño para . Si es importante evitar un error del tipo II, será conveniente seleccionar un valor mayor para .

Las dos decisiones correctas

Por todo lo dicho anteriormente, las dos decisiones correctas son:

No rechazar la H0 cuando la misma es verdadera. La probabilidad de esta decisión es 1 - .

Rechazar la H0 cuando la misma es falsa. La probabilidad de esta decisión es 1 - y se denomina potencia de la prueba.

Acá puede verse un cuadrito que resume los errores y las decisiones correctas, pág. 144 o pag. 9 de la guía. -

El criterio para rechazar o no la H0 se basa en la partición de la distribución muestral del estadístico de contraste () en dos zonas mutuamente excluyentes:

La zona de rechazo: Es el intervalo de valores de que se encuentran tan alejados de la afirmación establecida en la H0 que es poco probable (p=) que ocurra si H0 se supone verdadera.

La zona de aceptación: Es el intervalo de valores de que se encuentran próximos a la afirmación establecida en H0 si H0 se supone verdadera. La probabilidad de que ocurra es 1 - , valor al que se llama nivel de confianza.

Para ver imágenes de las zonas ir a pág.139 o pág. 10 de la guía -

Resumiendo

La regla de decisión consiste en rechazar H0 si el resultado de contraste toma un valor perteneciente a la zona de rechazo; mantener H0 si el estadístico de contraste toma un valor perteneciente a la zona de aceptación.

Algunas notas sobre nivel crítico y tamaño del efecto.

El nivel crítico es el nivel de significación más pequeño al que una hipótesis nula puede ser rechazada con el estadístico de contraste obtenido. Nos está informando sobre el grado en el que la evidencia empírica obtenida se muestra incompatible con la H0 planteada. Pero esta información es innecesaria cuando se utiliza un nivel de significación.

El tamaño del efecto es una medida del grado de discrepancia que no depende del tamaño de la muestra (un parámetro general digamos).

A las diferentes poblaciones se les adjudican diferentes supuestos y por lo tanto diferentes estadísticos. Ver esto en las otras hojas del resumen o en la página 13, 16 y 18 de la guía y acá una única nota: el contraste de hipótesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional que corresponde a la media de una variable. Nos encontramos, por tanto, ante un diseño con una muestra.

ANEXO

Una decisión en el contexto de contraste de hipótesis siempre consiste en rechazar o mantener una H0 particular. Si la rechazamos, estamos afirmando que esa hipótesis es falsa; es decir, estamos afirmando, con una probabilidad de equivocación, que se ha conseguido probar que esa hipótesis es falsa. Por el contrario, si se decide mantenerla, no se está afirmando, ni mucho menos, que hemos probado que esa hipótesis es verdadera; simplemente se está afirmando que no se dispone de evidencia empírica suficiente para rechazarla y que, por tanto, podemos considerarla compatible con los datos. Esto es así por dos motivos. 1) las desviaciones pequeñas de la H0 forman parte de H1 , por lo que al mantener una H0 particular, también se está manteniendo, muy probablemente, algunos valores de H1. 2) En el razonamiento estadístico que lleva a la toma de decisión respecto a H0 puede reconocerse el argumento deductivo modus tollens, aunque de tipo probabilístico: si H0, es verdadera, entonces, muy probablemente, el estadístico de contraste T tomará valores comprendidos entre a y b; T no toma un valor comprendido entre a y b; luego, muy probablemente, H0 no es verdadera. Este argumento es impecable sin embargo si una vez establecida la primera premisa se continúa de otra manera: T toma un valor comprendido entre a y b ; luego H0, muy probablemente, es verdadera, se comete un error lógico llamado falacia de la afirmación del consecuente: obviamente, T puede haber tomado un valor comprendido entre a y b por razones diferentes de las contenidas en H0. Y decir que H0 es falsa, no proporciona ningún tipo de información sobre el grado en el que la evidencia se muestra incompatible con esa hipótesis.