Altillo.com > Exámenes > UBA - Económicas > Estadística
Estadística |
Resumen para el Tercer Parcial |
Cátedra: Capriglioni |
Prof: Cristian Kaplan | 1º Cuat. de 2012 | Altillo.com |
Muestra: Es un subconjunto o parte de una población tomada de forma tal, que
con ella se pueda hacer un juicio acerca de esa población completa.
Fracción de muestreo: Al cociente entre el tamaño de la muestra y el tamaño de
la población (FM = n/N)
Inferencia estadística: Cualquier afirmación que se realiza sobre una
determinada población, basándose en los datos obtenidos con una muestra.
Pudiéndose obtener a partir del cálculo de probabilidad, una determinada medida
de la incertidumbre que se genera.
Muestreo: Es el procedimiento mediante el cual se obtienen una o más muestra de
una población dada.
Unidad de Muestreo: Es cada unidad experimental, o grupo de unidades
experimentales, que son tomadas para obtener una muestra.
Diseño muestral: Es un plan de muestreo especifico donde se establece cuales
serán los procedimiento a seguir para tomar una o más muestras.
Las unidades experimentales que intervienen en una muestra, pueden ser tomadas
con mayor o menor grado de subjetividad por parte del sujeto que se encarga de
realizar la muestra. De esta manera, se originan distintos tipos de muestreo.
Algunos de ellos son:
Muestreo probabilístico: Es cuando las unidades experimentales que componen la
muestra son tomadas al azar. El proceso de obtención de cada uno de los
elementos que integrara la muestra, es un experimento aleatorio. Es un tipo de
muestreo objetivo porque no depende del sujeto que se encarga de tomar la
muestra, sino del azar.
Muestreo intencional: Cuando las unidades experimentales que componen la muestra
son obtenidas siguiendo una regla o norma preestablecida. Depende de las
preferencias del sujeto.
Muestreo sin norma: Cada elemento que integrara la muestra es elegido por el
sujeto, pero sin un criterio fijado. Por tal motivo se considera que la
obtención es cuasi-aleatoria, luego, el muestreo es cuasi-objetivo. Se puede
utilizar cuando hay elementos de juicio suficientes como para suponer que la
población es homogénea.
Método de obtención de muestras
Muestreo simple al azar (sin reemplazo)
El método muestreo simple al azar (sin reemplazo) consiste en obtener al azar,
una muestra de n elementos, de entre los N que constituyen el Universo. Hay que
tener en cuenta que todas las muestras posibles de tamaño n deben tener la misma
probabilidad de ser tomadas, como así también, que todos los elementos que
integraran la muestra tengan, en el momento de cada extracción, la misma
probabilidad de ser obtenidas.
Considérese, a modo de ejemplo, un Universo finito de tamaño N. Como a cada una
de las unidades que se extraen no se las repone, la cantidad de muestras
distintas, igualmente posibles, de tamaño n que pueden obtener de dicho
Universo, es una combinación de N elementos tomados de a n. Esta combinación se
puede calcular con el número combinatorio. (Nn)
Muestreo estratificado al azar
En aquellos casos en los cuales la población presenta una gran variabilidad,
ósea, una población heterogénea, la utilización del Muestreo Simple al Azar
puede proporcionar muestras no representativas y las conclusiones que surjan del
análisis ellas no serán del todo confiables. Cuando se presentan estas
situaciones, el método de muestreo más adecuado a utilizar es el muestreo
estratificado al azar. Este método consiste en particionar al Universo en
estratos (o clases o subpoblaciones), dentro de los cuales si la variable debe
presentar homogeneidad. De cada uno de los estratos se obtiene una muestra
Simple al Azar.
La asignación del tamaño de la muestra a cada uno de los distintos estratos se
llama afijación, y puede realizarse de alguna de las siguientes formas:
a) Afijación igual o uniforme: El tamaño de muestra que le corresponde a cada
estrato es igual para todos. Este tamaño se calcula, entonces, haciendo el
cociente entre el tamaño de la muestra, n, y la cantidad de estratos, h.
b) Afijación proporcional: El tamaño de la muestra que le corresponde a cada
estrato es proporcional al tamaño del estrato. Se calcula haciendo el producto
entre la fracción de muestreo y el tamaño de cada estrato.
c) Afijación Optima: El tamaño de la muestra para cada estrato es proporcional
al tamaño del estrato y al desvío estándar correspondiente. De esta manera se
tiene en cuenta la falta de homogeneidad entre las subpoblaciones.
Muestreo sistemático al Azar
Consiste en ordenar a las N unidades experimentales que conforman el Universo,
de acuerdo a como se fueron presentando, y obtener la muestra eligiendo,
sistemáticamente (de aquí la denominación del método), un elemento cada c
unidades, tomado el primero de ello en forma aleatoria.
Si el universo es finito, el numero c es la parte entera del cociente entre el
tamaño del universo y el tamaño de la muestra.
Si el universo es infinito, el número c se elige arbitrariamente, sobre la base
del buen saber y entender del estadístico que realiza el trabajo.
Este método es adecuado para ser utilizado en aquellos casos en los cuales las
Unidades Experimentales que forman el universo se presentan con una determinada
periodicidad. En este caso, hay que evitar que el numero c sea igual al periodo
con que se presentan las unidades experimentales en el universo, porque, si ello
ocurriese se perdería representatividad en la muestra.
Características poblaciones y muestrales
Parámetro estadístico
Toda población es una variable aleatoria; por tal motivo, su comportamiento
probabilístico esta explicado por una función de probabilidad, si la variable es
discreta, o por una función de densidad de probabilidad, si se trata de una
variable continua.
Existen medidas que caracterizan a estas funciones, como las de tendencias
central, variabilidad, etc. Estas medidas cumplen un importante papel en el
análisis inferencial y, por ese motivo, se las define especialmente
distinguiendo dos tipos de universos.
Universo finito y pequeño
Se llama parámetro estadístico a toda medida que resume información calculada
con las variables poblacionales.
Son ejemplos de parámetros: El total de los elementos que presenta un
determinado atributo, la proporción de elementos que presentan un determinado
atributo, la media aritmética, la varianza, el desvío estándar, etc.
Universo finito y grande o universo infinito
Se llama parámetro estadístico a todo parámetro matemático de una función de
probabilidad o de densidad de probabilidad, que brinda información acerca de una
población.
Los parámetros no son constantes matemáticas; son números reales que pueden
asumir cualquier valor que se encuentre dentro de un conjunto específico.
Estadígrafo
Es toda función escalar, h (X1; X2;…; Xn) generada con las variables muestrales.
Dado que los estadígrafos son funciones generadas por variables aleatorias,
también son variables aleatorias, luego, existirá una función de densidad de
probabilidad, o una función de probabilidad, lo que corresponda, que describa su
comportamiento probabilístico, como así también es posible que tengan una
Esperanza Matemática finito y una Varianza finita.
Estadígrafo de un parámetro: Todo estadígrafo que proporcione información acerca
de dicho parámetro.
Estadígrafo de transformación: Es aquel estadígrafo que permite transformar al
estimador, en una variable que tenga una determina distribución de probabilidad.
Estimación
Dado que la mayoría de los trabajos en donde se aplica el análisis estadístico,
los parámetros de las poblaciones son desconocidos, hay que llevar a cabo el
proceso de inferir o sacar conclusiones acerca de estos a través de las
variables muestrales.
Los métodos que se utilizan para ello son dos, que generalmente se complementan,
a saber:
• Estimación puntual: Se llama estimación puntual del parámetro θ, a un método
de estimación que consiste en calcular el valor numérico único que asume el
estimador, luego de tomar la muestra y realizar las mediciones correspondientes.
Este valor numérico se llama punto de estimación
• Estimación por intervalo: Se llama estimación por intervalo del parámetro θ a
un método de estimación que consiste en calcular, con los datos de la muestra,
los limites de un conjunto cerrado y acotado de números reales. Este conjunto se
llama intervalo de estimación.
Los límites del intervalo de estimación dependen de la estimación puntual
Distribución de los estimadores
Se llama distribución de probabilidad del estimador θ, a aquella función de
densidad de probabilidad, o función de probabilidad, según corresponda, que
describe su comportamiento probabilístico.
Sesgo
Se llama sesgo a la diferencia entre, la esperanza matemática del estimador y el
parámetro a estimar.
SESGO = E (θ) – θ
Error medio cuadrático
Es la esperanza matemática del cuadrado de la diferencia entre el estimador θ y
el parámetro θ.
EMC (θ) = E (θ- θ)2
Propiedades de los buenos estimadores
Las propiedades más importantes que debe tener un estimador θ, para ser
considerado un “buen” estimador del parámetro θ son las siguientes:
• Insesgamiento: El estimador θ es un estimador insesgado del parámetro θ si, y
solo si la esperanza matemática del estimador θ es igual al parámetro θ. En
otras palabras, es insesgado si su sesgo es igual a cero. SESGO = E (θ) – θ = 0
El estimador θ es un estimador ASINTOTICAMENTE INSESGADO del parámetro θ, si, y
solo si el límite de la esperanza matemática del estimador θ, cuando el tamaño
de la muestra n tiende a infinito, es igual al parámetro θ.
• Eficiencia: El estimador θ es un estimador eficiente del parámetro θ si, y
solo si se cumple que el estimador θ tiene la menor varianza que puede tener un
estimador del parámetro θ.
o Eficiencia relativa: Dado dos estimadores de un mismo parámetro θ, el
estimador θ1 tiene una eficiencia relativa mayor que el estimador θ2 si, y solo
si la varianza del estimador θ1 es menor que la varianza del estimador θ2.
• Consistencia: El estimador θ es un estimador consistente del parámetro θ si y
solo, si se cumple con el estimador θ converge en probabilidad al parámetro θ,
cuando el tamaño de la muestra n tiende a infinito. Un estimador es consistente
si, a medida que el tamaño de la muestra crece indefinidamente (tiende a
infinito), la probabilidad de que la diferencia entre el estimador y el valor
del parámetro pueda hacerse tan pequeña como se quiera, tiende a la unidad.
• Suficiencia: El estimador θ es un estimador suficiente del parámetro θ, si, y
sólo si se cumple que el estimador θ utiliza toda la información relevante
acerca del parámetro θ, contenida en la muestra aleatoria.
Grados de libertad
Se llamada grados de libertad a la cantidad de variables libres, o
estadísticamente independientes, que intervienen en un problema o en una
distribución asociada a un problema.
Media aritmética muestral
Se llama media aritmética muestral (o, simplemente media muestral) a un
estimador de la media poblacional, que se genera haciendo el cociente entre la
suma de las variables muestrales y el tamaño de la muestra.
Varianza muestral
Se llama varianza muestral a un estimador de la varianza poblacional que se
genera haciendo el cociente entra la suma del cuadrado de las desviaciones con
respecto a la media aritmética muestral y los correspondientes grados de
libertad.
Proporción muestral
Se llama proporción de elementos que tienen un determinado atributo en la
muestra o, simplemente, proporción muestral a un estimador de la proporción
poblacional, que se genera mediante el cociente entre la cantidad de elementos
que si poseen un determinado atributo en la muestra y el tamaño de la muestra.
Esperanza y varianza de los estimadores
• Media muestral
La esperanza matemática de la media muestral siempre es la media poblacional.
Por lo tanto la media muestral es un estimador insesgado de la media
poblacional.
La varianza de la media muestral de universos infinitos es:
Por lo tanto, si el universo es infinito, la media muestral es un estimador
consistente de la media poblacional.
La varianza de la media muestral de universos finitos es:
Por lo tanto, si el universo es finito, la media muestral es un estimador
consistente de la media poblacional.
• Proporción muestral
La esperanza matemática de la proporción muestral siempre es la proporción
poblacional
Por lo tanto la proporción muestral es un estimador insesgado de la proporción
poblacional.
La varianza de la proporción muestral de universos infinitos es:
Por lo tanto, si el universo es infinito, la proporción muestral es un estimador
consistente de la proporción poblacional.
La varianza de la proporción muestral de universos finitos es:
Por lo tanto, si el universo es finito, la proporción muestral es un estimador
consistente de la proporción poblacional.
• Varianza muestral
La esperanza matemática de la varianza muestral, en universos infinitos, siempre
es la varianza poblacional
Por lo tanto la varianza muestral es un estimador insesgado de la varianza
poblacional.
La varianza de la varianza muestral de universos infinitos es:
Distribución de algunos estimadores
• Distribución de la media muestral de poblaciones normales
El estimador Media aritmética muestra, por estar originado en una suma de
variables normales, es una combinación lineal de variables aleatorias normales,
por lo tanto, también tiene distribución normal.
• Distribución de la varianza muestral
Se utiliza la distribución ji-cuadrado. El estadígrafo de transformación de la
varianza muestral es:
• Distribución de la media aritmética muestral cuando la varianza poblacional es
desconocida
Se utiliza la distribución t de student con (n-1) grados de libertad. El
estadígrafo de transformación es:
• Distribución de la proporción muestral
Se utiliza la distribución normal estandarizada. El estadígrafo de
transformación para la proporción muestral de universos infinitos es:
El estadígrafo de transformación para la proporción muestral de universos
finitos es:
Aplicación de la fracción de muestreo
Es el cociente entre el tamaño de la muestra y el tamaño de la población (n/N) y
mide la proporción del tamaño de la muestra con respecto al tamaño de la
población.
Intervalos de confianza
Se llama intervalo de confianza para el parámetro θ, a un método de estimación
que consiste en determinar un conjunto cerrado y acotado de posibles valores del
parámetro, cuyos límites, inferior y superior, son funciones del estimador; y la
correspondiente probabilidad de que dicho intervalo cubra al verdadero valor del
parámetro.
Se llama nivel de confianza o probabilidad fiducial, a la probabilidad de que el
intervalo de confianza cubra al verdadero valor del parámetro.
1 –ε: Nivel de confianza. Probabilidad de que el intervalo cubra al verdadero
valor del parámetro.
ε: Nivel de riesgo. Probabilidad de que el intervalo no cubra al verdadero valor
del parámetro.
Se llama Intervalo de confianza aditivo a aquel intervalo que permite que la
probabilidad de que la estimación difiera del parámetro en a lo sumo h veces el
desvío estándar del estimador, sea igual al nivel de confianza.
El factor h se llama factor de confianza y es el valor del fractil de orden de
la distribución de probabilidad del estadígrafo de transformación del estimador
θ.
Se llama error de muestreo a la máxima diferencia que podría haber entre el
estimador y el parámetro.
En los intervalos aditivos la cantidad que se suma y se resta al estimador
puntual es el error de muestreo.
Si se conocen los límites de un intervalo aditivo, la estimación puntual se
puede calcular haciendo la semisuma de los límites del intervalo y el error de
muestreo se puede calcular haciendo la semidiferencia de los límites del
intervalo.
Intervalo de confianza para la media poblacional de poblaciones normales
Las poblaciones pueden ser infinitas o finitas, como así también, es posible que
se conozca el valor de la Varianza de la población σ2, o no, en cuyo caso hay
que utilizar el estimador de dicha varianza, o sea la varianza muestral S2. Esto
da origen a distintas expresiones del intervalo de confianza para el parámetro
Media poblacional.
• Varianza poblacional conocida. Poblaciones infinitas
• Varianza poblacional conocida. Poblaciones finitas
• Varianza poblacional desconocida. Poblaciones infinitas
• Varianza poblacional desconocida. Poblaciones finitas
Intervalo de confianza para la media poblacional de poblaciones cuya
distribución de probabilidad es desconocida
Las distribuciones de las poblaciones no siempre son conocidas. En estos casos,
para poder construir intervalos de confianza para estimar el parámetro media
poblacional, hay que recurrir a la aplicación de algunos teoremas: Con el
teorema Central del límite se demuestra que los estadígrafos:
Tienen distribución asintóticamente normal estandarizada cuando el tamaño de la
muestra tiende a infinito. Por otro lado, con el teorema de Tchebycheff se puede
demostrar que
Con estos dos teoremas se construyen los intervalos de confianza para estimar el
parámetro media poblacional
Muestra grandes
Si la distribución de probabilidad de la población no es conocida y el tamaño de
la muestra es lo suficientemente grande como para que se cumpla el Teorema
Central del Límite, entonces, para poblaciones infinitas o finitas,
respectivamente:
O si la varianza poblacional es desconocida, bajo ciertas condiciones, para
poblaciones infinitas o finitas, respectivamente
Muestras chicas
Si la distribución de probabilidad de la población no es conocida, y el tamaño
de la muestra no es lo suficientemente grande como para que se cumpla el Teorema
Central del Límite, entonces el nivel de confianza del intervalo de estimación
es la cota inferior de probabilidad que surge de la aplicación del teorema de
Tchebycheff.
Entonces, para poblaciones con varianza poblacional conocida, infinitas o
finitas, los intervalos de confianzas son, respectivamente
O si la varianza poblacional es desconocida, bajo ciertas condiciones, para
poblaciones infinitas o finitas, respectivamente
Intervalo de confianza para la proporción de elementos que tienen un determinado
atributo en la población
• Poblaciones infinitas
El estadígrafo de transformación para la Proporción muestral es:
La expresión del intervalo:
• Proporción poblacional desconocida. Poblaciones finitas.
El estadígrafo de transformación para la proporción muestral es:
La expresión del intervalo:
Intervalo de confianza para la varianza poblacional
• Población infinita
El estadígrafo de transformación para la varianza muestral es:
La expresión del intervalo:
Tamaño de muestra
Tamaño de muestra para estimar la media poblacional
• Varianza poblacional conocida
El cálculo del tamaño de la muestra se realiza teniendo en cuenta los siguientes
factores:
El error de muestreo: Este factor es proporcionado por el usuario de la
muestra. El debe indicar cuál es la máxima diferencia entre la media muestral y
la media poblacional está dispuesto a aceptar. El error de muestreo debe estar
expresado en la misma unidad de medida de la variable.
La confianza en la estimación: Este factor es proporcionado por el usuario de
la muestra. El debe indicar cuál es la probabilidad deseada de que el intervalo
de confianza cubra al verdadero valor de la media poblacional.
La varianza de la población: Este factor indica el grado de variabilidad de la
población.
El tamaño de la población: En caso de poblaciones finitas, este factor es una
restricción para el tamaño de la muestra.
• Varianza poblacional desconocida
El tamaño de la muestra para estimar la media poblacional de poblaciones
normales infinitas, cuando no se conoce la varianza poblacional, se calcula
mediante el uso de un proceso iterativo. Este proceso consiste en los siguientes
pasos:
1) Se toma una muestra piloto de tamaño arbitrario n0 (generalmente este tamaño
es igual a 10) y con ella se calcula el valor de la varianza muestral utilizando
la formula ya explicada.
2) Se calcula un tamaño de muestra inicial, utilizando la siguiente fórmula:
Donde:
T1: Es el fractil de orden de la distribución t de student con (n-1) g.l.
S2: Varianza muestral calculada con la muestra piloto de tamaño n0.
e: Error de muestreo
3) Se obtiene un segundo tamaño de muestra, cambiando el valor t1 utilizado
anteriormente por t2, otro fractil de orden de la distribución t de Student pero
usando (n1-1)g.l.
4) Se obtiene un tercer tamaño de muestra, cambiando el valor t2 utilizado
anteriormente por t3, otro fractil de orden de la distribución t de Student pero
usando (n2-1)g.l.
5) Este proceso iterativo se repite tantas veces hasta que dos tamaños de
muestra consecutivos son iguales ni= n(i+1) entonces ese es el tamaño de la
muestra.
Tamaño de muestra para estimar la proporción poblacional
El cálculo del tamaño de la muestra se realiza teniendo en cuenta los siguientes
factores:
• El error de muestreo: Este factor es proporcionado por el usuario de la
muestra. El debe indicar cuál es la máxima diferencia entre la proporción
muestral y la proporción población que está dispuesto a aceptar. El error de
muestreo debe estar expresado en tanto por uno.
• La confianza en la estimación: Este factor es proporcionado por el usuario de
la muestra. El debe indicar cuál es la probabilidad deseada de que el intervalo
de confianza cubra al verdadero valor de la proporción poblacional.
• La proporción: Este factor proporciona información sobre el grado de
concentración de los elementos que tienen el atributo A.
• El tamaño de la población: En caso de poblaciones finitas, este factor es una
restricción para el tamaño de la muestra.
El error de muestreo se obtiene haciendo la semidiferencia entre los límites del
intervalo de la confianza.
Si la población es infinita, el error de muestreo es
Luego
Dado que el valor de p es desconocido porque se calcula con la muestra, no puede
formar parte de la fórmula utilizada para calcular el tamaño de la muestra, por
lo tanto, se utiliza un valor alternativo al que se simbolizara p.
El valor de p podrá obtenerse de alguna de las siguientes formas:
• Utilizando datos que surjan de trabajos anteriores
• Utilizando una muestra piloto (generalmente de tamaño 50),
• Si es imposible o impracticable alguna de las formas citadas, entonces, se
utiliza directamente el valor 0,50, dado que, cuando hay dicotomía, dos grupos,
la mayor dispersión se alcanza si cada grupo tiene el 50%.
Prueba de hipótesis
Se llama hipótesis estadística a cualquier afirmación o aseveración que se
formula acerca de cualquier característica poblacional (el valor numérico de un
parámetro, la forma funcional de una población, etc.)..
Se llama hipótesis parametrica a aquella hipótesis estadística planteada para
controlar o verificar el valor numérico de un parámetro.
Se consideran solo tres posibles situación del valor numérico del parámetro, a
saber:
• El valor numérico del parámetro θ es exactamente igual a un determinado valor
postulado θo.
• El valor numérico del parámetro θ es menor a un deterimando valor postulado de
θo.
• El valor numérico del parámetro θ es mayor a un determinado valor postulado de
θo.
Se llama curso de acción a la acción que se llevaría a cabo, si se conociese el
verdadero valor del parámetro θ.
Se llama desigualdad equivalente a la igualdad a aquella desigualdad entre el
parámetro θ y el valor postulado θo, que provoca el mismo curso de acción que se
llevaría a cabo con la igualdad entre el valor del parámetro θ y el valor
postulado θo.
Se llama desigualdad no equivalente a la igualdad a aquella desigualdad entre el
parámetro θ y el valor postulado θo, que provoca un curso de acción distinto al
que se llevaría a cabo con la igualdad entre el valor del parámetro θ y el valor
postulado θo.
Se llama hipótesis nula a aquella hipótesis que establece que la diferencia
entre el verdadero valor del parámetro valor del parámetro θ y el valor
postulado θ, y el valor que se postula valor del parámetro θ y el valor
postulado θo.o, es cero.
Necesariamente la hipótesis nula debe plantearse como la igualdad entre el valor
del parámetro y el valor postulado
Esta igualdad puede estar acompañada o no por alguna de las 2 desigualdades,
según sea el curso de acción a seguir y la existencia o no de alguna desigualdad
equivalentes. Se puede distinguir 2 tipos de hipótesis nulas:
• Hipótesis nula única: cuando no hay desigualdad equivalente.
El valor del parámetro θ es igual al valor postulado θo.
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo
es cero.
• Hipótesis nula múltiple: Cuando hay desigualdad equivalente
Si es menor:
El valor de parámetro θ es igual o menor al valor postulado θo
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo,
es menor o igual a cero
Si es mayor:
El valor de parámetro θ es igual o mayor al valor postulado θo
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo,
es mayor o igual a cero
Hipótesis alternativa
Es aquella hipótesis que debería cumplirse si la hipótesis nula no es cierta.
Hipótesis alternativa única: Cuando hay un solo valor alternativo del parámetro
θ, el θ1, que debería ser en el caso de que la hipótesis nula no sea cierta.
Si la hipótesis nula no es cierta, entonces, el valor de parámetro θ debería ser
igual a θ1.
Hipótesis alternativa múltiple: Cuando hay un conjunto abierto de posibles
valores alternativos del parámetro θ, en caso de que se rechace la hipótesis
nula.
De acuerdo con el tipo de hipótesis nula que se plantea, se distinguen 3 formas
mutuamente excluyentes de plantear la hipótesis alternativa múltiple:
1) Si la hipótesis nula es única, o sea, si no hay desigualdad equivalente,
entonces se plante la hipótesis alternativa múltiple:
Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de
parámetro θ es distinto (mayor o menor) a θ0. Es un planteo “por distinto”.
2) Si la hipótesis nula no es única, y si la desigualdad equivalente es la
desigualdad menor entonces se plantea la hipótesis alternativa múltiple:
Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de
parámetro θ es mayor a θo. Es un planteo “por mayor”.
3) Si la hipótesis nula no es única, y si la desigualdad equivalente es la
desigualdad mayor, entonces se plantea la hipótesis alternativa múltiple:
Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de
parámetro θ es menor a θo. Es un planteo “por menor”
Prueba de hipótesis nula: Es un método estadístico con el cual, a partir de los
datos de una muestra aleatoria, se decide acerca de la veracidad o falsedad de
la hipótesis nula formulada, pudiéndose calcular la probabilidad de cometer un
error en la decisión tomada.
La hipótesis que se prueba para decidir si debe ser rechaza o no, siempre es la
hipótesis nula.
Se llama estadígrafo de prueba, para pruebas parametricas, a un estadígrafo
apropiado, ep, con el que se realiza la prueba de hipótesis, que mida la
discrepancia, d, entre el parámetro a probar y el estimador correspondiente y,
además, tiene una distribución de probabilidad conocida.
Para poder establecer su discrepancia, en el estadígrafo de prueba deben estar
presentes tanto el parámetro a estimar como su correspondiente estimador.
Genéricamente el estadígrafo de prueba se simboliza
Y su valor numero, después de reemplazar las variables muestrales con el
resultado de la muestra, se simboliza ep.
El estadígrafo de prueba es una variable aleatoria que se genera transformando
al estimador θ, por lo tanto su dominio D , es una transformación del espacio
muestral
Región critica y región de no rechazo
El método para realiza la prueba de hipótesis consiste en particionar al
dominio, D , del estadígrafo de prueba, ep, en dos subconjuntos o regiones
mutuamente excluyentes. Según a cuál de las dos regiones pertenezca el valor
número del estadígrafo de prueba, se rechaza o no a la hipótesis nula:
Región critica, RC, es el subconjunto del dominio D con el que se rechaza la
hipótesis nula.
Región de no rechazo, RA =( D-RC), es el subconjunto del dominio D con el que no
se rechaza la hipótesis nula.
Si hay una desigualdad equivalente, la región crítica está formada por un
subconjunto semicerrado. En este caso se dice que la prueba es unilateral.
Si no hay desigualdad equivalente, la región crítica está formada por dos
subconjuntos semicerrados mutuamente excluyentes de igual tamaño. En este caso
se dice que la prueba es bilateral.
Se llama punto crítico, pc, a la frontera de la región crítica.
Cuando la prueba es unilateral la región crítica está formada por un subconjunto
semicerrado, por lo tanto, hay un solo (único) punto crítico. Si la prueba es
bilateral, la región crítica está formada por dos conjuntos semicerrados, luego
hay dos puntos críticos. En cualquiera de las dos situaciones, los puntos
críticos pertenecen a la región crítica, por lo tanto, son puntos de rechazo de
la hipótesis nula.
Se llama regla de decisión a aquella regla que establece las pautas para
rechazar la hipótesis nula y se enuncia: “ Si el valor numérico del estadígrafo
de prueba pertenece a la región critica, entonces se rechaza la hipótesis nula,
en caso contrario, si el valor numérico del estadígrafo de prueba no pertenece a
la región critica, entonces no se rechaza la hipótesis nula:
Dada la hipótesis nula la regla de decisión establece que hay que rechazarla si,
luego de obtener la muestra, hacer las mediciones correspondientes y calcular el
valor numérico del estadígrafo de prueba, ep, éste pertenece a la región
critica, y que no hay que rechazarla si el estadígrafo de prueba, ep, no
pertenece a la región critica.
Error de tipo I
El hecho de rechazar la hipótesis nula cuando la hipótesis nula es cierta.
Error de tipo II
El hecho de no rechazar la hipótesis nula cuando la hipótesis nula es falsa.
Nivel de significación
Es la probabilidad de cometer el error de tipo I, o sea, a la probabilidad de
rechazar la hipótesis nula cuando es cierta. El nivel de significación se
simboliza con la letra griega α y mide el tamaño de la región critica.
Potencia de la prueba
Es la probabilidad de no cometer el error de tipo II, o sea, la probabilidad de
rechazar la hipótesis nula cuando es falsa. La potencia de la prueba se
simboliza con la letra griega ∏
Acción derivada
El rechazo de la hipótesis nula inducirá al investigador a realizar una
determinada acción con respecto al objeto de su investigación. Si por el
contrario, no se rechaza la hipótesis nula, entonces el investigador estará
también inducido a realizar una acción, pero distinta. Cualesquiera de estas dos
acciones se derivan del resultado de la prueba de hipótesis.
Se llama acción derivada a la acción que se lleva a cabo según el resultado de
la decisión estadística que se tome, rechazar o no rechazar la hipótesis nula.
Pasos a seguir para realizar una prueba de hipótesis parametrica
1-Establecer el parámetro a probar
2-Indicar los cursos de acción
3-Verificar si hay una desigualdad equivalente
4-Plantear la hipótesis nula y la hipótesis alternativa
5-Indicar el estadígrafo de prueba a utilizar y su correspondiente distribución
de probabilidad
6-Establecer la región critica y el o los puntos críticos teniendo en cuenta lo
siguiente:
a) Si la desigualdad no equivalente es la desigualdad menor, toda la región
critica esta a la izquierda y el punto crítico es el fractil α2.
b) Si la desigualdad no equivalente es la desigualdad mayor, toda la región
critica esta ala derecho y el punto crítico es el fractil (1-α)3
c) Si no hay desigualdad equivalente la región critica se particiona en dos. Una
parte a la izquierda cuyo punto crítico es el fractil (α/2)4 y la otra parte a
la derecha cuyo punto crítico es el fractil [1-(α/2)].
7-Plantear la regla de decisión estadística para rechazar o no la hipótesis
nula.
8- Calcular el valor numérico del estadígrafo de prueba y verificar a que región
pertenece.
9-Tomar la decisión estadística
10-Llevar a cabo la acción derivada.
Estadígrafos de prueba para la prueba de hipótesis de parámetros específicos de
una población
Poblaciones infinitas con varianza poblacional conocida
Poblaciones finitas con varianza poblacional conocida
Poblaciones infinitas con varianza poblacional desconocida
Poblaciones finitas con varianza poblacional desconocida
Estadígrafos de prueba para la prueba de hipótesis de la media poblacional de
poblaciones no normales
Poblaciones infinitas con varianza poblacional conocida
Poblaciones finitas con varianza poblacional conocida
Poblaciones infinitas con varianza poblacional desconocida
Poblaciones finitas con varianza poblacional desconocida
Estadígrafo de prueba para la prueba de hipótesis de la proporción de elementos
con un determinado atributo
Poblaciones infinitas
Poblaciones finitas
Estadígrafo de prueba para la prueba de hipótesis de la varianza poblacional de
poblaciones normales
Poblaciones infinitas (único caso)
Estadígrafo de prueba para comparar las varianzas de dos poblaciones normales
Estadígrafo de prueba para comparar las medias poblacionales de dos poblaciones
normales
• Si las varianzas poblaciones son conocidas
• Si las varianzas poblaciones son desconocidas
Estadígrafo de prueba para comparar las proporciones poblacionales de dos
poblaciones
Análisis de regresión
Es un método estadístico que permite explicar el comportamiento de una variable
cuantitativa, a partir del comportamiento de otra u otras variables que puedan
estar relacionadas, estableciendo la expresión funcional del modelo matemático
que describa dicho comportamiento.
Variable explicada
Es aquella variable cuantitativa cuyo comportamiento se desea describir a partir
del comportamiento de otra u otras variables.
Variables explicativas
Son aquellas variables que explica el comportamiento de la variable explicada
Ej.: Para medir la cantidad demandada de un determinado bien por una unidad
económica, se puede utilizar el precio de dicho bien, el precio de bienes
complementarios, el precio de bienes sustitutos, el ingreso del consumidor, etc.
El análisis de regresión consiste en construir un modelo que permita predecir el
valor de la variable explicada, utilizando para ello, valores de K variables
explicativas. El modelo a construir consta de dos partes. Una de ellas, es una
función real o modelo matemática y la otra parte, es una variable aleatoria que
representa la variabilidad no controlada por las k variables explicativas.
Se llama modelo estadístico de regresión al modelo
Se llama función de regresión al modelo matemático que interviene en el modelo
estadístico de regresión
Se llama residuo aleatorio o variable aleatoria residual a la variable aleatoria
que forma parte del modelo estadístico de regresión.
Supuestos básicos de la regresión
Hay que plantear los siguientes supuestos sobre la variable aleatoria residual
u. Para cada k-erna (X1;X2…;Xk) posible de los valores de las variables
explicativas, se supone que se cumple:
1) La variable aleatoria residual u tiene distribución normal
2) La esperanza matemática de la variable aleatoria residual u es cero
3) La varianza de la variable aleatoria residual u se mantiene constante
4) Las variables aleatorias residuales ui;uj, para dos k.erna (X1;X2…;Xk)
cualesquiera, son independientes, o sea, la covarianza entre ellas es cero
5) La variable aleatoria residual es independiente de cada una de las variables
explicativas
Análisis de regresión simple
Es el análisis que se realiza cuando a cada unidad experimental de un
determinado universo se le miden solo dos variables, una variable explicativa y
una variable explicada.
Sean X una variable explicativa e Y una variable explicada. Los valores
individuales de cada una de la variables que se miden se presentan como pares
ordenados (xi;yi). Cada par ordenado representa un punto en un plano. Todos los
posibles pares del universo se pueden presentar en un grafico utilizando
coordenadas cartesianas ortogonales.
Se llama diagrama de puntos o diagrama de dispersión a la representación grafica
de los pares ordenados de los valores de las variables que intervienen en el
análisis de regresión simple.
Se llama modelo de regresión lineal simple, polinomico de primer grado, al
modelo de regresión que se forma cuando la función de regresión es una función
afín, o sea, una recta:
De no cumplirse los supuestos referidos a la esperanza matemática y a la
varianza de la variable aleatoria residual, entonces:
El valor promedio esperado de la variable explicada para cada valor de la
variable explicativa, o sea la esperanza matemática condiciones, es la recta de
regresión:
Y la varianza de la variable explicada para cada valor de la variable
explicativa, o sea la varianza condicionada, es igual a la varianza residual:
Un valor individual de la variable residual es la diferencia entre un valor de
la variable explicada y el valor de la recta de regresión para un valor dado de
la variable explicativa
Entonces, si cada valor de la recta de regresión es el promedio, o valor
esperado de la variable explicada para cada valor de la variable explicativa, la
recta de regresión pasa entre los puntos del diagrama de puntos compensando los
desvíos que se producen.
La ordenada al origen y la pendiente de la recta de regresión, β0 y β1
respectivamente, también son parámetros estadísticos. Esto quiere decir que
brindan información sobre la variable explicada, en relación con la variable
explicativa.
Ej.: En la recta que representa la función consumo-ingreso estudiada en
económica, la ordenada al origen es el consumo autónomo, o sea, el valor del
consumo cuando el ingreso es cero, y la pendiente es la propensión marginal a
consumir, o sea, la cantidad que se destina al consumo por cada peso adicional
del ingreso.
β1 Se llama coeficiente de regresión y es la pendiente de la recta. Es el
cociente entre la covarianza entre la dos variables y la varianza la variable
explicativa:
β0 es la ordenada al origen.
Suma de cuadrados de X
La diferencia entre un valor particular de la variable explicativa Xo y su media
aritmética X es una desviación de la variable X
Si se toman todos los valores de dicha variable se puede calcular la suma del
cuadrado de las desviaciones de la variable x con respecto a la media aritmética
o simplemente suma de cuadrados de x, la que mide la variabilidad total de la
variable X.
Suma de cuadrados de Y
La diferencia entre un valor particular de la variable explicada Yo y su media
aritmética Y es una desviación de la variable Y
Si se toman todos los valores de dicha variable se puede calcular la suma del
cuadrado de las desviaciones de la variable y con respeto a la media aritmética,
o simplemente suma de cuadrados de y, la que mide la variabilidad total de la
variable Y.
Suma del producto XY
El producto de la diferencia entre un valor particular de la variable
explicativa X0 y su media aritmética X y de la diferencia entre un valor
particular de la variable explicada Y0 y su media aritmética Y es una desviación
conjunta
Si se toman todos los pares de valores de dichas variables se puede calcular la
suma del producto de las desviaciones de cada variable con respecto a sus
respectivas medias aritméticas, o simplemente suma del producto XY, la que mide
la variabilidad conjunta total entre las variables X e Y.
La recta de regresión estimada tiene la propiedad de compensar los desvíos que
se producen entre cado valor muestral de la variable explicativa y el
correspondiente valor de la recta. Se cumple que:
Medidas de variabilidad en la regresión
Se llama desviación total a la diferencia entre un valor individual de Y y el
promedio
Se llama desviación explicada por la regresión a la diferencia entre el valor de
la recta de regresión estimada, correspondiente al valor x0, y el promedio de la
variable Y.
La diferencia entre un valor individual de Y y el valor de la recta de regresión
estimada correspondiente al valor X, se llama desviación residual.
Sumas de cuadrados total
La suma del cuadrado de las n desviaciones totales es una medida de la variación
de los valores de Y en torno a su media Y.
Suma de cuadrados explicada por la regresión
La suma del cuadrado de todas las n desviaciones explicadas por la regresión es
una medida de la variación de los valores de la recta de regresión muestral en
torno a su medida Y .
Suma de cuadrados residual
La suma del cuadrado de las n desviaciones residuales es una medida de la
variación de los valores de variable explicada y los correspondientes de la
recta de regresión muestral.
Coeficiente de determinación
Es un coeficiente que mide la proporción de la variación total que esta
explicada por la regresión.
Varianza residual muestral
Es un estimador insesgado de la varianza residual poblacional. Es el cociente
entre la suma de cuadrados residual y sus correspondientes grados de libertad.
Análisis de correlación
Es un método estadístico que permite medir el grado de asociación entre las
variables.
Análisis de correlación lineal simple se lleva a cabo cuando la función de
regresión que explica el comportamiento conjunto de las variables es la función
afín, o sea, una recta.
Números índices
Son aquellas medidas estadísticas que ponen de manifiesto, en forma
cuantitativa, las variaciones relativas de un fenómeno complejo, a través del
tiempo, del espacio o de cualquier otra circunstancia.
Indican la variación porcentual de una variable o grupo de variables, entre una
situación inicial (situación base de comparación), y otra situación final
(situación objeto de la comparación).
Se llama canasta al conjunto de bienes económicos que intervienen en la
construcción de un número índice.
Se llama periodo base al periodo cronológico que se utiliza como situación
inicial o base de la comparación
Se llama periodo actual al periodo cronológico que se quiere comparar con el
periodo base.
El periodo actual “t” es un momento particular en el tiempo. Un número índice
construido en ese momento, mide el tamaño relativo porcentual de laguna
variable, o grupo de variables, con relación al tamaño que tenían en el periodo
base.
Para lograr que el número índice ponga de manifiesto, con mayor objetividad, los
cambios relativos en los valores de las variables, al seleccionar el periodo
base para construir un índice particular, se deben observar dos reglas:
• El periodo base seleccionado debe ser un periodo de normalidad o estabilidad
económica, ya que un periodo que este cerca de una cúspide, en una economía en
expansión, o de una sima, en una economía declinante o en recesión, pueden
proporcionar comparaciones que no reflejen adecuadamente los aspectos dinámicos
de las variables que se están analizando.
• El periodo base no debería estar muy alejado de los periodos que serán objeto
de comparación, a fin de que estas comparaciones no resulten afectadas sin
necesidad, por cambios en la tecnología, calidad del producto, o en las
actitudes, intereses, gustos y hábitos de los consumidores.
Clasificación de los números índices
Según la variable cuya variación se pretende medir, se clasifican en:
• Índice de precios: refleja el cambio porcentual de los precios de uno o más
bienes.
• Índice de cantidad: Refleja el cambio porcentual de las cantidades demandadas
de uno o más bienes.
• Índice de valor: Refleja el cambio porcentual de lo gastado en uno o más
bienes.
Según el método de construcción, se clasifican en:
• Índices simples: Aquellos que tienen en cuenta solamente las variaciones
relativas, sin considerar la importancia de las variables dentro del contexto,
es decir, no se les asigna ningún tipo de peso o ponderación.
• Índices ponderados: Aquellos que si tienen en cuenta la importancia de cada
variable dentro del contexto donde están medidas, es decir, se les asigna un
determinado peso o ponderación.
Según la elección de la base, los índices pueden ser:
• Índice de base fija: El periodo tomado de referencia, el periodo base, se
mantiene fijo a lo largo de toda la serie.
• Índice de base variable o en cadena: Son aquellos en los cuales la base se
renueva constantemente, para evitar ciertos problemas que se plantean en la
elección de la base.
Precio relativo
Es el cociente entre el precio del bien ese periodo y el precio del bien en el
periodo base
Índices Simples
Para un solo bien: Relativo simple, es el precio relativo multiplicado por 100.
Este índice indica la variación porcentual del precio del i-esimo bien de la
canasta.
Índice para un grupo de bienes
Aunque un índice de precios para cualquier bien individual, puede resultar de
interés para determinados trabajos, resulta más importante un índice que refleje
la variación conjunta de todos los bienes de la canasta.
Promedio aritmético simple de los relativos: Este índice se obtiene calculando
el promedio aritmético simple, de los precios relativos de los k bienes de la
canasta y multiplicando este resultado por 100.
Agregativo simple: El índice agregativo simple se obtiene haciendo el cociente
entre la suma de todos los precios correspondiente a la canasta en el periodo
actual, t, y la suma de todos los precios correspondiente a la canasta en el
periodo base, y multiplicando este resultado por 100.
El Índice de precio agregativo simple representa los cambios en los precios, a
través del tiempo, para toda la cansa, mientras que el índice del promedio
simple de precios relativos refleja el promedio de los cambios en los precios, a
través del tiempo, de cada bien considerado en el índice.
El índice de precio agregativo simple es más fácil de calcular que el índice de
promedio simple de precios relativos.
El índice del promedio de precios relativos es más útil que el índice de precio
agregativo simple, porque es posible observar los cambios en los precios
relativos, individualmente, y también se puede considerar el cambio de los
precios combinando todos los artículos.
El índice del promedio simple de precios relativos no está influido por las
unidades de medida utilizadas en la comercialización de los bienes.
Índices ponderados
Tanto el índice de promedio simple de precios relativos como el índice de
precios agregativo simple presentan el inconveniente de no considerar la
importancia que tienen cada uno de los bienes dentro de la cansa. Ello hace que
estos indicen no sean significativos para explicar cómo los cambios en los
precios afectan a los consumidores. Por este motivo, al promediar los precios
relativos, hay que recurrir a los promedios ponderados, utilizando factores de
ponderación adecuados para cada bien de la canasta, de modo tal que quede
reflejado cuales son los más demandados por las unidades de consumo. Las
ponderaciones utilizadas generalmente son:
a) Las cantidades demandadas de cada uno de los bienes, q1.
b) El valor de lo gastado en cada uno de los bienes. (p1.q1)
Promedio ponderado de los precios relativos
a) Ponderado por la cantidad
Este índice se construye calculando el promedio aritmético ponderado de los
precios relativos, utilizando como factor de ponderación, las correspondientes
cantidades demandadas, en el periodo base, de los bienes que constituyen la
canasta.
b) Ponderado por el valor del año base
Este índice se construye calculando el promedio aritmético ponderado de los
precios relativos, utilizando como factor de ponderación, el valor gastado en el
periodo base, en cada uno de los bienes que constituyen la canasta.
c) Ponderado por el valor del año base con cantidades del año actual
Este índice se construye calculando el promedio aritmético ponderado de los
precios relativos, utilizando como factor de ponderación, el valor que se
hubiese gastado en el periodo base, en casa uno de los bienes que constituyen la
canasta si hubiesen demandado las cantidades del año actual.
Índice de Laspeyres
Este índice mide la variación porcentual del gasto total en los k bienes, si en
el año actual se hubiesen demandado las cantidades del año base. Es criticado,
en primer lugar, porque, según las leyes económicas, las variaciones en los
precios provocan variaciones en las cantidades demandadas (generalmente en
sentido contrario, luego, el numerado carecería de validez ya que no reflejaría
la realidad. En segundo lugar, este índice no tiene en cuenta los cambios
tecnológicos y los cambios en los gustos de los consumidores, lo que hace que
las cantidades sufran variaciones de importancia, llegando al extremo de ser
casi nulas en algunos casos, no obstante, en la construcción del numero debe
seguir figurando la cantidad demandada en el año base, con la consecuente
distorsión de la realidad.
Índice de Paasche
Este índice mide la variación porcentual del gasto total en los k bienes, si en
el año base se hubiese demandado las cantidades del año actual. Es criticado
porque, en primer lugar, igual que con el índice de Laspeyres, no se tiene en
cuenta las variaciones en las cantidades demandadas provocadas por las
variaciones en los precios. Esto significa que si los precios del año base son
menores a los del año actual, las cantidades demandadas serán mayores, luego, el
denominador carecería de validez, ya que no reflejaría la realidad. En segundo
lugar, por cuestiones tecnológicas o de gustos del consumir, algunos bienes
consumido en el año actual podrían no conocerse en al año base, por lo tanto no
tendrían precio, y el índice no se podría calcular. En tercer lugar, si se
quiere mantener una serie cronológica obligaría a recalcularla en cada período,
ya que las cantidades demandadas cambian de periodo a periodo.
Índice de Fischer
Índices de cantidad
Una cantidad relativa para cada uno de los bienes de la canasta, en un momento
dado en el tiempo, el periodo actual t, es el cociente entre la cantidad del
bien en ese periodo y la cantidad del bien en el periodo base.
Índices simples
Para un solo bien: La cantidad relativa multiplicada por 100, es el índice
relativo simple.
Para un grupo de bienes:
a) Promedio aritmético simple de los relativos: Este índice se obtiene
calculando el promedio aritmético simple, de cantidades relativas de los k
bienes de la canasta y multiplicando este resultado por 100.
b) Agregativo simple: Se obtiene haciendo el cociente entre la suma de todas las
cantidades correspondientes a la canasta en el periodo actual t, y la suma de
todos las cantidades correspondientes a la canasta en el periodo base, y
multiplicando este resultado por 100.
Índices ponderados
a) Ponderado por el precio: Se construye calculando el promedio aritmético
ponderado de las cantidades relativas, utilizando como factor de ponderación los
correspondientes precios, en el periodo base, de los bienes que constituyen la
canasta.
b) Ponderado por el valor del año base: Se construye calculando el promedio
aritmético ponderado de las cantidades relativas, utilizando como factor de
ponderación, el valor gastado en el periodo base, en cada uno de los bienes que
constituyen la canasta
c) Ponderado por el valor del año base con los precios del año actual: Se
construye calculando el promedio aritmético ponderado de las cantidades
relativas, utilizando como factor de ponderación, el valor que se hubiese
gastado en el periodo base, en cada uno de los bienes que constituyen la canasta
si se hubiesen pagado los precios del año actual.
Método para la construcción de números índices
1) Definir claramente cual deberá ser la canasta para evaluar la evolución de
los precios y/o cantidades a lo largo de un determinado lapso.
2) Determinar cuál de los periodos de ese lapso será el periodo base.
3) Mediante encuestas, se establece cual es el precio por unidad de
comercialización, pago por los consumidores por cada uno de los bienes de la
cantas y qué cantidad se ha demandado de ellos.
4) Decidir cuál es el índice que proporciona la mejor información sobre la
referida evolución de los precios y/o cantidades.
Se llama deflactacion estadística a un método estadístico, que permite eliminar
los efectos que las variaciones de los precios, entre el periodo base y el
periodo actual, provocan sobre las variaciones de valores monetarios.
Un valor monetario antes de la deflactacion se llama valor nominal o corriente,
y después de la deflactacion se llama valor real o constante del año base
Se llama índice deflactor a un determinado número índice que se utiliza para
realizar una deflactacion estadística.
Propiedades de un buen numero índice:
1. Reversibilidad con respecto al tiempo: El producto entre el índice de base en
el periodo o para el periodo t ( en tanto por uno) y dicho índice tomando como
base el periodo t y calculando para el periodo o (en tanto por uno) debe ser
igual a la unidad.
2. Circularidad: Generalización de la reversibilidad con respecto al tiempo
3. Reversibilidad de los factores: El producto entre un índice de precios de
base en el periodo o para el periodo t (en tanto por uno) y el índice de
cantidad para el mismo periodo y la misma base (en tanto por uno) debe ser igual
al índice del valor (en tanto por uno).
4. Identidad: El índice de la base (en tanto por uno) debe ser igual a la unidad
5. Homogeneidad: EL índice no debe variar si se cambian las unidades de medidas
en que están expresadas las cantidades.
6. Proporcionalidad: Si los precios de todos los bienes cambian en la misma
proporción, el índice de precios correspondiente debe cambiar en esa proporción.