Altillo.com > Exámenes > UBA - Económicas > Estadística

Estadística

Resumen para el Tercer Parcial

Cátedra: Capriglioni

Prof: Cristian Kaplan 1º Cuat. de 2012 Altillo.com

Muestra: Es un subconjunto o parte de una población tomada de forma tal, que con ella se pueda hacer un juicio acerca de esa población completa.
Fracción de muestreo: Al cociente entre el tamaño de la muestra y el tamaño de la población (FM = n/N)
Inferencia estadística: Cualquier afirmación que se realiza sobre una determinada población, basándose en los datos obtenidos con una muestra. Pudiéndose obtener a partir del cálculo de probabilidad, una determinada medida de la incertidumbre que se genera.
Muestreo: Es el procedimiento mediante el cual se obtienen una o más muestra de una población dada.
Unidad de Muestreo: Es cada unidad experimental, o grupo de unidades experimentales, que son tomadas para obtener una muestra.
Diseño muestral: Es un plan de muestreo especifico donde se establece cuales serán los procedimiento a seguir para tomar una o más muestras.
Las unidades experimentales que intervienen en una muestra, pueden ser tomadas con mayor o menor grado de subjetividad por parte del sujeto que se encarga de realizar la muestra. De esta manera, se originan distintos tipos de muestreo. Algunos de ellos son:
Muestreo probabilístico: Es cuando las unidades experimentales que componen la muestra son tomadas al azar. El proceso de obtención de cada uno de los elementos que integrara la muestra, es un experimento aleatorio. Es un tipo de muestreo objetivo porque no depende del sujeto que se encarga de tomar la muestra, sino del azar.
Muestreo intencional: Cuando las unidades experimentales que componen la muestra son obtenidas siguiendo una regla o norma preestablecida. Depende de las preferencias del sujeto.
Muestreo sin norma: Cada elemento que integrara la muestra es elegido por el sujeto, pero sin un criterio fijado. Por tal motivo se considera que la obtención es cuasi-aleatoria, luego, el muestreo es cuasi-objetivo. Se puede utilizar cuando hay elementos de juicio suficientes como para suponer que la población es homogénea.
Método de obtención de muestras
Muestreo simple al azar (sin reemplazo)
El método muestreo simple al azar (sin reemplazo) consiste en obtener al azar, una muestra de n elementos, de entre los N que constituyen el Universo. Hay que tener en cuenta que todas las muestras posibles de tamaño n deben tener la misma probabilidad de ser tomadas, como así también, que todos los elementos que integraran la muestra tengan, en el momento de cada extracción, la misma probabilidad de ser obtenidas.
Considérese, a modo de ejemplo, un Universo finito de tamaño N. Como a cada una de las unidades que se extraen no se las repone, la cantidad de muestras distintas, igualmente posibles, de tamaño n que pueden obtener de dicho Universo, es una combinación de N elementos tomados de a n. Esta combinación se puede calcular con el número combinatorio. (Nn)
Muestreo estratificado al azar
En aquellos casos en los cuales la población presenta una gran variabilidad, ósea, una población heterogénea, la utilización del Muestreo Simple al Azar puede proporcionar muestras no representativas y las conclusiones que surjan del análisis ellas no serán del todo confiables. Cuando se presentan estas situaciones, el método de muestreo más adecuado a utilizar es el muestreo estratificado al azar. Este método consiste en particionar al Universo en estratos (o clases o subpoblaciones), dentro de los cuales si la variable debe presentar homogeneidad. De cada uno de los estratos se obtiene una muestra Simple al Azar.
La asignación del tamaño de la muestra a cada uno de los distintos estratos se llama afijación, y puede realizarse de alguna de las siguientes formas:
a) Afijación igual o uniforme: El tamaño de muestra que le corresponde a cada estrato es igual para todos. Este tamaño se calcula, entonces, haciendo el cociente entre el tamaño de la muestra, n, y la cantidad de estratos, h.
b) Afijación proporcional: El tamaño de la muestra que le corresponde a cada estrato es proporcional al tamaño del estrato. Se calcula haciendo el producto entre la fracción de muestreo y el tamaño de cada estrato.
c) Afijación Optima: El tamaño de la muestra para cada estrato es proporcional al tamaño del estrato y al desvío estándar correspondiente. De esta manera se tiene en cuenta la falta de homogeneidad entre las subpoblaciones.
Muestreo sistemático al Azar
Consiste en ordenar a las N unidades experimentales que conforman el Universo, de acuerdo a como se fueron presentando, y obtener la muestra eligiendo, sistemáticamente (de aquí la denominación del método), un elemento cada c unidades, tomado el primero de ello en forma aleatoria.
Si el universo es finito, el numero c es la parte entera del cociente entre el tamaño del universo y el tamaño de la muestra.
Si el universo es infinito, el número c se elige arbitrariamente, sobre la base del buen saber y entender del estadístico que realiza el trabajo.
Este método es adecuado para ser utilizado en aquellos casos en los cuales las Unidades Experimentales que forman el universo se presentan con una determinada periodicidad. En este caso, hay que evitar que el numero c sea igual al periodo con que se presentan las unidades experimentales en el universo, porque, si ello ocurriese se perdería representatividad en la muestra.
Características poblaciones y muestrales
Parámetro estadístico
Toda población es una variable aleatoria; por tal motivo, su comportamiento probabilístico esta explicado por una función de probabilidad, si la variable es discreta, o por una función de densidad de probabilidad, si se trata de una variable continua.
Existen medidas que caracterizan a estas funciones, como las de tendencias central, variabilidad, etc. Estas medidas cumplen un importante papel en el análisis inferencial y, por ese motivo, se las define especialmente distinguiendo dos tipos de universos.
Universo finito y pequeño
Se llama parámetro estadístico a toda medida que resume información calculada con las variables poblacionales.
Son ejemplos de parámetros: El total de los elementos que presenta un determinado atributo, la proporción de elementos que presentan un determinado atributo, la media aritmética, la varianza, el desvío estándar, etc.
Universo finito y grande o universo infinito
Se llama parámetro estadístico a todo parámetro matemático de una función de probabilidad o de densidad de probabilidad, que brinda información acerca de una población.
Los parámetros no son constantes matemáticas; son números reales que pueden asumir cualquier valor que se encuentre dentro de un conjunto específico.
Estadígrafo
Es toda función escalar, h (X1; X2;…; Xn) generada con las variables muestrales.
Dado que los estadígrafos son funciones generadas por variables aleatorias, también son variables aleatorias, luego, existirá una función de densidad de probabilidad, o una función de probabilidad, lo que corresponda, que describa su comportamiento probabilístico, como así también es posible que tengan una Esperanza Matemática finito y una Varianza finita.
Estadígrafo de un parámetro: Todo estadígrafo que proporcione información acerca de dicho parámetro.
Estadígrafo de transformación: Es aquel estadígrafo que permite transformar al estimador, en una variable que tenga una determina distribución de probabilidad.
Estimación
Dado que la mayoría de los trabajos en donde se aplica el análisis estadístico, los parámetros de las poblaciones son desconocidos, hay que llevar a cabo el proceso de inferir o sacar conclusiones acerca de estos a través de las variables muestrales.
Los métodos que se utilizan para ello son dos, que generalmente se complementan, a saber:
• Estimación puntual: Se llama estimación puntual del parámetro θ, a un método de estimación que consiste en calcular el valor numérico único que asume el estimador, luego de tomar la muestra y realizar las mediciones correspondientes. Este valor numérico se llama punto de estimación
• Estimación por intervalo: Se llama estimación por intervalo del parámetro θ a un método de estimación que consiste en calcular, con los datos de la muestra, los limites de un conjunto cerrado y acotado de números reales. Este conjunto se llama intervalo de estimación.
Los límites del intervalo de estimación dependen de la estimación puntual
Distribución de los estimadores
Se llama distribución de probabilidad del estimador θ, a aquella función de densidad de probabilidad, o función de probabilidad, según corresponda, que describe su comportamiento probabilístico.
Sesgo
Se llama sesgo a la diferencia entre, la esperanza matemática del estimador y el parámetro a estimar.
SESGO = E (θ) – θ
Error medio cuadrático
Es la esperanza matemática del cuadrado de la diferencia entre el estimador θ y el parámetro θ.
EMC (θ) = E (θ- θ)2
Propiedades de los buenos estimadores
Las propiedades más importantes que debe tener un estimador θ, para ser considerado un “buen” estimador del parámetro θ son las siguientes:
• Insesgamiento: El estimador θ es un estimador insesgado del parámetro θ si, y solo si la esperanza matemática del estimador θ es igual al parámetro θ. En otras palabras, es insesgado si su sesgo es igual a cero. SESGO = E (θ) – θ = 0
El estimador θ es un estimador ASINTOTICAMENTE INSESGADO del parámetro θ, si, y solo si el límite de la esperanza matemática del estimador θ, cuando el tamaño de la muestra n tiende a infinito, es igual al parámetro θ.


• Eficiencia: El estimador θ es un estimador eficiente del parámetro θ si, y solo si se cumple que el estimador θ tiene la menor varianza que puede tener un estimador del parámetro θ.
o Eficiencia relativa: Dado dos estimadores de un mismo parámetro θ, el estimador θ1 tiene una eficiencia relativa mayor que el estimador θ2 si, y solo si la varianza del estimador θ1 es menor que la varianza del estimador θ2.
• Consistencia: El estimador θ es un estimador consistente del parámetro θ si y solo, si se cumple con el estimador θ converge en probabilidad al parámetro θ, cuando el tamaño de la muestra n tiende a infinito. Un estimador es consistente si, a medida que el tamaño de la muestra crece indefinidamente (tiende a infinito), la probabilidad de que la diferencia entre el estimador y el valor del parámetro pueda hacerse tan pequeña como se quiera, tiende a la unidad.
• Suficiencia: El estimador θ es un estimador suficiente del parámetro θ, si, y sólo si se cumple que el estimador θ utiliza toda la información relevante acerca del parámetro θ, contenida en la muestra aleatoria.
Grados de libertad
Se llamada grados de libertad a la cantidad de variables libres, o estadísticamente independientes, que intervienen en un problema o en una distribución asociada a un problema.
Media aritmética muestral
Se llama media aritmética muestral (o, simplemente media muestral) a un estimador de la media poblacional, que se genera haciendo el cociente entre la suma de las variables muestrales y el tamaño de la muestra.

Varianza muestral
Se llama varianza muestral a un estimador de la varianza poblacional que se genera haciendo el cociente entra la suma del cuadrado de las desviaciones con respecto a la media aritmética muestral y los correspondientes grados de libertad.



Proporción muestral
Se llama proporción de elementos que tienen un determinado atributo en la muestra o, simplemente, proporción muestral a un estimador de la proporción poblacional, que se genera mediante el cociente entre la cantidad de elementos que si poseen un determinado atributo en la muestra y el tamaño de la muestra.

Esperanza y varianza de los estimadores
• Media muestral
La esperanza matemática de la media muestral siempre es la media poblacional. Por lo tanto la media muestral es un estimador insesgado de la media poblacional.

La varianza de la media muestral de universos infinitos es:

Por lo tanto, si el universo es infinito, la media muestral es un estimador consistente de la media poblacional.
La varianza de la media muestral de universos finitos es:

Por lo tanto, si el universo es finito, la media muestral es un estimador consistente de la media poblacional.
• Proporción muestral
La esperanza matemática de la proporción muestral siempre es la proporción poblacional

Por lo tanto la proporción muestral es un estimador insesgado de la proporción poblacional.
La varianza de la proporción muestral de universos infinitos es:

Por lo tanto, si el universo es infinito, la proporción muestral es un estimador consistente de la proporción poblacional.
La varianza de la proporción muestral de universos finitos es:

Por lo tanto, si el universo es finito, la proporción muestral es un estimador consistente de la proporción poblacional.

• Varianza muestral
La esperanza matemática de la varianza muestral, en universos infinitos, siempre es la varianza poblacional

Por lo tanto la varianza muestral es un estimador insesgado de la varianza poblacional.
La varianza de la varianza muestral de universos infinitos es:

Distribución de algunos estimadores
• Distribución de la media muestral de poblaciones normales
El estimador Media aritmética muestra, por estar originado en una suma de variables normales, es una combinación lineal de variables aleatorias normales, por lo tanto, también tiene distribución normal.
• Distribución de la varianza muestral
Se utiliza la distribución ji-cuadrado. El estadígrafo de transformación de la varianza muestral es:

• Distribución de la media aritmética muestral cuando la varianza poblacional es desconocida
Se utiliza la distribución t de student con (n-1) grados de libertad. El estadígrafo de transformación es:

• Distribución de la proporción muestral
Se utiliza la distribución normal estandarizada. El estadígrafo de transformación para la proporción muestral de universos infinitos es:

El estadígrafo de transformación para la proporción muestral de universos finitos es:
Aplicación de la fracción de muestreo
Es el cociente entre el tamaño de la muestra y el tamaño de la población (n/N) y mide la proporción del tamaño de la muestra con respecto al tamaño de la población.

Intervalos de confianza
Se llama intervalo de confianza para el parámetro θ, a un método de estimación que consiste en determinar un conjunto cerrado y acotado de posibles valores del parámetro, cuyos límites, inferior y superior, son funciones del estimador; y la correspondiente probabilidad de que dicho intervalo cubra al verdadero valor del parámetro.

Se llama nivel de confianza o probabilidad fiducial, a la probabilidad de que el intervalo de confianza cubra al verdadero valor del parámetro.
1 –ε: Nivel de confianza. Probabilidad de que el intervalo cubra al verdadero valor del parámetro.
ε: Nivel de riesgo. Probabilidad de que el intervalo no cubra al verdadero valor del parámetro.
Se llama Intervalo de confianza aditivo a aquel intervalo que permite que la probabilidad de que la estimación difiera del parámetro en a lo sumo h veces el desvío estándar del estimador, sea igual al nivel de confianza.


El factor h se llama factor de confianza y es el valor del fractil de orden de la distribución de probabilidad del estadígrafo de transformación del estimador θ.
Se llama error de muestreo a la máxima diferencia que podría haber entre el estimador y el parámetro.

En los intervalos aditivos la cantidad que se suma y se resta al estimador puntual es el error de muestreo.
Si se conocen los límites de un intervalo aditivo, la estimación puntual se puede calcular haciendo la semisuma de los límites del intervalo y el error de muestreo se puede calcular haciendo la semidiferencia de los límites del intervalo.


Intervalo de confianza para la media poblacional de poblaciones normales
Las poblaciones pueden ser infinitas o finitas, como así también, es posible que se conozca el valor de la Varianza de la población σ2, o no, en cuyo caso hay que utilizar el estimador de dicha varianza, o sea la varianza muestral S2. Esto da origen a distintas expresiones del intervalo de confianza para el parámetro Media poblacional.
• Varianza poblacional conocida. Poblaciones infinitas


• Varianza poblacional conocida. Poblaciones finitas


• Varianza poblacional desconocida. Poblaciones infinitas


• Varianza poblacional desconocida. Poblaciones finitas


Intervalo de confianza para la media poblacional de poblaciones cuya distribución de probabilidad es desconocida
Las distribuciones de las poblaciones no siempre son conocidas. En estos casos, para poder construir intervalos de confianza para estimar el parámetro media poblacional, hay que recurrir a la aplicación de algunos teoremas: Con el teorema Central del límite se demuestra que los estadígrafos:

Tienen distribución asintóticamente normal estandarizada cuando el tamaño de la muestra tiende a infinito. Por otro lado, con el teorema de Tchebycheff se puede demostrar que

Con estos dos teoremas se construyen los intervalos de confianza para estimar el parámetro media poblacional



Muestra grandes
Si la distribución de probabilidad de la población no es conocida y el tamaño de la muestra es lo suficientemente grande como para que se cumpla el Teorema Central del Límite, entonces, para poblaciones infinitas o finitas, respectivamente:



O si la varianza poblacional es desconocida, bajo ciertas condiciones, para poblaciones infinitas o finitas, respectivamente


Muestras chicas
Si la distribución de probabilidad de la población no es conocida, y el tamaño de la muestra no es lo suficientemente grande como para que se cumpla el Teorema Central del Límite, entonces el nivel de confianza del intervalo de estimación es la cota inferior de probabilidad que surge de la aplicación del teorema de Tchebycheff.
Entonces, para poblaciones con varianza poblacional conocida, infinitas o finitas, los intervalos de confianzas son, respectivamente


O si la varianza poblacional es desconocida, bajo ciertas condiciones, para poblaciones infinitas o finitas, respectivamente


Intervalo de confianza para la proporción de elementos que tienen un determinado atributo en la población
• Poblaciones infinitas
El estadígrafo de transformación para la Proporción muestral es:

La expresión del intervalo:

• Proporción poblacional desconocida. Poblaciones finitas.
El estadígrafo de transformación para la proporción muestral es:

La expresión del intervalo:


Intervalo de confianza para la varianza poblacional
• Población infinita
El estadígrafo de transformación para la varianza muestral es:

La expresión del intervalo:

Tamaño de muestra
Tamaño de muestra para estimar la media poblacional
• Varianza poblacional conocida
El cálculo del tamaño de la muestra se realiza teniendo en cuenta los siguientes factores:
 El error de muestreo: Este factor es proporcionado por el usuario de la muestra. El debe indicar cuál es la máxima diferencia entre la media muestral y la media poblacional está dispuesto a aceptar. El error de muestreo debe estar expresado en la misma unidad de medida de la variable.
 La confianza en la estimación: Este factor es proporcionado por el usuario de la muestra. El debe indicar cuál es la probabilidad deseada de que el intervalo de confianza cubra al verdadero valor de la media poblacional.
 La varianza de la población: Este factor indica el grado de variabilidad de la población.
 El tamaño de la población: En caso de poblaciones finitas, este factor es una restricción para el tamaño de la muestra.



• Varianza poblacional desconocida
El tamaño de la muestra para estimar la media poblacional de poblaciones normales infinitas, cuando no se conoce la varianza poblacional, se calcula mediante el uso de un proceso iterativo. Este proceso consiste en los siguientes pasos:
1) Se toma una muestra piloto de tamaño arbitrario n0 (generalmente este tamaño es igual a 10) y con ella se calcula el valor de la varianza muestral utilizando la formula ya explicada.

2) Se calcula un tamaño de muestra inicial, utilizando la siguiente fórmula:

Donde:
T1: Es el fractil de orden de la distribución t de student con (n-1) g.l.
S2: Varianza muestral calculada con la muestra piloto de tamaño n0.
e: Error de muestreo
3) Se obtiene un segundo tamaño de muestra, cambiando el valor t1 utilizado anteriormente por t2, otro fractil de orden de la distribución t de Student pero usando (n1-1)g.l.


4) Se obtiene un tercer tamaño de muestra, cambiando el valor t2 utilizado anteriormente por t3, otro fractil de orden de la distribución t de Student pero usando (n2-1)g.l.

5) Este proceso iterativo se repite tantas veces hasta que dos tamaños de muestra consecutivos son iguales ni= n(i+1) entonces ese es el tamaño de la muestra.
Tamaño de muestra para estimar la proporción poblacional
El cálculo del tamaño de la muestra se realiza teniendo en cuenta los siguientes factores:
• El error de muestreo: Este factor es proporcionado por el usuario de la muestra. El debe indicar cuál es la máxima diferencia entre la proporción muestral y la proporción población que está dispuesto a aceptar. El error de muestreo debe estar expresado en tanto por uno.
• La confianza en la estimación: Este factor es proporcionado por el usuario de la muestra. El debe indicar cuál es la probabilidad deseada de que el intervalo de confianza cubra al verdadero valor de la proporción poblacional.
• La proporción: Este factor proporciona información sobre el grado de concentración de los elementos que tienen el atributo A.
• El tamaño de la población: En caso de poblaciones finitas, este factor es una restricción para el tamaño de la muestra.
El error de muestreo se obtiene haciendo la semidiferencia entre los límites del intervalo de la confianza.

Si la población es infinita, el error de muestreo es


Luego


Dado que el valor de p es desconocido porque se calcula con la muestra, no puede formar parte de la fórmula utilizada para calcular el tamaño de la muestra, por lo tanto, se utiliza un valor alternativo al que se simbolizara p.

El valor de p podrá obtenerse de alguna de las siguientes formas:
• Utilizando datos que surjan de trabajos anteriores
• Utilizando una muestra piloto (generalmente de tamaño 50),
• Si es imposible o impracticable alguna de las formas citadas, entonces, se utiliza directamente el valor 0,50, dado que, cuando hay dicotomía, dos grupos, la mayor dispersión se alcanza si cada grupo tiene el 50%.



Prueba de hipótesis
Se llama hipótesis estadística a cualquier afirmación o aseveración que se formula acerca de cualquier característica poblacional (el valor numérico de un parámetro, la forma funcional de una población, etc.)..
Se llama hipótesis parametrica a aquella hipótesis estadística planteada para controlar o verificar el valor numérico de un parámetro.
Se consideran solo tres posibles situación del valor numérico del parámetro, a saber:
• El valor numérico del parámetro θ es exactamente igual a un determinado valor postulado θo.
• El valor numérico del parámetro θ es menor a un deterimando valor postulado de θo.
• El valor numérico del parámetro θ es mayor a un determinado valor postulado de θo.
Se llama curso de acción a la acción que se llevaría a cabo, si se conociese el verdadero valor del parámetro θ.
Se llama desigualdad equivalente a la igualdad a aquella desigualdad entre el parámetro θ y el valor postulado θo, que provoca el mismo curso de acción que se llevaría a cabo con la igualdad entre el valor del parámetro θ y el valor postulado θo.
Se llama desigualdad no equivalente a la igualdad a aquella desigualdad entre el parámetro θ y el valor postulado θo, que provoca un curso de acción distinto al que se llevaría a cabo con la igualdad entre el valor del parámetro θ y el valor postulado θo.
Se llama hipótesis nula a aquella hipótesis que establece que la diferencia entre el verdadero valor del parámetro valor del parámetro θ y el valor postulado θ, y el valor que se postula valor del parámetro θ y el valor postulado θo.o, es cero.
Necesariamente la hipótesis nula debe plantearse como la igualdad entre el valor del parámetro y el valor postulado

Esta igualdad puede estar acompañada o no por alguna de las 2 desigualdades, según sea el curso de acción a seguir y la existencia o no de alguna desigualdad equivalentes. Se puede distinguir 2 tipos de hipótesis nulas:
• Hipótesis nula única: cuando no hay desigualdad equivalente.
El valor del parámetro θ es igual al valor postulado θo.
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo es cero.

• Hipótesis nula múltiple: Cuando hay desigualdad equivalente

Si es menor:
El valor de parámetro θ es igual o menor al valor postulado θo
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo, es menor o igual a cero

Si es mayor:
El valor de parámetro θ es igual o mayor al valor postulado θo
La diferencia entre el verdadero valor del parámetro θ y el valor postulado, θo, es mayor o igual a cero

Hipótesis alternativa
Es aquella hipótesis que debería cumplirse si la hipótesis nula no es cierta.
Hipótesis alternativa única: Cuando hay un solo valor alternativo del parámetro θ, el θ1, que debería ser en el caso de que la hipótesis nula no sea cierta.
Si la hipótesis nula no es cierta, entonces, el valor de parámetro θ debería ser igual a θ1.

Hipótesis alternativa múltiple: Cuando hay un conjunto abierto de posibles valores alternativos del parámetro θ, en caso de que se rechace la hipótesis nula.
De acuerdo con el tipo de hipótesis nula que se plantea, se distinguen 3 formas mutuamente excluyentes de plantear la hipótesis alternativa múltiple:
1) Si la hipótesis nula es única, o sea, si no hay desigualdad equivalente, entonces se plante la hipótesis alternativa múltiple:
Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de parámetro θ es distinto (mayor o menor) a θ0. Es un planteo “por distinto”.
2) Si la hipótesis nula no es única, y si la desigualdad equivalente es la desigualdad menor entonces se plantea la hipótesis alternativa múltiple:

Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de parámetro θ es mayor a θo. Es un planteo “por mayor”.
3) Si la hipótesis nula no es única, y si la desigualdad equivalente es la desigualdad mayor, entonces se plantea la hipótesis alternativa múltiple:

Se interpreta: Si la hipótesis nula no es cierta, entonces, el valor de parámetro θ es menor a θo. Es un planteo “por menor”
Prueba de hipótesis nula: Es un método estadístico con el cual, a partir de los datos de una muestra aleatoria, se decide acerca de la veracidad o falsedad de la hipótesis nula formulada, pudiéndose calcular la probabilidad de cometer un error en la decisión tomada.
La hipótesis que se prueba para decidir si debe ser rechaza o no, siempre es la hipótesis nula.
Se llama estadígrafo de prueba, para pruebas parametricas, a un estadígrafo apropiado, ep, con el que se realiza la prueba de hipótesis, que mida la discrepancia, d, entre el parámetro a probar y el estimador correspondiente y, además, tiene una distribución de probabilidad conocida.
Para poder establecer su discrepancia, en el estadígrafo de prueba deben estar presentes tanto el parámetro a estimar como su correspondiente estimador. Genéricamente el estadígrafo de prueba se simboliza
Y su valor numero, después de reemplazar las variables muestrales con el resultado de la muestra, se simboliza ep.
El estadígrafo de prueba es una variable aleatoria que se genera transformando al estimador θ, por lo tanto su dominio D , es una transformación del espacio muestral
Región critica y región de no rechazo
El método para realiza la prueba de hipótesis consiste en particionar al dominio, D , del estadígrafo de prueba, ep, en dos subconjuntos o regiones mutuamente excluyentes. Según a cuál de las dos regiones pertenezca el valor número del estadígrafo de prueba, se rechaza o no a la hipótesis nula:
Región critica, RC, es el subconjunto del dominio D con el que se rechaza la hipótesis nula.
Región de no rechazo, RA =( D-RC), es el subconjunto del dominio D con el que no se rechaza la hipótesis nula.
Si hay una desigualdad equivalente, la región crítica está formada por un subconjunto semicerrado. En este caso se dice que la prueba es unilateral.
Si no hay desigualdad equivalente, la región crítica está formada por dos subconjuntos semicerrados mutuamente excluyentes de igual tamaño. En este caso se dice que la prueba es bilateral.
Se llama punto crítico, pc, a la frontera de la región crítica.
Cuando la prueba es unilateral la región crítica está formada por un subconjunto semicerrado, por lo tanto, hay un solo (único) punto crítico. Si la prueba es bilateral, la región crítica está formada por dos conjuntos semicerrados, luego hay dos puntos críticos. En cualquiera de las dos situaciones, los puntos críticos pertenecen a la región crítica, por lo tanto, son puntos de rechazo de la hipótesis nula.
Se llama regla de decisión a aquella regla que establece las pautas para rechazar la hipótesis nula y se enuncia: “ Si el valor numérico del estadígrafo de prueba pertenece a la región critica, entonces se rechaza la hipótesis nula, en caso contrario, si el valor numérico del estadígrafo de prueba no pertenece a la región critica, entonces no se rechaza la hipótesis nula:

Dada la hipótesis nula la regla de decisión establece que hay que rechazarla si, luego de obtener la muestra, hacer las mediciones correspondientes y calcular el valor numérico del estadígrafo de prueba, ep, éste pertenece a la región critica, y que no hay que rechazarla si el estadígrafo de prueba, ep, no pertenece a la región critica.
Error de tipo I
El hecho de rechazar la hipótesis nula cuando la hipótesis nula es cierta.

Error de tipo II
El hecho de no rechazar la hipótesis nula cuando la hipótesis nula es falsa.

Nivel de significación
Es la probabilidad de cometer el error de tipo I, o sea, a la probabilidad de rechazar la hipótesis nula cuando es cierta. El nivel de significación se simboliza con la letra griega α y mide el tamaño de la región critica.
Potencia de la prueba
Es la probabilidad de no cometer el error de tipo II, o sea, la probabilidad de rechazar la hipótesis nula cuando es falsa. La potencia de la prueba se simboliza con la letra griega ∏

Acción derivada
El rechazo de la hipótesis nula inducirá al investigador a realizar una determinada acción con respecto al objeto de su investigación. Si por el contrario, no se rechaza la hipótesis nula, entonces el investigador estará también inducido a realizar una acción, pero distinta. Cualesquiera de estas dos acciones se derivan del resultado de la prueba de hipótesis.
Se llama acción derivada a la acción que se lleva a cabo según el resultado de la decisión estadística que se tome, rechazar o no rechazar la hipótesis nula.
Pasos a seguir para realizar una prueba de hipótesis parametrica
1-Establecer el parámetro a probar
2-Indicar los cursos de acción
3-Verificar si hay una desigualdad equivalente
4-Plantear la hipótesis nula y la hipótesis alternativa
5-Indicar el estadígrafo de prueba a utilizar y su correspondiente distribución de probabilidad
6-Establecer la región critica y el o los puntos críticos teniendo en cuenta lo siguiente:
a) Si la desigualdad no equivalente es la desigualdad menor, toda la región critica esta a la izquierda y el punto crítico es el fractil α2.
b) Si la desigualdad no equivalente es la desigualdad mayor, toda la región critica esta ala derecho y el punto crítico es el fractil (1-α)3
c) Si no hay desigualdad equivalente la región critica se particiona en dos. Una parte a la izquierda cuyo punto crítico es el fractil (α/2)4 y la otra parte a la derecha cuyo punto crítico es el fractil [1-(α/2)].
7-Plantear la regla de decisión estadística para rechazar o no la hipótesis nula.
8- Calcular el valor numérico del estadígrafo de prueba y verificar a que región pertenece.
9-Tomar la decisión estadística
10-Llevar a cabo la acción derivada.
Estadígrafos de prueba para la prueba de hipótesis de parámetros específicos de una población
Poblaciones infinitas con varianza poblacional conocida


Poblaciones finitas con varianza poblacional conocida

Poblaciones infinitas con varianza poblacional desconocida

Poblaciones finitas con varianza poblacional desconocida

Estadígrafos de prueba para la prueba de hipótesis de la media poblacional de poblaciones no normales
Poblaciones infinitas con varianza poblacional conocida

Poblaciones finitas con varianza poblacional conocida

Poblaciones infinitas con varianza poblacional desconocida

Poblaciones finitas con varianza poblacional desconocida
Estadígrafo de prueba para la prueba de hipótesis de la proporción de elementos con un determinado atributo
Poblaciones infinitas


Poblaciones finitas

Estadígrafo de prueba para la prueba de hipótesis de la varianza poblacional de poblaciones normales
Poblaciones infinitas (único caso)

Estadígrafo de prueba para comparar las varianzas de dos poblaciones normales

Estadígrafo de prueba para comparar las medias poblacionales de dos poblaciones normales
• Si las varianzas poblaciones son conocidas

• Si las varianzas poblaciones son desconocidas

Estadígrafo de prueba para comparar las proporciones poblacionales de dos poblaciones

Análisis de regresión
Es un método estadístico que permite explicar el comportamiento de una variable cuantitativa, a partir del comportamiento de otra u otras variables que puedan estar relacionadas, estableciendo la expresión funcional del modelo matemático que describa dicho comportamiento.
Variable explicada
Es aquella variable cuantitativa cuyo comportamiento se desea describir a partir del comportamiento de otra u otras variables.
Variables explicativas
Son aquellas variables que explica el comportamiento de la variable explicada
Ej.: Para medir la cantidad demandada de un determinado bien por una unidad económica, se puede utilizar el precio de dicho bien, el precio de bienes complementarios, el precio de bienes sustitutos, el ingreso del consumidor, etc.
El análisis de regresión consiste en construir un modelo que permita predecir el valor de la variable explicada, utilizando para ello, valores de K variables explicativas. El modelo a construir consta de dos partes. Una de ellas, es una función real o modelo matemática y la otra parte, es una variable aleatoria que representa la variabilidad no controlada por las k variables explicativas.
Se llama modelo estadístico de regresión al modelo
Se llama función de regresión al modelo matemático que interviene en el modelo estadístico de regresión
Se llama residuo aleatorio o variable aleatoria residual a la variable aleatoria que forma parte del modelo estadístico de regresión.

Supuestos básicos de la regresión
Hay que plantear los siguientes supuestos sobre la variable aleatoria residual u. Para cada k-erna (X1;X2…;Xk) posible de los valores de las variables explicativas, se supone que se cumple:
1) La variable aleatoria residual u tiene distribución normal
2) La esperanza matemática de la variable aleatoria residual u es cero
3) La varianza de la variable aleatoria residual u se mantiene constante
4) Las variables aleatorias residuales ui;uj, para dos k.erna (X1;X2…;Xk) cualesquiera, son independientes, o sea, la covarianza entre ellas es cero
5) La variable aleatoria residual es independiente de cada una de las variables explicativas

Análisis de regresión simple
Es el análisis que se realiza cuando a cada unidad experimental de un determinado universo se le miden solo dos variables, una variable explicativa y una variable explicada.
Sean X una variable explicativa e Y una variable explicada. Los valores individuales de cada una de la variables que se miden se presentan como pares ordenados (xi;yi). Cada par ordenado representa un punto en un plano. Todos los posibles pares del universo se pueden presentar en un grafico utilizando coordenadas cartesianas ortogonales.
Se llama diagrama de puntos o diagrama de dispersión a la representación grafica de los pares ordenados de los valores de las variables que intervienen en el análisis de regresión simple.

Se llama modelo de regresión lineal simple, polinomico de primer grado, al modelo de regresión que se forma cuando la función de regresión es una función afín, o sea, una recta:

De no cumplirse los supuestos referidos a la esperanza matemática y a la varianza de la variable aleatoria residual, entonces:
El valor promedio esperado de la variable explicada para cada valor de la variable explicativa, o sea la esperanza matemática condiciones, es la recta de regresión:

Y la varianza de la variable explicada para cada valor de la variable explicativa, o sea la varianza condicionada, es igual a la varianza residual:

Un valor individual de la variable residual es la diferencia entre un valor de la variable explicada y el valor de la recta de regresión para un valor dado de la variable explicativa

Entonces, si cada valor de la recta de regresión es el promedio, o valor esperado de la variable explicada para cada valor de la variable explicativa, la recta de regresión pasa entre los puntos del diagrama de puntos compensando los desvíos que se producen.
La ordenada al origen y la pendiente de la recta de regresión, β0 y β1 respectivamente, también son parámetros estadísticos. Esto quiere decir que brindan información sobre la variable explicada, en relación con la variable explicativa.
Ej.: En la recta que representa la función consumo-ingreso estudiada en económica, la ordenada al origen es el consumo autónomo, o sea, el valor del consumo cuando el ingreso es cero, y la pendiente es la propensión marginal a consumir, o sea, la cantidad que se destina al consumo por cada peso adicional del ingreso.
β1 Se llama coeficiente de regresión y es la pendiente de la recta. Es el cociente entre la covarianza entre la dos variables y la varianza la variable explicativa:

β0 es la ordenada al origen.

Suma de cuadrados de X
La diferencia entre un valor particular de la variable explicativa Xo y su media aritmética X es una desviación de la variable X
Si se toman todos los valores de dicha variable se puede calcular la suma del cuadrado de las desviaciones de la variable x con respecto a la media aritmética o simplemente suma de cuadrados de x, la que mide la variabilidad total de la variable X.

Suma de cuadrados de Y
La diferencia entre un valor particular de la variable explicada Yo y su media aritmética Y es una desviación de la variable Y
Si se toman todos los valores de dicha variable se puede calcular la suma del cuadrado de las desviaciones de la variable y con respeto a la media aritmética, o simplemente suma de cuadrados de y, la que mide la variabilidad total de la variable Y.

Suma del producto XY
El producto de la diferencia entre un valor particular de la variable explicativa X0 y su media aritmética X y de la diferencia entre un valor particular de la variable explicada Y0 y su media aritmética Y es una desviación conjunta

Si se toman todos los pares de valores de dichas variables se puede calcular la suma del producto de las desviaciones de cada variable con respecto a sus respectivas medias aritméticas, o simplemente suma del producto XY, la que mide la variabilidad conjunta total entre las variables X e Y.
La recta de regresión estimada tiene la propiedad de compensar los desvíos que se producen entre cado valor muestral de la variable explicativa y el correspondiente valor de la recta. Se cumple que:

Medidas de variabilidad en la regresión
Se llama desviación total a la diferencia entre un valor individual de Y y el promedio
Se llama desviación explicada por la regresión a la diferencia entre el valor de la recta de regresión estimada, correspondiente al valor x0, y el promedio de la variable Y.
La diferencia entre un valor individual de Y y el valor de la recta de regresión estimada correspondiente al valor X, se llama desviación residual.
Sumas de cuadrados total
La suma del cuadrado de las n desviaciones totales es una medida de la variación de los valores de Y en torno a su media Y.

Suma de cuadrados explicada por la regresión
La suma del cuadrado de todas las n desviaciones explicadas por la regresión es una medida de la variación de los valores de la recta de regresión muestral en torno a su medida Y .
Suma de cuadrados residual
La suma del cuadrado de las n desviaciones residuales es una medida de la variación de los valores de variable explicada y los correspondientes de la recta de regresión muestral.
Coeficiente de determinación
Es un coeficiente que mide la proporción de la variación total que esta explicada por la regresión.

Varianza residual muestral
Es un estimador insesgado de la varianza residual poblacional. Es el cociente entre la suma de cuadrados residual y sus correspondientes grados de libertad.
Análisis de correlación
Es un método estadístico que permite medir el grado de asociación entre las variables.
Análisis de correlación lineal simple se lleva a cabo cuando la función de regresión que explica el comportamiento conjunto de las variables es la función afín, o sea, una recta.






















Números índices
Son aquellas medidas estadísticas que ponen de manifiesto, en forma cuantitativa, las variaciones relativas de un fenómeno complejo, a través del tiempo, del espacio o de cualquier otra circunstancia.
Indican la variación porcentual de una variable o grupo de variables, entre una situación inicial (situación base de comparación), y otra situación final (situación objeto de la comparación).
Se llama canasta al conjunto de bienes económicos que intervienen en la construcción de un número índice.
Se llama periodo base al periodo cronológico que se utiliza como situación inicial o base de la comparación
Se llama periodo actual al periodo cronológico que se quiere comparar con el periodo base.
El periodo actual “t” es un momento particular en el tiempo. Un número índice construido en ese momento, mide el tamaño relativo porcentual de laguna variable, o grupo de variables, con relación al tamaño que tenían en el periodo base.
Para lograr que el número índice ponga de manifiesto, con mayor objetividad, los cambios relativos en los valores de las variables, al seleccionar el periodo base para construir un índice particular, se deben observar dos reglas:
• El periodo base seleccionado debe ser un periodo de normalidad o estabilidad económica, ya que un periodo que este cerca de una cúspide, en una economía en expansión, o de una sima, en una economía declinante o en recesión, pueden proporcionar comparaciones que no reflejen adecuadamente los aspectos dinámicos de las variables que se están analizando.
• El periodo base no debería estar muy alejado de los periodos que serán objeto de comparación, a fin de que estas comparaciones no resulten afectadas sin necesidad, por cambios en la tecnología, calidad del producto, o en las actitudes, intereses, gustos y hábitos de los consumidores.
Clasificación de los números índices
Según la variable cuya variación se pretende medir, se clasifican en:
• Índice de precios: refleja el cambio porcentual de los precios de uno o más bienes.
• Índice de cantidad: Refleja el cambio porcentual de las cantidades demandadas de uno o más bienes.
• Índice de valor: Refleja el cambio porcentual de lo gastado en uno o más bienes.

Según el método de construcción, se clasifican en:
• Índices simples: Aquellos que tienen en cuenta solamente las variaciones relativas, sin considerar la importancia de las variables dentro del contexto, es decir, no se les asigna ningún tipo de peso o ponderación.
• Índices ponderados: Aquellos que si tienen en cuenta la importancia de cada variable dentro del contexto donde están medidas, es decir, se les asigna un determinado peso o ponderación.
Según la elección de la base, los índices pueden ser:
• Índice de base fija: El periodo tomado de referencia, el periodo base, se mantiene fijo a lo largo de toda la serie.
• Índice de base variable o en cadena: Son aquellos en los cuales la base se renueva constantemente, para evitar ciertos problemas que se plantean en la elección de la base.
Precio relativo
Es el cociente entre el precio del bien ese periodo y el precio del bien en el periodo base

Índices Simples
Para un solo bien: Relativo simple, es el precio relativo multiplicado por 100. Este índice indica la variación porcentual del precio del i-esimo bien de la canasta.

Índice para un grupo de bienes
Aunque un índice de precios para cualquier bien individual, puede resultar de interés para determinados trabajos, resulta más importante un índice que refleje la variación conjunta de todos los bienes de la canasta.
Promedio aritmético simple de los relativos: Este índice se obtiene calculando el promedio aritmético simple, de los precios relativos de los k bienes de la canasta y multiplicando este resultado por 100.


Agregativo simple: El índice agregativo simple se obtiene haciendo el cociente entre la suma de todos los precios correspondiente a la canasta en el periodo actual, t, y la suma de todos los precios correspondiente a la canasta en el periodo base, y multiplicando este resultado por 100.
El Índice de precio agregativo simple representa los cambios en los precios, a través del tiempo, para toda la cansa, mientras que el índice del promedio simple de precios relativos refleja el promedio de los cambios en los precios, a través del tiempo, de cada bien considerado en el índice.
El índice de precio agregativo simple es más fácil de calcular que el índice de promedio simple de precios relativos.
El índice del promedio de precios relativos es más útil que el índice de precio agregativo simple, porque es posible observar los cambios en los precios relativos, individualmente, y también se puede considerar el cambio de los precios combinando todos los artículos.
El índice del promedio simple de precios relativos no está influido por las unidades de medida utilizadas en la comercialización de los bienes.
Índices ponderados
Tanto el índice de promedio simple de precios relativos como el índice de precios agregativo simple presentan el inconveniente de no considerar la importancia que tienen cada uno de los bienes dentro de la cansa. Ello hace que estos indicen no sean significativos para explicar cómo los cambios en los precios afectan a los consumidores. Por este motivo, al promediar los precios relativos, hay que recurrir a los promedios ponderados, utilizando factores de ponderación adecuados para cada bien de la canasta, de modo tal que quede reflejado cuales son los más demandados por las unidades de consumo. Las ponderaciones utilizadas generalmente son:
a) Las cantidades demandadas de cada uno de los bienes, q1.
b) El valor de lo gastado en cada uno de los bienes. (p1.q1)
Promedio ponderado de los precios relativos
a) Ponderado por la cantidad
Este índice se construye calculando el promedio aritmético ponderado de los precios relativos, utilizando como factor de ponderación, las correspondientes cantidades demandadas, en el periodo base, de los bienes que constituyen la canasta.


b) Ponderado por el valor del año base
Este índice se construye calculando el promedio aritmético ponderado de los precios relativos, utilizando como factor de ponderación, el valor gastado en el periodo base, en cada uno de los bienes que constituyen la canasta.
c) Ponderado por el valor del año base con cantidades del año actual
Este índice se construye calculando el promedio aritmético ponderado de los precios relativos, utilizando como factor de ponderación, el valor que se hubiese gastado en el periodo base, en casa uno de los bienes que constituyen la canasta si hubiesen demandado las cantidades del año actual.



Índice de Laspeyres

Este índice mide la variación porcentual del gasto total en los k bienes, si en el año actual se hubiesen demandado las cantidades del año base. Es criticado, en primer lugar, porque, según las leyes económicas, las variaciones en los precios provocan variaciones en las cantidades demandadas (generalmente en sentido contrario, luego, el numerado carecería de validez ya que no reflejaría la realidad. En segundo lugar, este índice no tiene en cuenta los cambios tecnológicos y los cambios en los gustos de los consumidores, lo que hace que las cantidades sufran variaciones de importancia, llegando al extremo de ser casi nulas en algunos casos, no obstante, en la construcción del numero debe seguir figurando la cantidad demandada en el año base, con la consecuente distorsión de la realidad.
Índice de Paasche

Este índice mide la variación porcentual del gasto total en los k bienes, si en el año base se hubiese demandado las cantidades del año actual. Es criticado porque, en primer lugar, igual que con el índice de Laspeyres, no se tiene en cuenta las variaciones en las cantidades demandadas provocadas por las variaciones en los precios. Esto significa que si los precios del año base son menores a los del año actual, las cantidades demandadas serán mayores, luego, el denominador carecería de validez, ya que no reflejaría la realidad. En segundo lugar, por cuestiones tecnológicas o de gustos del consumir, algunos bienes consumido en el año actual podrían no conocerse en al año base, por lo tanto no tendrían precio, y el índice no se podría calcular. En tercer lugar, si se quiere mantener una serie cronológica obligaría a recalcularla en cada período, ya que las cantidades demandadas cambian de periodo a periodo.
Índice de Fischer

Índices de cantidad
Una cantidad relativa para cada uno de los bienes de la canasta, en un momento dado en el tiempo, el periodo actual t, es el cociente entre la cantidad del bien en ese periodo y la cantidad del bien en el periodo base.

Índices simples
Para un solo bien: La cantidad relativa multiplicada por 100, es el índice relativo simple.

Para un grupo de bienes:
a) Promedio aritmético simple de los relativos: Este índice se obtiene calculando el promedio aritmético simple, de cantidades relativas de los k bienes de la canasta y multiplicando este resultado por 100.

b) Agregativo simple: Se obtiene haciendo el cociente entre la suma de todas las cantidades correspondientes a la canasta en el periodo actual t, y la suma de todos las cantidades correspondientes a la canasta en el periodo base, y multiplicando este resultado por 100.

Índices ponderados
a) Ponderado por el precio: Se construye calculando el promedio aritmético ponderado de las cantidades relativas, utilizando como factor de ponderación los correspondientes precios, en el periodo base, de los bienes que constituyen la canasta.


b) Ponderado por el valor del año base: Se construye calculando el promedio aritmético ponderado de las cantidades relativas, utilizando como factor de ponderación, el valor gastado en el periodo base, en cada uno de los bienes que constituyen la canasta


c) Ponderado por el valor del año base con los precios del año actual: Se construye calculando el promedio aritmético ponderado de las cantidades relativas, utilizando como factor de ponderación, el valor que se hubiese gastado en el periodo base, en cada uno de los bienes que constituyen la canasta si se hubiesen pagado los precios del año actual.


Método para la construcción de números índices
1) Definir claramente cual deberá ser la canasta para evaluar la evolución de los precios y/o cantidades a lo largo de un determinado lapso.
2) Determinar cuál de los periodos de ese lapso será el periodo base.
3) Mediante encuestas, se establece cual es el precio por unidad de comercialización, pago por los consumidores por cada uno de los bienes de la cantas y qué cantidad se ha demandado de ellos.
4) Decidir cuál es el índice que proporciona la mejor información sobre la referida evolución de los precios y/o cantidades.

Se llama deflactacion estadística a un método estadístico, que permite eliminar los efectos que las variaciones de los precios, entre el periodo base y el periodo actual, provocan sobre las variaciones de valores monetarios.
Un valor monetario antes de la deflactacion se llama valor nominal o corriente, y después de la deflactacion se llama valor real o constante del año base
Se llama índice deflactor a un determinado número índice que se utiliza para realizar una deflactacion estadística.
Propiedades de un buen numero índice:
1. Reversibilidad con respecto al tiempo: El producto entre el índice de base en el periodo o para el periodo t ( en tanto por uno) y dicho índice tomando como base el periodo t y calculando para el periodo o (en tanto por uno) debe ser igual a la unidad.

2. Circularidad: Generalización de la reversibilidad con respecto al tiempo

3. Reversibilidad de los factores: El producto entre un índice de precios de base en el periodo o para el periodo t (en tanto por uno) y el índice de cantidad para el mismo periodo y la misma base (en tanto por uno) debe ser igual al índice del valor (en tanto por uno).

4. Identidad: El índice de la base (en tanto por uno) debe ser igual a la unidad

5. Homogeneidad: EL índice no debe variar si se cambian las unidades de medidas en que están expresadas las cantidades.
6. Proporcionalidad: Si los precios de todos los bienes cambian en la misma proporción, el índice de precios correspondiente debe cambiar en esa proporción.