Altillo.com > Exámenes > UBA - Económicas > Estadística


Resumen para el Final  |  Estadística (Cátedra: González - 2020)  |  Cs. Económicas  |  UBA
Teoría de Probabilidades: rama de la Estadística que analiza los fenómenos aleatorios para conocer cuál es la probabilidad teórica de que algo ocurra.
Aleatorio: todo suceso o procedimiento en el que interviene el azar.
Secuencia de eventos aleatorios: luego de la ocurrencia de un determinado suceso, cualquier otro suceso puede ocurrir entre una serie de posibilidades.
Experimento determinista: cuando la secuencia de eventos tienen resultados únicos que pueden determinarse a partir de ciertas condiciones iniciales.
Experimento aleatorio: aquel que admite al menos dos resultados entre una serie de resultados posibles, pero en el que no puede predecirse con exactitud cuál de ellos ocurrirá en cada repetición del experimento.
Espacio Muestral (U) conjunto formado por todos los resultados posibles de dicho experimento.
Suceso aleatorio: a todo subconjunto del Espacio Muestral.

Probabilidad clásica (Laplace): La probabilidad de ocurrencia de A, del conjunto de sus resultados posibles, es el cociente entre el número de casos favorables (k) a dicho resultado y el número de casos totales o posibles (n).
P (A) = k / n  P. MARGINAL  P. de que ocurra 1 suceso.
Probabilidad subjetivista: la probabilidad depende del observador.
Reglas aditivas/unión de sucesos: P. ADICIONAL 2 sucesos aleatorios incl. En = U
-Compatibles: Su ∩ no es vacía, pueden ocurrir simultáneamente. P(A U B) = P(A) + P(B) - P(A ∩ B) // P(A ∩ B) ≠ 0
-Incompatibles (excl.): ∩ vacía, no pueden ocurrir simultáneamente. P(A U B) = P(A) + P(B) // P(A ∩ B) = 0
Reglas multiplicativas: P CONJUNTA
-Independientes: la ocurrencia de un suceso no influye, modifica o condiciona la probabilidad de ocurrencia del otro suceso. P (A ∩ B) = P (A) * P (B)
-Dependientes: la ocurrencia de un suceso influye, modifica o condiciona la probabilidad de ocurrencia del otro suceso. P (A ∩ B) = P (A) * P (B/A)

P. CONDICIONAL: Suceso “estocásticamente condicionado” cuando la probabilidad de ocurrencia o no del suceso A depende del resultado de la ocurrencia del suceso B. P (A/B) = P (A∩B) / P (B)

Teorema de la Probabilidad Total: La existencia de una partición del espacio muestral y la inclusión en él de otro suceso aleatorio A que cumpla con la condición antedicha.


Teorema de Bayes: Permite calcular la probabilidad de ocurrencia de uno cualquiera de los sucesos que forman la partición, condicionado por la ocurrencia de dicho suceso A.


Variable aleatoria: Dado un experimento aleatorio y su correspondiente espacio muestral asociado, se llama VA a toda función que le asigna un número real a cada elemento del espacio muestral.
Recorrido de la variable aleatoria: Conjunto de los valores que la VA puede tomar.
Variable aleatoria discreta: a aquella cuyo recorrido es un conjunto finito o infinito numerable.
Función de probabilidades, función de masa de probabilidades o distribución de probabilidad de la variable aleatoria X al conjunto de pares ordenados (x; f(x)) que cumplen con las siguientes condiciones: 1) f(x) ≥ 0 2) ∑ f(x)=1 3) P( X= x ) = f(x)
La primera componente de cada par ordenado es el valor numérico que toma la VAD X; la segunda componente es un número real, llamado probabilidad puntual (representa la P de que la VAD tome exactamente el valor considerado (entre los posibles, que forman su recorrido).
Función de probabilidad acumulada: Le asigna a cada valor del recorrido de la VAD un número real (probabilidad acumulada), representa la probabilidad de que la VAD tome a lo sumo dicho valor xj. tal que:
F(x) = P(X≤ x) = ∑ f (t) para -∞< x <∞
Esperanza matemática (µ): sumatoria de los productos entre cada valor del recorrido de la VAD y su respectiva probabilidad puntual. Propiedades:
Sea h(X) una función lineal del tipo aX+b. Su media será:
Varianza (α²): Es la esperanza matemática de los desvíos de la variable respecto de µ, elevados al cuadrado:
V (x) = E [(X − μ)] ² = ∑ x². p(x) - µ²
Desvío típico: raíz cuadrada positiva de la varianza S(X) = σ = √σ²
Coeficiente de Variación: relación entre el desvío típico y la esperanza matemática de una misma VAD. CV= S(x) / E(x)
Coeficiente de asimetría: Cociente entre el 3º momento alrededor del origen y el cubo de su desvío típico.
Coeficiente de Curtosis: K(X)=µ₄/α⁴
Modo/Moda: Valor del recorrido con mayor valor asignado de probabilidad puntual. Puede ser único, múltiple (al menos dos valores del recorrido tienen la misma probabilidad puntual, que es la máxima en toda la distribución), no existir (en el caso en el que todos los valores del recorrido tengan igual probabilidad puntual).
Mediana: Es el primer valor del recorrido de la VAD cuya probabilidad acumulada es mayor a 0,50.
C. Percentil de orden k: Es el primer valor del recorrido de la VAD cuya probabilidad acumulada es mayor a k/100
Parámetro de una distribución de P: cantidad que se puede asignar a cualquiera de varios valores posibles, con cada valor diferente y determinando una distribución de probabilidad diferente.
Familia de distribuciones de probabilidad: Al conjunto de todas las distribuciones de probabilidad para diferentes valores del parámetro.

• Distribución Binomial: es el modelo aproximado de probabilidad para muestreo sin reemplazo de una población dicotómica (éxito-fracaso) finita. La VA Binomial representa el número de éxitos cuando se fija el número de ensayos (n) de antemano
Experimento Binomial: aquel que cumple con las siguientes condiciones:
- Secuencia de n ensayos, tal que el valor de n se fija de antemano
- Los ensayos son idénticos y cada uno de ellos puede resultar en uno de dos posibles resultados: éxito o fracaso
-Los ensayos son independientes, por lo que el resultado de cualquier intento particular influye sobre el resultado de cualquier otro ensayo. r numero de éxitos.
- La probabilidad de éxito (p) permanece constante en todo el experimento. P. de fracaso: q

• Distribución Hipergeométrica: es el modelo exacto de probabilidad para la cantidad de éxitos en la muestra seleccionada.
-Población donde se realiza el muestreo consta de N elementos (la población es finita)
-Cada elemento puedo ser caracterizado como éxito (E) o fracaso (F) y existen R éxitos en la población
- Se selecciona una muestra aleatoria sin reposición de n elementos, de modo que cada subconjunto seleccionado de tamaño n sea equiprobables
- La variable aleatoria es X=”cantidad de éxitos en la muestra”
- Los parámetros de la distribución son N, R y n
- Se desea calcular: P(X=r), donde r representa la cantidad de éxitos en la muestra
-R/N es la proporción de éxitos en la población.

• Distribución de Pascal (Binomial -) es el resultado de fijar a priori el número de éxitos y hacer aleatorio el número de ensayos
-El experimento consta de n ensayos independientes que pueden resultar en un éxito (E) o en un fracaso (F) (dicotomico)
-La probabilidad de éxito (p) es constante a lo largo de todo el experimento
-El experimento continúa hasta que se obtiene una cantidad r de éxitos, r es fijado de antemano
-La variable aleatoria en estudio es X=”cantidad de fracasos que preceden al r-ésimo éxito”
-El número de éxitos es fijo, mientras que el número de ensayos necesarios para lograrlos es aleatorio

• Distribucion de Poisson: Permite calcular probabilidades en ciertas VA, que se caracterizan por representar el número de éxitos de un determinado suceso aleatorio en un intervalo continuo dado (tiempo, longitud, superficie, volumen, etc.).
i. Consideramos un intervalo, dividido en un gran número de subintervalos, tal que la probabilidad de que ocurra un suceso en
cualquier subintervalo es muy pequeña
ii. La probabilidad de que ocurra un suceso es constante en todos los subintervalos
iii. No puede existir más de una ocurrencia en cada subintervalo
iv. Las ocurrencias son independientes; es decir, las ocurrencias en intervalos cuya intersección es vacía, son independientes entre sí
λ = n.p  constante que representa el promedio de éxitos en un determinado tiempo y/o espacio.

Distribución Ji-Cuadrado: Sea v num entero +, la vac la tiene si su fdp es la fdp de la función Gamma con α=v/2 y β=2, es decir:
f(x)=

Variable aleatoria continua (VAC) su Recorrido es un intervalo real.
Por propiedad de las integrales definidas, si los límites deintegración (límites del intervalo) son iguales, la integral definida es igual a cero. Esto implica que para toda VAC, la probabilidad puntual es siempre nula.
Mediana: de una VAC es su percentil 50.
Modo: un modo m es un número tal que la función de densidad de probabilidad es máxima cuando x = m.
Percentil k:

Distribucion normal: Su gráfica es de forma acampanada. El eje x es asíntota horizontal de la curva, posee un máximo absoluto, en x=µ, posee dos puntos de inflexión, ubicados a +/- un desvío estándar de su media. En dicho valor, coinciden la mediana y el modo.
Estimador: Medida muestral
Parámetro: Medida poblacional
Estadístico: todo valor que se puede obtener a partir de datos muestrales. Es una variable aleatoria.
Muestra aleatoria simple de tamaño n, al conjunto de variables aleatorias X1, X2,.....,Xn, tal que:
a) Las Xi son estocásticamente independientes
b) Toda Xi tiene la misma distribución de probabilidad
Si el muestreo es con reposición, las condiciones anteriores se verifican siempre. Si es sin reposición, se cumplen de manera aproximada cuando n/N ≤ 0,05 (es decir, se muestrea –a lo sumo- el 5% de la población), y debe afectarse a la varianza del factor de corrección para poblaciones finitas: E(X)=µ V(X) =
Distribución en el muestreo de la media muestral a la distribución de probabilidades de las medias muestrales obtenidas de todas las muestras posibles de tamaño n, provenientes de una población dada.
Teorema central del límite: Sea X1, X2,.....,Xn una muestra aleatoria de una distribución con media µ y varianza α². Se sugiere usar el Teorema en casos en los que se desconoce la distribución de la población (o se sabe que no es Normal) y n>30. A medida que n∞, es la distribución Normal estandarizada N(0;1).
La forma límite de la distribución:
Estimación puntual de un parámetro φ es un único número que puede considerarse como el valor más razonable de φ. La estimación puntual se obtiene al seleccionar un estadístico apropiado y calcular su valor a partir de datos muestrales. El estadístico elegido se llama estimador puntual de φ̂.
Un estimador puntual φ̂ es un estimador insesgado de φ si: E(φ̂)= φ, para todo valor posible de φ.
Si φ̂ no es Insesgado, la diferencia E(φ̂)- φ se denomina sesgo de φ̂.
Error estándar de un estimador a su desvío estándar: S =
Estimador eficiente: La eficiencia se refiere a que tan bien un estimador estima a su parámetro asociado.
Estimador consistente: φ̂ es un EC de φ si el sesgo disminuye a medida que aumenta el tamaño de la muestra seleccionada.
Teorema de Tchebychev: proporciona una estimación conservadora (intervalo de confianza) de la probabilidad de que una variable aleatoria con varianza finita, se sitúe a una cierta distancia de su esperanza matemática o de su media. P(|X-µ|˃k6)≤1/k²

Intervalo de confianza: intervalo cerrado y acotado de números reales, calculado en base a valores muestrales, al que pertenece el verdadero valor del parámetro que se desea estimar. P[|X − μ| ≤ L] = (1 − ε)
La probabilidad de que el intervalo cubra o contenga al verdadero valor del parámetro se denomina nivel de confianza (1-ε).
A la probabilidad complementaria se la llama nivel de riesgo (ε).
Z = fractil de la distribución Normal, llamado factor de confianza o factor de fiabilidad.
Error de muestreo: diferencia entre el estimador y su parámetro respectivo: e = φ0 – φ
Hipótesis nula (H0): afirmación acerca de un parámetro, que se considera verdadera a priori (a menos que se obtenga suficiente evidencia en contra)
Hipótesis alternativa (H1 o Ha): hipótesis con la que se contrasta la Ho y que se debería cumplir en caso que la ho resulte falsa
Ha unilateral: Ha que implica todos los valores posibles de un parámetro poblacional, menores o mayores, del valor especificado por una hipótesis nula simple.
Ha bilateral: Ha que implica todos los valores posibles de un parámetro poblacional distintos del valor especificado por una Ho simple
Hipótesis simple: hipótesis que especifica un único valor para el parámetro de interés
Hipótesis compuesta: hipótesis que especifica un rango de valores para un parámetro poblacional
Decisiones de un contraste de hipótesis: se formula una regla de decisión que lleva al investigador a rechazar o no la hipótesis nula, basándose en evidencia muestral
Error de Tipo I: rechazo de una hipótesis nula verdadera
Error de Tipo II: no rechazo de una hipótesis nula falsa
Nivel de significación (α): probabilidad de rechazar una hipótesis nula que es verdadera. Usualmente, se expresa en porcentaje
Potencia de la prueba (1 - β): probabilidad de rechazar una hipótesis nula que es falsa. Es la medida de la sensibilidad de una prueba de hipótesis, ya que determina la posibilidad de rechazo correcto de la H0 en distintas circunstancias. Si la diferencia entre la media verdadera y la media hipotética es grande, la potencia de la prueba será mucho mayor que si dicha diferencia es pequeña.
Estadístico/ estadígrafo de prueba: función de los datos muestrales en los cuales se basa la decisión (de rechazar o no H0)
Región de rechazo (o región crítica): conjunto de todos los valores del estadístico de prueba para los cuales H0 será rechazada. El área que abarca se mide por el nivel de significación y representa la probabilidad de cometer un Error de Tipo I
Valor crítico (o punto crítico): pertenece a la región de rechazo de H0. Es un fractil de la distribución de probabilidades considerada.
Valor p: probabilidad, calculada bajo la suposición que H0 es verdadera, de obtener un valor del estadístico de prueba al menos tan contradictorio para H0 como el que se obtuvo. Cuanto más pequeño sea el valor de p, más contradictorio es el resultado para H0.
Varianza ponderada: Estimador de la varianza (Sp)
Prueba de Welch: Se utiliza cuando tenemos una prueba de muestras poblacionales donde las varianzas son desconocidas y distintas.
Población (N): conjunto completo de todos los objetos que interesan a un investigador.
Muestra(n): es un subconjunto observado de valores poblacionales.
Métodos de Muestreo: conjunto de técnicas estadísticas que estudian la forma de seleccionar una muestra lo suficientemente representativa de una población, cuya información permita inferir las características de toda la población, cometiendo un error mensurable y acotado.
Muestreo probabilístico: se puede determinar la probabilidad de obtener cada una de las muestras. Se podrá medir la incertidumbre derivada de la selección de n y los errores cometidos en el proceso de muestreo.
Método de muestreo aleatorio simple es aquel en el que todos los miembros de una población tienen la misma probabilidad de ser elegidos para la muestra.
Muestreo sistemático: implica la selección de todo j-ésimo sujeto de la población, donde j = N / n.
Muestreo aleatorio estratificado: es la selección de muestras aleatorias simples independientes de cada estrato de la población.
Muestreo por conglomerados: Consiste en subdividir la población en unidades relativamente pequeñas llamadas conglomerados. En ellos, se selecciona una n simple de la población y se hace un censo completo de cada uno de los conglomerados elegidos
Muestreo bietápico: En muchas investigaciones, la población no se encuesta en una sola etapa, sino que a menudo es conveniente realizar primero un estudio piloto en el que se contacta con una población relativamente pequeña de los miembros de la muestra y se analizan los resultados obtenidos antes de realizar la mayor parte del estudio.

Análisis de regresión: parte de la Estadística que investiga la relación entre dos o más variables, relacionadas de manera no determinista. Su objetivo es determinar la ecuación de la recta de mejor ajuste o recta de regresión estimada.
X: variable independiente, predictora o explicativa.
Y: variable dependiente, explicada o de respuesta (Y).
Diagrama de dispersión: Sean x1,x2xn valores de la va expl q se corresponden con los respectivos valores y1,y2,yn formando los pares ordenados que se corresponderán con puntos del plano cartesiano, en el DDD
-Existen valores iguales de x con imágenes distintas (carácter no determinista), al aumentar los valores de x aumentan los valores de y, y puede imaginarse una recta que pase razonablemente cerca de los puntos del gráfico, con pendiente positiva.
ε componente aleatoria del modelo y se llama desviación aleatoria, término de error aleatorio o perturbación.
µYxi es la media de todos los valores y para los cuales x=xi
α²Yxi es la medida de cuánto esos valores de y se dispersan en torno del valor medio.
Estimadores: son las componentes del par (b0;b1) que minimiza la función. Su cálculo se realiza utilizando el llamado Método de los Mínimos Cuadrados. Estos se encuentran buscando los puntos críticos de la misma.
Suma de Cuadrados Totales (SCT) mide la variación de la variable Y con relación a su media.
Suma de Cuadrados Explicada mide la variación de los valores de Y en la recta de regresión con relación a la media de Y
Suma de Cuadrados del Error (SSE) (o Residual) a la suma de los cuadrados de los residuos. Mide la variación
de los valores de Y y sus correspondientes a través de la recta de regresión muestral
Varianza Residual Muestral: estimador de α²
Coeficiente de Determinación (r2) Mide la proporción de variación observada en Y, que puede ser explicada por el modelo de regresión lineal simple (atribuido a una relación aproximadamente lineal entre X e Y). El % restante se debe a ε. 0 a 1.
Coeficiente de correlación lineal muestral: Es un estimador del coeficiente de correlación poblacional. Principales propiedades:
a) El valor de r no depende de cuál de las variables sea considerada como explicativa
b) Su valor es independiente de las unidades de medida de las variables
c) r  [-1;1]
d) Si r=-1, la correlación es perfecta y negativa. Todos los puntos del diagrama de dispersión pertenecen a la recta de regresión,
que tiene pendiente negativa. Si r=1, la correlación es perfecta y positiva. Todos los puntos del diagrama de dispersión pertenecen a la recta de regresión, que tiene pendiente positiva. Si r=0, no existe correlación
e) El cuadrado del coeficiente de correlación proporciona el valor del coeficiente de determinación

 

Preguntas y Respuestas entre Usuarios: