Altillo.com > Exámenes > UBA - Psicología > Estadística
La estadística es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de la población que estas proceden. El primer objetivo de la estadística descriptiva consiste en conseguir resúmenes de los datos en índices compactos y de gran calidad informática.
La estadística tiene dos grandes funciones que son las de descripción y realización de inferencias. Estas reflejan la propia historia del desarrollo de la ciencia y la profundidad de los análisis que realizan o las fases de estudio ya que para hacer un estudio inferencial primero se debe hacer un estudio descriptivo . Entonces la estadística se divide en dos partes:
a) la estadística descriptiva: se agota en la descripción y puede abordarse si conocimientos técnicos previos. Su objetivo es el de resumir, transofrmar y graficar los datos para poder interpretar la información.
b) la estadística inferencial: comienza por la descripción y luego se aborda la inferencia. Se necesitan conocimientos previos matemáticos y técnicas que se usan para extraer conclusiones de poblaciones a partir de unos pocos. Su objetivo es poder asegurar o generalizar los resultados de una muestra representativa a la población de la cual se extrajo la muestra.
Existen diferencias entre la estadística teórica y la estadística aplicada. La primera se dedica al estudio de los métodos formalmente válidos para la realización de inferencias, la segunda se dedica a la aplicación de esos métodos y modelos de actuación en campos reales.
La estadística se aplica en un conjunto de entidades, en una población. La población estadística es el conjunto de todos los elementos que cumplen una o varias características o propiedades y esta definida en tiempo y espacio.
Los elementos que componen una población se llaman entidades estadísticas o individuos o unidades de análisis y pueden ser personas, animales, objetos, etc. Las unidades de análisis son el objeto del cual se desea obtener información, serian cada uno y todos los individuos que componen la población de los cuales se desea obtener información. Si el número de elementos que componen a la población se pueden contar se trata de poblaciones finitas; pero en el caso de las que no tienen un limite y siempre se puede recolectar una observación más, se trata de poblaciones infinitas.
Cuando se aborda un trabajo empírico, se debe definir la población de interés, pero debido a que son muy numerosas y la descripción de sus propiedades es inaccesible se recurre a la utilización de muestras .
Las muestras son un subconjunto de los elementos de una población o de las unidades de analisis que nos van a ofrecer una serie de datos o información que podemos ordenar, simplificar y describir. Pero su objetivo es el de poder describir la población de partida mediante lo que podemos encontrar en la muestra y para poder extraer estas conclusiones es muy importante que la muestra de observación sea representativa.
Las poblaciones se pueden caracterizar a partir de unas constantes llamadas parámetros que es una propiedad descriptiva de la población y es desconocida. Una de las tareas de la
estadística es hacer deducciones lo más acertadas posibles acerca de los parámetros de una población.
Para lograr lo último, se toman cantidades análogas obtenidas en la muestra representativa de la población llamado estadístico. Esta es una propiedad descriptiva pero de la muestra y suele ser conocido, por lo que puede calcularse a partir de la información que la muestra provee.
El estimador es un estadistoco que se usa para conocer aproximadamente el valor de un parámetro poblacional desconocido, es decir, son los estadísticos de los parámetro. Cuando hay parámetros poblacionales desconocidos y se quiere conocer su valor, se suele recolectar una miestra aleatoria representativa de la población para luego calcular esa propiedad a partir de los datos de la muestra y tomar los valores del estadístico como buena aproximación del parámetro poblacional.
Lo importante a destacar de esto es que si la muestra usada es realmente representativa probablemente el parámetro (o media poblacional) no sea muy distinto del estadístico (o media muestral). Ni el parámetro ni el estadístico se pueden considerar con seguridad el verdadero porcentaje, pero cada uno de ellos puede usarse para hacer deducciones acerca del verdadero porcentaje o parámetro. Los parámetros suelen representarse con letras griegas y los estadísticos con letras latinas (X, S, P, etc). En la primera parte se obtienen estadísticos y en la segunda se usan esos valores obtenidos para hacer inferencias sobre los parámetros.
Al estudiar las unidades de análisis o las entidades de una población, lo que interesa son las propiedades de los elementos que conforman a la población y estas propiedades tienen distintas variedades. Entonces,una característica es una propiedad de un individuo y una modalidad es una de las formas en que se presenta esa característica. Por ejemplo: si trabajamos con la población española, sus elementos tienen las características sexo, estado civil, estatura, inteligencia, etc.
La estadística no realiza sus procedimientos directamente sobre las modalidades, sino que las representa por números y una vez representados realiza sus funciones.
La medición es este proceso de atribuir números a las características y se trata de un sistema relacional numérico ya que su objetivo es conectar un sistema relacional empírico (formado a partir de una característica) y un sistema relacional numérico. O sea que las relaciones entre las entidades se reflejan en las relaciones entre los números que los simbolizan.
Los modelos que se usan para la medición son las escalas, a este se le liga el concepto de transformación admisible. Es lo que permite que un conjunto de valores correctamente atribuidos se pueda pasar a otro correctamente atribuido. Una transformación de los números asignados en una escala es una transformación admisible si presenta características que definen a esa escala, es decir, se puede dar la transformación si los números transformados también representan al sistema empírico . Este concepto hace referencia al problema de la unicidad de la medida (si la representación numérica asignada o construida es la única posible). Hay distintas formas de clasificar a las variables, una de ellas es mediante el sistema de clasificación de escalas. Niveles de medición: (cada nivel incluye al anterior)
a) escalas nominales: solo informan de la igualdad o desigualdad de los individuos en una característica, no informa de posibles ordenaciones ya que la característica a la que se refiere no tiene un mayor o un menos, sino que solo adopta formas cualitativamente
distintas. Son validas todas las transformaciones que supongan aplicaciones inyectivas. Información que se deduce à “igual que o diferente de” (variable cualitativa)
Transformación admisible à aplicaciones inyectivas
b) escalas ordinales: los números asociados reflejan los distintos grados en los que se presenta la característica, es decir, permitirán extraer las conclusiones acerca de las magnitudes y solo se podrá deducir si es mayor o menor que algo (se puede ordenar). Se establece un orden o jerarquía entre los valores. No todas las transformaciones de la escala nominal van a ser admisibles, solo lo serán las que cumplan con la condición de ser transformaciones crecientes (siguiendo con las características de la escala ordinal). Las limitaciones de esta escala es que no nos dicen en cuanto mas se presenta o no la característica. (variable cuasi cualitativa)
Información que se deduce à “mayor que o menor que”
Transformación admisible à funciones crecientes
c) escalas cuantitativas de intervalos (intervalar): esta incluye una unidad de medida lo que permite saber las distancias entre dos valores. Su principal limitación es que no tiene un cero absoluto, es decir que el numero cero no indica ausencia de la característica (Ej: la temperatura, no es que no hay temperatura en 0 y se puede hacer una transformación admisible en Fahrenheit). Para que la transformación de números sea admisible tiene que ser lineal, el cambio está en la unidad de medida y en el origen asignado a la escala. La consecuencia de su limitación es que no se puede extraer conclusiones más precisas. (variable cuantitativa)
Información que se deduce à “igualdad o desigualdad de diferencias” Transformaciones admisibles à a + b.x (b ≠ 0)
d) escalas cuantitativas de razón : incluye las propiedades de los anteriores niveles pero difiere con la intervalar en que el cero en esta escala indica ausencia de esa característica. La consecuencia del origen absoluto o de que el cero indique ausencia, es que además de poder extraer conclusiones sobre la igualdad o desigualdad de diferencias, también se puede hablar de la igualdad o desigualdad de razones. La única forma de transformación admisible es la multiplicación por una constante positiva ya que estas preservan el 0 y permiten el cambio en la unidad de medida. (variable cuantitativa.
Información que se deduce à“igualdad o desigualdad de razones” Transformación admisible à b.x (b ≠ 0 y b > 0)
La variable es una propiedad o cualidad que nos interesa estudiar de los individuos de una población. Presenta distintas modalidades o formas entre los individuos.
La mayoría de las características psicológicas son complejas porque requieren de explicitar qué se entiende por ella mediante constructos. Al no ser directamente observables, se debe hace run recorte adecuado del constructo (considerar solo un aspecto) y explicar cuales son las manifestaciones observables. La operacionalización de una variable es la que nos da una variable estadística.
La variable estadística es la representación numérica de una variable o característica y se obtiene mediante un procedimiento de medición. En este proceso se asignan números a los objetos según las reglas y el conjunto de valores numéricos atribuidos a las modalidades de una característica. Pueden clasificarse según el tipo de valor que pueden tomar:
a) variable cualitativa: aquellas cuyos valores expresan atributos, como por ejemplo casado, soltero. No expresan ni orden ni cantidad.
b) variable cuasicualitativa: son aquellas cuyos valores indican un orden o jerarquía, por ejemplo, las personas con nivel de ansiedad.
c) variable cuantitativa: son aquellas cuyos valores expresan cantidades numérica, como un test de autoestima, que da orden y cantidad.
Dentro de estas variables hay dos tipos:
1) variable discreta à sus valores son puntos aislados y todo valor tiene un continuo, es decir que no puede existir un valor de la variable entre ellas. Por ejemplo, cometes 1 o 2 intentos de suicidio, no 1,5
2) variable continua à es cuando puede tomar cualquier valor dentro de un intervalo numérico, al menos teóricamente. Por ejemplo, el tiempo invertido en hacer un test de inteligencia
Las modalidades son cada una de las formas como se presenta una característica, los valores que se le atribuyen a cada modalidad permiten diferenciar los casos que varían entre si en la característica evaluada y surgen de aplicar esquemas de clasificación.
Los esquemas de clasificación permiten organizar las observaciones en clases de equivalencias. Las observaciones incluidas en la misma clase son cualitativamente iguales y las incluidas en clases diferentes son cualitativamente diferentes. Las clases son mutuamente exclusivas y exhaustivas, es decir, se usa una clase por cada una de las modalidades que adopte la variable (exhaustiva) y cada observación es incluida en una y solo una clase (exclusiva).
Organización y representación de datos
La matriz de datos es donde se organiza la información "en bruto" que proviene de la recolección de datos estadísticos. Es una disposición de números donde a) cada fila representa a un individuo que tiene información de interés, b) cada columna es un aspecto del individuo que se seleccionó para estudiar (es decir una variable) y c) cada celda es la modalidad que tiene el individuo de la fila en la columna correspondiente (o sea el valor de la variable). A través de la matriz de datos se tiene un conjunto de valores de muchas variables que deben ser organizados para extraer más fácilmente información sobre lo recolectado. Con este objetivo se construye la distribución de frecuencias, a partir de ella se pueden realizar representaciones graficas.
La distribución de frecuencia son agrupaciones de los datos (en tablas o gráficos) que ayudan a obtener conclusiones de esos datos rápidamente, se usan cuando tenes conjuntos grandes de datos y los debes organizar y resumir. Si bien no permiten observar cómo se distribuyen los datos a lo largo del recorrido de la variable, ayudan a observar donde están más concentrados, si hay datos extremos, como se distribuyen, etc. Se usan para todo tipo de variables ya sean cualitativas o cuantitativas y a partir de ellas se pueden construir gráficos que muestran la misma información pero con el impacto visual de los resultados. Estos cambian si las variables son cuali o cuantitativas. Existen diferentes frecuencias que varían según el caso:
a) frecuencia absoluta: es la cantidad de veces que se repite una determinada modalidad o valor de la variable. La suma de todas las frecuencias absolutas de una determinada distribución de frecuencias siempre tiene que ser igual al total de observaciones ,es decir, al total de la muestra de individuos (n). La letra (n) simboliza el tamaño total de la muestra de individuos. Cuando el “n” es distinto no conviene usar esta frecuencia.
b) frecuencia relativa : es la frecuencia absoluta pero dividida por "n" y siempre es mayor o igual a 0 pero menor o igual a 1. Informa el peso de cada valor de la variable en el
conjunto de observaciones. La suma de todas las frecuencias relativas de una determinada distribución de frecuencias es siempre igual a 1.
c) frecuencia porcentual: es la frecuencia relativa pero multiplicada por 100 y al igual que ella informa el peso de cada valor de la variable en el conjunto de observaciones. La suma de todas las frecuencias porcentuales de una determinada distribución de frecuencias siempre es igual al 100%. Se usa para comparar “n” distintos
d) frecuencia absoluta acumulada : es la cantidad de observaciones acumuladas hasta determinada modalidad de la variable. Para obtenerla hay que ordenar de menor a mayor los valores de la variable. el mismo procedimiento se puede usar para obtener la frecuencia relativa acumulada o la frecuencia porcentual acumulada. Se usan cuando queremos determinar cuántas observaciones o que porcentaje de observaciones son menores o iguales a cierto valor. Solo tiene sentido en los niveles de medición ordinal, intervalar y de razón, y te dice como crece.
En la comparación entre dos o más grupos (o muestras de individuos) de tamaño muy similar se puede usar la frecuencia absoluta . Pero si los tamaños son distintos se debe usar la frecuencia relativa o la frecuencia porcentual .
Los gráficos son las posibilidades más elementales de presentar las distribuciones de frecuencias para que puedan ser aprehendidas visualmente en un primer análisis de datos. Su ventaja es que permiten una fácil interpretación y análisis de datos al mostrar las frecuencias con símbolos, barras, polígonos y sectores. Tienen ciertos usos: para tener una primera impresión de los datos antes de empezar el análisis, para la elección de tests estadísticos a realizar, para mostrar los valores q asumen los datos, para detectar patrones en los datos, para comparar distintas muestras o comparar en el tiempo, para evaluar la distribución de los datos . Existen distintos tipos de gráficos:
a) diagrama circular o pictograma: es un gráfico en el cual los sectores circulares son proporcionales a las frecuencias de los valores de la variable.
b) diagrama de rectángulos: es un gráfico en el cual se dibujan dos ejes perpendiculares en el cual, el eje horizontal, no es numérico estrictamente (a lo sumo se da un orden) y es de donde "salen" rectángulos que representan los valores de la variable en cuestión. En el eje vertical se representa algún tipo de frecuencias por lo que es estrictamente numérico. Se suele utilizar para variables nominales y ordinales.
c) diagrama de barras : son gráficos que son líneas que indican que toda frecuencia se concentra en un punto y no en un intervalo alrededor del mismo. Se usa para variables cuantitativas discretas.
Los polígonos de frecuencias en estos gráficos se obtienen uniendo los extremos superiores de las barras o bastones con los que se grafican la distribución de los valores de una variable discreta.
d) diagrama tallo y hoja : es un esquema de presentación de datos en el cual se usa una combinación de tabla y gráfico. Consiste en separar cada dato en: el ultimo digito que se llama hoja y las cifras delanteras restantes que se llaman tallo. Es una forma de visualizar conjuntamente los datos originales junto con la forma de distribución.
e) histograma : son gráficos con rectángulos verticales y contiguos cuyas bases son intervalos de clase y sus alturas son proporcionales a las frecuencias (generalmente relativas) correspondientes a cada clase. Se usa para variables cuantitativas continuas. Los polígonos de frecuencias de este grafico se obtienen a partir de sus vértices que son el punto medio de un intervalo previo al primero de altura cero, es decir que los
vértices están en el punto medio de cada rectángulo. Las frecuencias se grafican en las alturas de los rectángulos que tienen intervalos de igual longitud, pero el área es proporcional a la frecuencia por lo que podemos interpretar las áreas como frecuencias.
f) diagrama de rectángulos adyacentes: estos se usan para comparar dos distribuciones de frecuencias
Para variables cualitativas medidas a nivel nominal se suelen usar el diagrama circular o diagrama de sectores circulares y para los niveles ordinal y nominal el grafico de barras. Para las variables cuantitativas discretas se usa el grafico de barras o el polígono de frecuencias.
Cuando hay muchos valores se usan intervalos
(Para una variable continua no se le puede hacer un listado de sus valores ni darle una frecuencia absoluta a cada uno de ellos. Los valores observados representan el centro de un intervalo de números reales por lo que las frecuencias tienen que ser asignadas a intervalos de valores de la variable)
Los intervalos o clases son cada grupo de valores que ocupan una fila en una distribución de frecuencias.
Los limites aparentes o informados de un intervalo son los valores mayor y menor que puede adoptar la variable dentro de ese intervalo. Los limites exactos o extremos exactos de un intervalo son los valores máximo y mínimo incluidos en el intervalo y que podrían medirse, es donde el límite superior de uno de ellos es el límite inferior del que sigue. El punto medio de un intervalo o marca de clase es la suma de sus límites exactos partidos por dos. La amplitud de un intervalo es la diferencia entre su limite exacto superior y su limite exacto inferior y se representa con la letra I (i). Los intervalos abiertos no se ponen el límite inferior del intervalo que incluye los valores menores o no se pone ninguno de estos dos.
Una vez determinada la frecuencia absoluta de cada intervalo se pueden hallar las frecuencias relativa y porcentual
Para ver el comportamiento de las distribuciones de frecuencia de datos agrupados en intervalos se usan los gráficos histogramas. Si la variable es continua o esta agrupada en intervalos, al calcular las frecuencias acumuladas se van a obtener rectángulos ascendentes que formaran una línea ascendente a la hora de unir los extremos superiores de los rectángulos llamada "ojiva de Galton". Esta línea permite interpolar valores no observados y que no aparecen en la tabla.
(Todas las medidas que se presenten en esta unidad van a ser resúmenes estadísticos)
Los resúmenes estadísticos son un resumen de la información contenida en las observaciones de una muestra, es decir que dan una idea del comportamiento de datos que nos permitirá caracterizar a la distribución de frecuencias, hacer comparaciones con otras muestras y sacar conclusiones. Su objetivo es describir lo que paso en la muestra con respecto a la variable que nos interesa estudiar.
La distribución de frecuencias de una variable tiene distintas propiedades o características que se quieren describir. Los resúmenes estadísticos describen cada una de estas características de las muestras. Las características o propiedades de las distribuciones de frecuencias son :
a) tendencia central de los datos: resumen la tendencia general (en un solo valor de la variable) que se observa en la distribución de frecuencias, es decir, son una síntesis de cómo se presentó una variable en un conjunto de datos . Los índices o indicadores que se usan para obtener este valor son las medidas de tendencia central .
Las medidas de tendencia central son medidas de resumen de nuestros datos que hacen referencia a la magnitud general de observaciones y nos permite sintetizar los valores de nuestras variables. Existen tres medidas de tendencia central:
1) Moda à indica el valor o modalidad de la variable que más se presentó en un conjunto de datos, es decir el más frecuente usado.
Se usa cuando se trata de una variable con nivel de medición nominal
2) Mediana à es la puntuación que esta exactamente en el medio de la distribución, representa a la puntuación que es menor o mayor que la mediana, es decir a la que es superada por la mitad de las observaciones, pero no por la otra mitad. Se calcula igual que se calcula el centil 50. En el caso de tener valores impares se calcula el valor que está en el medio, pero si tenemos valores pares se debe sacar el promedio de los dos valores centrales.
Se usan cuando existen puntuaciones extremas no compensadas o cuando se trata de una variable con nivel de medición ordinal.
3) Media aritmética à es un promedio, es la suma de los valores observados dividido por el número de ellos y es la más usada. X̅= E Xi / n (Xi = valores de la variable, X̅ = media aritmética).
Se usa cuando se trata de una variable con mínimo un nivel de medición intervalar. Su desventaja es que es muy sensible a las puntuaciones extremas no compensadas. Ej: si estamos analizando a un equipo de futbol y tenemos un jugador más experimentado, las edades me van a quedar 20,21,20,20,37 lo que va a hacer que el promedio que me dé quede aumentado o sesgado por una sola observación.
b) variabilidad del conjunto de datos : indica en cuánto difieren los valores entre sí, es decir, refiere al grado de concentración de las observaciones. Cuando decimos que hay menos variabilidad nos referimos a que hay + concentración de los casos en uno o unos pocos valores de la variable, es decir que los casos son más homogéneos o parecidos entre si con respecto a la variable estudiada. Pero cuando hay más variabilidad hay mayor dispersión de los casos en el recorrido de los valores de la variable, es decir que los casos son más heterogéneos o diferentes entre sí respecto a la variable estudiada. Se calcula con las medidas de variabilidad de las cuales algunas se refieren al grado de concentración de las observaciones EN TORNO A LA MEDIA, es decir si los casos son más o menos parecidos al promedio (o media). Estas medidas son la varianza, la desviación típica y el coeficiente de variación. Otras medidas de variabilidad no toman a la media como referencia, estas son la amplitud total, la amplitud semi-intercuartil y la entropía.
Existen otras medidas que se refieren a la forma en la que se distribuyen las frecuencias
c) asimetría: hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Tiene 3 indices para medir esta propiedad:
1) la distancia entre la media y la moda: se basa en la relación entre la media y la moda medida en desviaciones. Si la media es inferior a la moda, el índice va a dar un valor negativo. Si la media es superior que la moda, el índice va a ser positivo. Y si la
media y la moda coinciden, entonces el índice de simetría va a dar 0. Su formula es: la media menos la moda dividida el desvío.
2) índice de asimetría Pearson: es igual al del promedio de las puntuaciones típicas elevadas al cubo, su valoración e interpretación es igual a la anterior, los valores menores a 0 indican asimetría negativa, lo mayores a cero indican asimetría positiva y los que son entorno a cero indican distribuciones aproximadamente simétricas (es el más usado). Si el índice de datos es pequeño conviene este nada más.
3) índice de asimetría intercuartílico: se basa en los cuartiles y los valores mayores de cero indican asimetría positiva, los menos indican asimetría negativa y los valores en torno a cero indican distribuciones aproximadamente simétricas. Este tiene una ventaja que es que tiene un valor máximo (+1) y mínimo (-1) lo que facilita su interpretación en términos menos relativos.
d) curtosis: expresa el grado de apuntamiento de la curva que representa a la distribución de frecuencias. Si el grado de curtosis es igual a 0 significa que es una distribución normal y por lo tanto es una mesocúrtica. Si es positivo su grado de apuntamiento, es decir, es mayor que la distribución normal, es una distribución leptocúrtica. Y si es negativo, su apuntamiento es menor que el de la distribución normal, es platicurtica.
Las medidas de posición o CUANTILES son índices sirven para decir que porcentaje de casos de la muestra queda por debajo de un valor determinado de la variable. Puede ser usado para caracterizar a las distribuciones de frecuencias, por ej indicando que valores de la variable son los que dividen a la distribución en cuatro subconjuntos iguales. Una puntuación por sí sola no nos da información si no se la pone en relación con otras puntuaciones que son tomadas como grupo de referencia. Se pueden calcular a partir del nivel ordinal porque se precisa ordenar de menor a mayor los valores de la variable para poder determinar qué porcentaje de casos queda por debajo de cada valor. Existen diferentes cuantiles: (los más usados son los centiles o percentiles)
a) Centiles: son 99 valores de la variable que dividen la distribución en 100 secciones, cada una conteniendo a la centésima parte de las observaciones (o sea el 1%), ej: el CENTIL 1 supera al 1% de las observaciones y es superado por el 99% de las mismas (centil 25 = 25%, el ultimo es el centil 99, etc). Se simboliza usando la "C" o la "P" (Centil o Percentil) y como subíndice se usa la "k" en minúscula.
El valor "k" es el rango percentilar, o sea, el porcentaje de observaciones que es superado por un valor de la variable. Ej: una persona con 30 puntos en un test de creatividad tiene un Centil de 20 porque deja por debajo al 20% de las observaciones. Los centiles ayudan a responder dos tipos de preguntas:
1) ¿qué puntuación es la que deja por debajo de si un determinado porcentaje de observaciones? Conocemos el % pero la incógnita es el valor de la variable, es igual que decir que puntuación corresponde al Ck.
2) ¿qué porcentaje de observaciones deja por debajo de si una puntuación determinada? Conocemos la puntuación, pero no el %, es como preguntar que rango percentilar le corresponde a una puntuación determinada.
b) deciles: son 9 valores de la variable que dividen a la distribución en 10 secciones, cada una conteniendo a la décima parte de las observaciones, es decir un 10% (D1, decil 1, supera al 10% de las observaciones, pero es superado por el 90%)
c) cuartiles: estos cuantiles dividen el recorrido en cuatro subconjuntos (intercuantiles) en los que ninguno supera la cuarta parte del tamaño de la muestra. Es decir que se divide el total en 4 partes iguales. Son 3 cuartiles Q1 (25%), Q2 (50%) y Q3 (75%)
Q2 = C50 = Mdn --> el cuartil dos es igual al centil cincuenta y al mismo tiempo es igual que la mediana.
Existen dos tipos de puntuaciones:
a) Las puntuaciones directas o brutas: que son cada uno de los valores observados de la variable
b) Las puntuaciones diferenciales: que es cuando a cada valor de variable (o puntuación directa) se le resta la media dando como resultado el número de unidades que una puntuación directa se aleja de la media (o sea te dice cuanto se aleja el valor de la variable de la media). Su formula es à Xi - X̅ = puntuación diferencial
La media aritmética tiene 6 propiedades:
1er propiedad : la suma de las diferencias de "n" puntuaciones con respecto a su media, o puntuaciones diferenciales es igual a 0. Esto pasa porque unas son positivas y otras negativas (las que superan la media + y las que quedan por debajo -) y se compensan unas con otras.
Esta propiedad es la que permite interpretar a la media como el centro de equilibrio de la distribución. Ej: tenemos tres números 2 - 7 - 9, sacamos el promedio (2+7+9 dividido 3) que es 6 y para obtener las puntuaciones diferenciales con respecto a la media, a cada puntuación directa se le RESTA la media --> 2 - 6= -4 // 7 - 6= 1 // 9 - 6= 3 (estas son las puntuaciones diferenciales con respecto a la media). Ahora la suma de estas diferenciales da como resultado 0.
2da propiedad: la suma de los cuadrados de las puntuaciones diferenciales con respecto a la media es menor que con respecto a cualquier otro valor como por ejemplo 8 (siguiendo con el ejemplo anterior). La media otra vez como centro de gravedad.
3ra propiedad: si sumamos una constante a un conjunto de puntuaciones, la media quedara aumentada en esa misma constante (k). En vez de sumar "k" a todas las puntuaciones, mejor sumar "k" a la media para obtener otra media.
4ta propiedad: si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmética quedara multiplicada por esa misma constante
(Las propiedades 3 y 4 expresan que la media se transforma de igual forma que los valores de la variable cuando la transformación es de tipo lineal .)
5ta propiedad: existe otro método que nos permite calcular la media del grupo total a partir del conocimiento de la media de cada uno de los grupos parciales y de sus tamaños. Esta fórmula suele denominarse media ponderada y es la media de un grupo de puntuaciones .
Cuando se conocen los tamaños y medidas de varios subgrupos hechos a partir del grupo total se puede obtener ponderando las medias parciales a partir de los tamaños de los subgrupos en que han sido calculadas. ("n" va a ser el tamaño)
formula --> X̅T (media total) = n1.X̅1 + n2.X̅2 + n3.X̅3+... + nk.X̅k
n1 + n2 + n3 +...+ nk
(Se valora más en una media total al grupo muestral que tiene mayor tamaño muestral.)
6ta propiedad: una variable definida como la combinación lineal de otras variables tiene como media la misma combinación lineal de las medias de las variables intervinientes en su definición
La realidad es que no alcanzan las medidas de tendencia central para describir por sí solo el comportamiento del conjunto de datos ya que dos conjuntos de datos con igual media pueden representar situaciones muy diferentes afectando la representatividad de las medidas de tendencia.
Debido a esto, hay que complementarla con otros estadísticos que nos provea alguna propiedad que nos indique la dispersión u homogeneidad de los datos, esta propiedad es la variabilidad. Existen diferentes medidas que señalan la variabilidad para variables cuantitativas:
a) rango recorrido o amplitud total: es la más simple y es la diferencia del valor mayor y el valor menor, es decir la diferencia entre los valores extremos (valor mayor - valor menor). Su ventaja es la facilidad del cálculo, pero su desventaja es que no tiene en cuenta los valores dentro de la distribución y es sensible a los valores extremos. En consecuencia, su representatividad y utilidad es baja.
b) Amplitud semi intercuartil : es la diferencia entre el tercer cuartil y el primero divido 2. Suele ser de utilidad cuando es más aconsejable calcular la Mdn (mediana) que la media y no es sensible a los valores extremos.
c) La varianza: es otra forma de solucionar el problema de la suma cero por las compensaciones positivas y negativas. Se trata de transformar todas las puntuaciones diferenciales en positivas elevando al cuadrado cada una de ellas y luego promediarlas logrando la varianza. Si hay mayor varianza hay mayor dispersión.
S^2 = varianza (S elevada al cuadrado)
Su fórmula es à S^2 = E (Xi - X̅)^2 /n (dividido "n" que sería la cantidad de variables)
d) La desviación típica: con el objetivo de retomar las unidades de la variable originales, se puede aplicar la raíz cuadrada de la varianza obteniendo a la desviación típica. Es de más fácil interpretación y se puede pensar como un alejamiento promedio de los datos a la media.
desviación típica = desviación = la raíz cuadrada de la varianza S = desviación
Su fórmula es à S= -/ S^2 (la raiz)
e) Coeficiente de variación: es otra forma de analizar la variabilidad que se usa cuando las medias son muy distintas sin importar que sean la misma variable. Se toma la desviación estándar o típica, se divide por la media y el resultado se multiplica por 100. Es necesario saber el conjunto de datos de una variable en particular y el valor de la media de ese conjunto de datos.
Su fórmula es à desviación estándar X100
media
Las variaciones entre los datos están reflejando variaciones en las características que se están estudiando.
Cuando se quiere comparar la variabilidad de dos conjuntos de datos, se puede usar la varianza o la desviación típica pero solo si se trata de la misma variable, es necesario que las medias sean semejantes.
Las puntuaciones típicas y las escalas derivadas se basan en aplicar transformaciones de las puntuaciones observadas (directas o brutas) produciendo otras que, sin perder o distorsionar la información contenida en las puntuaciones originales, permiten una interpretación y una comparación más eficiente de las mismas .
Las puntuaciones directas (observadas o puntuaciones brutas) son insuficientes para hacer una interpretación del estado observado porque carece de referencias apropiadas para hacerlo (no se conoce nada). Si bien las puntuaciones diferenciales ayudan a interpretar como se ubica esa puntuación directa en relación con su grupo de referencia (indicándonos si la puntuación es SUPERIOR o INFERIOR a la media o si coincide con ella), no brindan información acerca de la variabilidad del conjunto de datos al que pertenece la puntuación directa Xi.
Las puntuaciones típicas completan lo anterior, indica el numero desviaciones que esa observación se separa de la media de su grupo . Para poder interpretar un dato observado, se puede medir las distancias a la media en relación con la variabilidad del grupo de referencia (es decir, la distancia promedio de los datos con respecto a su media, evitando las distancias a la media en términos absolutos).
Si a la puntuación diferencial la dividimos por la desviación típica se obtiene la puntuación típica. Se simbolizan con Zi y al proceso de obtención de puntuaciones típicas se lo llama tipificación .
Las puntuaciones típicas tienen características de tendencia central y de variabilidad que son constantes: media = 0 y varianza y desviación típica = 1.
Las puntuaciones típicas o Z permiten ubicar la posición de un individuo en relación con su grupo de referencia, permiten realizar comparaciones llevando los resultados a una escala común ya que son adimensionales (o sea independientes de la unidad de medida). Son útiles para realizar comparaciones entre: a) unidades de distintos grupos, b) variables medidas de distintas formas, o c) variables distintas. Su desventaja es que algunas son negativas y casi todas tienen decimales por lo que se buscaron puntuaciones que permitan resolver estos problemas.
Su formula à Xi - X̅
Sx
Las escalas derivadas constituyen una transformación de las puntuaciones típicas en otras puntuaciones equivalentes. A la puntuación típica Z se la multiplica por una constante y se le suma otra constante mediante la transformación lineal. Si se transforman las puntuaciones típicas multiplicándolas por una constante "a" y sumando una constante "b" entonces estas puntuaciones transformadas tendrán: 1) como media la constante sumaba "b", 2) como desviación típica el valor absoluto de la constante multiplicada |a|, 3) y como varianza el cuadrado de la constante a^2 (BASICSMENTE ES UNA FORMULA PARA IGUALAR LAS PUNTUACIONES Z EN EL CASO DE QUERER USAR UNA VARIANZA Y UNA MEDIA DISTINTAS, ES
UNA FORMA DE TRANSFORMACION DE LA PUNTUACION TIPICA Z) . Algunas escalas derivadas son:
a) Puntuaciones T: que tiene una media = 50 y una desviación típica = 10
---> Ti =10.zi+50
b) Escala de CI (cociente intelectual) : que tiene una media = 100 y una desviación típica = 15
---> CIi = 15.zi + 100
Preguntas y Respuestas entre Usuarios: