lunes, 31 de enero de 2011

Estadistica. III. Estadistica Descriptiva

III. ESTADÍSTICA DESCRIPTIVA

En la estadística descriptiva podemos apreciar diferentes medidas que se utilizan a la hora de realizar una investigación científica, entre las cuales tenemos: las medidas de posición central, las medidas de posición no central, la variabilidad y las medidas de forma, que a continuación se presentará su utilidad y respectiva formula.

Las medidas de posición son: la moda, la mediana y la media aritmética.

La moda viene hacer el dato que se repite el mayor número de veces en una distribución o el que tiene mayor frecuencia. La mediana es el dato que ocupa una posición central, el que se encuentra en la mitad. Y la media aritmética, también llamada por otros como el promedio se podría definir como el resultado obtenido de la suma de los datos y dividido entre el mismo número de ellos.

Aunque cabe resaltar que Giménez incluye dentro de estas medidas de tendencia central a el centro recorrido. Él mismo lo señala de esta manera “el centro recorrido es el punto medio de la distribución. Es una medida estrictamente posicional” (p.406), esta es una clasificación muy particular, además la mayoría de los autores nos mencionan al anterior bajo el nombre de punto medio.

Para tener otro punto de vista la Enciclopedia Aula-Matemática (1998) menciona a las medidas de tendencia central de la siguiente manera: “las más importantes son seis: moda, media, mediana, media geométrica, media armónica, y media cuadrática (P.331)

Recibe el nombre de moda el valor que presenta mayor frecuencia absoluta en el conjunto de las observaciones. La mediana el valor que ocupa el lugar central de todas las observaciones realizadas y en el caso de la media aritmética de una distribución de datos, el cociente de la suma de los valores de los datos entre el número de los mismos (Enciclopedia Aula Matemática (1998. P.332))

Con esto se puede apreciar que se toman en cuenta seis medidas de posición cuando Giménez solo hace referencia a cuatro (media, mediana, moda y centro recorrido).

Se puede decir que La moda, la media aritmética y la mediana son las tres medidas más utilizadas a la hora de trabajar con datos estadísticos, por ende son las más comunes, es importante agregar que estas tres tienen aspectos muy específicos y esenciales a la hora de su utilización. En el caso de la moda se puede dar que en una distribución no se encuentre un dato con mayor frecuencia o por el contrario se presenten dos o más datos que coincidan con la misma frecuencia (dos modas seria bimodal. Tres modas: trimodal y así sucesivamente). Con la mediana ocurre que si el número de datos es un número impar, el dato que se encuentre en el centro será fácilmente la mediana y si no se tendrá que buscar el valor que se ubique en el medio de los datos centrales para poder decir que ese es la mediana. Para esto se emplean formulas que ayudan en el procedimiento.

Sobre todo habría que tener presente que cuando se trabaja con las tres últimas ya mencionadas (moda, mediana y media) su cálculo será diferente si se trata de datos agrupados o no y el mejor ejemplo para esto es la media aritmética.


Gráfica 8: Formulas de Medidas Posición central
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.

MODA MEDIANA
es la semisuma de las frecuencias absolutas.
Li-1 es el límite inferior de la clase donde se encuentra .
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.

MEDIA ARITMÉTICA

Tomada de: http://www.vitutor.net/1/estadistica.html

A lo anterior debemos agregar Las Medidas de Posición no Central, a manera de estudiar con mayor profundidad los datos.

De esto Giménez nos comenta que “el conocimiento de las medidas de posición de una distribución de frecuencias no es suficiente para tener una idea apropiada de la distribución. Es necesario saber como se reparten los datos alrededor de la medida de posición que se haya calculado” (p.409).

Las medidas de no posición o de posición no central son aquellas que se pueden expresar en porcentajes e indican en cuantas partes se puede dividir una distribución. La idea de estas medidas es ordenar los datos de tal manera que queden distribuidos en un número de partes iguales. Entre estas medidas tenemos a los cuantiles y estos a su vez se dividen en: cuartiles, deciles, percentiles y quintiles. Cada uno de ellos se denota con las siguientes letras respectivamente: (Q), (D), (P), y (K).


De lo anterior podría expresarse de esta manera en forma resumida:
Cuartiles: dividen en cuatro partes 25%
Percentiles: dividen en 100 partes 1%
Deciles: dividen en 10 partes 10%
Quintiles: dividen en 5 partes 20%

Para sustentar y dar una explicación diferente, veremos como La Enciclopedia Libre Wikipedia (2010) define las medidas de posición no central:
Las medidas de posición no central permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre las medidas de posición no central más importantes están los cuantiles que son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencia.

• Los Cuartiles, que dividen a la distribución en cuatro partes;
• Los Quintiles, que dividen a la distribución en cinco partes;
• Los Deciles, que dividen a la distribución en diez partes;
• Los Percentiles, que dividen a la distribución en cien partes.

Cuartiles
Dados una serie de valores X1,X2,X3 ...Xn ordenados en forma creciente, definimos:
• Primer cuartil (Q1) como la mediana de la primera mitad de valores;
• Segundo cuartil (Q2) como la propia mediana de la serie;
• Tercer cuartil (Q3) como la mediana de la segunda mitad de valores.

La diferencia entre el tercer cuartil y el primero se conoce como rango intercuartil.

En estadística descriptiva los Cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
Quintiles
• Se representan con la letra K.
• Es el primer quintil. Separa a la muestra dejando el 20% de los datos a su izquierda.
• Es el segundo quintil. Es el valor que indica que el 40% de los datos son menores.
• Es el tercer quintil. Indica que el 60% de los datos son menores que él.
• Es el cuarto quintil. Separa al 80% de los datos del otro 20%.
Percentiles
Es cada uno de los 99 segmentos que tomamos al dividir una muestra o un conjunto de elementos ordenados por cien partes de igual frecuencia.
• Se representan con la letra P.
• Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante son mayores.

Los cuantiles al igual que las medidas de posición a la hora de calcularlas dependerán de si los datos se encuentran agrupadas o no.


Dentro de la estadística descriptiva también encontramos a Las Medidas de Variabilidad o de Dispersión. Aquí tenemos al rango, varianza, desviación típica y coeficiente de variación. Sin embargo, estas pueden ser llamadas de forma distinta dependiendo del o los autores. En esencia las definiciones suelen ser la misma, muy a pesar de que el término que se utilice para nombrarlas sea diferente. Por ejemplo:

Rango: (o recorrido estadístico) al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos.
R = x(k) − x(1)

Amplitud: mide la distancia que separa a la observación de mayor valor de la de menor valor en el conjunto de observaciones. (Enciclopedia libre Wikipedia (2010.Pág.1).

Giménez no nos habla de rango y tampoco de amplitud sino de Recorrido y al respecto afirma “esta medida no proporciona mucha información pero da una idea de la magnitud de la dispersión”. (p. 411). Asimismo coincide con Navarro al hablar de variancia y no varianza.

Variancia: Según la Academia y según Fernando Navarro, parece pues que hay que decir y escribir variancia cuando nos referimos a la media aritmética de los cuadrados de las desviaciones respecto de la media (en inglés y en francés, variance).

Varianza: (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Desviación tipo: es la raíz cuadrada de la varianza.

Desviación estándar: es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza.

Coeficiente de variación: división de la desviación tipo y la media aritmética, multiplicado por 100, ya que se expresa en porcentaje.





Hay que resaltar que Sote (2005) en su libro hace una clasificación de las medidas de dispersión de la siguiente manera: medidas de dispersión absoluta (varianza y desviación típica) y medidas de dispersión relativas. De esto podría decirse que:



Desde punto de vista la Enciclopedia Aula (1998) nos aclara que entre las medidas de dispersión “las más características son: amplitud, desviación media, desviación tipo, varianza, coeficiente de variación, coeficiente de disimetría, cuartilas, decilas y centilas”. (p333).

Aquí podemos apreciar que aparecen más medidas de las que anteriormente habíamos mencionado y además incluye entre ellas a las cuartilas, decilas y centilas, lo cual es muy inusual. Asimismo pocos autores consideran a la desviación media a la hora de enumerar las medidas de variabilidad, siendo la enciclopedia citada una de las pocas, si comparamos con los demás textos que se encuentran en la bibliografía. Aunque Sweeney y otros, aclaran lo de la desviación al momento de definir la varianza. Este aspecto es prácticamente obligatorio porque no podrá encontrase esta ultima si no se calcula antes las desviaciones. También estos autores son claros a la hora de hablar de la designación de las formulas:

en la mayoría de las aplicaciones estadísticas los datos analizados son una muestra. Cuando calculamos la varianza de la muestra, nos interesa utilizarla para estimar la varianza de la población. Por este motivo, la varianza muestral o varianza de la muestra, representada por s, se define como sigue:

Esto es importante ya que en casos se emplea la formula si tomar en cuenta si se está trabajando con muestra o población.

Cabe acotar que estas medias tienen algo característico y es que para calcularse todas primero se debe empezar por determinar las desviaciones (diferencia entre el valor y la media), para luego si proceder con el cálculo de la varianza, teniendo este resultado se podrá seguir con la desviación tipo y para finalizar con el coeficiente de variación . Por ende cada una de estas medidas depende de la otra para obtenerse.



También encontramos las Medidas de Forma que “Son indicadores estadísticos que permiten identificar si una distribución de frecuencia presenta uniformidad” (Quesada, Víctor y Vergara, Juan (2007. Cap. 7 Parra.3)), en base a esto, las medidas de forma permite evidenciar si una distribución frecuencia o tablas de frecuencia poseen características especiales como “simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución” (Quesada, Víctor y Vergara, Juan (2007. Cap. 7Parra.1))

Estas medidas son importantes para determinar el comportamiento de los datos y establecer que herramientas se deben utilizar para el análisis estadístico de una investigación.

Medidas de Forma


Coeficiente de Asimetría:

Distribución de Simetría: Simetría proviene del griego: Sun= CON y Metrón= MEDIDA, esto sugiere a la idea que una persona, objeto, figura o cosa presente medida, armonía, belleza, proporcionalidad, con respecto a un plano de referencia, que en estadística el patrón de referencia es la ordenada máxima correspondiente al Polígono de Frecuencia Absolutas que resulta de graficar una Distribución de Frecuencias.

Según los autores Quesada y Vergara (2007) muestran que:
Al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).
Distribución Uniforme: Las frecuencias tienen todas las mismas alturas.
Distribución Triangular: Los datos se distribuyen dando forma a un triangulo.
Distribución Binomial Simétrica: Presenta simetría con dos modas. (Cap.7.1.1)
Distribución de Asimetría: los indicadores de Asimetría permiten conocer el grado de distorsión de un polígono de Frecuencia Absoluta, al observar hacia donde se encuentran mayormente ubicados los datos de una serie.

Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al dividir la distribución de frecuencia por la mediana.
Distribución Sesgada hacia la Izquierda: Los datos se concentran hacia la izquierda de la distribución.
Distribución Sesgada hacia la Derecha: Los datos se concentran hacia la derecha de la distribución.
Distribución asimétrica: No presenta uniformidad en la distribución de los datos. (Quesada y Vergara (2007. Cap. 7.1.2))





Como podemos observar en la imagen la Distribución Simétrica en sus áreas son iguales, en la Distribución sesgada a la derecha es porque los datos se concentra a la derecha y por ende, es positiva y en la distribución sesgada a la izquierda se concentra en el área izquierda y será negativo.

Kurtosis (Curtosis) o Apuntamiento:
“Es la medida que se hace del grado de pico”… “La curvas tienen un mismo rango o intervalo, es decir podemos decir que tienen la misma dispersión, ambas son simétricas, sin embargo no tienen el mismo grado de Curtosis” (Blog spot de Estadística (2010. Parra.1))

De esta manera este concepto nos da la idea que Kurtosis es el grado de apuntamiento o picudez que presenta una curva simétrica (Polígonos de Frecuencias Absoluta).

La Kurtosis es el cuarto recurso para describir una Distribución de Frecuencias (las tres anteriores son: los promedios, la dispersión o variabilidad y la asimetría), usándose para mostrar el grado de concentración (curva con gran apuntamiento de los datos o dispersos o descentralizados (curva achatada). (Sote, Armando (2005. Pag.128)).

Al igual que la Asimetría, la Kurtosis posee diferentes tipos según como los datos que se repiten se encuentran ubicados en la tendencia central o la frecuencia con la que dichos valores se repiten, estos son: mesocurtica, platicurticas y Leptacurtica.

En el Blog Estadístico (2010) lo define de la siguiente manera:
La palabra MESOCURTICA proviene del griego MESO= mitad y la palabra LECTOCURTICA el gramema lecto de origen griego= esbelto y por su parte la palabra PLATICURTICA se compone de platos, también palabra de origen griego cuyo significado es ancho o pleno.

En una mesocurtosis observamos que las frecuencias pueden ser simétricas, es decir que hay datos que se repiten con mayor frecuencia pero que los datos extremos su disminución es gradual y equitativa. No así cuando observamos una curva platicurticas es indicativo de que la frecuencia entre todos los datos es muy similar. (Parra.5)

Lo dicho anteriormente lo podemos observar en la gráfica que se presenta a continuación. De esta manera podemos observar mejor el comportamiento de los distintos valores dentro de la estadística.



No hay comentarios:

Publicar un comentario en la entrada