lunes, 31 de enero de 2011

Presentación IParte Conceptos Básicos. II Parte

Encontrarán 2 Partes en 1:


IParte: Acontinuación de la presentación anterior. Conceptos Básicos de la Estadística.

IIParte: Representación de Datos: Tablas de Frecuencias y Gráficos Estadísticos

Presentación de Estadistica . I Parte Conceptos Básicos

Para resumir la información se presentará los siguientes videos para su mejor entendimiento.

Estadística IV Parte. Analisis de Correlación Lineal Y Regresión Simple

IV- ANALISIS DE CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

Análisis de Correlación y Regresión Lineal Simple

En los procedimientos tanto de correlación como de regresión a pesar que se calculan de manera diferente o que responden a diferentes formulas tienen un punto en común y es que en ambos se emplean con la finalidad de conocer la relación que se puede dar entre dos o más variables. Por ello aquí se debe tomar en cuenta y tener muy claro los diferentes tipos de variables.



Las variables como su nombre lo indican van hacer lo que va a variar, lo que se va a someter a estudio.

Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. En la página electrónica Enciclopedia libre 2010 cita a Hayman (1974.Pág, 69) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente.

Variables independientes: aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. A la variable independiente también se la conoce como variable explicativa, y mientras que a la variable dependiente se la conoce como variable explicada.
Aunque para otros autores como Sote (2005) existen:
De acuerdo al número de variables será:




CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN



Coeficiente de Correlación


Después de describir las diferentes variables, hablaremos del Coeficiente de Correlación, puesto que el coeficiente va hacer un valor que indicara la relación existente entre dos variables.

Para Sote (2005), el coeficiente de correlación (r) se define como un “indicador estadístico que nos permite conocer el grado de relación, asociación o dependencia que pueda existir entre dos o más variables”. (p. 360)

Y agrega lo siguiente:

Clasificación de la correlación: de acuerdo al número de variables consideradas en el estudio.

Correlación simple: cuando estudia la posible relación entre dos variables.

Correlación múltiple: cuando analiza la asociación o dependencia de más de dos variables.

Correlación rectilínea o lineal: cuando los datos presenten una tendencia de línea recta.

Correlación curvilínea: la variable presenta una tendencia distinta a la línea recta. (p.233)


Bajo otro punto de vista, veamos cómo se clasifica la correlación.

TIPOS DE CORRELACIÓN

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
1. Correlación simple: se estudia la dependencia únicamente entre dos variables
2. Correlación múltiple: se estudia la dependencia entre más de 2 variables
3. Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
1. Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.
2. Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente. (Aula Fácil (S/F. Parra. 1))

Esta clasificación es muy parecida a la que hace Sote, sin embargo en esta última se incluye la correlación parcial. Aquí es importante mencionar que el autor (Sote) nos habla de clasificación y además hace alusión a los tipos de correlación, haciendo una diferenciación entre lo que es la clasificación y los tipos, lo cual no lo hace el anterior, pues al hablar de tipos de correlación menciona a la clasificación.


Tipos de correlación: correlación positiva, correlación negativa e incorrelación.


Los tipos de correlación que pueden presentarse son:

Correlación positiva o directamente proporcional r = (+).
Nos indica que al modificarse en promedio una variable en un sentido, la otra lo hace en la misma dirección….

Correlación negativa o inversamente proporcional r = (-).
Nos muestra que al cambiar una variable en una determinada dirección (en promedio), la otra lo hace en sentido contrario u opuesto….

Incorrelación r = 0
Cuando la obtención de dicho indicador “r” sea exactamente igual a cero, se dice que no existe alguna relación, asociación o dependencia entre las variables estudiadas, siendo por tanto ellas, variables correlacionadas o faltes de alguna dependencia lineal. (Sote (2005. Pág. 239-240)).


Ahora bien, entre los coeficientes de correlación tenemos:

El coeficiente de correlación de Pearson y el de Spearman.
Sustentando esto:

Coeficientes de correlación:

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son:
• Coeficiente de correlación de Spearman
• Correlación canónica.

Coeficiente de correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente

donde σXY es la covarianza de (X,Y) y σX y σY las desviaciones típicas de las distribuciones marginales. (Enciclopedia Libre Wikipedia (2010). Parra.1)).

Coeficiente de correlación de Spearman

En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia


La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante. (Enciclopedia Libre Wikipedia (2010. Parra. 1))
De esta forma podemos observar cómo se orienta la aplicación de cada uno de estos viendo que el primero toma en cuenta dos variables aleatorias cuantitativas y el segundo entre dos variables aleatorias continuas.

Regresión Lineal

Otro procedimiento estadístico es el análisis de regresión lineal al igual que en el caso de la correlación lineal, este trabaja con variables “en la terminología de la regresión, la variable que se va a predecir se llama variable dependiente. Las o las variables que se usan para predecir el valor de la variable dependiente se llaman variables independientes”. (Sweeney y otros (2005. Pág. 539)).

Y además nos expone puntualmente que “donde intervienen una variable independiente y una variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se llama regresión simple”. (Sweeney y otros (2005. Pág. 539)).

Según la Enciclopedia Libre Wikipedia (2010) expone lo siguiente:
En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

donde β0 es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal. (Parra.1)

Al igual que el coeficiente de correlación, la regresión lineal, posee o se clasifica en diferentes modelos según los parámetros que se tenga, entre los cuales podemos mencionar:

Regresión lineal simple: Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:
6
donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).
Análisis
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:[5]

Derivando respecto a y e igualando a cero, se obtiene:[5]


Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:[4]


La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará en β1.
Regresión lineal múltiple La regresión lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:[6]

donde es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).
Rectas de regresión Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:[7]
• La recta de regresión de Y sobre X:

• La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución. (Enciclopedia Libre Wikipedia (2010. Parra.9))

Notando lo anterior se puede concluir con las palabras de Garzo (1988) explicando que “en la estadística descriptiva tratábamos de regresar la posible relación lineal entre las observaciones muéstrales de dos características, mientras que ahora tratamos de expresar la posible relación lineal entre dos características en toda la población. (Pág.161) De esta manera, explicando que se hace en la Regresión Lineal.

Estadistica. III. Estadistica Descriptiva

III. ESTADÍSTICA DESCRIPTIVA

En la estadística descriptiva podemos apreciar diferentes medidas que se utilizan a la hora de realizar una investigación científica, entre las cuales tenemos: las medidas de posición central, las medidas de posición no central, la variabilidad y las medidas de forma, que a continuación se presentará su utilidad y respectiva formula.

Las medidas de posición son: la moda, la mediana y la media aritmética.

La moda viene hacer el dato que se repite el mayor número de veces en una distribución o el que tiene mayor frecuencia. La mediana es el dato que ocupa una posición central, el que se encuentra en la mitad. Y la media aritmética, también llamada por otros como el promedio se podría definir como el resultado obtenido de la suma de los datos y dividido entre el mismo número de ellos.

Aunque cabe resaltar que Giménez incluye dentro de estas medidas de tendencia central a el centro recorrido. Él mismo lo señala de esta manera “el centro recorrido es el punto medio de la distribución. Es una medida estrictamente posicional” (p.406), esta es una clasificación muy particular, además la mayoría de los autores nos mencionan al anterior bajo el nombre de punto medio.

Para tener otro punto de vista la Enciclopedia Aula-Matemática (1998) menciona a las medidas de tendencia central de la siguiente manera: “las más importantes son seis: moda, media, mediana, media geométrica, media armónica, y media cuadrática (P.331)

Recibe el nombre de moda el valor que presenta mayor frecuencia absoluta en el conjunto de las observaciones. La mediana el valor que ocupa el lugar central de todas las observaciones realizadas y en el caso de la media aritmética de una distribución de datos, el cociente de la suma de los valores de los datos entre el número de los mismos (Enciclopedia Aula Matemática (1998. P.332))

Con esto se puede apreciar que se toman en cuenta seis medidas de posición cuando Giménez solo hace referencia a cuatro (media, mediana, moda y centro recorrido).

Se puede decir que La moda, la media aritmética y la mediana son las tres medidas más utilizadas a la hora de trabajar con datos estadísticos, por ende son las más comunes, es importante agregar que estas tres tienen aspectos muy específicos y esenciales a la hora de su utilización. En el caso de la moda se puede dar que en una distribución no se encuentre un dato con mayor frecuencia o por el contrario se presenten dos o más datos que coincidan con la misma frecuencia (dos modas seria bimodal. Tres modas: trimodal y así sucesivamente). Con la mediana ocurre que si el número de datos es un número impar, el dato que se encuentre en el centro será fácilmente la mediana y si no se tendrá que buscar el valor que se ubique en el medio de los datos centrales para poder decir que ese es la mediana. Para esto se emplean formulas que ayudan en el procedimiento.

Sobre todo habría que tener presente que cuando se trabaja con las tres últimas ya mencionadas (moda, mediana y media) su cálculo será diferente si se trata de datos agrupados o no y el mejor ejemplo para esto es la media aritmética.


Gráfica 8: Formulas de Medidas Posición central
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.

MODA MEDIANA
es la semisuma de las frecuencias absolutas.
Li-1 es el límite inferior de la clase donde se encuentra .
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.

MEDIA ARITMÉTICA

Tomada de: http://www.vitutor.net/1/estadistica.html

A lo anterior debemos agregar Las Medidas de Posición no Central, a manera de estudiar con mayor profundidad los datos.

De esto Giménez nos comenta que “el conocimiento de las medidas de posición de una distribución de frecuencias no es suficiente para tener una idea apropiada de la distribución. Es necesario saber como se reparten los datos alrededor de la medida de posición que se haya calculado” (p.409).

Las medidas de no posición o de posición no central son aquellas que se pueden expresar en porcentajes e indican en cuantas partes se puede dividir una distribución. La idea de estas medidas es ordenar los datos de tal manera que queden distribuidos en un número de partes iguales. Entre estas medidas tenemos a los cuantiles y estos a su vez se dividen en: cuartiles, deciles, percentiles y quintiles. Cada uno de ellos se denota con las siguientes letras respectivamente: (Q), (D), (P), y (K).


De lo anterior podría expresarse de esta manera en forma resumida:
Cuartiles: dividen en cuatro partes 25%
Percentiles: dividen en 100 partes 1%
Deciles: dividen en 10 partes 10%
Quintiles: dividen en 5 partes 20%

Para sustentar y dar una explicación diferente, veremos como La Enciclopedia Libre Wikipedia (2010) define las medidas de posición no central:
Las medidas de posición no central permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre las medidas de posición no central más importantes están los cuantiles que son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencia.

• Los Cuartiles, que dividen a la distribución en cuatro partes;
• Los Quintiles, que dividen a la distribución en cinco partes;
• Los Deciles, que dividen a la distribución en diez partes;
• Los Percentiles, que dividen a la distribución en cien partes.

Cuartiles
Dados una serie de valores X1,X2,X3 ...Xn ordenados en forma creciente, definimos:
• Primer cuartil (Q1) como la mediana de la primera mitad de valores;
• Segundo cuartil (Q2) como la propia mediana de la serie;
• Tercer cuartil (Q3) como la mediana de la segunda mitad de valores.

La diferencia entre el tercer cuartil y el primero se conoce como rango intercuartil.

En estadística descriptiva los Cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
Quintiles
• Se representan con la letra K.
• Es el primer quintil. Separa a la muestra dejando el 20% de los datos a su izquierda.
• Es el segundo quintil. Es el valor que indica que el 40% de los datos son menores.
• Es el tercer quintil. Indica que el 60% de los datos son menores que él.
• Es el cuarto quintil. Separa al 80% de los datos del otro 20%.
Percentiles
Es cada uno de los 99 segmentos que tomamos al dividir una muestra o un conjunto de elementos ordenados por cien partes de igual frecuencia.
• Se representan con la letra P.
• Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante son mayores.

Los cuantiles al igual que las medidas de posición a la hora de calcularlas dependerán de si los datos se encuentran agrupadas o no.


Dentro de la estadística descriptiva también encontramos a Las Medidas de Variabilidad o de Dispersión. Aquí tenemos al rango, varianza, desviación típica y coeficiente de variación. Sin embargo, estas pueden ser llamadas de forma distinta dependiendo del o los autores. En esencia las definiciones suelen ser la misma, muy a pesar de que el término que se utilice para nombrarlas sea diferente. Por ejemplo:

Rango: (o recorrido estadístico) al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos.
R = x(k) − x(1)

Amplitud: mide la distancia que separa a la observación de mayor valor de la de menor valor en el conjunto de observaciones. (Enciclopedia libre Wikipedia (2010.Pág.1).

Giménez no nos habla de rango y tampoco de amplitud sino de Recorrido y al respecto afirma “esta medida no proporciona mucha información pero da una idea de la magnitud de la dispersión”. (p. 411). Asimismo coincide con Navarro al hablar de variancia y no varianza.

Variancia: Según la Academia y según Fernando Navarro, parece pues que hay que decir y escribir variancia cuando nos referimos a la media aritmética de los cuadrados de las desviaciones respecto de la media (en inglés y en francés, variance).

Varianza: (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Desviación tipo: es la raíz cuadrada de la varianza.

Desviación estándar: es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.
Se define como la raíz cuadrada de la varianza.

Coeficiente de variación: división de la desviación tipo y la media aritmética, multiplicado por 100, ya que se expresa en porcentaje.





Hay que resaltar que Sote (2005) en su libro hace una clasificación de las medidas de dispersión de la siguiente manera: medidas de dispersión absoluta (varianza y desviación típica) y medidas de dispersión relativas. De esto podría decirse que:



Desde punto de vista la Enciclopedia Aula (1998) nos aclara que entre las medidas de dispersión “las más características son: amplitud, desviación media, desviación tipo, varianza, coeficiente de variación, coeficiente de disimetría, cuartilas, decilas y centilas”. (p333).

Aquí podemos apreciar que aparecen más medidas de las que anteriormente habíamos mencionado y además incluye entre ellas a las cuartilas, decilas y centilas, lo cual es muy inusual. Asimismo pocos autores consideran a la desviación media a la hora de enumerar las medidas de variabilidad, siendo la enciclopedia citada una de las pocas, si comparamos con los demás textos que se encuentran en la bibliografía. Aunque Sweeney y otros, aclaran lo de la desviación al momento de definir la varianza. Este aspecto es prácticamente obligatorio porque no podrá encontrase esta ultima si no se calcula antes las desviaciones. También estos autores son claros a la hora de hablar de la designación de las formulas:

en la mayoría de las aplicaciones estadísticas los datos analizados son una muestra. Cuando calculamos la varianza de la muestra, nos interesa utilizarla para estimar la varianza de la población. Por este motivo, la varianza muestral o varianza de la muestra, representada por s, se define como sigue:

Esto es importante ya que en casos se emplea la formula si tomar en cuenta si se está trabajando con muestra o población.

Cabe acotar que estas medias tienen algo característico y es que para calcularse todas primero se debe empezar por determinar las desviaciones (diferencia entre el valor y la media), para luego si proceder con el cálculo de la varianza, teniendo este resultado se podrá seguir con la desviación tipo y para finalizar con el coeficiente de variación . Por ende cada una de estas medidas depende de la otra para obtenerse.



También encontramos las Medidas de Forma que “Son indicadores estadísticos que permiten identificar si una distribución de frecuencia presenta uniformidad” (Quesada, Víctor y Vergara, Juan (2007. Cap. 7 Parra.3)), en base a esto, las medidas de forma permite evidenciar si una distribución frecuencia o tablas de frecuencia poseen características especiales como “simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución” (Quesada, Víctor y Vergara, Juan (2007. Cap. 7Parra.1))

Estas medidas son importantes para determinar el comportamiento de los datos y establecer que herramientas se deben utilizar para el análisis estadístico de una investigación.

Medidas de Forma


Coeficiente de Asimetría:

Distribución de Simetría: Simetría proviene del griego: Sun= CON y Metrón= MEDIDA, esto sugiere a la idea que una persona, objeto, figura o cosa presente medida, armonía, belleza, proporcionalidad, con respecto a un plano de referencia, que en estadística el patrón de referencia es la ordenada máxima correspondiente al Polígono de Frecuencia Absolutas que resulta de graficar una Distribución de Frecuencias.

Según los autores Quesada y Vergara (2007) muestran que:
Al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones).
Distribución Uniforme: Las frecuencias tienen todas las mismas alturas.
Distribución Triangular: Los datos se distribuyen dando forma a un triangulo.
Distribución Binomial Simétrica: Presenta simetría con dos modas. (Cap.7.1.1)
Distribución de Asimetría: los indicadores de Asimetría permiten conocer el grado de distorsión de un polígono de Frecuencia Absoluta, al observar hacia donde se encuentran mayormente ubicados los datos de una serie.

Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al dividir la distribución de frecuencia por la mediana.
Distribución Sesgada hacia la Izquierda: Los datos se concentran hacia la izquierda de la distribución.
Distribución Sesgada hacia la Derecha: Los datos se concentran hacia la derecha de la distribución.
Distribución asimétrica: No presenta uniformidad en la distribución de los datos. (Quesada y Vergara (2007. Cap. 7.1.2))





Como podemos observar en la imagen la Distribución Simétrica en sus áreas son iguales, en la Distribución sesgada a la derecha es porque los datos se concentra a la derecha y por ende, es positiva y en la distribución sesgada a la izquierda se concentra en el área izquierda y será negativo.

Kurtosis (Curtosis) o Apuntamiento:
“Es la medida que se hace del grado de pico”… “La curvas tienen un mismo rango o intervalo, es decir podemos decir que tienen la misma dispersión, ambas son simétricas, sin embargo no tienen el mismo grado de Curtosis” (Blog spot de Estadística (2010. Parra.1))

De esta manera este concepto nos da la idea que Kurtosis es el grado de apuntamiento o picudez que presenta una curva simétrica (Polígonos de Frecuencias Absoluta).

La Kurtosis es el cuarto recurso para describir una Distribución de Frecuencias (las tres anteriores son: los promedios, la dispersión o variabilidad y la asimetría), usándose para mostrar el grado de concentración (curva con gran apuntamiento de los datos o dispersos o descentralizados (curva achatada). (Sote, Armando (2005. Pag.128)).

Al igual que la Asimetría, la Kurtosis posee diferentes tipos según como los datos que se repiten se encuentran ubicados en la tendencia central o la frecuencia con la que dichos valores se repiten, estos son: mesocurtica, platicurticas y Leptacurtica.

En el Blog Estadístico (2010) lo define de la siguiente manera:
La palabra MESOCURTICA proviene del griego MESO= mitad y la palabra LECTOCURTICA el gramema lecto de origen griego= esbelto y por su parte la palabra PLATICURTICA se compone de platos, también palabra de origen griego cuyo significado es ancho o pleno.

En una mesocurtosis observamos que las frecuencias pueden ser simétricas, es decir que hay datos que se repiten con mayor frecuencia pero que los datos extremos su disminución es gradual y equitativa. No así cuando observamos una curva platicurticas es indicativo de que la frecuencia entre todos los datos es muy similar. (Parra.5)

Lo dicho anteriormente lo podemos observar en la gráfica que se presenta a continuación. De esta manera podemos observar mejor el comportamiento de los distintos valores dentro de la estadística.



Estadistica. IIParte Representación de Datos

II REPRESENTACIÓN Y ORGANIZACIÓN DE DATOS

Teniendo especificados los conceptos esenciales (ya mencionados) a la hora de un estudio estadístico, cabe resaltar que partiendo de ellos y aplicando los métodos adecuados la información allí obtenida se platea de manera resumida y para que esto suceda se utilizan las llamadas Tablas de Distribución de Frecuencias (frecuencia absoluta, frecuencia relativa, frecuencia porcentual…) que bien podría ser para datos agrupados o no, así como los diversos gráficos estadísticos los cuales ayudan a que los resultados puedan interpretarse y sean fácilmente entendibles.

Frecuencias. Tipos de Frecuencias.



Frecuencia simple (fi): número de veces que se repite un dato en una distribución o en un conjunto de observaciones.

Frecuencia acumulada (Fi): representa la suma de cada una de las frecuencias simples.

Frecuencia relativa (ni): es el resultado de dividir cada frecuencia absoluta entre el número el total de datos observados. Al final de la suma este dará 1.
Si se trabaja con datos agrupados su denominación es diferente puesto que se trabajaría con intervalos. Se expresa así:
• Frecuencia absoluta del intervalo.
• Frecuencia relativa del intervalo.
• Frecuencia acumulada del intervalo.

Cuando se habla de datos no agrupados se hace alusión a los datos que se encuentran colocados uno a uno, sin agrupar y por lo general se empieza por el más pequeño.

Veamos en el cuadro los conceptos definidos:
Tabla con un grupo de edades
9 20 23 22
32 30 24 25
18 20 33 24
18 20 34 22
24 22 18 19
EDADES FRECUENCIA SIMPLE FRECUENCIA ACUMULADA FRECUENCIA RELATIVA
18 3 3 0.12
19 3 6 0.12
20 4 10 0.16
22 5 15 0.2
23 5 20 0.2
24 5 25 0.2
TOTAL 1


TABLA DE FRECUENCIAS DE LAS EDADES

Las Tablas de Distribución de Frecuencias o las conocidas también como Distribución de Frecuencia, se utilizan para presentar datos observados en los estudios que se realizan, “estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase” (Ávila, Héctor, (2006. Parra. 3). Según Ávila Héctor (2006) utilizar este sistema de ordenación ayudará a facilitar “la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de investigación” (parra.3)

Estas Tablas se clasifican en simple y de entrada doble:

• Tablas de Clasificación Simple:


“Es una tabla que se construye con base en los siguientes datos: clase o variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia” (Ávila, Héctor, (2006. Parra. 4)


• Tablas de Clasificación de Doble Entrada


Llamadas también Tablas de Contingencia son tablas de “datos referentes a dos variables, formada, en las cabeceras de las filas, por las categorías o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o número de elementos que reúnen a la vez las dos categorías o valores de las dos variables que se cruzan en cada casilla”. (Edelmira (2009. Parra.1))


A partir de las Tablas de Distribución se puede utilizar el otro sistema de ordenamiento como son los Gráficos Estadísticos, estos ayudan a facilitar “la lectura e interpretación de las variables medidas”. (Ávila, Héctor (2006. Parra. 12)


• Diagrama de Barras Simples y Compuestas



También llamadas Diagrama o Gráfico de barras “es una representación gráfica de una tabla de frecuencias o frecuencias relativas” (el eje de las Y o mejor conocido como el de las ordenadas) “y las diversas clases de datos son asignados sobre el otro de los ejes” (en el eje de las X, el de las abscisas). (Cristensen (1990. pág.35)

“Dispositivo para presentar los datos que han sido resumidos en una distribución de frecuencias, distribución de frecuencias relativas o frecuencias porcentuales…”

Ambas conceptualizaciones nos hablan sobre lo qué es un gráfico de barras, sin embargo la 1era definición señala detalles importantes de donde ubicar los datos al momento de la construcción de una gráfica, por el contrario la 2da definición se ajusta más a los que se señalaba en la parte anterior con respecto a que las gráficas son esenciales para presentar los datos de manera resumida.

Asimismo las gráficas de barras pueden ser simples o compuestas de la diferencia entre ellas se encuentra en que la última incluye en el mismo diagrama dos o más variables que en el caso de la simple (la primera).


• Diagrama de Sectores Circulares:



En relación al Gráfico Circular, diagrama de sectores o de pastel según dependiendo el nombre que el autor le dé, se trata en esencia de lo mismo, un círculo dividido en sectores y cada uno de ellos representa las frecuencias bien sea absolutas o relativas.
“Consiste en dividir un círculo en tantos sectores como valores de la variable. La amplitud de cada sector debe ser proporcional a la frecuencia del valor correspondiente” (Enciclopedia Libre Wikipedia (2010. Parra. 4))

• Histograma:


“Es una representación gráfica de una tabla de frecuencias, este muestra datos cuantitativos. Los intervalos de clases, que pueden ser o no pueden ser iguales, están marcados sobre el eje horizontal. Las frecuencias relativos son marcados sobre el eje vertical”.

Según Gutiérrez (1998) “El histograma “... es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión”” (Ávila, Héctor (2006. Parra.13)).


• En base a esto, del histograma se origina el Polígono de Frecuencia porque “es una forma geométrica obtenida de segmentos de recta que une los puntos medios de intervalo de clase adyacentes en un histograma”


• OJIVA PORCENTUAL
Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.

Estos son algunos de los gráficos más utilizados, existen muchos más que también se pueden emplear. Como pudimos apreciar gracias a Howard B. que el uso de un gráfico va a depender de se trabaja con datos cuantitativos o cualitativos, esto es importante destacarlo ya que es unos de los pocos autores que hacen la aclaración.



Por otra parte al momento de hacer una investigación o si se quiere un estudio detallado no solo la estadística nos proporciona el uso de las tablas y gráficos, pues también los datos los podemos encontrar en formas o expresiones numéricas. En este caso se puede hablar de medidas de posición central o mejor conocida como medidas de tendencia central como lo menciona Giménez “…porque indican hacia que posición tienen tendencia los datos a agruparse” (p.405).

Estadística. IParte Conceptos Básicos

I CONCEPTOS BÁSICOS DE ESTADÍSTICA

La estadística

Es considerada por algunos autores como “una rama de la matemática que se ocupa de la recolección, clasificación e interpretación de datos” (Enciclopedia Barda Educativa, 2009, p629). Y para otros es una ciencia “que se puede considerar como la aplicación del método científico en el análisis de datos numéricos con el fin de tomar decisiones racionales” (Anderson, Sweeney, y Williams, 1982. p7) o “una ciencia que estudia la interpretación de datos numéricos” (Garzo, y García, 1988. p5), sin embargo hay quienes prefieren no encasillarla como una rama o ciencia y la definen como un arte o un método “conjunto de métodos (metodología) que trata de la recolección, presentación y agrupación de los datos, así como del análisis, interpretación, proyección e inferencia de ellos”.(Sote, 2005, p.13)

Aunque existen diferencias en la manera como se puede definir la estadística, todos los autores coinciden en que “consiste en reunir, recolectar e interpretar datos”. Este aspecto en común se da precisamente porque la estadística tiene esa finalidad, es decir que se utiliza con ese propósito.

La estadística es fundamental para la investigación, para el análisis de datos, con el fin de obtener resultados que sirvan como información para determinadas situaciones. Estos métodos estadísticos no se limitan, ya que los mismos pueden ser aplicados a cualquier campo que se desee estudiar. A pesar que la estadística ésta íntimamente relacionada con la matemática también tiene su utilidad para el ámbito social. Y en base a los estudios que se quieran realizar se debe hacer una diferenciación entre los tipos de estadísticas.

La estadística tiene su clasificación:

Estadística

Descriptiva Inferencial.



La Estadística Descriptiva “es una gran parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central” (Enciclopedia Libre Wikipedia (2010. Parr.1)). Berenson y Leving (1982) la definen “como los métodos que implican la recolección, presentación y caracterización de un conjunto de datos a fin de descubrir en la forma apropiada las diversas características de ese conjunto de datos” (p10). Y la Estadística Inferencial “es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa” (Katherine, (2008. Parr.1)) y nuevamente Berenson, y Leving (1982) puntualizan que son los “métodos que posibilitan la estimación de una característica de una población o la toma de decisiones concerniente a una población, tan solo con base en los resultados de un muestreo” (p10).
En resumen se puede decir que la descriptiva como su palabra lo indica se ocupa de la descripción de un conjunto de observaciones y la inferencial va más allá porque hace generalizaciones a partir de una muestra.
Asimismo como existe la clasificación de la estadística, también se hallan diferentes Escalas de Mediciones que son una sucesión de medidas que permiten establecer datos en orden jerárquico. Estas pueden ser clasificadas de acuerdo a una degradación de las características de las variables como: La ordinal, la nominal, de intervalo y de razón. La Enciclopedia Libre Wikipedia las define de la siguiente manera:

 Medida Ordinal: El nivel ordinal describe las variables a lo largo de un continuo sobre el que se pueden ordenar los valores. En este caso las variables no sólo se asignan a grupos sino que además pueden establecerse relaciones de mayor que, menor que o igual que, entre los elementos. En este caso las variables no sólo se asignan a grupos sino que además pueden establecerse relaciones de mayor que, menor que o igual que, entre los elementos. Las variables de este tipo además de nombrar se considera el asignar un orden a los datos. Esto implica que un número de mayor cantidad tiene un más alto grado de atributo medido en comparación con un número menor, pero las diferencias entre rangos pueden no ser iguales. En esta clasificación, los números asignados a los objetos representan el orden o rango de las entidades medidas.
 Medida Nominal (también categórica o discreta): El nivel nominal de medición, de la palabra latina nomún (nombre) describe variables de naturaleza categórica que difieren en calidad más que en cantidad (Salkind, 1998: 113). Ante las observaciones que se realizan de la realidad, es posible asignar cada una de ellas exclusivamente a una categoría o grupo. Cada grupo o categoría se denomina con un nombre o número de forma arbitraria, es decir, que se etiqueta en función de los deseos o conveniencia del investigador. Este nivel de medición es exclusivamente cualitativo y sus variables son por lo tanto cualitativas. En este tipo de medidas, se asignan nombres o etiquetas a los objetos. Esta escala comprende variables categóricas que se identifican por atributos o cualidades. Las variables de este tipo nombran e identifican distintas categorías sin seguir un orden. El concepto nominal sugiere su uso que es etiquetar o nombrar. El uso de un número es para identificar. Un número no tiene mayor valor que otro.
 Medida de Intervalo o Intervalar (Continua) El nivel de intervalo procede del latín interval lun (espacio entre dos paredes). Este nivel integra las variables que pueden establecer intervalos iguales entre sus valores. Las variables del nivel de intervalos permiten determinar la diferencia entre puntos a lo largo del mismo continuo. Las operaciones posibles son todas las de escalas anteriores, más la suma y la resta.

En este tipo de medida, los números asignados a los objetos tienen todas las características de las medidas ordinales, y además las diferencias entre medidas representan intervalos equivalentes. Esto es, las diferencias entre una par arbitrario de medidas puede compararse de manera significativa. Estas variables nombran, ordenan y presentan igualdad de magnitud.
• Medida de Razón o Racional (Continua) El nivel de razón, cuya denominación procede del latín ratio (cálculo), integra aquellas variables con intervalos iguales pueden situar un cero absoluto. Estas variables nombran orden, presentan intervalos iguales y el cero significa ausencia de la característica. El cero absoluto supone identificar una posición de ausencia total del rasgo o fenómeno. (2010. Parr9)

Para manejar con total precisión las escalas de medidas es importante tener presente que: “los datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos o numéricos… Los datos cuantitativos emplean la escala de medición de intervalo o de razón. Una variable cualitativa es la que tiene datos cualitativos y una variable cuantitativa contiene datos cuantitativos”. (Berenson y Leving, 1982, p.7).

Como se puede observar las variables estadísticas pueden ser continuas o discretas. En palabras de Sote (2005) las discretas “se asocia con que solo puede tomar valores enteros o con todo aquello que se pueda contar…, pero nunca podrán tomar valores fraccionarios.” Y las continuas “son las que pueden tomar valores enteros como fraccionarios… Se asocia precisamente con todo aquello que se pueda medir más que contar” (p.18).

Sumando a todo lo anterior es necesario hablar sobre otros conceptos básicos indispensables para la realización de cualquier estudio o para la comprensión del tema en general: estos son Universo, población, muestra, unidad estadística, dato, parámetro, y muestreo.

Población o Universo:
se define “como todo conjunto o grupo de individuos, cosas u objetos con ciertos atributos comunes” (Sote, 2005, p.17), y Quintero citando a Pardo, y Díaz (2002), proponen la siguiente definición: “Una población (o universo) es un conjunto de elementos (sujetos, objetos, entidades abstractas, etc.) que poseen una o más características específicas en común.”(Quintero, Héctor (S.F. Parr5))
Cabe destacar que para Sote, la población equivale al Universo, o en otras palabras nos habla de ambos bajo una misma conceptualización, cuando otros los definen por separado. El Universo “es el conjunto de sujetos o elementos que tienen una característica común, observable y susceptible de ser medida. Población es conjunto de todas las mediciones u observaciones hechas sobre una o varias de las características de los elementos del universo”. (Quintero, Héctor (S.F. Parra.6).
Sí se toman en cuenta los 2 conceptos (población y universo) se puede apreciar que son muy parecidos y la población pasa a hacer esencial ya que de ella se extraen las observaciones hacer estudiadas.

En el caso de la Muestra, no ocurren tantas discrepancias en su conceptualización, ya que tanto Sweeney, Anderson y Williams (2005) como otros autores Garzo y García (1988) coinciden en definirla como “el sub- conjunto de la población” (p.10), porque la muestra es seleccionada o extraída de la población, pasa hacer una parte de ella.

Además existen otros términos que son incluidos como conceptos básicos en el área de estadística y que se mencionaran a continuación:

Unidad Estadística “Se llama unidad estadística o individuo a cada uno de los elementos que componen la población estadística. El individuo es un ente observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto”. (Conceptos Básicos de Estadística (S.F. Parr.2))

Dato Estadístico (VARIABLES): Los datos son agrupaciones de cualquier número de observaciones relacionadas.

Para que se considere un dato estadístico debe tener 2 características:

• Que sean comparables entre sí.
• Que tengan alguna relación. (Carlos Pérez (2008. Parra.18))

Parámetro este término puede tener mucho significados pero en la rama de la estadística se trata de una “función definida sobre valores numéricos de una población, como la media aritmética, una proporción o su desviación típica.” (Enciclopedia Libre Wikipedia (2010. Parr.2)).

Muestreo según Castro Gabriela (2006) en su monografía Muestreo Estadístico plasma que “es un procedimiento por el que se ingresan los valores verdaderos de una población a través de la experiencia obtenida con una muestra”. (Parr.2)
Este procedimiento arroja resultados que se pueden utilizar para concluir un determinado estudio X de población, al igual las técnicas selectivas que se requieren para dicho estudio de acuerdo a lo que se va a evaluar. También permite una reducción considerable de los costos materiales del estudio, una mayor rapidez en la obtención de la información y el logro de resultados con máxima calidad. (Castro, Gabriela (2006. Parra.3)).

Entre Las Técnicas de Selección de Muestreo Estadístico tenemos:

Muestreo Aleatorio Simple: Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple.

Muestreo Sistemático: Es la elección de una muestra a partir de los elementos de una lista según un orden determinado, o recorriendo la lista a partir de un número aleatorio determinado.

Muestreo Estratificado: Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra.

Muestreo por Conglomerados: Cuando la población se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Estadística. Introducción

INTRODUCCIÓN

La estadística ha estado presente desde hace siglos atrás con las antiguas civilizaciones, su uso ha sido necesario en primeras instancias para resolver casos de la vida diaria por llamarlo de alguna manera, luego seria empleada con fines a mayor escala como trabajos investigativos o estudios, y ha adquirido relevancia, ya que por medio de ella se puede procesar una extensa información, lo cual se puede llevar a cabo de forma más sencilla sin pasar a ser algo tedioso.

Tanto así es su importancia que ha dejado de ser solo una parte de las matemáticas y se ha convertido en una ciencia empleada en diferentes campos, pues han tomado sus métodos para aplicarlos a sus aéreas independientemente de la que sea, como por ejemplo: la psicología, la medicina, la contaduría, administración, entre otras.

La significación de la estadística es posibles gracias a que los métodos que la acompañan son reconocidos por su gran confiabilidad y validez, son totalmente apropiados para manejar información.
Es por ello, que el siguiente trabajo monográfico planteara los diversos conceptos básicos de la estadística (población, muestra, dato, muestreo y sus tipos, entre otros…), los tipos de estadística: la descriptiva e inferecial, haciendo énfasis en la primera con sus diferentes medidas (posición central, posición no central, variabilidad, y forma), así como los medios que utiliza para representar e interpretar datos (tablas de frecuencia y gráficos estadísticos), por último, al análisis de correlación y regresión lineal simple, y su aplicación para cualquier trabajo investigativo o de estudio.

Además, teniendo en cuenta que nos encontramos en una época en donde lo tecnológico tiene gran influencia en la vida diaria de cada persona, la estadística también ha hecho uso de lo computacional, para hacer mucho más sencillo el trabajo de procesar tanta información, donde podemos hacer uso de distintos sistemas (ejemplo el Windows), junto con los programas que ofrece, entre ellos: Microsoft Word, Power Point, Excel, entre otros,.., realizando diversos trabajos estadísticos, ya que nos facilita cálculos, así como la construcción de tablas y gráficos, necesarios en la estadística. También tenemos a nuestro alcance el internet que nos permite encontrar información desde cualquier parte del mundo. Por ello, esta monografía presentará estos temas informáticos, que en su análisis, permitirá llegar a la conclusión de la importancia de la estadística e informática cuando van de la mano a la hora de realizar un trabajo de investigación, sin importar la dificultad del mismo.