lunes, 31 de enero de 2011

Estadística IV Parte. Analisis de Correlación Lineal Y Regresión Simple

IV- ANALISIS DE CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE

Análisis de Correlación y Regresión Lineal Simple

En los procedimientos tanto de correlación como de regresión a pesar que se calculan de manera diferente o que responden a diferentes formulas tienen un punto en común y es que en ambos se emplean con la finalidad de conocer la relación que se puede dar entre dos o más variables. Por ello aquí se debe tomar en cuenta y tener muy claro los diferentes tipos de variables.



Las variables como su nombre lo indican van hacer lo que va a variar, lo que se va a someter a estudio.

Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. En la página electrónica Enciclopedia libre 2010 cita a Hayman (1974.Pág, 69) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente.

Variables independientes: aquélla que es manipulada por el investigador en un experimento con el objeto de estudiar cómo incide sobre la expresión de la variable dependiente. A la variable independiente también se la conoce como variable explicativa, y mientras que a la variable dependiente se la conoce como variable explicada.
Aunque para otros autores como Sote (2005) existen:
De acuerdo al número de variables será:




CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN



Coeficiente de Correlación


Después de describir las diferentes variables, hablaremos del Coeficiente de Correlación, puesto que el coeficiente va hacer un valor que indicara la relación existente entre dos variables.

Para Sote (2005), el coeficiente de correlación (r) se define como un “indicador estadístico que nos permite conocer el grado de relación, asociación o dependencia que pueda existir entre dos o más variables”. (p. 360)

Y agrega lo siguiente:

Clasificación de la correlación: de acuerdo al número de variables consideradas en el estudio.

Correlación simple: cuando estudia la posible relación entre dos variables.

Correlación múltiple: cuando analiza la asociación o dependencia de más de dos variables.

Correlación rectilínea o lineal: cuando los datos presenten una tendencia de línea recta.

Correlación curvilínea: la variable presenta una tendencia distinta a la línea recta. (p.233)


Bajo otro punto de vista, veamos cómo se clasifica la correlación.

TIPOS DE CORRELACIÓN

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
1. Correlación simple: se estudia la dependencia únicamente entre dos variables
2. Correlación múltiple: se estudia la dependencia entre más de 2 variables
3. Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
1. Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.
2. Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente. (Aula Fácil (S/F. Parra. 1))

Esta clasificación es muy parecida a la que hace Sote, sin embargo en esta última se incluye la correlación parcial. Aquí es importante mencionar que el autor (Sote) nos habla de clasificación y además hace alusión a los tipos de correlación, haciendo una diferenciación entre lo que es la clasificación y los tipos, lo cual no lo hace el anterior, pues al hablar de tipos de correlación menciona a la clasificación.


Tipos de correlación: correlación positiva, correlación negativa e incorrelación.


Los tipos de correlación que pueden presentarse son:

Correlación positiva o directamente proporcional r = (+).
Nos indica que al modificarse en promedio una variable en un sentido, la otra lo hace en la misma dirección….

Correlación negativa o inversamente proporcional r = (-).
Nos muestra que al cambiar una variable en una determinada dirección (en promedio), la otra lo hace en sentido contrario u opuesto….

Incorrelación r = 0
Cuando la obtención de dicho indicador “r” sea exactamente igual a cero, se dice que no existe alguna relación, asociación o dependencia entre las variables estudiadas, siendo por tanto ellas, variables correlacionadas o faltes de alguna dependencia lineal. (Sote (2005. Pág. 239-240)).


Ahora bien, entre los coeficientes de correlación tenemos:

El coeficiente de correlación de Pearson y el de Spearman.
Sustentando esto:

Coeficientes de correlación:

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son:
• Coeficiente de correlación de Spearman
• Correlación canónica.

Coeficiente de correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente

donde σXY es la covarianza de (X,Y) y σX y σY las desviaciones típicas de las distribuciones marginales. (Enciclopedia Libre Wikipedia (2010). Parra.1)).

Coeficiente de correlación de Spearman

En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia


La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante. (Enciclopedia Libre Wikipedia (2010. Parra. 1))
De esta forma podemos observar cómo se orienta la aplicación de cada uno de estos viendo que el primero toma en cuenta dos variables aleatorias cuantitativas y el segundo entre dos variables aleatorias continuas.

Regresión Lineal

Otro procedimiento estadístico es el análisis de regresión lineal al igual que en el caso de la correlación lineal, este trabaja con variables “en la terminología de la regresión, la variable que se va a predecir se llama variable dependiente. Las o las variables que se usan para predecir el valor de la variable dependiente se llaman variables independientes”. (Sweeney y otros (2005. Pág. 539)).

Y además nos expone puntualmente que “donde intervienen una variable independiente y una variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se llama regresión simple”. (Sweeney y otros (2005. Pág. 539)).

Según la Enciclopedia Libre Wikipedia (2010) expone lo siguiente:
En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

donde β0 es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal. (Parra.1)

Al igual que el coeficiente de correlación, la regresión lineal, posee o se clasifica en diferentes modelos según los parámetros que se tenga, entre los cuales podemos mencionar:

Regresión lineal simple: Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:
6
donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).
Análisis
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:[5]

Derivando respecto a y e igualando a cero, se obtiene:[5]


Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:[4]


La interpretación del parámetro β1 es que un incremento en Xi de una unidad, Yi incrementará en β1.
Regresión lineal múltiple La regresión lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:[6]

donde es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).
Rectas de regresión Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:[7]
• La recta de regresión de Y sobre X:

• La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución. (Enciclopedia Libre Wikipedia (2010. Parra.9))

Notando lo anterior se puede concluir con las palabras de Garzo (1988) explicando que “en la estadística descriptiva tratábamos de regresar la posible relación lineal entre las observaciones muéstrales de dos características, mientras que ahora tratamos de expresar la posible relación lineal entre dos características en toda la población. (Pág.161) De esta manera, explicando que se hace en la Regresión Lineal.

No hay comentarios:

Publicar un comentario