Cómo utilizar el factor de inflación de varianza de muestras de gran tamaño

September 6

Cómo utilizar el factor de inflación de varianza de muestras de gran tamaño


El factor de inflación de la varianza es una medida de la colinealidad en regresión múltiple. La regresión múltiple es una técnica estadística para examinar la relación entre una variable dependiente cuantitativa y más de una variable independiente. Colinealidad se produce cuando las variables independientes están fuertemente relacionados entre sí. Por ejemplo, si estábamos interesados ​​en la relación entre las diversas dimensiones corporales (tales como la longitud de las piernas, brazos longitud, anchura de los hombros y así sucesivamente) y el peso corporal, es probable que no habría colinealidad entre las variables independientes. Tamaño de la muestra no es relevante para el cálculo de los factores de inflación de la varianza. Hay una VIF para cada variable independiente.

Instrucciones

1 Calcular los factores de inflación de la varianza para la regresión. En SAS, puede hacerlo con la opción de VIF en el modelo de declaración en PROC REG. En R, puede hacerlo con la función de Vif en el paquete de coche, que está disponible en CRAN. Si el paquete estadísticas no calcula VIF, se puede calcula como 1 / (1 - R (k) ^ 2), donde R (k) ^ 2 es el ^ 2 valor R de la regresión de la variable independiente k-ésimo en el otras variables independientes.

2 Evaluar el grado de colinealidad. El VIF para k variable es una medida de cuánto se infla la varianza del coeficiente de esta variable en la regresión inicial. IVFs más de 4 son posiblemente problemática; IVFs más de 10 son más definitivamente problemática.

3 Encontrar la fuente de la colinealidad, si es que existe. Una forma de hacer esto es mirar las correlaciones de la variable problemática con las otras variables independientes y ver cuál es la más alta.

4 Decidir qué hacer con la colinealidad. Las opciones incluyen la eliminación de las variables, utilizando regresión parcial por mínimos cuadrados o el uso de regresión contraída. La elección dependerá de las circunstancias. Si una variable no es clave para su investigación, la extracción pueda ser bueno. Si las variables no tienen ningún significado sustantivo fuerte, mínimos cuadrados parciales entonces es una buena opción. Si todas las variables son importantes, a continuación, cresta de regresión es una buena opción.