Cómo calcular la imputación

November 14

En estadística, la imputación es la sustitución de algún valor para un punto de datos que falta. Los datos que faltan pueden surgir, por ejemplo, en las encuestas en las que algunas preguntas se quedan sin respuesta. La mayoría de los métodos estadísticos estándar requieren campos de cada registro para ser llenados. Otra razón para la imputación es que, a menos que las celdas vacías se llenan de datos, muchos paquetes estadísticos, por defecto, eliminar el registro (llamado por lista o por casos su eliminación).

instrucciones

Marginal y condicional de valores medios

1 Encontrar el valor medio de la variable independiente que le faltan datos.

2 Insertar este promedio en cada célula vacía en la que no se informó de que la variable independiente.

3 Realizar la eliminación por lista para calcular la imputación condicional.

4 Retroceder todas las variables en la variable de los datos faltantes mediante el uso de software estadístico.

5 Utilizar las relaciones de esa regresión para predecir cuáles deben ser los datos que faltan. Así que si las variables independientes son X1, X2 y X3 y X1 tiene datos faltantes, a continuación, utilizar los valores de X2 y X3 para predecir el valor que falta del X1 para cada registro al que le faltan X1.

La imputación doble

6 Realizar la eliminación por lista.

7 Retroceder todas las variables en la variable de los datos faltantes utilizando el software estadístico.

8 Se calcula la desviación estándar de los residuales de la variable de datos que faltan.

9 Utilizar las relaciones de esa regresión para predecir cuáles deben ser los datos que faltan.

10 Aleatoriamente extraer una serie, la "u" de una distribución normal estándar para cada imputación.
Multiplicar "u" por la desviación estándar de la Etapa 3, y añadir el producto a la imputación para los que la "u" se ha elaborado. Haga esto para cada imputación, con un nuevo "u" para cada uno. Esto añade un elemento aleatorio a las imputaciones, frente a la falsa correlación entre la variable de los datos que faltan y la variable dependiente que imputar creado.

Consejos y advertencias

  • SAS tiene un procedimiento llamado MI que hace múltiples imputation.The método de máxima verosimilitud también ofrece un tratamiento de los datos que faltan, pero el doble imputación tiene todas sus ventajas y no requiere el conocimiento de las funciones de distribución de probabilidad.
  • la eliminación por lista puede dar lugar a resultados sesgados si no presentación de informes se correlaciona con una asignación de valores medios cierta variable value.Marginal es conocida por producir estimaciones sesgadas de varianzas y covarianzas y por lo tanto debe ser avoided.Conditional de valores medios, ya que no contribuye a la aleatoriedad de los errores, conduce a una subestimación de los errores estándar. Esto a su vez conduce a un sobreestimado de las estadísticas de prueba, tales como el F-relación, que no mide la variación tanto como lo sería si los datos faltantes no fueron falta. Por lo tanto, los valores de p terminan subestimado, y la hipótesis nula es rechazada con demasiada facilidad. direcciones de imputación dobles este problema.

Artículos relacionados