MEMCALIG

MEMCALIG Modelización estadística de matrices de confusión en la calidad de la IG
Proyecto Nacional | Ministerio de Economía y Competitividad (2016 - 2018)

Presentación | Objetivos | Metodología | Resultados | Publicaciones | Equipo | Colaboradores | Fotos | Enlaces | Agradecimientos | Contactar
.
Presentación
Objetivos
Metodología
Resultados
Publicaciones
Equipo humano
Colaboradores
Fotografías
Enlaces
Agradecimientos
Contactar
 
English

 

inicio / metodología

Metodología

 

De manera general, la metodología a seguir para alcanzar los objetivos propuestos es la usual en la mayoría de los campos de investigación. Para cada objetivo, se revisa la literatura existente para avanzar en las propuestas desde el punto de vista teórico y su viabilidad en la aplicación en la práctica.

En el caso de la investigación en bondad de ajuste y en homogeneidad de poblaciones, la metodología de trabajo es muy similar. En el caso de TBA, el objetivo es contrastar la hipótesis nula de que un conjunto de datos experimentales proceden de un modelo teórico asociado a una familia de funciones de distribución indexada por un parámetro (fijo o estimado de manera consistente a partir de la muestra). Los estadísticos de contraste se basan en una medida de discrepancia entre las frecuencias observadas y las esperadas si el modelo bajo la hipótesis nula es cierto. Para decidir cuándo aceptar o rechazar una hipótesis nula, necesitamos conocer la distribución nula del estadístico de contraste, o en caso de que el cálculo directo no sea posible, una aproximación de la misma. Es en este punto, donde es previsible que se produzcan ciertos inconvenientes, puesto que en caso de datos dispersos, varios autores han mostrado el mal comportamiento asintótico de test estadísticos conocidos en esta línea, como el estadístico chi-cuadrado (X2) o el estadístico de razón de verosimilitud (G2) (Agresti, 1997).

Puesto que el estadístico de contraste es la base para definir una función test para determinar si los datos dan soporte al modelo teórico, se estudian las propiedades teóricas de dicha función test, es decir, se estudia la consistencia del mismo y se realiza un estudio de la potencia del test frente a hipótesis alternativas fijas y/o contiguas.

El caso de TH, el estadístico de contraste se basará en una versión muestral de una función de discrepancia entre las poblaciones, obtenida sustituyendo el parámetro desconocido por un estimador consistente a partir de la muestra combinada de ambas poblaciones (supuesto que la hipótesis nula de igualdad es cierta). Nuevamente, las dificultades pueden aparecer a la hora de determinar la distribución nula del estadístico de contraste, y en consecuencia, en el estudio de las propiedades de la función test que se defina a partir del mismo.

Para solventar los problemas que pueden surgir en el estudio de las propiedades teóricas de los estadísticos de contraste que se definan tanto para los TBA como para los TH, en MEMCALIG ensayaremos las siguientes estrategias: Estrategia 1: Colapsar celdas para reducir el grado de dispersión de los datos experimentales. Esta opción es utilizada en el tratamiento de datos espaciales cuando las clases observadas tienen un cierto grado de proximidad semántica o cuando la distribución espacial de las categorías aconsejen su unión (p.e. Radavicius, 2012). Estrategia 2: Compensar las categorías con valores observados muy pequeños con un peso que regule las probabilidades teóricas, como son las técnicas de pseudoceros (Feinberg y Holland 1970, Zhuang y col. 1995). Estrategia 3: Utilizar información parcial contenida en la tabla de contingencia, por ejemplo, en la línea de Reiser (2008), en los trabajos de Joe (2010) o en la propuesta de Hara (2007). Estrategia 4: Aproximar la distribución nula de los estadísticos de contraste (tanto para TBA como para TH) mediante técnicas de remuestreo. En esta línea se encuentran los trabajos sobre TBA de Von Davier (1997) o Tollenaar (2003).

El proyecto se organiza en 6 fases y éstas en diversas actividades, cada una de ellas con un responsable. La Figura 1 muestra de manera esquemática la relación entre las fases 1-6. A continuación describimos de una manera detallada cada una de las fases y actividades. Todos los documentos que se generen en cada actividad se subirán al repositorio interno del equipo de investigación que se creará a tal efecto.