|
En forma muy especial, se cometen errores al presentar para su comparación medias o incidencias de respuestas que grupos distintos de entrevistados dan a una misma pregunta que les ha sido planteada en idénticos términos.
Sin el afán de entrar a una discusión detallada en términos de fórmulas complicadas, es posible establecer algunos conceptos que aclaran lo que está detrás de una comparación estadística.
El método adecuado para comparar las medias de una variable numérica entre dos o más grupos de sujetos, identificados a su vez por los valores de una variable nominal u ordinal, es el Análisis de Varianza.
Implica el cálculo del valor F de Fisher que se define como el resultado de dividir la varianza dentro de las medias de las muestras sobre la varianza entre las medias de la muestra. El valor F, o más bien, su probabilidad de ocurrencia, nos informan si las diferencias entre dos medias son o no son significativas y, por lo tanto, si las medias de los conjuntos de elementos son o no son iguales estadísticamente hablando.
Conceptualmente, es más fácil entenderlo con un ejemplo sencillo. Digamos que las medias de Horas de Conexión a internet en dos grupos de familias de dos diferentes NSE son de 8 y 10 horas a la semana, respectivamente. Esos dos números podrían ser distintos o iguales, estadísticamente hablando.
¿Por qué? Principalmente por la varianza de respuestas dentro de cada grupo. Veamos las siguientes posibilidades hipotéticas.
Caso 1. Si la media del primer grupo de familias viene exclusivamente de 8 Horas de Conexión de cada una de ellas y la media del segundo grupo de familias viene exclusivamente de 10 Horas de Conexión de cada una de ellas, hay una alta probabilidad de que las medias sean distintas entre sí. Las familias del primer grupo se conectan 8 horas, todos y cada uno de ellos, mientras que los segundos 10, también en forma homogénea.
La ausencia de variabilidad dentro de cada grupo de familias lleva a pensar que la media de Horas de Conexión es una medida que representa muy bien (homogéneamente) al grupo. Adicionalmente, al ser diferentes las medias de uno y otro grupo, se piensa que las 8 horas del primer grupo son diferentes de las 10 del segundo.
Caso 2. Si la media igual a 8 del primer grupo viene de respuestas que varían entre, digamos, 3 y 16 horas; y la media igual a 10 viene de un rango de 2 a 18 horas, lo más probable es que estadísticamente ambos números, 8 y 10, deban considerarse iguales.
Es decir, la variabilidad dentro de cada grupo de familias lleva a pensar que sus promedios no sean una medida suficientemente representativa de las familias que lo integran. Así, el número 8 Horas de Conexión promedio puede ser en realidad tan bajo como 3 o tan alto como 16; mientras que el número 10 Horas de Conexión varía prácticamente dentro del mismo rango.
Si los números no representan bien al grupo, una consecuencia es que difícilmente se puede considerar que 8 y 10 Horas de Conexión promedio sean en realidad cifras distintos.
Caso 3. Alternativamente, dos medias aritméticamente idénticas podrían considerarse estadísticamente distintas. En el mismo ejemplo, 8 Horas de Conexión como media en los dos grupos podrían considerarse significativamente distintas si tienen una variabilidad distinta.
Digamos que una de ellas resulta del consumo individual de 7, 8 o 9 horas de cada familia (una distribución muy homogénea de respuestas) y la otra resulta del consumo de entre 2 y 20 refrescos por semana; aunque su media también sea 8, la varianza de respuestas es tan amplia que difícilmente podría decirse que el 8 representa adecuadamente al segundo grupo de familias. Por lo tanto, el primer 8 (homogéneo) es diferente del segundo 8 (heterogéneo).
El valor F se calcula considerando la varianza dentro de cada grupo y la varianza entre los grupos. Lo relevante no es el valor por sí mismo, sino la probabilidad de obtenerlo. De ahí el concepto de significancia estadística.
La probabilidad de obtener un valor de terminado de F en una distribución aleatoria lleva a considerar si dicho valor es lo suficientemente grande como para concluir que no ha sucedido al azar, sino que se deriva de diferencias reales entre los grupos comparados.
Como el valor resultante está también influenciado por las características del procedimiento de muestreo, su probabilidad de ocurrencia se compara con el porcentaje de confiabilidad con el que se determinó el tamaño de la muestra.
Así, para una muestra con Confiabilidad del 95%, un valor de F con relevancia significativa será aquel que ocurra al azar cuando mucho en un 5% de los casos.
Cuando las respuestas a una pregunta no son dadas en términos numéricos, sino en base a respuestas nominales u ordinales, entonces no pueden ni deben calcularse medias, sino que debe manejarse una incidencia de respuesta.
Para evaluar si dos incidencias de respuesta son iguales o diferentes entre dos grupos de entrevistados, se recurre al cálculo del valor de Chi Cuadrada, que es, por definición, la suma de las fracciones que tienen por numerador el cuadrado de las diferencias entre frecuencias observadas y frecuencias esperadas y por denominador la frecuencia esperada.
x2 = E ( Fo - Fe ) 2
Fe
El valor de Chi cuadrada es cero cuando las diferencias entre las frecuencias observadas y esperadas son cero, es decir, concuerdan.
A medida que crece el número y la importancia de las diferencias entre las frecuencias, también irá aumentando el valor de Chi cuadrada, como medida de discrepancia entre unas y otras.
Un valor alto de Chi cuadrada puede ser obtenido al azar (por características relacionadas con el tamaño y la selección de la muestra) o bien, puede ser obtenido porque los dos conjuntos de elementos difieren entre sí. De nuevo, el concepto de relevancia significativa en combinación con el porcentaje Confiabilidad de la Muestra.
Al comparar dos cifras entre si es muy importante considerar que su diferencia aritmética no es semejante a su diferencia estadística, ya que esta última está determinada por la distribución de su varianza.
|