martes, 15 de abril de 2008

INVESTIGACIÓN (6) “La medición como proceso”

V “La medición como proceso”[1]

“Si el lector cuenta entre sus conocidos a algún eminente hombre de ciencia, acostumbrado a la más minuciosa precisión cuantitativa en los experimentos y a la más abstrusa habilidad en las deducciones de los mismos sométalo a una pequeña prueba, que muy probablemente dará como resultado instructivo. Consúltele sobre los partidos políticos, teología, impuestos, corredores de rentas, pretensiones de los trabajadores y de otros temas de índole parecida, y es casi seguro que al poco tiempo habrá provocado una explosión y le oirá expresar opiniones nunca comprobadas con un dogmatismo que jamás desplegaría respecto a los resultados bien cimentados de sus experiencias de laboratorio...”

Bertrand Russel

5.1. El proceso de medición

Aún sin saberlo, es probable que usted dedique mucho tiempo a juzgar las cosas que suceden a su alrededor. En muchos casos, tales juicios son informales (“Realmente me gustó la forma como Eduardo presentó su propuesta”), pero a veces son tan formales como es posible (“45% de logro obtuvo el alumno en la asignatura de diseño de investigación”).

En ambos ejemplos, se está emitiendo un juicio acerca de un resultado específico. De eso se trata el proceso de medición, y no debemos subestimar su importancia para el proceso de investigación. Toda nuestra labor y empeño para tratar de contestar ésta o aquella pregunta interesante de nada sirven si aquello que nos interesa no puede determinarse, medirse, calibrarse, evaluarse, clasificarse, ordenarse, calificarse, graduarse, acomodarse, estimarse, puntuarse, encuestarse, etc.

La definición clásica de medición fue sugerida hace mas de 45 años por el psicólogo experimental S. S. Stevens (1951) como la “asignación de numerales a objetos o sucesos siguiendo ciertas reglas”. Sin menoscabo del respeto que nos merece el profesor Stevens, esta definición puede ampliarse para decir que la medición es la asignación de valores a resultados. Los números (como 5505 y $22.118.95) son valores, pero también lo son resultados como color del pelo (rojo o negro) y clase social (baja o alta). De hecho, cualquier variable por definición puede adoptar mas de un valor y puede medirse. Son estos valores lo que nos interesa examinar como parte del proceso de medición.

En este capítulo[2] presentaremos algunos de los conceptos importantes del proceso de medición, incluidos los niveles de medición, un sistema de clasificación que ayuda a determinar que se está midiendo y las dos cualidades primarias que debe tener cualquier herramienta de evaluación: confiabilidad y validez.

5.2. Niveles de medición

Debemos a Stevens no solo la definición de medición en la que se basa gran parte del contenido de este capítulo, sino también un método para clasificar los diferentes resultados en lo que él llamó niveles de medición. Un nivel de medición es la escala que representa una jerarquía de precisión dentro de la cual una variable podría evaluarse. Por ejemplo, tomemos la variable estatura, que puede definirse de varias maneras, cada una de las cuales corresponde a un nivel específico de medición.

Una forma de medir la estatura consiste sencillamente en colocar a las personas en categorías como A y B, sin hacer referencia a su tamaño real en centímetros, metros o pies. Aquí, el nivel de medición es nominal porque asignamos las personas a grupos con base en la categoría a la que pertenecen.

Una segunda estrategia sería colocar a las personas en grupos rotulados a lo largo de alguna dimensión, como Alto y Bajo (“esto” o “aquello”). En este caso también estamos colocando a las personas en grupos, pero al menos hay alguna distinción mas allá de un simple rótulo categórico. En otras palabras, los rótulos “alto” y “bajo” tienen algún significado en el contexto en el que se usan, mientras que categoría A y categoría B sólo nos dice que los grupos son diferentes, sin que se conozca la naturaleza de tal diferencia. Aquí, el nivel de medición es ordinal.

Una tercera estrategia es aquella en la que vemos que Bernardita es 13 centímetros más alta que Raúl. No sólo sabemos que hay una diferencia entre ambas mediciones, sino que también conocemos la magnitud exacta de esa diferencia (13 cm). Aquí, el nivel de medición es de intervalo.

Por último, la estatura de una persona podría medirse en una escala que tiene un cero verdadero. Aunque en las ciencias sociales y de la conducta puede haber problemas con este nivel de medición de razón, tiene sus ventajas, como veremos más adelante.

Hay que tener presente dos cosas en lo tocante a esta idea de nivel de medición. Primero, las cualidades de un nivel de medición (como el nominal) son características también del siguiente nivel hacia arriba. En otras palabras, las variables medidas en el nivel ordinal también contienen las cualidades de las variables medidas en el nivel nominal. Así mismo, las variables medidas en el nivel de intervalo contienen las cualidades de las variables medidas en los niveles tanto nominal como ordinal. Por ejemplo, si sabemos que Eduardo tiene 1.75 cm de estatura y Paola tiene 1.63 cm de estatura (nivel de medición de intervalo o posiblemente de razón), sabemos también que Luis es más alto que Laura (nivel ordinal de medición), y que Eduardo y Paola tienen diferente estatura (nivel nominal de medición). Segundo, en cualquier proyecto de investigación una variable de resultado pertenece a uno de estos cuatro niveles de medición. La clave, desde luego, es cómo se mide dicha variable.

5.2.1. Nominal

El nivel nominal de medición, de la palabra latina nomin (nombre), describe variables de naturaleza categórica y que difieren en calidad más que en cantidad. Es decir, la variable que estamos examinando caracteriza nuestras observaciones de modo tal que cada una puede colocarse en una (y sólo una) categoría. Además, podemos rotular esas categorías a nuestro antojo. Todos los niveles nominales de medición son exclusivamente cualitativos.

Por ejemplo, el color del pelo (rubio, rojo, negro), la raza (negra o afro americana, blanca, etc.) y filiación política (socialista, socialdemócrata, comunista, democratacristiano, etc.) son ejemplos de variables de nivel nominal. Incluso es posible usar números en la medición de variables de nivel nominal, aunque los números no tienen un valor intrínseco. Por ejemplo, asignar los hombres al grupo 1 y las mujeres al grupo 2, o asignar a todos los hombres delanteros de la Selección Chilena en la década de los ‘90. Son ejemplos de medición nominal o categórica. Los números no tienen un significado intrínseco; son sólo rótulos que identifican las cosas que se miden.

Debemos recordar ciertas cosas acerca del nivel nominal de medición. Primero, las categorías son mutuamente excluyentes; no se puede estar en más de una categoría a la vez. No es posible ser al mismo tiempo judío y católico. Segunda, si se usan números como valores, no tienen significado alguno mas allá de la simple clasificación. No es posible saber si alguien de la categoría 3 es menos o más inteligente que alguien de la categoría 2.

5.2.2. Ordinal

El nivel ordinal de medición describe variables que se pueden ordenar a lo largo de algún tipo de continuo. Las variables no sólo se pueden colocar en categorías, sino que también se pueden ordenar. Por esta razón, el nivel ordinal de medición a menudo se refiere a las variables como ordenamientos de diferentes resultados, aunque sólo se manejen dos categorías, como grande y pequeño.

Por ejemplo, ya vimos que alto y bajo son dos posibles resultados cuando se mide la estatura. Estos valores son ordinales porque reflejan un ordenamiento dentro del continuo de estatura. A partir de alto y bajo no es posible saber qué tan alto o qué tan bajo, porque los niveles ordinales de medición no incluyen esta información. Lo que sí podemos decir es que si Bernardita es más baja que Susana y Susana es más baja que Soledad, entonces Bernardita es más baja que Soledad. Así, pues, aunque no es posible hacer juicios absolutos (como que tanto más alta es Soledad de Bernardita) sí pueden hacerse juicios relativos. Sólo podemos, por ejemplo, una vez terminado el Magíster su generación será evaluada con mención honorífica, así como con mención honorífica con distinción y con máxima mención honorífica con distinción para distinguir aún más entre quienes se gradúan con mención honorífica. Esta escala es de naturaleza ordinal.

5.2.3. Intervalo

El nivel de intervalo de medición, del latín interval lum (que significa espacios entre paredes) describe variables que tienen intervalos iguales entre ellas (como tenían las paredes construidas por los soldados romanos). Las variables de nivel de intervalo nos permiten determinar la diferencia entre puntos a lo largo del mismo tipo de continuo que mencionamos en la descripción de la información ordinal.

Por ejemplo, la diferencia entre 30 y 40 grados es la misma que la diferencia entre 70 y 80 grados: 10 grados. Así mismo, si usted escribió correctamente 20 palabras en una prueba de ortografía y alguien más escribió correctamente 10 palabras, podemos decir con exactitud que usted escribió correctamente 10 palabras más que la otra persona. Dicho de otro modo, un grado es un grado de un grado y una palabra correctamente escrita es una palabra correctamente escrita con una palabra correctamente escrita.

Para contrastar los niveles de medición de intervalo y ordinal, consideremos la variable edad donde el ordenamiento por edad es como sigue:

Más viejo..............................................................................Más joven

Guillermo Enriqueta José Raquel Julia

Sabemos que Guillermo es más viejo que Enriqueta, pero no que tanto. En realidad, él podría ser dos años mayor que Enriqueta, y Enriqueta podría ser 20 años mayor que José. Las variables de nivel de intervalo nos dan esa diferencia, cosa que no pueden hacer las escalas ordinales. En términos simples, con una escala de intervalo podemos conocer la diferencia entre puntos a lo largo de un continuo (y la diferencia exacta entre las edades de Guillermo, Enriqueta, José, Raquel y Julia), no así con una escala ordinal.

Aunque una escala en el nivel de intervalo es más precisa y comunica más información que una escala en el nivel nominal u ordinal, debemos tener cuidado al interpretar los valores reales a lo largo de la escala. Treinta grados podrían ser 10 más que 20, y -5 podría estar a la misma distancia de +5, pero esos 10 podrían implicar una gran diferencia. Los 10 grados entre 30 y 20 podrían hacer el agua un poco más fría, pero en los 10 grados entre –5 y +5 el agua se congela. Asimismo, el hecho de que usted escribió correctamente 10 palabras más que un compañero no significa que usted tiene una ortografía dos veces mejor (2 por 10), ya que no tenemos idea de la dificultad de las palabras ni de si esas 20 palabras muestrean el universo entero de todas las palabras de la prueba de ortografía. Lo que es más importante, si usted no escribe correctamente ninguna palabra, ¿significa eso que usted no sabe escribir? Claro que no, lo que si significa es que en esta prueba a usted no le fue muy bien.

5.2.4. Razón

El nivel de razón de medición, del latín ratio (que significa cálculo), describe variables que tienen intervalos iguales entre ellas, pero que también tienen un cero absoluto. En los términos más sencillos, esto significa que existen variables para las cuales un posible valor es cero o es posible la ausencia de la variable o rasgo.

Por ejemplo, un estudio sobre técnicas para mejorar la conducta prosocial en el salón de clases (Solomon 1998) rindió la conducta prosocial con puntuaciones de comportamiento. Las cinco categorías de conducta que se rindieron durante un periodo de cinco años fueron actividades cooperativas, disciplina del desarrollo, actividades que promueven el entendimiento social, actividades que destacan los valores prosociales y actividades de ayuda. Los investigadores dedicaron mucho tiempo a desarrollar sistemas que pudieran medir de manera consistente (o “confiable”, que es el término que usaremos después) estos tipos de conductas. Las escalas que ellos diseñaron son por su naturaleza de razón, ya que tienen un verdadero punto cero. Por ejemplo, no es difícil imaginar que un niño no exhiba ninguna conducta prosocial.

Éste es en verdad un nivel de medición interesante, y es por mucho el más preciso. Poder decir que Emilio (quien tiene ocho años de edad) es dos veces más viejo que Paola (quien tiene cuatro años) es una forma muy precisa, aunque no la más precisa, de hablar de las diferencias entre personas en lo tocante a una variable. Imagine poder decir que la rapidez de respuesta cuando se utiliza el método A es la mitad de la que se observa cuando se usa el método B, en lugar de decir únicamente que la tasa de respuesta es más rápida (lo cual es ordinal) o 10 segundos mas rápida es intervalo).

Ésta es la escala más interesante de las cuatro, por varias razones más. Primero, el valor cero no es arbitrario. Por ejemplo, podríamos pensar que, puesto que la temperatura (en grados Celsius) tiene un punto cero es una variable de razón. Aunque es verdad que esa escala de temperatura tiene un punto cero, se trata de un cero arbitrario. Una temperatura de cero grados Celsius no representa la ausencia de choques entre las moléculas que crean calor (la definición no técnica de temperatura). En cambio, la escala de temperatura Kelvin si tiene un cero absoluto teórico (cerca de -273 grados Celsius), que es el punto donde no hay actividad molecular, y es un verdadero cero o una ausencia de lo que se está midiendo (actividad molecular).

5.3. ¿Por qué tanta complicación, si estoy haciendo un Magíster?

Seamos prácticos. En un estudio de investigación queremos medir la variable de interés de la forma más precisa posible. No sirve de mucho decir que el grupo A es más débil que el grupo B si podemos decir que los miembros del grupo A realizaron en promedio 100 “abdominales” mientras que los del grupo B sólo hicieron 75 en promedio. Tener más información incrementa la potencia y la utilidad general de las conclusiones. Imagine que usted es encargado social de una comuna y ha ganado un proyecto en la cual tiene que gastar $50.000.000 millones de pesos en un programa de intervención social. ¿No le gustaría saber cuáles programas son mejores y por cuál margen, en vez de sólo averiguar que uno es “mejor” que otro?

No obstante, a veces hay que limitarse a la cantidad de información disponible. Por ejemplo, ¿qué tal si usted quiere estudiar la relación entre la edad de los adultos y su fuerza corporal, y lo único que sabe es a qué grupo pertenece un adulto (fuerte o débil) pero no su puntaje en una prueba de fuerza? Tales limitaciones son una de las restricciones al efectuar investigaciones en el mundo real; hay que conformarse con lo que se tiene. Esas limitaciones también dan lugar a uno de los aspectos creativos de la investigación: definir las variables de tal manera que la definición maximice la utilidad de la información.

¿En qué nivel de medición encontramos la mayor parte de las variables en las ciencias sociales y del comportamiento? Probablemente en el nominal u ordinal, mientras que la generalidad de los puntajes obtenidos en pruebas (como las de aprovechamiento) producen, datos en el nivel de intervalo.

La mayoría de los investigadores se toma ciertas libertades al tratar variables ordinales (como los puntajes en una prueba de personalidad) como variables en el nivel de intervalo, y no hay problema en tanto recuerden que los intervalos podrían ser (y probablemente sean) desiguales. Al interpretar sus datos, esos investigadores deben tener en cuenta tal desigualdad.

También, hay que tener presente que la topología de niveles de medición de Stevens no se ha escapado de ser cuestionada. En los 50 años que tiene de existencia esta metodología, han surgido varias dudas acerca de la utilidad del sistema y de qué tan bien refleja las variables del mundo real que los investigadores deben evaluar. Primordialmente, dichas críticas se concentran en el hecho de que una variable podría no ajustarse fácilmente a ninguna de las cuatro clasificaciones, sin por ello dejar de ser valiosa. Por ejemplo, si bien la inteligencia no es una variable en el nivel de razón (nadie carece totalmente de ella), ciertamente está mas allá del nivel de intervalo en sus aplicaciones de la vida real. En otras palabras, la taxonomía podría ser demasiado estricta para aplicarse a datos del mundo real. Al igual que tantas otras cosas en el mundo de la investigación, esta taxonomía de cuatro niveles es un punto de partida con el que se puede trabajar, pero que no tiene que obedecerse como una ley.

5.4. Confiabilidad y validez y su importancia

Podemos tener el automóvil más llamativo del camino, pero si las ruedas están ovaladas podemos olvidamos de un buen manejo y un paseo cómodo. Los neumáticos, el punto donde “el caucho toca el camino”, son cruciales.

Del mismo modo, podemos tener la pregunta de investigación más imaginativa del mundo, con una hipótesis bien definida y claramente expresada, pero si las herramientas que usamos para medir el comportamiento que deseamos estudiar son defectuosas, podemos olvidamos del éxito. La confiabilidad (o coherencia) y la validez (las cualidades de hace lo que debe hacer) de un instrumento de medición son indispensables, ya que la ausencia de estas cualidades podría explicar por qué actuamos incorrectamente al aceptar o rechazar nuestra hipótesis de investigación.

Por ejemplo, usted podría estar estudiando el efecto de cierto programa educativo sobre las habilidades verbales de niños con un leve retraso mental, y está usando una prueba cuya confiabilidad y validez es dudosa.

Supongamos por el momento que el tratamiento en verdad funciona bien y podría ser la razón de que haya diferencias significativas en las habilidades verbales de los grupos que reciben el tratamiento, en comparación con las de los grupos que no lo reciben. Puesto que el instrumento que usted está usando para evaluar las habilidades verbales no es siempre lo suficientemente sensible como para captar los cambios en la conducta verbal de los niños, puede olvidarse de detectar diferencias en sus resultados por más bueno que sea el tratamiento (y por sólida que sea su hipótesis). Con eso en mente, recuerde: las herramientas de evaluación deben ser confiables y válidas; de lo contrario, la hipótesis de investigación que usted rechace podría ser correcta.

La confiabilidad y la validez son nuestra primera línea de defensa contra conclusiones espurias e incorrectas. Si el instrumento falla, todo lo demás falla también. Pasemos ahora a un tratamiento más detallado de la confiabilidad y la validez, qué son y cómo funcionan.

5.4.1. Una definición conceptual de la confiabilidad

¿Qué tan fiable, consistente, estable, fiel, predecible, fidedigna será nuestra investigación? Algo que es confiable funcionará en el futuro como lo ha hecho en el pasado. Una prueba o medida de conducta confiable puede medir la misma cosa más de una vez y producirá el mismo resultado.

Podemos usar cualquiera de los sinónimos anteriores de la palabra confiable como definición inicial, pero es importante entender primero la teoría en que se basa la confiabilidad. Por tanto, comencemos por el principio.

Cuando hablamos de confiabilidad, hablamos de puntajes. El desempeño de cualquier persona respecto a cualquier variable consiste en un puntaje formado por tres componentes claramente definidos, como se muestra en el siguiente cuadro

Primero está el puntaje observado. Éste es el puntaje que usted registraría (u observaría) realmente en una situación de investigación. Es el número de palabras correctas en una prueba, el número de sílabas memorizadas, el tiempo que toma leer cuatro párrafos de prosa o la velocidad de respuesta. Puede ser la variable dependiente de su estudio o cualquier otra variable que se esté midiendo. Cualquier puntaje observado consiste en los otros dos componentes: puntaje verdadero y puntaje de error.

El segundo componente, el puntaje verdadero, es un reflejo perfecto del valor verdadero de esa variable, descontando cualesquier otras influencias internas o externas. En otras palabras, una persona dada tiene un solo “puntaje verdadero” respecto a una variable en particular. Si se realizan mediciones repetidas podrían obtenerse varios valores para una variable, pero el valor verdadero sólo es uno. Sin embargo, nunca podemos determinar cuál es ese valor. ¿Por qué? En primer lugar, porque la mayor parte de las variables, como memoria, inteligencia, agresión e incluso estatura (somos más altos en la mañana, ya que nuestra columna vertebral se comprime a medida que avanza el día) no se pueden medir directamente; y en segundo lugar, porque el proceso de medición es imperfecto.

No obstante, el proceso de medición siempre supone que existe un puntaje verdadero. Por ejemplo, respecto a una variable como la inteligencia, cada persona tiene un puntaje verdadero que refleja exactamente (y teóricamente) el nivel de inteligencia de esa persona. Supongamos que por alguna magia el verdadero puntaje de inteligencia de usted es 110. Si entonces se le administra a usted una prueba de inteligencia y obtiene un puntaje observado de 113 la prueba habrá sobreestimado su cociente de inteligencia. Sin embargo, dado que el puntaje verdadero es un concepto teórico, no hay forma de saber eso.

El tercer componente corresponde al puntaje de error, que abarca todas esas razones por las que el puntaje verdadero y el puntaje observado difieren. Por ejemplo, Miguel podría escribir 85 de 100 palabras correctamente en una prueba de ortografía ¿Significa esto que Miguel “tiene una ortografía 85% correcta” todos los días y en todos los exámenes de ortografía? Pues no. Lo que significa es que este día, en este examen, Miguel escribió correctamente 85 palabras de 100. Quizá mañana con un conjunto diferente de 100 palabras, Miguel escribiría 87 o 90, o incluso 100, correctamente. Tal vez, si pudiera medirse su verdadera capacidad para escribir correctamente, sería 88. ¿Por qué las diferencias entre su puntaje verdadero (88) y su puntaje observado (85)? En una palabra, error. Tal vez no estudió tanto como debía haberlo hecho, o quizá no se sentía bien. Quizá no pudo escuchar claramente al profesor dictar cada palabra. Tal vez las instrucciones respecto a donde debía escribir las palabras en el formato de examen no estaban claras. Tal vez se le rompió el lápiz, Quizás, quizás, quizás... Todas son fuentes de error.

Todas estas posibles explicaciones ponen de manifiesto que los puntajes repetidos para casi cualquier variable regularmente son diferentes entre sí, ya que el rasgo que se está evaluando cambia de momento a momento, y el instrumento que se está usando puede cambiar (aunque sea muy poco) y no es perfecto (ningún instrumento de medición lo es).

5.4.2. ¿Qué constituye los puntajes de error?

Vayamos más allá del concepto general de puntajes de error. En la figura que colocamos más arriba, vemos también que los puntajes de error se componen de dos elementos que ayudan a explicar por qué difieren los puntajes verdaderos y los observados.

El primer componente de los puntajes de error se denomina error de método. Esta es la diferencia entre el puntaje verdadero y el observado que se debe a la situación de prueba. Por ejemplo, digamos que usted está a punto de presentar un examen de epistemología. Usted ha estudiado bien, ha repasado y siente confianza en que conoce el material. Sin embargo, cuando usted se sienta para presentar el examen, ve que hay preguntas que no esperaba de igualar (cual elemento de la columna A va con que elemento de la columna B) y preguntas tipo crucigrama, ¡y usted estaba esperando preguntas de desarrollo! Además, las instrucciones acerca de cómo igualar elementos no están claras. En lugar de alcanzar su pleno potencial en el examen (o lograr un puntaje lo más cercano posible a su puntaje verdadero), usted obtiene un puntaje menor. El error entre los dos puntajes se debe al método de medición, las instrucciones poco claras, y demás.

El segundo componente es el error de rasgo. Aquí, la razón de la diferencia entre los puntajes verdadero y observado es característica de la persona que está presentando la prueba. Por ejemplo, si usted olvidó sus anteojos y no puede leer los problemas, o si no estudia, o si simplemente no entiende el material, la fuente de la diferencia entre el puntaje verdadero (lo que usted realmente sabe si ninguna otra cosa interviene) y lo que usted obtiene en la prueba (el puntaje observado) es resultado de errores de rasgo.

Fuente del Error

Ejemplo

Características generales del individuo

Nivel de habilidad

Nivel para presentar pruebas

Habilidad para entender instrucciones.

Características duraderas del individuo

Nivel de habilidad en relación con el rasgo que se evalúa

Habilidades para presentar pruebas específicas para el tipo de reactivos de la prueba

Factores individuales temporales

Salud

Fatiga

Motivación

Tensión emocional

Ambiente de prueba

Factores que afectan la administración de la prueba

Condiciones de la prueba

Interacción entre el examinador y el sujeto de la prueba

Predisposición en la calificación

Otros factores

Suerte

5.4.3. Cómo aumentar la confiabilidad

La confiabilidad esta íntimamente relacionada con el puntaje verdadero y el de error. Dado un puntaje verdadero fijo, la confiabilidad disminuye a medida que el componente de error aumenta. Por tanto, si queremos un instrumento confiable, tenemos que reducir el error. No podemos afectar el puntaje verdadero directamente, así que minimizamos las fuentes de error externas (tener instrucciones claras y estandarizadas, traer más de un lápiz en caso de que se rompa la punta de uno, asegurarse de que el recinto sea cómodo) que podamos controlar. También hay que esforzarse por minimizar los errores de rasgo (hacer que los sujetos duerman bien la noche anterior, posponer la evaluación si alguien no se siente bien, etc).

He aquí un resumen de algunas formas importantes de aumentar la confiabilidad.

1. Aumentar el número de reactivos u observaciones. Cuanto mayor sea la muestra del universo de conductas que usted está investigando, más probable será que la muestra sea representativa y confiable.

2. Elimine los reactivos poco claros. Un reactivo poco claro no es confiable porque algunas personas responderán a él de una manera y otros responderán de forma distinta.

3. Estandarice las condiciones en las que se administra la prueba. Si los alumnos de cuarto año tienen que presentar una prueba de aprovechamiento mientras hay maquinaria ruidosa en operación justo afuera de la ventana del salón, o la calefacción está demasiado alta, ciertamente podemos esperar que tales condiciones afecten el desempeño, y por ende la confiabilidad.

4. Modere la facilidad y dificultad de las pruebas. Cualquier prueba que es demasiado difícil o demasiado fácil no refleja con exactitud el desempeño del sujeto.

5. Minimice los efectos de sucesos externos. Si ocurre un suceso de especial importancia sean las vacaciones de primavera, la firma de un tratado de paz, el retiro de un miembro académico importante, etc., cerca del momento en que se administra la prueba, posponga la evaluación. Es demasiado probable que tales sucesos acaparen la atención a expensas de un desempeño real.

6. Estandarice las instrucciones. Guillermo en una clase y Cecilia en otra deberán estar leyendo instrucciones idénticas y deberán presentar la prueba en exactamente las mismas condiciones.

7. Mantenga procedimientos de calificación coherentes. Quienquiera que haya calificado una pila de exámenes tipo ensayo le dirá que leer el primero es muy distinto de leer el último. Procure ser consistente al calificar, aunque esto implique usar una hoja que tenga puntajes en una columna y criterios en la otra.

5.4.4. Validez

Recuerda la consistencia, la estabilidad y la predecibilidad (entre otros sinónimos de confiabilidad) ¿Qué tal veracidad, exactitud, autenticidad, y solidez como sinónimos de validez? Estos términos describen de que se trata la validez: de que la prueba o el instrumento que se está usando realmente mida lo que usted necesita medir.

Cuando usted ve el término validez, una o más de tres cosas le deberán venir a la mente acerca de la definición y el uso del término. Tenga presente que la validez de un instrumento a menudo se define dentro del contexto de cómo se está usando la prueba. He aquí los tres aspectos de la validez.

Primero, la validez se refiere a los resultados de una prueba y no a la prueba misma. Por tanto, si tenemos la prueba ABC de habilidades sociales, los resultados de la prueba podrían ser válidos para medir la interacción social en adolescentes. Hablamos de validez sólo a la luz de los resultados de una prueba.

Segundo, al igual que la confiabilidad (aunque la validez no se cuantifica tan fácilmente), la validez nunca es una cuestión de “todo o nada”. Los resultados de una prueba no son simplemente “válidos” o “no válidos”. Esta progresión ocurre en grados desde escasa validez hasta mucha validez.

Tercero, la validez de los resultados de una prueba se debe interpretar dentro del contexto en el que ocurre la prueba. Si no fuera así, cualquier cosa podría considerarse válida con sólo darle otro nombre. Por ejemplo, he aquí un reactivo de una prueba de 100 reactivos. 2+ 2= ¿? Casi todos nosotros reconoceríamos que esta pregunta tiene validez como medida de la habilidad para sumar. Pero si utilizamos la pregunta en un experimento que se concentra en las habilidades para multiplicar, el reactivo pierde su validez de inmediato.

La forma de examinar la validez de una prueba, entonces, es determinar si la prueba se concentra en los resultados de un estudio y si los resultados se entienden dentro del contexto del propósito de la investigación.

Al igual que con la confiabilidad, hay varios tipos de validez que usted encontrará en sus actividades de investigación. Desde luego, usted tendrá que considerar la validez cuando llegue el momento de seleccionar los instrumentos que piense usar para medir la variable dependiente que le interesa.

5.4.4.1. Validez de contenido

El tipo de validez más directo y sencillo es la validez de contenido. La validez de contenido es el grado en que una prueba representa el universo de reactivos del cual se extrajo y es útil sobre todo para evaluar la utilidad de las pruebas de aprovechamiento o pruebas que muestrean un área de conocimientos en particular. ¿Por qué sólo una muestra? Porque es imposible crear todos los reactivos que podrían escribirse. ¡Nada más piense en la magnitud de la tarea! Imagine escribir todos los posibles reactivos de opción múltiple sobre el material cubierto (no necesariamente contenido) en un libro de introducción a la sicología. Debe haber un millón de reactivos que concebiblemente podrían escribirse sobre los dominios de personalidad, percepción, o nada más de la personalidad. Pero regresemos al mundo real. Digamos que usted se está ocupando de los cursos de historia de segundo de secundaria y la unidad trata el descubrimiento de América y los viajes y peripecias de varios grandes exploradores europeos. Si usted fuera a crear un examen de historia con preguntas acerca de este periodo y quisiera establecer la validez de las preguntas, podría mostrárselas a un experto en la historia de América y preguntarle: ¿Estas preguntas representan con justicia el universo o dominio de la historia de América en la Era de los Descubrimientos?” No es necesario que usted utilice palabras como “universo” y “dominio”, pero si necesita saber si ha cubierto lo que necesita cubrir.

Si sus preguntas son apropiadas, ya tiene la muestra de preguntas que prueba los conocimientos de un estudiante de segundo de secundaria en el área de la historia de América en la era de los descubrimientos. Felicitaciones. Eso es validez de contenido.

5.4.4.2. Validez de criterio

La validez de criterio se ocupa de qué tan bien una prueba estima el desempeño actual (llamada validez concurrente) así como de que tan bien predice el desempeño futuro (llamarla validez predictiva). La validez de criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es de suponer que el criterio con el que se está comparando la prueba tiene algún valor intrínseco como medida de algún rasgo o característica. La validez de criterio generalmente sirve para evaluar la validez de las pruebas de capacidad (habilidades actuales) y de aptitud (habilidades potenciales). En ambos tipos de validez de criterio, se usa un criterio como medida de confirmación. Por ejemplo, digamos que usted desea investigar el uso de las calificaciones en los estudios de postgrado para predecir cuáles integrantes del programa de Magíster en Ciencias Sociales van a tener mucho éxito como investigadores. Para ello, usted localiza una muestra de “buenos” investigadores (tomando como criterio para definir “bueno” el número de artículos publicados en revistas científicas en los últimos 20 años). Luego, usted averiguaría qué calificaciones obtuvieron esos investigadores cuando eran estudiantes de postgrado, y qué tan buen desempeño académico (o calificaciones) predijo su pertenencia al grupo de investigadores “buenos”. Quizás sería conveniente también localizar un grupo de investigadores “malos” (aquellos que no han publicado nada) y determinar qué tan bien las calificaciones en sus estudios de postgrado predijeron su pertenencia al grupo de los “malos”. En este caso, las calificaciones en los estudios de postgrado tendrían validez predictiva (del éxito como investigador) si dicha calificaciones (la prueba) tienen una buena correlación con el desempeño como investigador (el criterio).

Esto suena bonito y muy claro, pero ¿quién va a juzgar el valor del criterio? ¿El número de artículos publicados hace que un investigador sea eficaz? ¿Qué tal si 90% de los artículos publicados por un investigador aparecen en una revista que tiene una tasa de rechazo de 50%, y otro investigador ha publicado un sólo artículo pero en una revista cuya tasa de rechazo es de 90%? ¿Y qué tal si ese único artículo que alguien publica tiene un efecto significativo y profundo sobre la dirección que seguirán las investigaciones futuras en esa disciplina? Al igual que con cualquier otro bloque de construcción del proceso de investigación, el criterio que se usa para establecer la validez se debe escoger con alguna justificación. En este caso, habría que proporcionar una justificación para suponer que el número de artículos publicados, sin importar su calidad, es lo importante (si eso es lo que usted cree).

Otro problema que se presenta con la validez tanto concurrente como predictiva es la duda grave sobre qué miden realmente las pruebas. Suponemos que si las pruebas tienen correlación con el criterio, la relación debe ser significativa. Entonces, si los resultados de la prueba de inteligencia que usted administra se correlacionan con el color de los ojos o el tamaño de la nariz o las irregularidades en la forma del cráneo, ¿significa eso que usted tiene una prueba con validez de criterio? La respuesta es afirmativa, si cree que el color de los ojos y el tamaño de la nariz y el estudio de la forma del cráneo son buenos indicadores de la inteligencia. La historia de la ciencia está plagada de tales supuestos y conclusiones bien intencionados (y algunos no tan bien intencionados) pero equivocados.

5.4 4.3. Validez de constructo

La validez de constructo es la más importante. Es un tipo de validez que requiere mucho tiempo y a veces esfuerzo para establecerse, pero también es la más deseable. ¿Por qué? Primero demos una definición: la validez de constructo es el grado en que los resultados de una prueba se relacionan con constructos psicológicos subyacentes. Esta validez vincula los componentes prácticos del puntaje de una prueba con alguna teoría o modelo de conducta subyacente.

Por ejemplo, la validez de constructo nos permite decir que una prueba que se dice es una “prueba de inteligencia” realmente mide la inteligencia. ¿Cómo se establece esta validez? Digamos que, con base en una teoría de la inteligencia (que se ha sometido a cierto escrutinio y pruebas y que ha resistido la prueba del tiempo), la inteligencia consiste en conductas tales como memoria, comprensión, pensamiento lógico, habilidades espaciales y razonamiento. Es decir, la inteligencia es un constructo representado por un grupo de variables relacionadas entre sí. Si usted desarrolla un conjunto de reactivos de prueba con base en ese constructo, y puede demostrar que los reactivos reflejan el contenido del constructo, habrá comenzado a establecer la validez de constructo de la prueba.

El primer paso para crear una prueba que tiene validez de constructo, entonces, es establecer la validez (en los términos científicos más generales) del constructo subyacente en el que la prueba se basará. Este paso podría requerir estudios y más estudios, y años de investigación. Una vez demostrada la validez del constructo, puede iniciarse el diseño de una prueba que refleje el constructo.

Hay varias formas de establecer la validez de constructo:

Primero, al igual que con la validez de criterio, podemos buscar la correlación entre la prueba que estamos creando y alguna prueba establecida que ya se ha demostrado que posee validez de constructo. Este problema es un poco como el de “la gallina y el huevo”, ya que siempre existe la duda de cómo se estableció la validez de constructo de la primera prueba.

Segundo, podemos demostrar que los puntajes de la prueba que se está diseñando diferirán entre grupos de personas que poseen y carecen de ciertos rasgos o características. Por ejemplo, si usted está desarrollando una prueba de la agresión, tal vez desease los resultados para personas que se sabe son agresivas con los de personas que se sabe no lo son.

Tercero, podemos analizar los requisitos de tarea de los reactivos y ver si son congruentes con la teoría en que se basó la creación de la prueba. Si su teoría de la inteligencia dice que la memoria es importante, es de esperar que algunos reactivos de la prueba ejerciten esa capacidad.

5.4.5. Relación entre confiabilidad y validez

La relación entre confiabilidad y validez es directa y fácil de entender, y se expresa más o menos así: una prueba puede ser confiable, pero no válida, pero una prueba no puede ser válida si no es confiable. En otras palabras, la confiabilidad es una condición necesaria, pero no suficiente, para la validez.

Por ejemplo, regresemos a esa prueba de 100 reactivos. He aquí el mismo ejemplo que usamos antes: 2+2=? Ahora bien, podemos garantizar que éste es un reactivo confiable, porque es probable que produzca una evaluación consistente de los conocimientos de suma elemental de la persona que presenta la prueba. Pero, ¿qué tal si decimos que la prueba es de ortografía? Es obvio que el reactivo no prueba la ortografía y ciertamente no es válido como tal. Esta falta de validez, empero, no afecta su confiabilidad. Éste podría parecer un ejemplo extremo, pero se cumple en toda el área de evaluación de la conducta. Una prueba puede ser confiable y evaluar de manera consistente algún resultado, pero a menos que ese resultado se relacione directamente con el aspecto que se está estudiando, la prueba no será válida.

5.5.Sugerencias bibliográficas

1. Ander-Egg, Ezequiel: Técnicas de investigación Social.(op. cit.); Métodos y Técnicas de Investigación Social. Cómo organizar el trabajo de investigación Ed. Lumen: Buenos Aires, 2000; Introducción a las Técnicas de Investigación Social Ed. Humanitas: Buenos Aires, 1977.

2. Babbie, Earl R. : Métodos de Investigación por encuesta Fondo de Cultura Económica: México, 1988.

3. Briones Guillermo: Evaluación de Programas Sociales. Teoría y Metodología de la investigación evaluativa. PIIE: Santiago, 1985.

4. Campbell, Donald T. y Stanley, Julian C.: Diseños experimentales y cuasi experimentales de investigación social. Ed. Amorrortu: Buenos Aires, 1978

5. Hernández Roberto, Fernández Carlos,Baptista Pilar. Metodología de la investigación. Ed. Mc Graw-Hill Interamericana. México 1998. (2ª Edición)

6. Galtung, Johan: Teoría y Métodos de Investigación Social Ed. Universitaria: Buenos Aires, 1966

7. Goode, William J. y Hatt, Paul K. : Métodos de Investigación Social (op. cit)

8. Hardick, C. : Investigación en Ciencias Sociales Ed. Interamericana: México D.F. , 1977

9. Holzmann, Guillermo: Manual Básico de Investigación...(op. cit.)

10. Pick, Susan y López, Ana Luisa: Cómo Investigar en Ciencias Sociales Ed. Trillas: México D.F. , 1995.


[1] Este capítulo es producto de los autores citados en el anterior capítulo. Además de Taro Yamane. “Estadística”. (Tercera Edición). México D.F., Editorial Harla, 1974.

[2] Le sugerimos que profundice el nivel estadístico de cada concepto que trabajaremos en este capítulo.

No hay comentarios: