(PDF) LIBRO DE PSICOMETRIA | Andrea Zambrano - Academia.edu
UNDÉCIMA EDICIÓN TESTS PSICOLÓGICOS Y EVALUACIÓN LEWIS R. AIKEN Pepperdine University TRADUCCIÓN: María Elena Ortiz Salinas Universidad Nacional Autónoma de México Gabriela Montes de Oca Vega Traductora profesional REVISIÓN TÉCNICA: Rubén W. Varela Domínguez Universidad Nacional Autónoma de México Instituto Mexicano de Evaluación y Consejería Datos de catalogación bibliográfica AIKEN, LEWIS R. Tests psicológicos y evaluación. Undécima edición PEARSON EDUCACIÓN, México, 2003 ISBN: 970-26-0431-1 Área: Universitarios Formato: 18.5 × 23.5 cm Páginas: 544 Authorized translation from the English language edition, entitled Psychological Testing and Assessment, Eleventh Edition, by Lewis R. Aiken, published by Pearson Education Group, Inc., publishing as ALLYN AND BACON, Copyright © 2003. All rights reserved. Traducción autorizada de la edición en idioma inglés, titulada Psychological Testing and Assessment, Eleventh Edition, por Lewis R. Aiken publicada por Pearson Education Group, Inc., publicada como ALLYN AND BACON, Copyright © 2003. Todos los derechos reservados. Esta edición en español es la única autorizada. Edición en español Editor: Leticia Gaona Figueroa e-mail: leticia.gaona@pearsoned.com Supervisor de desarrollo: Diana Karen Montaño González Supervisor de producción: José D. Hernández Garduño Edición en inglés Executive Editor: Carolyn Merrill Editorial Assistant: Kate Edwards Marketing Manager: Wendy Gordon Editorial Production Service: Whitney Acres Editorial Manufacturing Buyer: JoAnne Sweeney Cover Administrator: Linda Knowles UNDÉCIMA EDICIÓN, 2003 D.R. © 2003 por Pearson Educación de México, S.A. de C.V. Atlacomulco 500-5to. piso Industrial Atoto 53519 Naucalpan de Juárez, Edo. de México E-mail: editorial.universidades@pearsoned.com Cámara Nacional de la Industria Editorial Mexicana Reg. Núm. 1031 Prentice Hall es una marca registrada de Pearson Educación de México, S.A. de C.V. Reservados todos los derechos. Ni la totalidad ni parte de esta publicación pueden reproducirse, registrarse o transmitirse, por un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea electrónico, mecánico, fotoquímico, magnético o electroóptico, por fotocopia, grabación o cualquier otro, sin permiso previo por escrito del editor. El préstamo, alquiler o cualquier otra forma de cesión de uso de este ejemplar requerirá también la autorización del editor o de sus representantes. ISBN 970-26-0431-1 Impreso en México. Printed in Mexico. 1 2 3 4 5 6 7 8 9 0 - 06 05 04 03 Cualquier cosa que existe, existe en alguna cantidad. (Thorndike, 1918) Cualquier cosa que existe en cantidad, puede medirse. (McCall, 1939) CONTENIDO Prefacio xiii CAPÍTULO UNO Temas históricos y profesionales 1 PERSPECTIVA HISTÓRICA 1 6 LOS TESTS COMO UNA PROFESIÓN 10 ÉTICA Y NORMAS DE LOS TESTS RESUMEN 15 16 PREGUNTAS Y ACTIVIDADES CAPÍTULO DOS Diseño y elaboración de tests 18 PLANEACIÓN DE UN TEST 18 PREPARACIÓN DE LOS REACTIVOS DEL TEST FORMACIÓN Y REPRODUCCIÓN DE UN TEST PRUEBAS ORALES 32 37 PRUEBAS DE DESEMPEÑO RESUMEN 24 38 40 PREGUNTAS Y ACTIVIDADES 40 CAPÍTULO TRES Administración, aplicación y calificación de los tests APLICACIÓN DE LOS TESTS CALIFICACIÓN DE LOS TESTS RESUMEN 43 43 52 59 PREGUNTAS Y ACTIVIDADES 61 v vi CONTENIDO CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas ANÁLISIS DE REACTIVOS 62 62 ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS IGUALACIÓN DE LAS PRUEBAS 73 81 82 RESUMEN PREGUNTAS Y ACTIVIDADES 83 CAPÍTULO CINCO Confiabilidad y validez 85 CONFIABILIDAD VALIDEZ 85 94 UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL RESUMEN 100 105 PREGUNTAS Y ACTIVIDADES 106 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas 108 FUNDAMENTOS DE LOS TESTS DE APROVECHAMIENTO 108 TIPOS Y SELECCIÓN DE LOS TESTS DE APROVECHAMIENTO ESTANDARIZADOS 120 BATERÍAS DE TESTS DE APROVECHAMIENTO TESTS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS RESUMEN 130 PREGUNTAS Y ACTIVIDADES 132 CAPÍTULO SIETE Tests de inteligencia 135 HISTORIA, DEFINICIONES Y TEORÍAS TESTS INDIVIDUALES DE INTELIGENCIA 135 141 122 116 vii CONTENIDO 154 TESTS DE INTELIGENCIA COLECTIVOS RESUMEN 162 PREGUNTAS Y ACTIVIDADES 163 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales RETARDO MENTAL, SUPERDOTADOS Y CREATIVIDAD 165 165 INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 173 FACTORES BIOLÓGICOS Y HABILIDADES MENTALES RESUMEN 183 188 PREGUNTAS Y ACTIVIDADES 190 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica 192 EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS DISCAPACIDADES DE APRENDIZAJE 198 TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN RESUMEN 192 201 209 PREGUNTAS Y ACTIVIDADES 210 CAPÍTULO DIEZ Evaluación de habilidades especiales 212 CONCEPTOS Y CARACTERÍSTICAS DE LAS HABILIDADES ESPECIALES HABILIDADES SENSORIO-PERCEPTIVAS Y PSICOMOTRICES HABILIDAD MECÁNICA 216 220 HABILIDADES PARA TRABAJOS DE OFICINA Y LAS RELACIONADAS CON LA COMPUTACIÓN 224 HABILIDADES ARTÍSTICAS Y MUSICALES 225 BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 227 212 viii CONTENIDO RESUMEN 236 238 PREGUNTAS Y ACTIVIDADES CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad 239 239 LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO CRÍTICAS Y PROBLEMAS EN LOS TESTS DE HABILIDAD 253 OTROS TEMAS EN LOS TESTS EDUCATIVOS 259 PRUEBAS DE EMPLEO Y SESGO RESUMEN 244 263 264 PREGUNTAS Y ACTIVIDADES CAPÍTULO DOCE Intereses vocacionales 265 FUNDAMENTOS DE LA MEDICIÓN DE LOS INTERESES VALIDEZ DE LOS INVENTARIOS DE INTERESES INVENTARIOS DE INTERESES DE STRONG INVENTARIOS DE INTERESES DE KUDER 265 268 271 276 278 INTERESES Y PERSONALIDAD OTROS INVENTARIOS DE INTERESES CON PROPÓSITOS GENERALES Y ESPECIALES 284 UTILIZACIÓN DE LOS INVENTARIOS DE INTERESES EN LA CONSEJERÍA RESUMEN 289 290 PREGUNTAS Y ACTIVIDADES CAPÍTULO TRECE Actitudes, valores y orientaciones personales MEDICIÓN DE ACTITUDES MEDICIÓN DE VALORES 294 305 294 287 ix CONTENIDO ORIENTACIONES PERSONALES RESUMEN 307 309 PREGUNTAS Y ACTIVIDADES 310 CAPÍTULO CATORCE Evaluación de la personalidad: orígenes, aplicaciones y problemas 313 313 PSEUDOCIENCIAS Y OTROS ANTECEDENTES HISTÓRICOS 315 TEORÍAS DE LA PERSONALIDAD USOS Y ABUSOS DE LA EVALUACIÓN DE LA PERSONALIDAD 322 326 EVALUACIÓN CLÍNICA OTRAS ÁREAS DE APLICACIÓN DE LA EVALUACIÓN DE LA PERSONALIDAD PROBLEMAS Y CONTROVERSIAS EN LA EVALUACIÓN DE LA PERSONALIDAD RESUMEN 339 PREGUNTAS Y ACTIVIDADES 340 CAPÍTULO QUINCE Observaciones y entrevistas 342 342 OBSERVACIONES DATOS BIOGRÁFICOS 348 349 ENTREVISTAS EVALUACIÓN Y ANÁLISIS DEL COMPORTAMIENTO RESUMEN 359 361 PREGUNTAS Y ACTIVIDADES 362 CAPÍTULO DIECISÉIS Listas de verificación y escalas de calificación 364 364 CARACTERÍSTICAS DE LAS LISTAS DE VERIFICACIÓN TIPOS Y EJEMPLOS DE LISTAS DE VERIFICACIÓN 368 328 333 x CONTENIDO 373 ESTRATEGIAS PARA ELABORAR ESCALAS DE CALIFICACIÓN 374 TIPOS DE ESCALAS DE CALIFICACIÓN PROBLEMAS CON LAS CALIFICACIONES 379 ESCALAS DE CALIFICACIÓN ESTANDARIZADAS 382 CLASIFICACIONES Q Y LA PRUEBA REP RESUMEN 381 382 PREGUNTAS Y ACTIVIDADES 383 CAPÍTULO DIECISIETE Inventarios de personalidad 387 VERACIDAD, CONFIABILIDAD Y VALIDEZ 387 INVENTARIOS DE SÍNTOMAS Y DE UN SOLO CONSTRUCTO 389 INVENTARIOS DE CONTENIDO VALIDADO Y PUNTUACIÓN MÚLTIPLE INVENTARIOS SOMETIDOS A ANÁLISIS FACTORIAL 393 396 INVENTARIO MULTIFÁSICO DE PERSONALIDAD DE MINNESOTA OTROS INVENTARIOS DE PERSONALIDAD ADECUADOS AL CRITERIO RESUMEN 409 PREGUNTAS Y ACTIVIDADES 410 CAPÍTULO DIECIOCHO Técnicas proyectivas 412 ELABORACIONES Y ASOCIACIONES DE PALABRAS PRUEBAS DE MANCHAS DE TINTA EL TAT Y VARIACIONES 413 417 420 OTRAS PRUEBAS DE APERCEPCIÓN 422 PROBLEMAS CON LAS TÉCNICAS PROYECTIVAS 423 PERSPECTIVAS PARA LA EVALUACIÓN DE LA PERSONALIDAD RESUMEN 425 PREGUNTAS Y ACTIVIDADES 425 391 424 404 xi CONTENIDO APÉNDICE A: ESTADÍSTICA DESCRIPTIVA 428 428 ESCALAS DE MEDICIÓN DISTRIBUCIONES DE FRECUENCIA MEDIDAS DE TENDENCIA CENTRAL PERCENTILES, DECILES Y CUARTILES MEDIDAS DE VARIABILIDAD 429 433 435 435 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE 437 440 REGRESIÓN MÚLTIPLE Y ANÁLISIS FACTORIAL RESUMEN 445 PREGUNTAS Y ACTIVIDADES 446 APÉNDICE B: ÁREAS BAJO LA CURVA NORMAL 448 APÉNDICE C: DISTRIBUIDORES COMERCIALES DE MATERIAL DE EVALUACIÓN PSICOLÓGICA Y EDUCATIVA 451 APÉNDICE D: SITIOS WEB DE ORGANIZACIONES INTERESADAS EN LA EXAMINACIÓN Y EVALUACIÓN PSICOLÓGICA 457 Glosario 458 Respuestas a las actividades y preguntas cuantitativas Referencias 482 Índice de autores Índice temático Índice de tests 508 517 524 476 PREFACIO Durante muchos años, los tests y la evaluación en psicología han sido objeto de crítica constante. En repetidas ocasiones se ha atacado el uso de los tests estandarizados, especialmente en contextos educativos y laborales. Ha habido numerosas demandas legales y juicios en los tribunales relacionados con las pruebas psicológicas, por lo que algunos estados de la Unión Americana han instaurado leyes sobre el uso y la reglamentación de los tests. Aunque puede ser justo criticar los métodos para evaluar a las personas y sus actividades, es indiscutible la necesidad de dichos métodos para evaluar, diagnosticar y predecir el comportamiento de los individuos en un mundo con una población de más de seis mil millones de personas. A pesar de las críticas provenientes tanto de profesionales de la psicología y la pedagogía como de otros ámbitos, la evaluación psicológica ha continuado expandiéndose y diversificándose. Como testimonio del dinamismo de los tests y la evaluación en psicología, se encuentran instrumentos nuevos, inventarios y escalas, aunados a los avances metodológicos en cuanto a la elaboración, aplicación, calificación e interpretación de instrumentos psicométricos. Son muchos los factores que han contribuido a este desarrollo, incluyendo la expansión de servicios y las oportunidades sociales hacia un segmento mayor de la población, siempre creciente, así como la necesidad de contar con métodos más efectivos para seleccionar, diagnosticar y ubicar a las personas en contextos laborales, educativos y clínicos. El desarrollo de los tests psicológicos durante las últimas décadas se ha facilitado por el progreso en el diseño y la programación computacional de alta velocidad. Desde que las computadoras empezaron a estar disponibles comercialmente a mediados de la década de 1950, se han usado para calificar tests y analizar el desempeño tanto de individuos como de grupos. A partir de entonces las computadoras también se han utilizado para aplicar tests y otros instrumentos de evaluación, así como para interpretar sus resultados. Como consecuencia, los tests y otros dispositivos psicométricos literalmente han reestructurado el campo de la evaluación psicológica, y sin duda continuarán haciéndolo en la medida en que lleguen a estar disponibles tecnologías y procedimientos más complejos. El aumento de la atención del público y de los profesionistas hacia la utilidad y las limitaciones de los tests ha fomentado el deseo de que se incremente el cuidado con que se diseñan y distribuyen tanto los propios tests como otros materiales de evaluación similares. Asimismo, cada vez resulta más obvia y urgente la necesidad de una mejor capacitación entre los usuarios de los tests, y de una mayor conciencia del público y de los profesionales acerca de las consecuencias personales y sociales de las pruebas psicológicas en contextos educativos, clínicos, laborales y empresariales. Los especialistas en psicometría, y otros expertos en tests y en la aplicación de pruebas, se preocupan porque estos instrumentos se diseñen y empleen no sólo prestando atención a sus características técnicas, sino también considerando las necesidades y los derechos de los individuos y de la sociedad en su conjunto. Estos asuntos se abordan en numerosas publicaciones de organizaciones profesionales, tales como la American Psychological Association, la American Educational Research Association, la American Personnel and Guidance Association y el National Council in Measurement on Education. Consecuente con estas preocupaciones y propósitos, el principal objetivo de este libro de texto es, como lo ha sido desde que se publicó la primera edición hace más de 30 años, mejorar el conocimiento, la comprensión y la práctica de las personas que diseñan tests, los aplican, los xiii xiv PREFACIO resuelven, los califican, interpretan los resultados y toman decisiones con base en los datos así obtenidos. Al igual que sus predecesoras, la undécima edición está diseñada sobre todo como un libro de texto para estudiantes universitarios. Es adecuado para cursos de un semestre sobre tests y evaluación en un nivel propedéutico o de principiantes en psicología, pedagogía y áreas afines. También puede ser de utilidad para psicólogos y otros profesionales que diseñan y aplican instrumentos de evaluación, e interpretan y aplican los resultados. Al escribir este libro he intentado abarcar por completo la materia sin llegar a ser exhaustivo, de modo que los instructores que lo adopten descubrirán que no han sido reemplazados por el texto. Éste presenta muchas oportunidades para que el instructor trabaje seleccionando e interpretando, así como reelaborando o ampliando, la información contenida. El Resumen que viene al final de cada capítulo proporciona un panorama y una reseña del material visto en el capítulo, y la sección de Preguntas y Actividades amplía y complementa la información. La estructura básica de la undécima edición de Tests Psicológicos y Evaluación es muy similar a la de las ediciones previas. Los profesores que estén familiarizados con cualquiera de ellas se encontrarán en un territorio conocido que ha cambiado aquí y allá, pero no de manera radical. Algo que los usuarios de ediciones anteriores advertirán de inmediato es que hay más capítulos (18) en esta edición. La estructura de los primeros cinco capítulos es muy similar a la anterior, pero el material del resto del libro se ha redistribuido. Los capítulos 6 a 9 y algunas partes de los capítulos 13 y 14 de la décima edición se han convertido en seis capítulos (6 a 11) en esta nueva edición. El material del capítulo 11 de la décima edición se ha distribuido en tres capítulos (14, 15 y 16) en la actual, y el material que antes se encontraba en el capítulo 12 se ha distribuido ahora en los capítulos 17 y 18. El aumento de capítulos no se debe tanto a que se haya añadido material nuevo, aunque así ocurrió en cierta medida, sino más bien a que se han dividido los anteriores capítulos en otros más breves y se ha incorporado a los capítulos del 6 al 18 material relevante de los capítulos 13 y 14 anteriores. El autor confía en que esta redistribución tenga sentido y facilite el estudio y la comprensión de la información sobre aptitudes cognoscitivas de los capítulos 6 a 11 y el material sobre personalidad, intereses, actitudes y conceptos relacionados, de los capítulos 12 a 18. En años recientes han ocurrido varios cambios notables, si bien no revolucionarios, en la evaluación psicológica y pedagógica, y se les ha prestado la atención apropiada en este libro. En estos cambios se incluyen revisiones del contenido y el formato de los exámenes de admisión universitarios, las nuevas ediciones de varias pruebas y un interés renovado por la “política de los tests de inteligencia”. Se ha dado mayor atención a los tests de adaptación, a la teoría de la respuesta a los ítems, al uso de microcomputadoras en tests psicológicos, a pruebas neuropsicológicas y de desarrollo y a aplicaciones de pruebas en diversos contextos. Para contribuir a lograr el objetivo de introducir los tests psicológicos y la evaluación como un campo de estudio interesante e importante para los estudiantes que planean ingresar a alguno de los diversos campos profesionales en que se diseñan y/o emplean evaluaciones psicológicas, se ha puesto todavía más énfasis en la aplicación de pruebas en ambientes educativos-escolares, clínicos-consultivos e industriales-empresariales. Se encuentra disponible, en su undécima edición, el libro Instructor´s Manual to Accompany Psychological Testing and Assessment (Editorial Allyn & Bacon, Pearson Education). También podría interesarle a los profesores saber que a través del autor aún están disponibles los disquetes de varias docenas de programas de computación que complementan los cursos sobre pruebas psicológicas y educativas. Puede enviar su solicitud, junto con un disquete formateado en sistema DOS y un sobre con estampillas, al doctor Lewis R. Aiken, 3300 Blue Ridge Court, Thousand Oaks, CA 91362. Por último, es posible comprar una Study Guide para el texto po- PREFACIO xv niéndose en contacto con el autor a la dirección mencionada o en la dirección de correo electrónico laiken@prodigy.net. He recorrido ya un largo camino con este libro, y el viaje casi ha concluido. Agradezco a todos los estudiantes y colegas que han trabajado con las diez ediciones anteriores y han proporcionado atinadas críticas y sugerencias, así como a los reseñadores de la undécima edición: Angela Hazel, de Rochester College; William Mahler, de Concordia College, y William Warley, de Shorter College. También deseo expresar mi agradecimiento por los esfuerzos incansables y la experiencia de la productora editorial Faye Whitney-Lussier y el editor, William Thomas. Espero sinceramente que los resultados de su trabajo y del mío se manifiesten en el producto terminado. Serán bien recibidos y se agradecerá todo tipo de comentarios y sugerencias para mejorar este libro. Lewis R. Aiken CAPÍTULO UNO TEMAS HISTÓRICOS Y PROFESIONALES Cualquiera que haya asistido a la escuela básica o a la universidad, ingresado al servicio militar o bien solicitado algún empleo durante el último medio siglo, sin duda ha completado una o más pruebas. En todo el mundo, las pruebas han llegado a tener una gran influencia en la vida y la carrera de las personas. Sin embargo, los instrumentos de evaluación psicológica no se limitan a pruebas publicadas. Se dispone de muchas pruebas inéditas, además de cuestionarios, inventarios, escalas de medición y listas de opción múltiple, tanto publicadas como inéditas. Siempre que se requiera de información para tomar decisiones con respecto a la gente, o para ayudarla a elegir el rumbo de sus actos relativos a una futura situación educativa o laboral, posiblemente se use algún tipo de instrumento de evaluación. En escuelas, clínicas psicológicas, la industria y el servicio militar y civil, se utilizan ampliamente exámenes y otros instrumentos afines para propósitos de evaluación diagnóstica, selección, asignación y promoción. Además de sus aplicaciones en la toma de decisiones prácticas, las pruebas se usan en forma extensa en la investigación. Considerando sus múltiples funciones, no es de sorprender que las pruebas, por sí mismas, se hayan convertido en un gran negocio. De acuerdo con la Association of American Publishers, en el año 2000, el total de ventas en Estados Unidos por pruebas estandarizadas aplicadas tan sólo en los grados K-12* (en México equivale al tercer año de bachillerato), se calculaba en 234.1 millones de dólares, una cifra que aumenta en aproximadamente 7% cada año. Hay organizaciones comerciales, como las que figuran en la lista del apéndice C, que se especializan en publicar y distribuir pruebas y otros instrumentos psicométricos para evaluar las aptitudes, personalidades, los intereses y otras características de personas de todas las edades en distintas circunstancias. Las organizaciones profesionales incluidas en el apéndice D se ocupan de lo concerniente al uso adecuado de las pruebas aplicadas con diversos propósitos prácticos y de investigación. PERSPECTIVA HISTÓRICA Desde el principio de la historia humana se ha reconocido que las personas difieren en cuanto a sus aptitudes cognoscitivas, características de personalidad y comportamiento, y que estas diferencias pueden evaluarse en cierta forma. Hace casi 2,500 años, Platón y Aristóteles escribieron acerca de las diferencias individuales, e incluso ya tenían como antecesores de esta actividad a los antiguos chinos (Bowman, 1989; Doyle, 1974). Desde la remota fecha del año 2200 a. C., el entonces emperador chino instituyó un sistema de exámenes en el servicio civil para determinar si los funcionarios gubernamentales eran aptos para desempeñar sus labores. Este sistema, de 1 2 CAPÍTULO UNO Temas históricos y profesionales acuerdo con el cual se examinaba a los funcionarios cada tres años para evaluar su destreza en música, tiro con arco, equitación, escritura, aritmética, así como en ritos y ceremonias públicas y privadas, fue continuado por sucesivos gobernantes chinos, quienes incluyeron conocimientos de la ley civil, asuntos militares, agricultura, rentas públicas, geografía, composición y poesía (Green, 1991). Se trataba de exámenes orales, más que escritos, que evaluaban no solamente lo que los examinados respondían, sino también el cómo lo decían. Durante el siglo XIX, los gobiernos británico, francés y alemán diseñaron sus exámenes para el servicio civil tomando el antiguo sistema chino como patrón. Durante la Edad Media era prácticamente inexistente cualquier preocupación por la individualidad. En la estructura social de la sociedad europea medieval, las actividades de la gente se determinaban en gran medida dependiendo de la clase social en que se naciera. Se permitía poca libertad para la expresión o el desarrollo individuales. No obstante, hacia el siglo XVI, se tornó más progresista, menos doctrinaria y fue desarrollándose la idea de que las personas eran únicas y tenían derecho a afirmar sus dones naturales y a mejorar su posición en la vida. Esta era de Renacimiento, y el subsiguiente periodo de la Ilustración no sólo fueron etapas durante las cuales el interés por el aprendizaje y la creatividad resurgió y fue fomentado, constituyó también un renacimiento del individualismo. El espíritu de la libertad y el valor individual, que florecía gracias al estímulo político y económico que proporcionaban el capitalismo y la democracia, encontró su expresión en el arte, la ciencia, la filosofía y el gobierno. Sin embargo, no fue sino hasta finales del siglo XIX cuando realmente se inició la evolución del estudio científico de las diferencias individuales en cuanto a aptitudes y personalidad. Medición mental en el siglo XIX A principios del siglo XIX, los científicos solían considerar las diferencias en cuanto a habilidades sensoriomotrices y mentales sobre todo como un fastidio o una fuente de error. Antes de la invención de instrumentos precisos y automáticos para medir y registrar acontecimientos físicos, la precisión de las mediciones científicas de tiempo, distancia y otras variables físicas dependía en gran medida de las habilidades de percepción motrices de los observadores humanos. La mayoría de estos observadores estaban muy bien capacitados y eran sumamente cuidadosos al realizar mediciones, pero aun así éstas variaban en forma considerable al ser efectuadas por distintas personas o incluso por el mismo observador en ocasiones diferentes. Debido a que la búsqueda de leyes generales en la naturaleza es difícil cuando las mediciones de fenómenos naturales son imprecisas y no confiables, los físicos dirigieron su atención hacia la construcción de instrumentos que fueran más precisos y consistentes que la sola observación humana. Por ejemplo, la invención que realizaron John Harrison y otros de relojes relativamente libres de los errores ocasionados por el movimiento de los buques y los cambios en temperatura y humedad facilitaron la determinación precisa de la longitud y contribuyeron a hacer los viajes en barco menos azarosos (vea Sobel y Andrewes, 1998). Impulsado por los escritos de Charles Darwin sobre el origen de las especies y por el surgimiento de la psicología científica, el interés por el estudio de las diferencias individuales creció durante la última parte del siglo XIX. Darwin era inglés, pero la psicología de hecho fue bautizada como ciencia en Alemania al final del siglo XIX. Fue entonces cuando Gustav Fechner, Wilhelm Wundt, Hermann Ebbinghaus y otros psicólogos experimentales demostraron que los fenómenos psicológicos podían ser descritos en términos cuantitativos y racionales. Los acontecimientos que ocurrían en Francia y en Estados Unidos también fueron importantes para el desarrollo de las pruebas psicológicas. La investigación de psiquiatras y psicólogos franceses 3 PERSPECTIVA HISTÓRICA sobre perturbaciones mentales influyó en el desarrollo de técnicas de evaluación y tests, y el aumento de la atención dedicada a los exámenes en las escuelas estadounidenses dio como resultado el desarrollo de medidas estandarizadas de los logros académicos. Al igual que en la historia de cualquier disciplina, muchas personas de varios países desempeñaron papeles significativos en la fase pionera de la medición mental. Especial importancia a fines del siglo XIX tuvieron Francis Galton, J. McKeen Cattell y Alfred Binet. Francis Galton (figura 1.1.), primo del naturalista Charles Darwin, fue un caballero inglés que se interesó en las bases hereditarias de la inteligencia y en la medición de las habilidades humanas. Galton dedicó su atención en particular a la herencia del talento, pero también elaboró una serie de pruebas sensoriomotrices y diseñó varias técnicas para investigar las diferencias individuales en cuanto a aptitudes y temperamento. Usando estas pruebas sencillas, Galton realizó mediciones con más de nueve mil personas, cuyas edades iban de los 5 a los 80 años. Entre sus contribuciones metodológicas figura la técnica de co-relaciones, que sigue siendo un método popular para analizar calificaciones de pruebas. James McKeen Cattell fue un estadounidense que, al regresar de Alemania tras haber obtenido un doctorado en psicología experimental en la Universidad de Leipzig con la tutoría de Wilhelm Wundt, permaneció un tiempo en Inglaterra donde entró en conocimiento de los métodos y pruebas de Galton mientras fungía como su asistente. Más tarde, en la Universidad de Columbia, Cattell intentó relacionar las calificaciones de las mediciones de tiempo de reacción y discriminación sensorial con las calificaciones escolares. Clark Wissler y otros investigadores descubrieron que las relaciones, o correlaciones, entre el desempeño en las pruebas y el logro académico eran muy bajas. Tocó a otro psicólogo francés, Alfred Binet, construir la primera prueba mental que contribuyó en forma significativa a la predicción del aprovechamiento académico. FIGURA 1.1 Francis Galton. El llamado “padre de la psicología individual”. Galton fue pionero en el estudio de la inteligencia y sus orígenes. 4 Temas históricos y profesionales CAPÍTULO UNO Las pruebas a principios del siglo xx En 1904 el ministro de educación pública en París, Francia, comisionó a Alfred Binet (figura 1.2) y a su socio, el doctor Théodore Simon, para que elaboraran un procedimiento de identificación de niños que al parecer fueran incapaces de sacar el provecho suficiente en las aulas escolares normales. Para este propósito, Binet y Simon construyeron una prueba, para ser administrada individualmente, que consistía en 30 problemas dispuestos en orden creciente de dificultad. Los problemas de esta primera prueba de inteligencia práctica, que se publicó por primera vez en 1905, pusieron énfasis en la habilidad para juzgar, comprender y razonar. En 1908 se publicó esta prueba revisada, conteniendo entonces una gran cantidad de subpruebas clasificadas por niveles de edad, de los 3 a los 13 años. Al calificar la revisión de 1908 de la Escala de Inteligencia de Binet-Simon, se introdujo el concepto de edad mental como una forma de cuantificar el desempeño general de una persona en la prueba. Una revisión adicional de la escala de Binet-Simon, publicada después de la muerte prematura de Binet en 1911, amplió la prueba hasta la edad adulta. Otros pioneros en pruebas y evaluaciones psicológicas fueron Charles Spearman en teoría de los tests, Edward Thorndike en pruebas de aprovechamiento, Lewis Terman en pruebas de inteligencia, Robert Woodworth y Hermann Rorschach en pruebas de personalidad, y E. K. Strong hijo en mediciones de interés. El trabajo de Arthur Otis con pruebas de inteligencia administradas colectivamente condujo directamente a la elaboración de los Exámenes Alfa y Beta del ejército por parte de un comité de psicólogos durante la Primera Guerra Mundial. Cada uno de estos tests, el Alfa para gente que sabia leer y el Beta para analfabetos, se aplicaba en forma colectiva para medir las habilidades mentales de miles de soldados estadounidenses durante y después de la guerra. Muchos individuos han contribuido a enriquecer la teoría y la práctica de las pruebas psicológicas y educativas desde la Primera Guerra Mundial. Los nombres de gran parte de ellos se incluyen en la tabla 1.1 y todavía aparecen en los nombres de las pruebas y como referencia a Alfred Binet. Con Théodore Simon, en 1905 Binet elaboró la primera prueba de inteligencia práctica. FIGURA 1.2 (Reimpreso con autorización de Culver Pictures, Inc.) PERSPECTIVA HISTÓRICA 5 TABLA 1.1 Eventos selectos en la historia de la evaluación psicológica y educativa 1845 1864 1869 1882 1884 1888 1893 1897 1904 1905 1908 1908–1909 1910 1908–1914 1914 1916 1917 1926 1927 1936 1937 1938 1939 1942 1949 1960 1970–2002 Publicación de los primeros exámenes usados por el Comité Escolar de Boston bajo la dirección del educador Horace Mann. George Fischer, director de escuela inglés, elabora una serie de escalas consistentes en una muestra de preguntas y respuestas como guías para evaluar las respuestas de los estudiantes a preguntas de pruebas de ensayo. El estudio científico de las diferencias individuales se inicia con la publicación de Classification of Men According to Their Natural Gifts (Clasificación de los hombres de acuerdo con sus dones naturales), de Francis Galton. Emil Kraepelin emplea técnicas de asociación de palabras para estudiar la esquizofrenia. Francis Galton abre el Laboratorio de Antropometría para la Exposición de Salud Internacional en Londres. J. M. Cattell abre un laboratorio de pruebas en la Universidad de Pensilvania. Joseph Jastrow presenta pruebas sensoriomotrices en la Exposición de Columbia en Chicago. J. M. Rice publica los descubrimientos de su investigación sobre las habilidades ortográficas de los escolares estadounidenses. Charles Spearman describe su teoría de dos factores sobre aptitudes mentales. Se publica el primer libro de texto importante sobre medición educativa: Introduction to the Theory of Mental and Social Measurement (Introducción a la teoría de la medición mental y social), de E. L. Thorndike. Se publica la primera edición de la Escala de Inteligencia de Binet-Simon. Se publica la revisión de la Escala de Inteligencia de Binet-Simon. J. C. Stone y S. A. Courtis publican las pruebas objetivas de aritmética. Carl Jung elabora una lista estandarizada de estímulos de asociación de palabras para analizar complejos mentales y recopila normas relacionadas. E. L. Thorndike elabora pruebas estandarizadas de aritmética, caligrafía, lenguaje y ortografía, incluyendo la Scale for Handwriting of Children (Escala de caligrafía para niños, 1910). Arthur Otis elabora la primera prueba de inteligencia colectiva de grupo, basada en la Revisión Stanford de Terman de la Escala de Inteligencia Binet-Simon. Lewis Terman publica la Escala de Inteligencia de Stanford-Binet. Los Exámenes Alfa y Beta del ejército, los primeros tests de inteligencia colectivos son elaborados y administrados a los reclutas estadounidenses. Se aplica por primera vez la Prueba de Aptitud Académica (SAT, por sus siglas en inglés) para evaluar a los aspirantes a ingresar en la universidad. Se publica la primera edición del Formulario de Intereses Vocacionales para Varones, de Strong, así como las Pruebas de Inteligencia de Kuhlmann-Anderson. Los Exámenes de Registro de Graduados (GRE, por sus siglas en inglés) se usan por primera vez para seleccionar a los aspirantes a ingresar a la escuela de posgrado. Se publica la revisión de la Escala de Inteligencia de Stanford-Binet. Henry Murray Publica Explorations in Personality (Exploraciones sobre personalidad). Buros publica el primer Mental Measurements Yearbook (Anuario de mediciones mentales). Se publica la Escala de Inteligencia de Wechsler-Bellevue. Se publica el Inventario Multifásico de Personalidad de Minnesota. Publicación de la Escala de Inteligencia de Wechsler para Niños. Se publica la Forma L-M de la Escala de Inteligencia de Stanford-Binet. Uso creciente de las computadoras para diseñar, administrar, calificar, analizar e interpretar pruebas. (continúa) 6 CAPÍTULO UNO Temas históricos y profesionales TABLA 1.1 Continuación 1971 Resolución de la Corte Federal de Estados Unidos para que las pruebas empleadas en la selección de personal estén relacionadas con los puestos (Griggs versus Duke Power). Elaboración de la teoría de respuesta. Se publica una revisión de la Escala de Inteligencia de Wechsler para Adultos. Se publican los Standards for Educational and Psychological Testing (Normas para la evaluación pedagógica y psicológica). Se publican el MMPI-II y la Escala de Inteligencia para Nivel Preescolar de Wechsler. Se publica la Escala de Inteligencia para Niños de Wechsler-III. Aparece la tercera edición de la Escala de Inteligencia para Adultos de Wechsler (WAIS-III). Se publica la decimotercera edición del The Mental Measurements Yearbook. Se publica Tests in Print V y una revisión de los Standards for Educational and Psychological Testing. 1980–2002 1981 1985 1989 1990 1997 1998 1999 técnicas, procedimientos y otros adelantos en los que han contribuido. Entre estos progresos se encuentran el perfeccionamiento de la metodología estadística, avances tecnológicos en la preparación y calificación de pruebas y el análisis de resultados en las evaluaciones. LOS TESTS COMO UNA PROFESIÓN El campo de aplicación de los tests psicológicos ha crecido rápidamente desde la década de 1920 y en la actualidad se producen y distribuyen comercialmente cientos de estas pruebas. Después de la Segunda Guerra Mundial, las pruebas estandarizadas, en particular las orientadas a evaluar los aprovechamientos académicos, se expandieron por todo el mundo. Muchas pruebas de aptitud y personalidad elaboradas en Estados Unidos se tradujeron del inglés a otras lenguas. Además de las pruebas estandarizadas ya publicadas, pudo disponerse de cientos de materiales de evaluación inéditos. Dichos instrumentos, que se citan en revistas y libros especializados, se han usado en todo el mundo. Fuentes de información La información concerniente a tests psicológicos y otros instrumentos de evaluación puede encontrarse en páginas Web y en los catálogos de las empresas que los distribuyen (vea el apéndice C). Muchas de estas compañías publican gran cantidad de catálogos de pruebas. Por ejemplo, la Psychological Corporation tiene catálogos distintos de acuerdo con las áreas de evaluación psicológica, terapia ocupacional y física, habla y lenguaje, y negocios/industria/gobierno. La empresa Pro.ed también cuenta con catálogos por separado para productos como tests psicológicos; educación especial, rehabilitación, trastornos del desarrollo y en superdotados; primera infancia, y habla, lenguaje y audición. En los manuales adjuntos se incluyen más detalles sobre cada una de las pruebas. También se han publicado varios libros de consulta que abordan el tema de las pruebas. Dos fuentes importantes son: Tests in Print V (Murphy, Impara y Plake, 1999) y Tests (Maddox, 1997), las cuales proporcionan información descriptiva sobre cientos de pruebas disponibles comercialmente. Otra fuente importante es The Mental Measurements Yearbook (Impara y Plake, 1998 y ediciones anteriores), cuyas trece ediciones contienen descripciones y revisiones de LOS TESTS COMO UNA PROFESIÓN 7 pruebas. También se incluyen revisiones de pruebas en Test Critiques (Keyser y Sweetland, 1984-1994). Tal vez la forma más directa de obtener información sobre pruebas de aplicación común sea consultar ERIC/AE Test Locator, un proyecto conjunto de ERIC Clearinghouse on Assessment and Evaluation de la Universidad Católica de América, la Sección de Biblioteca y de Servicios de Consulta del Educational Testing Service, el Instituto Buros de Mediciones Mentales de la Universidad de Nebraska en Lincoln, el Centro Comprensivo de la Región III de la Universidad George Washington, y los editores Pro-ed test. Es posible entrar en contacto directamente con la página Web de ERIC/AE Test Locator en: www.ericae.net/testcol.htm, www.unl.edu/buros, o bien en www.ets.org. Desde el Test Locator, pueden localizarse seis diferentes archivos: ETS/ ERIC Test File, Test Review Locator, BUROS/ERIC Test Publisher Locator, CEEE/ERIC Test Database, los cuales contienen las pruebas que suelen usarse con los estudiantes de LEP, el Reglamento de prácticas de evaluación justas, y Consejos para la selección de pruebas. Además de las pruebas estandarizadas, en contextos de psicología aplicada se usan muchos cuestionarios y escalas de clasificación (vea Aiken, 1996, 1997). El libro Measures for Clinical Practice: A Sourcebook (3ª ed., Corcoran y Fisher, 2000), contiene información descriptiva sobre docenas de instrumentos de este tipo que se utilizan en situaciones de consulta clínica y asesoría. Para encontrar detalles sobre pruebas y escalas inéditas, también pueden consultarse: Directory of Unpublished Experimental Mental Measures (Goldman, Mitchell y Egelson, 1997 y volúmenes anteriores), A Consumer´s Guide to Tests in Print (Hammill, Brown y Bryant, 1992), e Index to Tests Used in Educational Dissertations (Fabiano, 1989). Para información inédita sobre mediciones de actitudes, se recomienda consultar la serie de volúmenes producidos en el Instituto de Investigación Social de la Universidad de Michigan (Robinson, Shaver y Wrightsman, 1991, 1999 y volúmenes anteriores). En las bibliotecas de muchas universidades está disponible la base de datos HAPI (Health and Psychosocial Instruments), que contiene descripciones de más de 15 mil instrumentos psicométricos. Otras bases de datos útiles para obtener información sobre escalas y otros instrumentos psicométricos inéditos son PsycINFO y PsycLIT. En muchas revistas profesionales se publican versiones de pruebas selectas y revisadas, por ejemplo en: American Educational Research Journal, Journal of Educational Measurement, Measurement and Evaluation in Counseling and Development, Personnel Psychology y Psychoeducational Assessment. Se incluyen artículos sobre el desarrollo y la evaluación de tests y mediciones psicológicas en publicaciones especializadas como: Applied Psychological Measurement, Educational and Psychological Measurement, Journal of Clinical Psychology, Psychological Assessment: A Journal of Consulting and Clinical Psychology, Journal of Counseling Psychology y Journal of Vocational Behavior. También pueden encontrarse referencias a fuentes de información sobre pruebas específicas en: Psychological Abstracts, Education Index y Current Index to Journals in Education. Se han escrito libros enteros sobre pruebas individuales, como el Inventario Multifásico de Personalidad de Minnesota (MMPI), el Test de las Manchas de Tinta de Rorschach y las escalas de inteligencia de Wechsler. Clasificación de pruebas Al igual que en otras profesiones, en psicología la evaluación tiene su propio vocabulario especial. El glosario que se incluye al final de este libro contiene definiciones de docenas de términos psicométricos, muchos de los cuales se refieren a tipos de pruebas o a métodos para clasificarlas. Las pruebas se pueden clasificar según su contenido, la forma en que se elaboraron, el parámetro para cuya medición se diseñaron, el propósito de su aplicación, e incluso de acuerdo con 8 CAPÍTULO UNO Temas históricos y profesionales la manera en que se administran, califican e interpretan. Un criterio de clasificación sencillo es la dicotomía entre pruebas estandarizadas contra no estandarizadas. Una prueba estandarizada, elaborada por profesionales especialistas en desarrollar pruebas y que es administrada a una muestra representativa de personas pertenecientes a la población para la que se diseñó el instrumento, tiene procedimientos establecidos de administración y calificación que son constantes en los distintos examinandos. Así, todos ellos tienen la misma oportunidad de responder los distintos reactivos de acuerdo con sus habilidades. Por lo general, las pruebas estandarizadas poseen normas; esto es, a partir de las puntuaciones crudas obtenidas en la muestra de estandarización, se calculan varios tipos de calificaciones transformadas. Las normas sirven como base para interpretar los resultados de las personas que se someten a la prueba después. Todavía más comunes que las pruebas estandarizadas publicadas son los exámenes escolares no estandarizados, los que suelen elaborar los maestros de manera informal. Las pruebas también se clasifican como individuales o colectivas. Una prueba individual, como la Escala de Inteligencia de Wechsler para Niños, se administra a un examinando en cada ocasión. Una prueba colectiva, como la Prueba de Aptitudes Cognoscitivas, puede administrarse simultáneamente a muchos examinandos. Mientras que la dicotomía de pruebas individuales contra pruebas colectivas se refiere a la eficiencia de la administración, la dicotomía de velocidad contra potencia corresponde al tiempo límite que se da para resolver una prueba. Una prueba de velocidad simple consta de muchos reactivos, pero los límites de tiempo son muy estrictos y casi nadie termina en el lapso asignado. Los límites de tiempo en una prueba de potencia son amplios para la mayoría de los examinandos, pero la prueba contiene reactivos más difíciles que los de una prueba de velocidad. Una tercera dicotomía se presenta en la clasificación: pruebas objetivas contra no objetivas, y se refiere al método de calificar una prueba. Una prueba objetiva tiene normas de calificación precisas ya establecidas y puede ser calificada por un empleado. Por otra parte, calificar pruebas de ensayo y ciertos tipos de tests de personalidad es muy subjetivo y los resultados pueden variar cuando una misma prueba es calificada por personas distintas. Las pruebas también pueden clasificarse de acuerdo con el tipo de material o la clase de tarea que se pide a los examinandos. Algunas pruebas sólo contienen reactivos verbales o lingüísticos (por ejemplo, párrafos de vocabulario o de lectura), mientras que otras consisten en diagramas, rompecabezas u otros materiales no verbales o no lingüísticos. La distinción entre pruebas verbales y no verbales también se refiere a la forma de la respuesta requerida. Las pruebas que exigen respuestas orales o escritas a menudo reciben el nombre de pruebas verbales, mientras las que piden a los examinandos señalar las respuestas correctas, construir algo o manipular materiales de prueba (armar rompecabezas, introducir bloques en agujeros y similares) se denominan pruebas no verbales o pruebas de ejecución. Otra clasificación de pruebas amplia, según su contenido o proceso, es en cognoscitivas contra afectivas. Las pruebas cognoscitivas intentan cuantificar los procesos y productos de la actividad mental y pueden clasificarse como mediciones de rendimiento y aprovechamiento. Una prueba de rendimiento evalúa el conocimiento de algún tema u ocupación académica y se centra en el comportamiento pasado del examinando (en lo que ya ha aprendido o logrado). Una prueba de aprovechamiento está enfocada al comportamiento futuro, es decir, a lo que la persona es capaz de aprender con la capacitación apropiada. Así, las pruebas de aptitud mecánica y de aptitud para el trabajo de oficina se diseñan para evaluar la habilidad para aprovechar una capacitación adicional en tareas mecánicas y de oficina, respectivamente. Sin embargo, el rendimiento y el aprovechamiento no son entidades separadas; lo que una persona ha alcanzado en el 9 LOS TESTS COMO UNA PROFESIÓN pasado (rendimiento) suele ser un muy buen indicador de la eficacia con que se desempeñará en el futuro (aprovechamiento). Algunos psicólogos prefieren no usar los términos rendimiento y aprovechamiento como formas de clasificar pruebas; más bien se refieren a ambos tipos de prueba como medidas de habilidad. Las pruebas afectivas se diseñan para evaluar intereses, actitudes, valores, motivos, rasgos de carácter y otras características de personalidad no cognoscitivas. Para este propósito se han diseñado diversas técnicas, tales como la observación del comportamiento, los inventarios en lápiz y papel y las imágenes proyectivas. Algunas instituciones y organizaciones que conservan colecciones de pruebas psicológicas y educativas tienen sistemas formales para clasificar estos instrumentos. Uno de los sistemas de clasificación más completos es The Mental Measurements Yearbook, donde las pruebas se clasifican en 18 grandes categorías de contenido, las cuales se presentan en la tabla 1.2. Objetivos y usos de las pruebas Las pruebas psicológicas y otros instrumentos de evaluación se aplican en un amplio rango de ambientes académicos, clínicos-consultivos, de negocios-industriales, de justicia criminal-forenses, gubernamentales y militares. Los psicólogos de personal, clínicos, consultores, sociales, y muchos otros especialistas dedicados a la investigación o a aplicaciones prácticas en el comportamiento humano, dedican una parte considerable de su tiempo profesional a calificar e interpretar pruebas psicológicas. Las páginas Web de muchas de las compañías que se ocupan de los tests psicológicos y la evaluación se incluyen en el apéndice D. El objetivo principal de las pruebas psicológicas en la actualidad es el mismo que el prevaleciente en todo el siglo XX: evaluar el comportamiento, las aptitudes cognoscitivas, los rasgos de personalidad y otras características individuales y de grupo, a fin de ayudar a formarse juicios, predicciones y decisiones sobre la gente. De manera más específica, las pruebas se usan para: 1. 2. 3. 4. Seleccionar aspirantes a empleos y programas educativos y de capacitación. Clasificar y colocar a las personas en contextos educativos y laborales. Asesorar y guiar a las personas con propósitos de asesoría educativa, vocacional y personal. Conservar o despedir, promover y rotar estudiantes o empleados en programas educativos, de capacitación y en situaciones laborales. 5. Diagnosticar y prescribir tratamientos psicológicos y físicos en clínicas y hospitales. 6. Evaluar cambios cognoscitivos, intra o interpersonales relativos a programas educativos, psicoterapéuticos y otros de intervención en el comportamiento. 7. Supervisar la investigación sobre cambios en el comportamiento a lo largo del tiempo y evaluar la eficacia de nuevos programas o nuevas técnicas. TABLA 1.2 Categorías de tests incluidas en The Thirteenth Mental Measurements Yearbook Aprovechamiento Evaluación del comportamiento Desarrollo Educación Inglés y lenguaje Bellas Artes Lenguas extranjeras Aptitudes de inteligencia y generales Matemáticas Varios Neuropsicológicas Personalidad Lectura Ciencia Sensoriomotrices Estudios sociales Habla y audición Vocacionales 10 CAPÍTULO UNO Temas históricos y profesionales Además de analizar y describir características individuales, las pruebas pueden utilizarse para evaluar ambientes psicológicos, movimientos sociales y otros acontecimientos psicosociales. Entre las pruebas que están disponibles comercialmente, no se sabe con exactitud cuántas de cada tipo se usan, en qué situaciones, con qué objetivos ni quién las administra en un año determinado. Sin embargo, puede encontrarse un indicio general de su utilización en los resultados de varias investigaciones (Archer, Mariush, Imhof y Piotrowski, 1991; Butler, Retzlaff y Vanderploeg. 1991; Camara, Nathan y Puente, 2000; Piotrowski y Keller, 1992; Watkins, Campbell y Nieberding, 1994; Watkins, Campbell, Nieberding y Hallmark, 1995). Como es comprensible, los descubrimientos de estos estudios dependen de todo tipo de practicantes y/o investigadores incluidos en la muestra de la investigación, de su orientación teórica y de los objetivos del proceso de evaluación. Las primeras dos secciones de la tabla 1.3 muestran, en orden de rango, las diez pruebas más usadas por los psicólogos clínicos y los neuropsicólogos del estudio de Camara et al. (2000). Otro indicador de la popularidad general de un instrumento de evaluación, en particular en investigaciones publicadas, es la cantidad de veces que se menciona en la base de datos PsycINFO. Los diez instrumentos psicométricos empleados con mayor frecuencia entre 1995 y 2001 en contextos clínicos y de asesoría se incluyen en la última sección de la tabla 1.3. ÉTICA Y NORMAS DE LOS TESTS El aumento en el uso de pruebas estandarizadas de todo tipo ha dado origen al reconocimiento de la necesidad de ampliar la conciencia pública acerca de las ventajas y limitaciones de los instrumentos de evaluación psicológica y pedagógica, así como las motivaciones y prácticas de quienes las distribuyen y emplean. Una de las preocupaciones constantes de las organizaciones profesionales de psicólogos y educadores es que las pruebas disponibles comercialmente deberían medir efectivamente lo que declaran sus autores, editores y distribuidores. Contribuye al logro de esta meta la edición de 1999 del folleto de normas técnicas Standards for Educational and Psychological Testing (AERA, APA y NCME, 1999), que es una modificación del Standards de 1985 elaborada por representantes de la Asociación Americana de Investigación Educativa (AERA), la Asociación Americana de Psicología (APA) y el Consejo Nacional sobre Medición en Educación (NCME). Al igual que las entregas anteriores, la edición de 1999 contiene las normas recomendadas para la elaboración y aplicación de pruebas. En ella se abordan con cierto detalle los criterios para evaluarlas, la práctica de su aplicación y los efectos de su uso. También se ocupan de fomentar la utilización adecuada de pruebas psicológicas y pedagógicas Guidelines for Computer-based Tests and Interpretations (American Psychological Association, 1986) y los Principles for the Validation and Use of Personnel Selection Procedures (Society for Industrial and Organizational Psychology, Inc., 1987). Preparación de los usuarios de pruebas La preparación requerida para aplicar, evaluar e interpretar pruebas varía en cierta medida de acuerdo con el tipo de prueba en particular. Las normas de preparación para los usuarios son más estrictas en el caso de pruebas individuales que en pruebas colectivas, y en pruebas de inteligencia y personalidad que en las de rendimiento y aptitudes especiales. Quienquiera que sea el usuario y tenga la preparación que tenga, la responsabilidad ética de garantizar que las pruebas se vendan sólo a personas preparadas corresponde directamente a los editores y distribuidores de ÉTICA Y NORMAS DE LOS TESTS 11 TABLA 1.3 Las diez pruebas usadas con mayor frecuencia por psicólogos clínicos y neuropsicólogos y las diez pruebas más mencionadas en PsycINFO, 1995-2001 PRUEBAS USADAS POR PSICÓLOGOS CLÍNICOSa 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II Escala de Inteligencia para Niños de Wechsler, Revisada (WISC-R y III) Test de las Manchas de Tinta de Rorschach Test Gestáltico Visomotor de Bender Test de Apercepción Temática (TAT) Prueba de Rendimiento de Rango Amplio-R y III Técnica Proyectiva Casa-Árbol-Persona Escala de Memoria de Wechsler, Revisada Inventario de Depresión de Beck, Inventario Multiaxial Clínico de Millon PRUEBAS USADAS POR NEUROPSICÓLOGOSa 1. 2. 3. 4. 5. 6. 7. 8. 9. Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) Escala de Memoria de Wechsler, Revisada Test de Trazar un Camino A y B Prueba FAS de Fluidez de Palabra Batería de Pruebas Neuropsicológicas de Halstead-Reitan Prueba de Memoria de Boston Prueba de Categoría Prueba de Rendimiento de Rango Amplio-R y III PRUEBAS MENCIONADAS EN PSYCINFO 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II Test de las Manchas de Tinta de Rorschach Escala de Inteligencia para Niños de Wechsler, Revisada (WISC-R y III) Indicador Tipológico de Myers-Briggs Inventario de Depresión de Beck Inventario Multiaxial Clínico de Millon Test de Apercepción Temática Lista de Verificación de Conducta para Niños Escala de Memoria de Wechsler, Revisada aCon base en datos proporcionados por Camara, Nathan y Puente, 2000. las pruebas. Estas organizaciones deben encargarse de explicar y establecer la preparación necesaria para aplicar e interpretar pruebas específicas. Los prestigiados editores comerciales de pruebas solicitan que los compradores cumplan con ciertos requisitos, dependiendo del carácter de la prueba y/o del grado de preparación necesario para aplicarla. Los Sistemas de Orientación Americanos (AGS) y los de The Psychological 12 CAPÍTULO UNO Temas históricos y profesionales Corporation, así como otras organizaciones comerciales, adoptan una política de preparación de usuarios de tres niveles (A, B y C). AGS define estos tres niveles de la siguiente manera: Nivel A: El usuario ha terminado al menos un curso sobre medición, guía o una disciplina similar adecuada, o bien cuenta con la experiencia equivalente supervisada en aplicación e interpretación. Nivel B: El usuario ha concluido una capacitación graduada sobre medición, guía, evaluación psicológica individual o métodos de valoración especial adecuados para una prueba en particular. Nivel C: El usuario ha terminado con reconocimiento un programa de capacitación con trabajo apropiado y ha supervisado la experiencia práctica en la administración e interpretación de instrumentos de evaluación clínica. El formato 1.1, que ha sido adoptado por la AGS para determinar si los compradores de pruebas individuales cumplen los requisitos de cada uno de estos tres niveles, se basa en la investigación realizada por el Grupo de Preparación del Usuario de Pruebas (Moreland, Eyde, Robertson, Primoff y Most, 1995). Esta investigación utilizó métodos de análisis de empleos para describir la capacidad de 86 usuarios de pruebas y 7 factores relacionados con el mal uso de éstas. Los resultados condujeron a los investigadores a concluir que el uso profesional, sano, de pruebas significa que todos los usuarios deben: 1. Mantener la seguridad de los materiales de evaluación antes y después de aplicar las pruebas. 2. Evitar etiquetar a los individuos con base en el resultado de una sola prueba. 3. Respetar estrictamente la ley de derechos de autor y en ninguna circunstancia fotocopiar o reproducir cuadernillos de preguntas, hojas de respuestas, libros de texto ni manuales. 4. Aplicar y calificar las pruebas exactamente en la forma que lo especifica el manual. 5. Entregar los resultados sólo a las personas autorizadas y conforme a los principios aceptados de interpretación de pruebas (Moreland et al., p. 23). Códigos de ética El uso ético de pruebas puede controlarse en cierta medida mediante un código de ética al que se suscriben los profesionales en aplicación de pruebas y los editores. La Asociación Americana de Psicología (APA), la Asociación Americana de Personal y Asesoría (APGA) y el Consejo Nacional de Medición en Educación (NCME) tienen códigos de ética correspondientes a la aplicación de pruebas y a la prestación de otros servicios psicológicos. Los códigos de ética de la APA, la APGA y el NCME abarcan muchos de los temas de la aplicación, normalización, confiabilidad y validez de las pruebas que se incluyen en los Standards for Educational and Psychological Testing (AERA, APA y NCME, 1999). Los tres códigos destacan la importancia de considerar el bienestar del examinando o cliente y de protegerlo del mal uso de los instrumentos de evaluación. Con respecto a la evaluación y el diagnóstico, en “Ethical Principles of Psychologists and Code of Conduct” (American Psychological Association, 1992, edición corregida en proceso, Web URL http://www.apa.org/monitor/feb01/ethicscode.html) se subraya que la evaluación y el diagnóstico deberían ser realizados sólo en un contexto profesional y por parte de especialistas capacitados y competentes en las pruebas adecuadas. También se pone énfasis en (1) la aplicación de procedimientos científicos para diseñar y seleccionar pruebas y técnicas que sean apropiadas para poblaciones específicas; (2) la interpretación juiciosa de los resultados de las pruebas; (3) el uso cuidadoso de las calificaciones de las 13 ÉTICA Y NORMAS DE LOS TESTS FORMATO 1.1 Formato de preparación del usuario de pruebas En AGS mantenemos un profundo compromiso con las prácticas profesionales en las pruebas estandarizadas. Para ayudar a garantizar el uso seguro de nuestras evaluaciones, requerimos a las personas que adquieren pruebas de AGS por primera vez llenen este formato. Luego, que lean los “Principios del uso eficaz del test” en la sección final de éste, y lo firmen para indicar que aceptan y cumplirán esos principios. Nombre _______________________ Puesto _____________ Teléfono ( ) _______________ Dirección _________________ Ciudad ___________ Estado ______ Código postal __________ Empresa para la que trabaja ___________________ Jefe inmediato_________________________ Dirección de la empresa ______________ Ciudad ______ Estado _____ Código postal _______ FAX ___________________________ Correo electrónico _______________________________ AGS ofrece descuentos de 50% en evaluaciones usadas en proyectos de investigación, y de 40% para programas de capacitación universitarios. Si le interesan, comuníquese a AGS por teléfono o por correo. Consulte el índice para los materiales no incluidos. Títulos profesionales: (marque todos los que correspondan) ❐ Título en: Área ______________________ Estado _______ Licencia núm. ______________ ❐ Miembro de la(s) organización(es) profesional(es) ❐ ACA ❐ AERA ❐ APA ❐ ASHA ❐ CEC ❐ NASP ❐ Otras ________________ Nivel de preparación: (marque todos los que correspondan) ❐ Licenciatura Año _____ Institución ________________ Especialidad __________ ❐ Maestría Año _____ Institución ________________ Especialidad __________ ❐ Doctorado Año _____ Institución ________________ Especialidad __________ Cursos (abajo, marque cada curso terminado y encierre en un círculo el nivel que completó). N = No graduado, G = Graduado, O = Otro (curso especial que haya terminado, como taller, capacitación laboral, etc.) ❐ ❐ ❐ ❐ ❐ ❐ Pruebas y mediciones básicas Estadística descriptiva Evaluación de inteligencia Evaluación de habla, audición y lenguaje Diagnóstico educativo Curso de evaluación en área de especialización: __________________ (encierre en un círculo) (encierre en un círculo) N G O ❐ Uso de pruebas en consultoría N G O N G O ❐ Evaluación de carreras N G O N G O ❐ Evaluación neuropsicológica N G O N G O ❐ Otros (anótelos abajo) N G O N G O N G O ________________________ ________________________ ________________________ N G O N G O N G O Área especial de competencia: (Anote un tipo de evaluación que use habitualmente y que ilustre mejor su habilidad en la aplicación e interpretación de pruebas.) ________________________________ Principios del uso eficaz de pruebas: El uso válido y profesional de las pruebas educativas y psicológicas implica que todos los usuarios deben: 1. Mantener la seguridad de los materiales de la prueba antes y después de aplicarla. 2. Evitar etiquetar a las personas con base en un único resultado de una prueba. 3. Respetar estrictamente la ley de derechos de autor y en ninguna circunstancia fotocopiar ni reproducir de ningún otro modo las hojas de respuestas, los cuadernillos de pruebas ni los manuales respectivos. 4. Administrar y calificar las pruebas exactamente como lo especifica el manual. 5. Entregar los resultados sólo a las personas autorizadas y de manera acorde con los principios de la interpretación de pruebas. Su firma indica que acepta y cumplirá los principios descritos. Firma _________________________________________ Fecha ________________________ (Reproducido con la autorización del Servicio de Guía Americana de Moreland et al., 1995.) 14 CAPÍTULO UNO Temas históricos y profesionales pruebas y los servicios de interpretación, y (4) explicaciones claras pero cuidadosas de los hallazgos de la evaluación. También debería hacerse hincapié en la necesidad de mantener la seguridad de las pruebas si éstas han de tener valor. La simple existencia de pruebas de alta calidad y de un conjunto de normas y principios para sus editores, distribuidores y consumidores no garantiza que éstas se apliquen e interpreten de manera adecuada. Los encargados de aplicar e interpretar las pruebas son responsables directos de su uso apropiado, como lo reconocen cada vez más los psicólogos profesionales. Desafortunadamente, la capacidad y el conocimiento que poseen muchos asesores, médicos clínicos y otros profesionales son inadecuados para aplicar ciertas pruebas. Por lo tanto, es preciso concientizar a quienes aplican pruebas mentales acerca de las limitaciones de su preparación profesional, de la necesidad de obtener más capacitación y de conseguir ayuda de otros profesionales y fuentes de información actualizadas. Asimismo, los examinadores deben ser capaces de formular juicios éticos acertados mostrándose sensibles a las necesidades tanto de los examinandos como de las organizaciones donde trabajan y de la sociedad en su conjunto. Consentimiento informado y confidencialidad El revelar de manera inadecuada datos de pruebas, en especial los identificados con el nombre del examinando, es un asunto que constantemente preocupa a los especialistas en evaluación psicológica. El uso creciente de las computadoras y de los bancos de datos relacionados ha incrementado la necesidad de vigilancia para garantizar que los resultados de las pruebas conservadas en archivos electrónicos en particular sean protegidos adecuadamente contra la revelación impropia. A menos que la ley exija otra cosa, se necesita el consentimiento informado de quienes se someten a una prueba o de sus representantes legales antes de entregar los resultados identificados con el nombre del examinando a cualquier persona o institución. El consentimiento informado implica que una persona acepta se entregue información privada porque sabe en qué consiste ésta y con quién será compartida. El formato 1.2 es un consentimiento informado que debe leer y firmar el examinando o alguna persona responsable antes de que se lleve a cabo un examen psicológico. Como se señala en este formato, antes de que cualquier prueba u otros procedimientos psicológicos se administren, debe comunicarse al examinando el carácter y los objetivos de la evaluación, por qué se está aplicando, quién tendrá acceso a la información y cómo se usará ésta. Además de los derechos de consentimiento informado y confidencialidad, deberá adjudicarse la “etiqueta menos estigmatizante” al informar sobre la presencia de ciertos síntomas, trastornos y otros problemas psicológicos. Por ejemplo, “incapacitado mentalmente” es a todas luces menos estigmatizante, en el aspecto personal y social, que “débil mental”, “idiota” o “retrasado”, así como “reacción de adaptación de la adolescencia” lo es menos que “personalidad psicópata”. Desde un punto de vista legal, los datos provenientes de pruebas psicológicas son comunicaciones privilegiadas que pueden compartirse con personas ajenas únicamente en casos de absoluta necesidad. En el momento de la administración de la prueba debe avisarse a los examinandos por qué están siendo sometidos a ella, quién tendrá acceso a la información y cómo se utilizará ésta. Después de las pruebas, los examinandos también tienen el derecho de conocer sus resultados y lo que significan. Excepto en circunstancias excepcionales, como cuando una persona es peligrosa para sí misma o para otros, la información de las pruebas es confidencial y no debe revelarse sin el consentimiento informado necesario. Incluso con consentimiento informado, los datos pueden ser privilegiados. Esto significa que exceptuando al examinando y, en caso de menores o de personas legalmente incompetentes, alguno o ambos padres o tutor, sólo el abogado del examinando, su médico o psicólogo pueden obtener una copia de la información. 15 ÉTICA Y NORMAS DE LOS TESTS CONSENTIMIENTO INFORMADO PARA UN EXAMEN PSICOLÓGICO Yo, ________________________________________________, voluntariamente acepto actuar como participante en un examen psicológico conducido por______________________________________. He recibido una explicación clara y completa sobre el carácter general y los propósitos del examen y de las razones específicas por las que se me examina. También he sido informado de los tipos de pruebas y demás procedimientos que se aplicarán, así como de la manera en que se utilizarán los resultados. Me doy cuenta de que quizá no le sea posible al examinador aclararme todos los aspectos del examen mientras éste no haya terminado. También entiendo que puedo poner fin a mi participación en el examen en cualquier momento y sin represalias. Además comprendo que se me informará de los resultados y que éstos no serán entregados a nadie más sin mi autorización. En este momento, solicito que se envíe una copia de los resultados de este examen a: Firma del examinando Nombre del examinando en letra de molde Fecha Firma del examinador FORMATO 1.2 Formato para obtener consentimiento informado y conducir un examen psicológico Las personas legalmente responsables no sólo tienen derecho al acceso a los descubrimientos que los informes de sus propias pruebas ofrezcan, también pueden disponer que se transmitan sus resultados a organismos educativos, clínicos o de asesoría para su uso apropiado. Asimismo, debe hacerse el máximo esfuerzo por mantener la confidencialidad de los resultados de las pruebas y de cualquier información personal. El Acta Familiar de los Derechos Educativos y de Privacía de 1974 establece, por ejemplo, que los resultados de pruebas y otros registros de estudiantes en poder de instituciones educativas que reciben fondos federales pueden ponerse a disposición, en forma identificable por persona, de otros sólo con el consentimiento por escrito del estudiante, de sus padres o de su tutor. Sin embargo, esta acta sí permite a los padres y al personal de la escuela con un “legítimo interés educativo” revisar los registros escolares, al igual que la Ley Pública 94-142 en el caso de niños con discapacidades. En 1988, el Comité Adjunto de Prácticas de Exámenes publicó un conjunto de derechos y responsabilidades diseñado “para enumerar y esclarecer las expectativas que razonablemente puedan tener quienes se someten a pruebas sobre el proceso de aplicación de éstas, y las expectativas que pueden tener quienes elaboran, aplican y usan las pruebas sobre los que se someten a ellas”. La responsabilidad fundamental de someterse a una prueba es asegurarse de comprender los derechos que se tienen y actuar en consecuencia de la manera apropiada (vea la página Web url://www.apa.org/science/jctpweb.html). RESUMEN Las raíces de las pruebas psicológicas y la evaluación pueden rastrearse hasta la Grecia y China antiguas, aunque un método concertado, científico, para efectuar la medición de las diferencias individuales en cuanto a aptitudes y personalidad no se estableció sino hasta fines del siglo XIX en Europa y Estados Unidos. El campo de la evaluación psicológica y pedagógica se desarrolló 16 CAPÍTULO UNO Temas históricos y profesionales con rapidez en el siglo XX, y se emplearon ampliamente instrumentos psicométricos de diverso tipo en situaciones educativas, clínicas, de negocios, de gobierno y militares. Estos instrumentos pueden clasificarse en varias formas: estandarizados o no estandarizados, individuales o colectivos, de velocidad o de potencia, objetivos o no objetivos, verbales o no verbales, de lápiz y papel o de ejecución, y cognoscitivos, afectivos o psicomotrices. Los The Mental Measurements Yearbooks constituyen la fuente de información más amplia sobre pruebas. En Test Print V puede encontrarse una lista descriptiva bastante completa de pruebas, inventarios, escalas, listas de verificación y cuestionarios publicados. Las pruebas psicológicas y educativas se han convertido en un gran negocio durante las últimas décadas, pero el desarrollo de este campo se ha visto acompañado por debates acerca de la validez y utilidad de las pruebas y sobre la preparación profesional de quienes las aplican e interpretan. La información obtenida de la aplicación de tests psicológicos debe mantenerse confidencial y, salvo algunas excepciones, sólo puede compartirse con otras personas después de haber obtenido el consentimiento por escrito del examinado o de sus tutores o asesores legales. Con el fin de tener un mejor control que permita evitar el uso inadecuado de las pruebas, la American Psychological Association, la American Educational Research Association, la American Personnel and Guidance Association y el National Council on Measurement in Education han publicado estándares y códigos sobre las prácticas éticas y justas de la aplicación de las pruebas. El cumplimiento de dichos estándares y códigos ayuda asegurar que las pruebas psicológicas y demás instrumentos y procedimientos psicométricos son aplicados por personal calificado de manera tanto sensible como sensata y que los resultados se interpretan y aplican con precisión y consideración. P R E G U N TA S Y A C T I V I D A D E S 1. Identificar las contribuciones que cada una de las siguientes personas realizó a la evaluación psicológica y educativa: Alfred Binet, J. McKeen Cattell, Francis Galton, Hermann Rorschach, Charles Spearman, Lewis Terman, Edward Thorndike, Robert Woodworth y E. K. Strong, hijo. Para obtener más información, consulte artículos especializados o determinados capítulos en libros que traten acerca de la historia de las pruebas psicológicas y educativas (por ejemplo, French y Hale, 1990; Goldstein y Hersen, 1990; McReynolds, 1986, y Sokal, 1987). 2. ¿Qué procedimientos o instrumentos se usaban en épocas antiguas para evaluar las aptitudes y personalidad de la gente, y cómo se usaban los resultados de aquellas pruebas? 3. Describa y evalúe diversas formas de clasificar las pruebas psicológicas y otros instrumentos de evaluación psicométrica. 4. Examine en alguna biblioteca ejemplares de The Mental Measurements Yearbooks (Impara y Plake, 1988 y ediciones anteriores), Tests (4ª ed.) (Maddox, 1997), Test Critiques (Keyser y Sweetland 1984-1994) y Tests in Print V (Murphy, Impara y Plake, 1999). Describa los diversos tipos de información que contienen estas obras de referencia. 5. Se supone que los psicólogos son profesionales que piensan ante todo en el bienestar del público, así como científicos cuya búsqueda de la verdad no permite la explotación de otras personas; entonces, ¿por qué es necesario tener un código de ética explícito que regule la práctica de la psicología en general y de las pruebas psicológicas en particular? 17 RESUMEN 6. ¿De qué manera los conceptos de consentimiento informado y confidencialidad en las pruebas psicológicas difieren del de comunicación privilegiada usado en las leyes y la medicina? 7. Revise el directorio telefónico de una ciudad grande e indague acerca de servicios de evaluación y pruebas educativas. Debe buscar en varias secciones: psicólogos, asesoría, pruebas, exámenes y similares. 8. (a) (b) (c) (d) Conéctese a la página Web www.apa.org. Oprima el botón del mouse en la palabra “Students”. En “Topics”, oprima sobre Testing. Explore la página de Testing and Assessment seleccionando los distintos temas resaltados. CAPÍTULO DOS DISEÑO Y ELABORACIÓN DE TESTS La cantidad de esfuerzo invertido en la elaboración de un test psicológico o educativo varía con el tipo de prueba y con los propósitos para los cuales se crea. Es probable que la mayoría de los maestros dedique relativamente poco tiempo a preparar pruebas de ensayo o de respuesta corta para evaluar el progreso de sus alumnos en una unidad de enseñanza. Por otro lado, las pruebas de habilidad y de personalidad diseñadas por especialistas en evaluación psicológica por lo general requieren del esfuerzo de muchos individuos que trabajan por periodos prolongados. Los procedimientos empleados en la elaboración de una prueba también varían con el tipo de ésta y los propósitos de los usuarios. Preparar un inventario de lápiz y papel, de intereses o de características de la personalidad, implica problemas diferentes a los de construir una prueba de aprovechamiento o de aptitud. De igual modo, los complejos procedimientos seguidos por los diseñadores profesionales de pruebas son poco familiares para la mayoría de los maestros. Cualquiera que sea el tipo de prueba o las metas de los usuarios, se necesita cierto grado de planeación del contenido antes de escribir los reactivos que contendrá el instrumento. La planeación de la prueba deberá incluir definiciones claras de las variables o constructos que van a medirse, descripciones de las personas que van a ser examinadas, las condiciones bajo las cuales se administrará la prueba, e información concerniente a la calificación, interpretación de las puntuaciones y uso que se dará a los resultados. PLANEACIÓN DE UN TEST La elaboración de un test requiere la consideración cuidadosa de sus propósitos específicos. Las pruebas cumplen muchas funciones diferentes, y su proceso de elaboración varía en cierto grado de acuerdo con el propósito que se pretenda lograr. Por ejemplo, se siguen procedimientos diferentes al elaborar pruebas de aprovechamiento, de inteligencia, de aptitud especial o un inventario de personalidad. Sin embargo, de manera ideal, la elaboración de una prueba u otro instrumento psicométrico empieza con la definición de las variables o constructos que van a medirse y con el esbozo del contenido propuesto. Pruebas de observación La elaboración de una prueba de aptitud para observar a solicitantes de un trabajo particular comienza con un análisis detallado de las actividades que componen ese trabajo. Un análisis de tareas, o análisis de trabajo, consiste en especificar los componentes del trabajo de modo que puedan construirse las situaciones de prueba o reactivos más adecuados para predecir el desempeño del empleado. Esas especificaciones pueden incluir incidentes cruciales, conductas que son decisivas para el desempeño exitoso o fallido, así como otra información que describa las actividades del trabajo. Dado que la descripción de un trabajo particular por lo general es larga y requiere de- 18 PLANEACIÓN DE UN TEST 19 dicación, la prueba final no medirá todos los aspectos del desempeño del empleado. Tratará sólo con una muestra de los comportamientos más importantes relacionados con el trabajo en cuestión, muestra que en el mejor de los casos debe ser representativa de todas las tareas a realizar. Pruebas de inteligencia En el capítulo 7 se describen con detalle los procedimientos empleados por los diseñadores de pruebas de inteligencia, por lo que aquí sólo se hará una breve descripción. Como en la elaboración de cualquier otra prueba, se reúne un conjunto de reactivos que supuestamente miden algún aspecto del constructo “inteligencia”. Esos reactivos pueden ser elaborados de acuerdo con una teoría específica de la conducta inteligente o haciendo referencia sólo a los tipos de tareas que la gente muy inteligente puede realizar de manera más efectiva que las personas menos inteligentes. La selección de los reactivos a incluir en la prueba final puede hacerse con base en las relaciones de las respuestas dadas a reactivos con criterios tales como la edad cronológica, así como con las relaciones entre los reactivos de la prueba. Inventarios y escalas de personalidad Al elaborar inventarios de personalidad y escalas de calificación se han empleado varios enfoques, algunos basados en el sentido común , otros en las teorías de personalidad y otros más en procedimientos estadísticos. Como se describe en los capítulos 16 y 17, muchos de los instrumentos de evaluación de la personalidad publicados recientemente han sido elaborados combinando enfoques teóricos, racionales y empíricos. Uno o más de estos enfoques pueden emplearse en diferentes etapas del desarrollo del instrumento. Pruebas de rendimiento Se ha dedicado más atención a los procedimientos usados para elaborar pruebas de rendimiento académico que a los de otras clases de pruebas. Esto es comprensible cuando nos percatamos de que se aplican más pruebas de rendimiento que todos los otros tipos de pruebas combinados. A pesar del uso generalizado de las pruebas de rendimiento, la mayoría de los profesores, quienes supuestamente están familiarizados con su materia de estudio, no dedica tiempo suficiente a la evaluación del progreso de los estudiantes. Con mucha frecuencia los maestros consideran que los exámenes son algo desagradable adjunto a la enseñanza, en lugar de verlos como parte integral y formativa del proceso educativo. Sin embargo, cuando se usan de manera efectiva, los resultados de los exámenes no se limitan a la sola evaluación y motivación de los estudiantes. También proporcionan información a los maestros, al personal administrativo y a los padres, concerniente a la medida en que se han alcanzado los objetivos educativos específicos. Al proporcionar datos sobre la efectividad del currículo escolar y los procedimientos de enseñanza, las puntuaciones de los exámenes pueden contribuir significativamente en la planificación educativa para estudiantes individuales o grupos, incluso para distritos escolares enteros. Preguntas para las personas que planifican los instrumentos Quienes planifican las pruebas de rendimiento de un salón de clases deben empezar por atender con cuidado las siguientes preguntas: 1. ¿Cuáles son los temas y materiales sobre los que se examinará a los estudiantes? 2. ¿Qué tipos de preguntas deben elaborarse? 20 CAPÍTULO DOS Diseño y elaboración de tests 3. ¿Qué formatos o esquemas de reactivos y pruebas deben utilizarse? 4. ¿Cuándo, dónde y cómo debe administrarse la prueba? 5. ¿Cómo debe calificarse y evaluarse la prueba resuelta? Las preguntas 1, 2 y 3 se analizan en este capítulo, las preguntas 4 y 5 en el capítulo 3. Taxonomías de objetivos cognoscitivos Así como elaborar una prueba de observación para usar en la selección de personal requiere un análisis preliminar del trabajo a desempeñar, la preparación de una prueba para medir objetivos instruccionales específicos es más efectiva cuando las conductas que van a evaluarse se definen claramente al inicio. Desde mediados de la década de 1950 se ha prestado mucha atención a los sistemas formales y estándar de clasificación de los objetivos cognoscitivos, afectivos y psicomotrices de la instrucción. En la tabla 2.1 se presentan las principales categorías de cuatro de esas taxonomías de objetivos cognoscitivos. Las seis principales categorías de la primera taxonomía, la Taxonomía de objetivos educativos: el dominio cognoscitivo (Bloom y Krathwohl, 1956), se presentan en orden de la más simple a la más compleja. Esas categorías no son exclusivas, sino más bien progresivamente inTABLA 2.1 Compendio ilustrativo de los objetivos cognoscitivos Bloom y Krathwohl (1956) Conocimiento Comprensión Aplicación Análisis Síntesis Evaluación Educational Testing Service (1965) Memoria Comprensión Pensamiento Ebel (1979) Comprensión de la terminología (o vocabulario) Comprensión del hecho y del principio (o generalización) Habilidad para explicar o ilustrar (comprensión de relaciones) Habilidad para calcular (problemas numéricos) Habilidad para predecir (qué es probable que suceda bajo condiciones especificadas) Habilidad para recomendar la acción apropiada (o algunas situaciones de problemas prácticos específicos) Habilidad para formular un juicio evaluativo Gerlach y Sullivan (1967) Identificación Nominación Descripción Elaboración Ordenamiento Demostración PLANEACIÓN DE UN TEST 21 clusivas. Por ejemplo, tanto el Conocimiento (categoría I) como la Comprensión (categoría II) son esenciales para la Aplicación (categoría III) y por ende están incluidas en la tercera categoría. En la tabla 2.2 se presenta una descripción de las categorías registradas en esta taxonomía. Otra taxonomía presentada en la tabla 2.1, la propuesta por Gerlach y Sullivan (1967), enfatiza la conducta del examinado en la identificación, nominación, descripción, elaboración, ordenamiento o demostración de algo. La identificación consiste en indicar qué miembro de un conjunto pertenece a una categoría particular. En la nominación debe proporcionarse la etiqueta verbal correcta para un referente o conjunto de referentes. La descripción consiste en reportar categorías relevantes de objetos, eventos, propiedades o relaciones. En la elaboración se crea un producto de acuerdo con ciertas especificaciones. El ordenamiento requiere arreglar en un orden específico dos o más referentes, y la demostración consiste en realizar ciertas acciones para cumplir una tarea especificada. La aplicación de cualquiera de las taxonomías presentadas en la tabla 2.1 debe alentar a la persona que diseña la prueba a ir más allá de los reactivos que miden el reconocimiento simple o la memoria, y a preparar reactivos que midan objetivos educativos de orden superior y demanden reflexión. Los siguientes reactivos, que pueden presentarse en un formato de ensayo o de prueba objetiva, ejemplifican lo anterior: ¿Cuál es la fórmula para calcular el error estándar de medición? (Conocimiento) Examine la siguiente gráfica y determine cuántos reactivos deben agregarse a una prueba de 50 reactivos para aumentar su confiabilidad de .60 a .80. (Comprensión) TABLA 2.2 Categorías de la Taxonomía de objetivos educativos: el dominio cognoscitivo I. Conocimiento implica el recuerdo de hechos específicos. Los verbos de muestra en los reactivos de conocimiento son definir, identificar, mencionar y nombrar. Ejemplo de un reactivo de conocimiento es: “Mencione las seis categorías principales de La taxonomía de objetivos educativos: el dominio cognoscitivo”. II. Comprensión significa entender el significado o propósito de algo. Los verbos de muestra en los reactivos de comprensión son convertir, explicar y resumir. Ejemplo de un reactivo de comprensión es: “Explique lo que quiere decir el revisor de la prueba cuando dice que ésta no es confiable”. III. Aplicación implica utilizar la información y las ideas en situaciones nuevas. Los verbos de muestra en los reactivos de aplicación son calcular, determinar y resolver. Ejemplo de un reactivo de aplicación es: “Calcule la media y la desviación estándar del siguiente grupo de calificaciones”. IV. Análisis es descomponer algo para revelar su estructura y las interrelaciones que hay entre sus partes. Los verbos de muestra en los reactivos de análisis son analizar, diferenciar y relacionar. Ejemplo de un reactivo de análisis es: “Analice esta unidad instruccional en varias categorías conductuales y de contenido”. V. Síntesis es combinar varios elementos o partes en un todo estructural. Los verbos de muestra en los reactivos de síntesis son diseñar, crear, formular y planificar. Ejemplo de un reactivo de síntesis es: “Diseñe una tabla de especificaciones para una prueba de estadística elemental”. VI. Evaluación es formular un juicio basado en el razonamiento. Los verbos de muestra en los reactivos de evaluación son comparar, criticar, evaluar y juzgar. Ejemplo de un reactivo de evaluación es: “Evalúe el procedimiento usado en la estandarización de esta prueba”. Fuente: Tomado de Taxonomy of Educational Objectives: The Classification of Educational Goals: Handbook I: The Cognitive Domain, por Benjamin S. Bloom et al. Copyright © 1956, 1984 por Longman Publishing Group. 22 CAPÍTULO DOS Diseño y elaboración de tests Calcule el error estándar de estimación para una prueba que tiene una correlación de .70 con un criterio que tiene desviación estándar de 10. (Aplicación) Distinga entre una prueba de rendimiento para el salón de clase y una prueba estandarizada de rendimiento en términos de lo que mide cada una y la manera en que se utilizan. (Análisis) Formule una teoría que relacione los intereses con la personalidad y mencione la evidencia de investigación apropiada que la apoya. (Síntesis) Evalúe las críticas concernientes al contenido y los usos del SAT. (Evaluación) Objetivos afectivos y psicomotrices Una función importante de la educación es inculcar en los estudiantes ciertas actitudes, valores y otros estados afectivos. No existe un método que sea completamente satisfactorio para clasificar los objetivos afectivos de la instrucción, pero se ha propuesto toda una serie de sistemas de clasificación. Un ejemplo es la Taxonomía de objetivos educativos: dominio afectivo (Krathwohl, Bloom y Masia, 1964). Las principales categorías de esta taxonomía son: I. Recibir o atender. II. Responder o participar. III. Valorar o creer en el valor de algo. IV. Organizar los valores en un sistema. V. Caracterización mediante un valor o valor complejo. En comparación con su contraparte en el dominio cognoscitivo, esta taxonomía no se ha aplicado con mucha frecuencia. También se han propuesto taxonomías de objetivos educativos en el dominio psicomotriz (por ejemplo, Harrow, 1972; Nixon y Jewett, 1980; Simpson, 1966). Las seis categorías en la Taxonomía del dominio psicomotriz de Harrow, por ejemplo, son: movimientos reflejos, movimientos básicos fundamentales, habilidades perceptuales, habilidades físicas, movimientos hábiles y comunicación no discursiva. Los niveles inferiores de la taxonomía de Nixon y Jewett se interesan en la percepción de los componentes de un movimiento y en los esfuerzos de los examinados por repetirlo o recordarlo después de que se ha demostrado. Los niveles superiores ponen de relieve la creación de movimiento para una situación específica en los deportes, la danza u otras actividades físicas. Al aplicar dicha taxonomía, deben tomarse decisiones con respecto a los pesos numéricos que se asignarán a cada componente del desempeño y a si se harán deducciones por errores, torpezas y falta de pulcritud. Tabla de especificaciones La mayoría de los diseñadores de pruebas no se adhiere rígidamente a una taxonomía formal al especificar los objetivos que van a medirse. No obstante, al planificar una prueba es útil construir una tabla de especificaciones de dos vías. En dicha tabla, los objetivos conductuales que van a evaluarse se presentan en los encabezados de renglón y los objetivos de contenido (temáticos) como encabezados de columna. Luego se escriben en el cuerpo (celdas) de la tabla las descripciones de los reactivos específicos que caen bajo los encabezados apropiados de renglón y columna. Una tabla de especificaciones debe ser razonablemente detallada en términos del conocimiento y las habilidades que se espera demuestren los examinados, pero es importante no enfatizar en exceso un objetivo particular. Por ejemplo, puede ser más sencillo elaborar reactivos que evalúen el conocimiento de términos y hechos que reactivos donde se mida la habilidad de analizar y evaluar, pero en la prueba deben incluirse reactivos de las dos últimas categorías. La tabla 2.3 es una tabla de especificaciones para una unidad sobre preparación, aplicación y análisis de reactivos de pruebas. Advierta que el número total de reactivos que se dedica 23 PLANEACIÓN DE UN TEST a cada tema aparece entre paréntesis debajo del mismo. Una vez que se ha determinado un conjunto de objetivos para un curso o unidad de instrucción y que se ha preparado el bosquejo temático, pueden elaborarse los reactivos de la prueba para medir el grado en que los estudiantes han alcanzado los objetivos mencionados para cada tema. Ciertos tipos de reactivos de prueba son más apropiados que otros para medir la obtención de objetivos específicos. Los reactivos de respuesta corta y de completamiento son adecuados para evaluar el conocimiento de la terminología, pero inadecuados para evaluar habilidades cognoscitivas de orden superior. Por esta razón, la tabla de especificaciones para una prueba debe ser inspeccionada con cuidado antes de decidir qué tipo de reactivos y cuántos de cada uno son apropiados. Al planifiTABLA 2.3 Especificaciones para una prueba sobre preparación y administración de pruebas OBJETIVO CONDUCTUAL CONTENIDO (TEMA) Preparación Elaboración Aplicación Calificación Análisis de reactivos Análisis de trabajo; incidentes críticos; muestra representativa (3 reactivos) Reactivo de aparejamiento; colectivo en espiral; grupo de respuestas (5 reactivos) Rapport; efecto de halo (2 reactivos) Clave de lista; calificación compuesta; calificación con máquina (3 reactivos) Criterio; consistencia interna; homogeneidad de la prueba (3 reactivos) Categorías en la Taxonomía de objetivos educativos (2 reactivos) Ventajas y desventajas de los reactivos de ensayo y de los reactivos objetivos (4 reactivos) Factores que afectan el desempeño en la prueba (3 reactivos) Reglas para calificar pruebas de ensayo y pruebas objetivas (3 reactivos) Métodos para determinar la validez de los reactivos; propósitos del análisis de reactivos (3 reactivos) 0 reactivos 0 reactivos Comprensión Explicación de los propósitos de hacer plan de prueba (2 reactivos) Efectos de la ponderación de los reactivos sobre la calificación total (1 reactivo) Explicación de la relación entre p y D (1 reactivo) Aplicación Especificaciones para una unidad sobre examinación (1 reactivo) Ejemplos de reactivos de opción múltiple para medir comprensión, aplicación, análisis, síntesis y evaluación (4 reactivos) Instrucciones para una prueba (2 reactivos) Corrección para la adivinación; ponderación de confianza; uso del nomograma para calificar los reactivos de reordenamiento (4 reactivos) Cálculo de los índices de dificultad y discriminación; distribución de las respuestas a los distractores (4 reactivos) Total 8 reactivos 13 reactivos 7 reactivos 11 reactivos 11 reactivos Conocimiento de la terminología Conocimiento de hechos específicos 24 CAPÍTULO DOS Diseño y elaboración de tests car una prueba también es necesario considerar cuestiones prácticas como el costo, el tiempo disponible para la administración, la disposición de los reactivos y las condiciones de la prueba. PREPARACIÓN DE LOS REACTIVOS DEL TEST La meta principal de la planificación de la prueba es la preparación de un bosquejo detallado, como una tabla de especificaciones, que sirva como guía al elaborar los reactivos con los que se van a evaluar o predecir ciertos objetivos. Una vez preparada dicha tabla o el bosquejo detallado del contenido de la prueba, el siguiente paso es elaborar los reactivos. Por lo general, es recomendable que, en las pruebas objetivas, inicialmente se prepare alrededor de 20% más de reactivos de los que en realidad se necesiten, de modo que se disponga de una cantidad adecuada de buenos reactivos para la versión final de la prueba. Las organizaciones comerciales de tests, como el Educational Testing Service, emplean como elaboradores de reactivos a personas que poseen un conocimiento profundo de la materia de la prueba y destreza suficiente para la creación de reactivos. Cualquier persona que desee aprender cómo elaborar buenos reactivos puede beneficiarse al inspeccionar una muestra de reactivos de las pruebas publicadas, ya que éstos se encuentran entre los mejores disponibles. Todos los reactivos representan procedimientos para obtener información acerca de los individuos, pero la cantidad y los tipos de información varían con la naturaleza de las tareas planteadas por diferentes tipos de reactivos. Pedir a los examinados que comparen la Batalla de Bulge con la Batalla de Hastings requiere un tipo de respuesta diferente a la que se obtiene cuando se les pide señalar, de entre una serie de acontecimientos, los que ocurrieron en cada batalla. En el primer reactivo se requieren habilidades de organización e integración complejas, mientras que sólo se necesita memoria de reconocimiento para responder al segundo. Se han sugerido varios métodos para clasificar los reactivos de acuerdo con el formato o la forma de la respuesta requerida. Completamiento o llenado contra selección, recuerdo contra reconocimiento, y construcción de respuesta contra identificación son formas de diferenciar entre los reactivos donde se pide a los examinados que escriban o construyan una respuesta y aquellos en que se les pide señalar cuál de varias alternativas es correcta. Otro método popular de clasificación de reactivos es ensayo contra objetivo, de los cuales se presentan ejemplos en la tabla 2.4. Todos los reactivos de ensayo son del tipo de completamiento o llenado, donde la respuesta del examinado se construye en lugar de ser meramente identificada. Un reactivo objetivo puede ser del tipo de completamiento o llenado, o de selección, dependiendo de si se pide que los examinados construyan una respuesta o seleccionen la mejor respuesta de entre una lista de alternativas. El rasgo crucial de los reactivos objetivos no es la forma de la respuesta, sino la objetividad con la que pueden calificarse. Dos o más calificadores de un reactivo de ensayo pueden estar en desacuerdo en si una respuesta dada es correcta y en cuántos puntos debería recibir. Sin embargo, salvo que ocurran errores administrativos, los diferentes calificadores de una prueba objetiva asignarán la misma calificación a una determinada prueba. Reactivos de ensayo La ventaja principal de los reactivos de ensayo es que pueden medir la habilidad personal para organizar, relacionar y comunicar, conductas que no son fáciles de evaluar con los reactivos objetivos. Las pruebas de ensayo tienen las ventajas de que requieren menos tiempo para su elaboración y reducen la probabilidad de que los examinados respondan en forma correcta a los reactivos por PREPARACIÓN DE LOS REACTIVOS DEL TEST TABLA 2.4 25 Ejemplos de varios tipos de reactivos de test I. Reactivos de ensayo Instrucciones: Escriba una respuesta de media página para cada uno de los siguientes reactivos. 1. Compare las ventajas y desventajas de los reactivos de ensayo y los reactivos objetivos. 2. Explique las razones para realizar un análisis de reactivos en una prueba para el salón de clases. II. Reactivos objetivos A. Respuesta corta Instrucciones: Escriba la(s) palabra(s) apropiada(s) en cada espacio. 1. La única cosa que es objetiva acerca de una prueba objetiva es ______________________ . 2. ¿Cuál es el primer paso formal en la elaboración de una prueba para predecir el desempeño laboral?_________________________________________________________________ ___________________________________________________________________. B. Verdadero-falso Instrucciones: Encierre V en un círculo si la afirmación es verdadera; encierre F en un círculo si la afirmación es falsa. V F 1. El sistema de clasificación de pruebas más global es el de The Mental Measurements Yearbooks. V F 2. El grupo de respuesta de deseabilidad social es la tendencia a dar una calificación alta a un examinado en un rasgo sólo porque obtuvo una calificación alta en otro rasgo. C. Aparejamiento Instrucciones: Escriba la letra correspondiente al nombre correcto, de la lista que aparece en la segunda columna, en el espacio apropiado de la línea al margen de la primera columna. ______ 1. prueba colectiva de inteligencia A. Binet ______ 2. prueba individual de inteligencia B. Darwin C. Galton ______ 3. inventario de intereses ______ 4. inventario de personalidad D. Otis E. Pearson ______ 5. correlación producto-momento ______ 6. pruebas sensoriomotrices F. Rorschach G. Spearman H. Strong I. Woodworth D. Opción múltiple Instrucciones: Escriba la letra de la opción correcta en el espacio del margen al lado del reactivo. ______ 1. Los adverbios como nunca, en ocasiones y siempre, que revelan la respuesta a un examinado que no tiene información sobre la materia del reactivo, se llaman a. generalidades brillantes b. adverbios de enlace c. grupos de respuesta d. determinantes específicos ______ 2. Jimmy, quien tiene 8 años 4 meses de edad, obtiene una calificación de edad mental de 9 años 5 meses. ¿Cuál es su razón CI en la prueba? a. 88 b. 90 c. 113 d. 120 26 CAPÍTULO DOS Diseño y elaboración de tests simple adivinación. Sin embargo, las preguntas de ensayo pueden ser tan generales que se interpreten de manera muy diferente por distintas personas. Además, el número de preguntas de ensayo que pueden ser respondidas con respuestas de media página en una clase típica de 50 minutos (aproximadamente seis) puede ser insuficiente para determinar el conocimiento que tiene una persona de la materia de la prueba. No deberíamos esperar que las respuestas fueran tan inclusivas o detalladas como las requeridas por los reactivos del cuadro 2.1, pero podrían alcanzar cierta comprensión relativamente profunda del material. Otras desventajas de las pruebas de ensayo es que son susceptibles al engaño por parte de individuos con facilidad de palabra que no cuentan con información; además, su calificación es subjetiva y toma mucho tiempo. Un profesor de historia informó haber aplicado una prueba de ensayo que incluía la pregunta: “¿Cuáles fueron las causas y las consecuencias de la Batalla de Hastings?” Y un estudiante apático, cuya preparación sobre la historia de Inglaterra no incluía los acontecimientos anteriores al siglo XIV, empezó a responder la pregunta con la afirmación: “No puedo comentar sobre la Batalla de Hastings, pero dirijamos nuestra atención hacia la Guerra de los Cien Años”. Éste es un ejemplo bastante ostensible de la tendencia que los examinados no informados tienen a responder una pregunta ligeramente diferente de la que fue planteada para enfatizar lo que saben, en lugar de lo que no saben. Una manera de enfrentar este problema, aunque laborioso para los que presentan la prueba y para los que la califican, es el famoso procedimiento chino que consiste en hacer que los estudiantes escriban todo lo que saben del tema. Es posible que lo medido por esa prueba sea la susceptibilidad a la fatiga más que el conocimiento general. Como regla, no deberán usarse reactivos de ensayo cuando el mismo conocimiento o habilidad puedan ser evaluados con reactivos objetivos. Si se plantean preguntas de ensayo, la persona que redacta los reactivos debe tratar de hacer las preguntas de manera tan objetiva como sea CUADRO 2.1 ¿UN EXAMEN FINAL GLOBAL PARA LOS ALUMNOS UNIVERSITARIOS DEL ÚLTIMO AÑO? 1. Describa la historia del pontificado desde sus orígenes hasta el presente, concentrándose especialmente, pero no de manera exclusiva, en su impacto social, político, económico, religioso y filosófico en Europa, Asia, África y América. 2. Con base en el conocimiento que tenga usted de sus obras, evalúe la estabilidad emocional, el grado de ajuste y las frustraciones reprimidas de Alejandro de Afrodisias, Ramsés II, Gregorio de Nicea y Hammurabi. Apoye sus respuestas con citas del trabajo de cada uno de estos hombres, mencionando las referencias apropiadas. 3. Desarrolle un plan realista para reducir la deuda nacional. Identifique los efectos de su plan sobre el cubismo, la controversia donatista y la teoría de las ondas de la luz. Bosqueje un método para prevenir esos efectos. Critique este método desde todos los puntos de vista posibles. Señale las deficiencias en su punto de vista, según lo demuestra su respuesta a la pregunta anterior. 4. Bosqueje el desarrollo del pensamiento humano. Estime su relevancia y compárelo con el desarrollo de cualquier otra clase de pensamiento —animal o alienígena. 5. Suponga que 2 500 aborígenes amotinados y enloquecidos están asaltando el aula. ¿Cómo los calmaría usted? Puede usar cualquier idioma antiguo excepto el latín o el griego y cualquier técnica no verbal diferente a la violencia. 6. Tome una posición a favor o en contra de la lógica y la verdad. ¿Cómo probaría la validez de su posición sin involucrar a nadie más o sin poner en peligro su propia salud? PREPARACIÓN DE LOS REACTIVOS DEL TEST 27 posible. Esto puede lograrse al (1) definir la tarea y redactar los reactivos de manera clara, por ejemplo, pedir a los examinados que comparen y expliquen en lugar de que discutan; (2) usar un número pequeño de reactivos que deberán responder todos los examinados; (3) estructurar los reactivos de forma que los expertos en la materia estén de acuerdo en que puede demostrarse que una respuesta es mejor que otra, y (4) hacer que los examinados respondan a cada reactivo en una hoja por separado. Reactivos de respuesta corta, de verdadero y falso y de aparejamiento Los reactivos objetivos no se limitan a los cuatro tradicionales (respuesta corta o completamiento, verdadero y falso, aparejamiento y opción múltiple), pero éstos son los más populares. Entre las ventajas atribuidas a las pruebas objetivas está el que pueden calificarse de manera fácil e imparcial y que, como se requiere menos tiempo para responder a cada reactivo, puede hacerse un muestreo más amplio del contenido que en las pruebas de ensayo. Al preparar las pruebas objetivas debe tenerse cuidado de lograr que los reactivos resulten claros, precisos y gramaticalmente correctos. Deben escribirse en un lenguaje adecuado para el nivel de lectura de las personas a las que se dirigen. Debe incluirse en el reactivo toda la información y los requerimientos necesarios para seleccionar una respuesta razonable, omitiendo las palabras y frases no funcionales o estereotipadas. Resulta tentador elaborar reactivos objetivos mediante la copia literal de afirmaciones de un texto o de otras fuentes, pero esta práctica sólo enfatiza la memoria. Las personas que redactan reactivos también deben tener cuidado de no incluir claves para las respuestas correctas y evitar los reactivos interrelacionados o entrelazados. Dos reactivos están interrelacionados cuando el planteamiento de uno proporciona una señal para la respuesta del otro. Dos reactivos están entrelazados cuando es necesario conocer la respuesta a uno de ellos para llegar a la respuesta correcta del otro. Reactivos de respuesta corta. Un reactivo de respuesta corta o de completamiento plantea una tarea tipo fuente, en la cual se requiere que los examinados completen o llenen uno o más espacios en blanco de una afirmación incompleta con las palabras o frases correctas, o que den una respuesta breve a una pregunta. En términos de la longitud de la respuesta elaborada, los reactivos de respuesta corta caen entre los reactivos de ensayo y los de reconocimiento. Los reactivos de respuesta corta se encuentran entre los más sencillos de elaborar, y requieren que los examinados proporcionen la respuesta correcta en lugar de simplemente reconocerla. Aunque son especialmente útiles para evaluar el conocimiento de la terminología, los reactivos de respuesta corta tienen serias limitaciones: son inapropiados para medir objetivos instruccionales complejos y, debido a que puede haber más de una respuesta correcta, la calificación no siempre es por completo objetiva.1 Al elaborar reactivos de respuesta corta deberán seguirse las siguientes directrices: 1. Las preguntas directas son preferibles a las afirmaciones incompletas. 2. Plantee los reactivos de forma que las respuestas sean breves y no ambiguas. 3. Si se utiliza una afirmación incompleta, coloque el espacio en blanco al final de la afirmación. 1Un tipo de reactivo de completamiento diseñado para evaluar la habilidad de lectura es la técnica cloze. En este proce- dimiento se instruye a los individuos para que reemplacen las palabras faltantes que han sido borradas al azar en determinados párrafos. Una medida de la habilidad de lectura del individuo es el grado en que puede llenar correctamente los espacios en blanco y dar así sentido a los pasajes. 28 CAPÍTULO DOS Diseño y elaboración de tests 4. Haga que todos los espacios en blanco sean de la misma extensión. 5. Evite usar múltiples espacios en blanco en el mismo reactivo, en especial si tornan poco claro el significado de la tarea. 6. Indique las unidades en que deben expresarse las respuestas numéricas. Reactivos de verdadero y falso. Uno de los tipos de reactivos que es más sencillo de elaborar, pero probablemente el más criticado por los examinadores profesionales, es el de verdadero y falso. Los reactivos de verdadero y falso pueden escribirse y leerse con rapidez y, por ende, permiten un muestreo amplio del contenido de la materia. Un defecto notorio de los reactivos de verdadero y falso es que a menudo se interesan en información trivial o se elaboran copiando afirmaciones literales de un texto. En consecuencia, se dice que alientan la memorización y así encaminan mal los esfuerzos por aprender. Otra crítica a estos reactivos es que a menudo son ambiguos y no pueden usarse para medir objetivos instruccionales más complejos. Además, debido a que la calificación total en una prueba de este tipo puede ser afectada por la tendencia del examinado a adivinar cuando tiene dudas o a estar de acuerdo (o en desacuerdo), la precisión de la calificación puede ser cuestionable.2 En promedio, los examinados obtendrán un 50% de aciertos en los reactivos de verdadero y falso simplemente por adivinar. Las calificaciones pueden ser infladas todavía más cuando los reactivos contienen determinantes específicos —palabras como todos, siempre, nunca y sólo—, los cuales indican que la afirmación probablemente es falsa, o palabras como a menudo, en ocasiones y usualmente, sugerentes de que la afirmación es verdadera. A pesar de esos defectos, los reactivos de verdadero y falso no tienen que ser triviales o ambiguos o encaminar mal el aprendizaje. En defensa de los reactivos de verdadero y falso, Ebel (1979) afirma que el grado de dominio que tienen los estudiantes en un área particular del conocimiento es indicado por su éxito al juzgar la veracidad o falsedad de proposiciones relacionadas con él (p. 112). Él ha considerado que tales proposiciones son expresiones del conocimiento verbal, que es la esencia del logro educativo. La defensa que hizo Ebel de los reactivos de verdadero y falso puede ser cuestionada, pero no se cuestiona el hecho de que estos reactivos, bien diseñados, pueden medir más que la simple memoria. Por ejemplo, al incluir dos conceptos, condiciones o eventos en un reactivo de verdadero y falso, el examinador puede preguntar si es verdad que tienen una relación de moderada a fuerte (Diekhoff, 1984). Otras posibilidades son preguntar si (1) un concepto, condición o evento implica o es una consecuencia de otro evento; (2) un concepto, condición o evento es un subconjunto, ejemplo o categoría de otro evento, (3) ambos conceptos, condiciones o eventos son verdaderos. Dichos reactivos pueden medir la comprensión así como el conocimiento significativo de conceptos y eventos. Cualesquiera que sean los objetivos de una prueba de verdadero y falso, al elaborar reactivos de este tipo es recomendable atender las siguientes sugerencias: 1. Asegúrese de que las afirmaciones planteen asuntos importantes (no triviales). 2. Establezca afirmaciones relativamente cortas, y verdaderas o falsas sin lugar a dudas. 3. Evite los reactivos planteados de manera negativa, especialmente los que contienen doble negación. 4. Evite los reactivos ambiguos y capciosos. 2La tendencia a estar de acuerdo cuando se tiene duda (o conformidad) es un grupo de respuesta. Los grupos de respues- tas son las tendencias por parte de los examinados a responder a los reactivos de una prueba de acuerdo con su forma, es decir, a la manera en que están planteados, en lugar de hacerlo con base en su contenido. PREPARACIÓN DE LOS REACTIVOS DEL TEST 29 5. Como regla, evite los determinantes específicos. Si se usan determinantes específicos para hacer que se equivoquen las personas sin conocimientos, pero hábiles para presentar pruebas, deben incluirse en las afirmaciones verdaderas tan a menudo como en las falsas. 6. En las afirmaciones de opinión, cite la fuente. 7. Haga que las afirmaciones verdaderas y las falsas sean aproximadamente de la misma longitud, y que el número de afirmaciones verdaderas sea aproximadamente igual al de las falsas. Puede argumentarse que, dado que los reactivos falsos tienden a discriminar más que los reactivos verdaderos, el número de afirmaciones falsas debería ser mayor que el de afirmaciones verdaderas. Sin embargo, si el maestro sigue esta práctica en pruebas sucesivas, los estudiantes pueden darse cuenta de ello y comenzar a responder “falso” cuando tengan duda acerca de la respuesta. 8. Asegúrese de que las respuestas erróneas sean más atractivas planteando los reactivos de tal manera que la lógica superficial, los errores populares o los determinantes específicos sugieran que las respuestas erróneas son correctas. Las afirmaciones falsas que parecen verdaderas también pueden hacer que se equivoquen los examinados sin conocimientos. Reactivos de aparejamiento. Tanto los reactivos de verdadero y falso como los de opción múltiple son, en cierto sentido, variedades de los reactivos de aparejamiento. En estos tres tipos de reactivos, un conjunto de opciones de respuesta se equipara con un conjunto de opciones de estímulo (premisas). La distinción es que los reactivos de verdadero y falso y los de opción múltiple tienen sólo una premisa (el tronco del reactivo) y dos o más opciones de respuesta, mientras que los reactivos de aparejamiento tienen múltiples premisas y múltiples opciones de respuesta. La tarea del examinado en un reactivo de aparejamiento es acoplar las opciones de respuesta con la premisa correcta. El aparejamiento usualmente es de uno a uno (una respuesta por premisa), pero también puede ser de una respuesta a varias premisas, de varias respuestas a una premisa, o de varias respuestas a varias premisas. Por supuesto, debe informarse a los examinados cuál de esos procedimientos se aplica en un reactivo particular. Los reactivos de aparejamiento son más sencillos de elaborar y cubren el material de manera más eficiente que muchos otros tipos de reactivos; por desgracia, usualmente sólo miden la memorización de acontecimientos.3 Además, la necesidad de hacer que las opciones sean homogéneas (que todas las opciones de respuesta sean del mismo tipo, como fechas, lugares o nombres) limita el tipo de material que puede adaptarse a un marco de aparejamiento. A continuación se presentan algunos lineamientos para elaborar reactivos de aparejamiento: 1. Ordene la premisa y las opciones de respuesta en un formato claro y lógico de columnas, con las premisas en la columna izquierda y las opciones de respuesta en la columna derecha. 2. Use entre seis y quince premisas, con dos o tres opciones de respuesta más que premisas. 3. Numere las premisas de manera sucesiva, y coloque letras (a, b, c, etc.) antes de las opciones de respuesta. 4. Especifique con claridad las bases para realizar el aparejamiento. 5. Coloque todo el reactivo en una sola página. Un tipo especial de reactivo de aparejamiento es el reactivo de reordenamiento, en el cual se requiere que los examinados clasifiquen un número fijo de categorías predeterminadas. En un 3Al menos un estudio encontró que los reactivos de aparejamiento pueden diseñarse para ser iguales o incluso superiores a los de opción múltiple como medidas tanto del dominio del contenido de interés como de las actitudes de las personas que presentan la prueba (Shaha, 1984). 30 CAPÍTULO DOS Diseño y elaboración de tests tipo particular de reordenamiento conocido como reactivo de rango, los individuos reordenan un conjunto de opciones en orden de la primera a la última (o de la más alta a la más baja). Reactivos de opción múltiple No se sabe quién elaboró el primer reactivo de opción múltiple para una prueba, pero desde el punto de vista de la evaluación psicológica fue algo fortuito.4 Los reactivos de opción múltiple son los más versátiles de todos los reactivos objetivos, ya que pueden usarse para medir logros de aprendizaje simples y complejos en todos los niveles y en todas las áreas temáticas. Aunque los reactivos de respuesta de ensayo demandan mayor habilidad de organización que la selección de respuestas a los reactivos de opción múltiple, responder de manera correcta a un reactivo de opción múltiple bien preparado requiere buena habilidad para discriminar y no sólo capacidad para reconocer o recordar la respuesta correcta. Las calificaciones en los reactivos de opción múltiple también son menos afectadas por la adivinación y por otros grupos de respuesta que las calificaciones en otros reactivos objetivos. Además, puede obtenerse información de diagnóstico útil a partir de un análisis de las opciones incorrectas (distractores) seleccionadas por los examinados. Entre los defectos de los reactivos de opción múltiple están que (1) los buenos son difíciles de elaborar, en especial aquellos en los que todas las opciones resulten igualmente atractivas para los examinados que no conocen la respuesta correcta; (2) enfatizan el reconocimiento más que el recuerdo y la organización de la información, y (3) requieren más tiempo para la respuesta y pueden muestrear el dominio temático de manera menos adecuada que los reactivos de verdadero y falso. También se ha argumentado, pero no demostrado, que las pruebas de opción múltiple favorecen a los lectores sagaces, hábiles y rápidos, y penalizan a los personas más reflexivas y que piensan con más profundidad (Hoffman, 1962). En el cuadro 2.2 se presentan lineamientos para facilitar la elaboración de reactivos de opción múltiple de alta calidad. Tales lineamientos son sobre todo producto de la lógica y de la experiencia, más que de la investigación, y su seguimiento no garantiza la elaboración de buenas pruebas de opción múltiple. La elaboración de buenos reactivos depende mucho o más que del conocimiento de la materia de la prueba, de la comprensión de lo que los estudiantes deberían saber y de lo que es poco probable que sepan acerca de la materia, y del arte o habilidad de plantear preguntas. Incluso cuando los lineamientos no se siguen con precisión, los reactivos de opción múltiple tienden a ser bastante sólidos en su capacidad para medir el conocimiento y la comprensión. Elaboración de distractores. Un factor crucial en la determinación de la efectividad de los reactivos de opción múltiple es la selección o elaboración de los elementos distractores (las opciones incorrectas). Para la selección de reactivos puede emplearse una aproximación racional o una empírica. El enfoque racional demanda a la persona que elabora la prueba formular juicios personales concernientes a qué distractores son apropiados. En contraste, el enfoque empírico consiste en seleccionar distractores de entre las respuestas incorrectas más populares a los troncos de los reactivos aplicados en afirmaciones abiertas-cerradas. No hay consenso acerca de qué método da lugar a los mejores distractores, pero el juicio del examinador parece ser al menos tan efectivo como la aproximación empírica (Hanna y Johnson, 1978; Owens, Hanna y Coppedge, 1970). 4Se acredita a Arthur Otis haber sido pionero en el uso del formato de reactivo de opción múltiple en las pruebas colec- tivas de inteligencia. Los primeros instrumentos publicados que emplearon este formato fueron las Pruebas autoaplicables de Otis de habilidad mental (1916-1917). PREPARACIÓN DE LOS REACTIVOS DEL TEST 31 CUADRO 2.2 LINEAMIENTOS PARA ELABORAR REACTIVOS DE OPCIÓN MÚLTIPLE 1. Debe utilizarse como tronco una pregunta o una afirmación incompleta, pero se prefiere el formato de pregunta. Si el tronco es una afirmación incompleta, coloque el espacio en blanco al final de la afirmación. 2. Establezca claramente el problema específico de la pregunta o afirmación incompleta en el tronco y a un nivel de lectura apropiado para los examinados, pero evite tomar preguntas o afirmaciones literales de los textos. 3. Coloque la mayor parte del reactivo en el tronco. Es ineficiente repetir las mismas palabras en cada opción y a los examinados les resulta menos difícil revisar las opciones más cortas. 4. Emplee preguntas de opinión con moderación; cuando las utilice, cite la fuente de la opinión. 5. Cuatro o cinco opciones son típicas, pero también pueden escribirse buenos reactivos que tengan sólo dos o tres opciones. Con los estudiantes de los primeros grados, tres opciones son preferibles a cuatro o cinco. Haladyna y Downing (1993) concluyeron que tres opciones pueden ser adecuadas para la mayor parte de las pruebas de habilidad y rendimiento. 6. Si las opciones tienen un orden natural, como fechas o edades, es aconsejable disponerlas en ese orden. De otro modo, ordénelas aleatoria o alfabéticamente (siempre que la alfabetización no proporcione señales para la respuesta correcta). 7. Haga que todas las opciones sean aproximadamente de la misma extensión, que sean gramaticalmente correctas y apropiadas en relación con el tronco. Sin embargo, no deje que el tronco revele la opción correcta por medio de asociaciones verbales u otras señales. 8. Haga que todas las opciones sean plausibles para los examinados que no conocen la respuesta correcta, pero haga que sólo una opción sea la correcta o “la mejor”. Los errores populares o las afirmaciones que sólo son parcialmente correctas son buenos distractores. 9. Al elaborar cada distractor, plantee una razón por la cual los examinados que no conocen la respuesta correcta podrían seleccionarlo. 10. Evite, o al menos minimice, el uso de expresiones negativas como “no” en el tronco o las opciones. 11. Aunque cierta cantidad de novedad e incluso de humor es apropiada y puede servir para interesar y motivar a los examinados, no deben usarse reactivos y opciones ambiguos o capciosos. 12. Use con moderación las expresiones: ninguno de los anteriores, todos los anteriores, o más de uno de los anteriores. Además, evite el uso de determinantes específicos como: siempre o nunca. 13. Coloque las opciones en un formato apilado (párrafo) en lugar de hacerlo en tándem (una tras otra); use números para designar los reactivos y letras para las opciones. 14. Prepare el número correcto de reactivos para el grado o nivel de edad que se pondrá a prueba, haciendo que cada reactivo sea independiente de otros reactivos (que no se entrelacen o se interrelacionen). 15. Haga que los niveles de dificultad sean tales que el porcentaje de examinados que responden a un reactivo de manera correcta esté aproximadamente a la mitad entre el porcentaje de azar (adivinación aleatoria) y el 100 por ciento: % correcto = 50(k + 1)/k, donde k es el número de distractores por reactivo. Elaboración de reactivos complejos. Los diseñadores de pruebas por lo general tienen más dificultad para elaborar reactivos que midan la comprensión y el pensamiento que los que miden el conocimiento directo de la materia. Se han propuesto varias formas de redactar reactivos objetivos que evalúen objetivos instruccionales más complejos. Opciones como: todas las anteriores, ninguna de las anteriores, dos de las anteriores y todas salvo una de las anteriores, pueden tornar más difícil la elección de un examinado. Dicha elección también puede complicarse haciendo que todas las opciones sean correctas (o incorrectas) y pidiendo a los examinados que seleccionen la mejor o la más apropiada para cada reactivo. Otras maneras de hacer más difícil la decisión de un 32 CAPÍTULO DOS Diseño y elaboración de tests examinado son: (1) incluir reactivos de respuesta múltiple en los cuales números variables de opciones sean correctos y el examinado deba indicar qué opciones (si las hay) son correctas o incorrectas; (2) hacer que los examinados seleccionen una respuesta y la mejoren o escriban una breve justificación de la misma, y (3) pedir a los examinados que identifiquen el planteamiento correcto (como una ecuación o método de solución) en tareas de resolución de problemas. En el cuadro 2.3 se ilustran otros procedimientos para incrementar la complejidad de los reactivos de opción múltiple. Todas esas técnicas están diseñadas para hacer que la selección de la opción correcta sea un proceso reflexivo y analítico, en el cual se pongan en práctica varias capacidades cognoscitivas en lugar de sólo la memoria. Por último, el uso de un formato de conjunto de problemas, en el cual dos o más reactivos de opción múltiple se relacionan con la misma ilustración, gráfica, pasaje o escenario, se ha vuelto popular en los exámenes de acreditación o certificación (Hambleton, 1996). Uso de computadoras en la elaboración de pruebas Las aplicaciones más comunes de las computadoras en la elaboración de pruebas consisten en programas de procesamiento de textos para ayudar en la mecanografía de los reactivos, la formación, la revisión de errores de ortografía y de sintaxis, etc. La elaboración de pruebas es facilitada aún más por una combinación del procesador de textos y programas de gráficos que apoyan la preparación de pruebas compuestas por palabras e ilustraciones. Esos programas contienen bancos de reactivos a los cuales se puede tener acceso ingresando ciertas palabras clave que indican el contenido y las características psicométricas deseadas en la prueba. Los bancos de reactivos, de los que pueden seleccionarse y recuperarse los reactivos al diseñar las pruebas, están disponibles con los editores de libros de texto como complementos para determinadas obras. Los redactores de reactivos de prueba basados en la computadora, algoritmos de especificación de dominio para generar reactivos de prueba, y enfoques basados en la lingüística o el aprendizaje de conceptos para la redacción de reactivos, pueden proporcionar procedimientos más eficientes y precisos para la elaboración de reactivos de prueba (Herman, 1994). En la actualidad la preparación de buenos reactivos de prueba es tanto un arte como una ciencia. FORMACIÓN Y REPRODUCCIÓN DE UN TEST Una vez que se han preparado los reactivos para una prueba, es aconsejable hacer que los revisen y editen personas conocedoras. Incluso los esfuerzos más concienzudos no necesariamente producen una buena prueba, y un amigo o asociado con frecuencia puede detectar errores y hacer sugerencias valiosas para mejorar los reactivos. Suponiendo que el diseñador de la prueba ha elaborado un número suficiente de reactivos satisfactorios, antes de formar una prueba deben tomarse decisiones finales concernientes a varios asuntos: 1. ¿Es la longitud de la prueba es apropiada para los límites de tiempo? 2. ¿Cómo deberán agruparse u ordenarse los reactivos en las páginas del cuadernillo de la prueba? 3. ¿Deben marcarse las respuestas en el cuadernillo de la prueba o se utilizará una hoja especial de respuestas? 4. ¿Cómo se reproducirán el cuadernillo de la prueba y la hoja de respuestas? 5. ¿Qué información debe incluirse en las instrucciones de la prueba? 33 FORMACIÓN Y REPRODUCCIÓN DE UN TEST CUADRO 2.3 ALGUNAS FORMAS COMPLEJAS DE REACTIVOS DE OPCIÓN MÚLTIPLE 1. Clasificación. El examinado clasifica a una persona, objeto o condición en una de varias categorías diseñadas en el tronco. Jean Piaget se caracteriza mejor como un psicólogo a. clínico c. psicómetra b. del desarrollo d. social . 2. Condiciones si-entonces. El examinado debe determinar la consecuencia correcta de una o más condiciones presentes. Si la varianza verdadera de una prueba se incrementa, pero la varianza de error permanece constante, ¿cuál de las siguientes situaciones ocurrirá? a. la confiabilidad aumentará c. la varianza observada disminuirá b. la confiabilidad disminuirá d. ni la confiabilidad ni la varianza observada cambiarán 3. Condiciones múltiples. El examinado utiliza las condiciones o afirmaciones presentadas en el tronco para derivar una conclusión. Si la media de una prueba es 59 y su desviación estándar es 2, ¿cuál es la calificación z de María si su calificación cruda en la prueba es 60? a. –2.00 c. .50 b. –.50 d. 2.00 4. Verdadero y falso múltiple. El examinado decide si una, todas o ninguna de las dos o más condiciones o afirmaciones presentadas en el tronco es(son) correcta(s). ¿Es cierto que (1) Alfred Binet fue el padre de las pruebas de inteligencia, y (2) su primera prueba de inteligencia se publicó en 1916? a. ambas 1 y 2 c. 1 no pero 2 sí b. 1 pero no 2 d. ni 1 ni 2 5. Falta de correspondencia. El examinado indica cuál opción no pertenece al mismo grupo que las otras. ¿Cuál de los siguientes nombres no corresponde con los otros? a. Alfred Adler c. Carl Jung b. Sigmund Freud d. Carl Rogers 6. Relaciones y correlatos. El examinado determina la relación entre dos conceptos e indica cuál de ellos (a, b, c, d, etc.) se relaciona con un tercer concepto de la misma manera que los dos primeros conceptos se relacionan entre sí. La media es a la desviación estándar como la mediana es a: a. la desviación promedio c. el rango semiintercuartilar b. el rango inclusivo d. la varianza 34 CAPÍTULO DOS Diseño y elaboración de tests Extensión de la prueba La decisión de cuántos reactivos incluir en una prueba depende de los límites de tiempo, del grado y nivel de lectura de los examinados, y de la extensión y dificultad de los reactivos. Los reactivos cortos y/o los que sólo requieren memorización de acontecimientos pueden responderse en menos tiempo que los más largos, donde son necesarios cálculos laboriosos y/o razonamiento abstracto. La experiencia previa con reactivos del mismo tipo general que los incluidos en una prueba ayudará a determinar si los límites de tiempo son apropiados. En las pruebas de dificultad moderada aplicadas a partir del nivel de las escuelas secundarias, una buena regla empírica es conceder un minuto por cada reactivo de opción múltiple o de respuesta corta y un minuto por cada dos reactivos de verdadero y falso. De este modo, una prueba de 50 reactivos de opción múltiple o de respuesta corta y una de 100 reactivos de verdadero y falso suelen ser apropiadas para un periodo de clase típico de 50 minutos en el nivel de secundaria. Cinco o seis preguntas de ensayo que requieren respuestas de media página pueden ser respondidas en este mismo periodo. A menos que los reactivos sean muy largos o sumamente difíciles, al menos 90% de los estudiantes en un grupo típico de secundaria podrán terminar la prueba en el tiempo asignado. La extensión de la prueba y los límites de tiempo necesitarán ajustarse hacia abajo o hacia arriba cuando se examine a alumnos de escuela primaria o a estudiantes de universidad. Existen, por supuesto, diferencias entre los estudiantes en cuanto al tiempo que requieren para terminar una prueba. Puede esperarse que aquellos con más conocimientos o habilidades en la materia de la prueba terminen primero, pero no siempre sucede así. Los estudiantes menos informados pueden simplemente adivinar o “rendirse” y entregar la prueba antes del tiempo límite cuando se permita hacerlo. Además, los hábitos de presentación de pruebas de los examinados con altas calificaciones pueden llevarlos a revisar los reactivos de la prueba en varias ocasiones para estar seguros de que no pasaron algo por alto o lo interpretaron mal. Ciertos estudiantes, con altas y bajas calificaciones, también habrán escuchado que es más probable que sus respuestas iniciales sean las correctas, y por lo tanto no es buena idea perder tiempo reconsiderando la primera elección. Todos esos factores hacen difícil predecir cuánto tiempo le tomará a un alumno determinado terminar una prueba. Todo depende de una interacción compleja entre la preparación, la personalidad y el estado emocional y físico del estudiante, de la naturaleza y dificultad del material de la prueba, y del ambiente del examen (ruido y otras distracciones, conducta del examinador o supervisor, etcétera). Es probable que quien administre la prueba pueda hacer que el tiempo real dedicado a resolverla sea más uniforme al pedir que los examinados permanezcan en sus asientos después de terminarla, pero aún así puede haber diferencias sustanciales en el tiempo que necesitan los examinados para completar la prueba. Ordenamiento de los reactivos En lo que respecta al ordenamiento de las opciones en los reactivos de opción múltiple, se ha dicho que los examinados muestran preferencias por la posición de las opciones, y cuando no están seguros de la respuesta es más probable que elijan ciertas opciones (digamos b y c) que otras (a y d). Aunque la investigación no ha logrado demostrar que estas preferencias tengan un efecto significativo en las calificaciones de una prueba (Jessell y Sullins, 1975; Wilbur, 1970), es aconsejable ordenar los reactivos de opción múltiple y los de verdadero y falso de forma que las respuestas no sigan un patrón. Ordenar las opciones para los reactivos de opción múltiple en orden alfabético puede ser satisfactorio, pero una mejor estrategia es aleatorizar el orden de las opciones dentro de los reactivos. Esto asegurará que al menos la persona que elabora la prueba no tenga ninguna inclinación al ordenar las opciones correctas. Por supuesto, cuando se usan, op- FORMACIÓN Y REPRODUCCIÓN DE UN TEST 35 ciones como: todas las anteriores y ninguna de las anteriores, éstas deben colocarse en la última posición. En los reactivos de aparejamiento o reordenamiento, a los examinados les resulta más conveniente y la calificación se facilita si todas las premisas y opciones de respuesta se colocan en la misma página. Colocar los reactivos de respuesta corta en grupos de cinco o algo así también puede reducir los errores al presentar y calificar una prueba. Por último, debe proporcionarse espacio suficiente para responder los reactivos de respuesta corta y los de ensayo, sea que las respuestas se escriban en el cuadernillo de la prueba o en una hoja por separado. Con relación al esquema de la prueba como un todo, puede esperarse que la tarea de los examinados se haga más sencilla si se agrupan juntos los reactivos del mismo tipo (opción múltiple, verdadero y falso, etc.) y los que tratan del mismo tema. Es cierto que ordenar los reactivos en grupos de acuerdo con el tipo o tema puede simplificar la preparación, aplicación y calificación de la prueba, pero no hay evidencia de que esta práctica mejore las calificaciones del instrumento. En las pruebas que contienen reactivos objetivos y de ensayo, estos últimos suelen colocarse al final, ya que suelen requerir más tiempo y diferentes procesos de pensamiento que los primeros. Otra suposición razonable es que las calificaciones de la prueba serán más altas si se ordenan subconjuntos de reactivos del más fácil al más difícil. Se supone que el éxito al responder los reactivos más sencillos crea expectativas favorables de éxito, y que ello anima a los examinados a poner más empeño en los reactivos más difíciles. Sin embargo, los hallazgos de la investigación no siempre han confirmado esta suposición (Allison, 1984; Gerow, 1980; Klimko, 1984). Un reactivo sencillo ocasional puede mejorar el desempeño en los reactivos subsecuentes, pero, en general, ordenar los reactivos en orden de dificultad parece tener poco efecto sobre las calificaciones globales. Las excepciones a esta conclusión son las pruebas de velocidad (Plake, Ansorge, Parker y Lowry, 1982) o las muy difíciles (Green, 1984; Savitz, 1985). En una prueba de velocidad o en una que es muy difícil, colocar los reactivos más difíciles al final de la prueba parece mejorar un tanto las calificaciones. Una conclusión lógica de los hallazgos de la investigación sobre los efectos del ordenamiento en los reactivos de acuerdo con el nivel de dificultad es que, al elaborar pruebas que no son de velocidad desde fáciles hasta de dificultad moderada, los diseñadores harían bien en preocuparse menos por el ordenamiento de los reactivos e interesarse más en asegurarse de que estén bien escritos y midan lo que se supone deben medir. Cuando una prueba es muy difícil o de velocidad, colocar los reactivos en orden de los más fáciles a los más difíciles puede asegurar el uso más eficiente del tiempo del examinado, así como mejorar la motivación y, por consiguiente, dar por resultado calificaciones más altas. Hojas de respuestas Para la mayoría de las pruebas que se administran en un aula, en especial en los primeros grados, es aconsejable hacer que los estudiantes marquen o escriban sus respuestas en el cuadernillo de la prueba (Airasian y Terrasi, 1994). Esto genera menos errores al indicar las respuestas. En los reactivos objetivos, también facilita la calificación si se requiere que los examinados escriban las letras o respuestas apropiadas en los espacios marginales situados a la izquierda de las preguntas. Las hojas de respuestas por separado, que son más fáciles de calificar, pueden usarse a partir de los últimos años de la escuela elemental. Si la prueba se va a calificar con una máquina deberán usarse hojas de respuestas distribuidas comercialmente. En dichas hojas, los examinados responden colocando en un círculo o en un espacio al lado del número del reactivo el número o letra correspondiente. Si la prueba va a calificarse de manera manual, el profesor puede 36 Diseño y elaboración de tests CAPÍTULO DOS preparar fácilmente una hoja de respuestas y duplicarla. Una hoja de respuestas para una prueba de 75 reactivos de opción múltiple puede tener el siguiente formato: 1. a b c d e 2. a b c d e ... 25. a b c d e 26. a b c d e 27. a b c d e ... 50. a b c d e 51. a b c d e 52. a b c d e ... 75. a b c d e Se indica a los examinados que marquen la letra correspondiente a la respuesta correcta para cada reactivo. También se dispone de hojas de respuestas SCANTRON que pueden ser calificadas por una máquina o a mano. Toda institución educativa tiene recursos que facilitan la reproducción de materiales escritos o impresos para su uso en el aula. Las máquinas fotocopiadoras pueden utilizarse para reproducir los cuadernillos de prueba en un formato de impresión por uno o ambos lados, en ocasiones a color. Si se va a usar el mismo tipo de hoja de respuestas para diferentes pruebas, puede imprimirse una gran cantidad en una sola operación de la máquina y almacenarse para otras aplicaciones de pruebas. Instrucciones en los tests Las instrucciones generales para una prueba de ensayo u objetiva que se aplica de manera simultánea a un grupo de personas se colocan al frente de la prueba, y las instrucciones específicas para cada parte de una prueba múltiple se colocan antes de la parte respectiva. Por lo general, resulta sensato mecanografiar las instrucciones en negritas de forma que sea menos probable que los examinados las salten o las pasen por alto. Como su planteamiento puede llegar a tener cierto efecto sobre las calificaciones obtenidas, las instrucciones deben ser precisas más que generales (Joncas y Standig, 1998). También es aconsejable que el examinador lea en voz alta las instrucciones globales si son inusuales o poco familiares para los examinados. En una prueba individual en la cual el examinador presenta cada tarea e interactúa de manera continua con el examinado, las instrucciones se dan en forma oral. Sea que se den de manera oral, impresa o en ambas formas, las instrucciones deben informar a los examinados acerca del propósito de la prueba (o reactivo), cómo deben indicarse las respuestas,5 qué tipo de ayuda pueden esperar si no entienden algo, cuánto tiempo tienen para terminar la prueba, cómo se calificarán las respuestas, si es recomendable adivinar cuando se tenga duda, y cómo corregir una respuesta si cometieron un error. Las siguientes instrucciones generales para una prueba de rendimiento aplicada a un grupo son representativas: Escriba su nombre en la esquina superior derecha de la hoja de respuestas, pero no escriba en el cuadernillo de la prueba. Esta prueba está diseñada para evaluar su conocimiento y comprensión de estadística elemental. Son 50 reactivos y usted tendrá exactamente 50 minutos para completar la prueba. Indique su respuesta a cada reactivo llenando el espacio apropiado en la hoja de respuestas debajo de la letra que corresponde a la respuesta correcta. Su calificación en la prueba será igual al número de reactivos que haya respondido correctamente. Aunque la adivinación al azar no aumentará su calificación, si puede eliminar al menos una opción en un reactivo, es sensato hacer una con5Como el método de respuesta en las pruebas aplicadas por computadora puede no ser familiar para algunos examinados, debe asignarse tiempo suficiente para dar las instrucciones y mostrar cómo funciona el equipo. Además, los examinados deben ser supervisados durante la prueba para asegurarse de que están usando el equipo de manera apropiada. PRUEBAS ORALES 37 jetura informada a partir de las opciones restantes. Debe tener tiempo suficiente para responder todos los reactivos y revisar sus respuestas. Si termina antes de tiempo, por favor permanezca sentado en silencio hasta que todos hayan terminado. Cuando las instrucciones de una prueba se den de manera oral, deben leerse de forma lenta, clara y exactamente como aparecen impresas. Después de haber leído las instrucciones, debe permitirse a los examinados hacer preguntas, e independientemente de su trivialidad o redundancia aparente, deben responderse de manera paciente e informativa. En las pruebas múltiples que constan de cierta variedad de temas y/o tipos de reactivos, puede ser necesario dar instrucciones específicas para cada parte. Las instrucciones que atañen a muchos de los mismos asuntos (cómo marcar las respuestas, cómo corregir los errores, si se pueden omitir respuestas o adivinar cuando se tenga duda) pueden variar con el tipo de reactivos objetivos. Las instrucciones para responder los reactivos de ensayo pueden incluir sugerencias acerca de cómo estructurar las respuestas (bosquejo, formato y cosas similares); cómo deben ser las respuestas largas; qué tanto peso de calificación se dará al contenido, forma, gramática, caligrafía y otros rasgos de las respuestas, y si debe intentarse responder a todas las preguntas, a un número selecto de éstas, o si algunas son obligatorias y otras opcionales. PRUEBAS ORALES Las pruebas orales se definen como una situación de evaluación en la cual los examinados responden de manera oral a las preguntas planteadas. Las preguntas pueden presentarse de manera oral, por escrito o de ambas formas. Las pruebas orales de rendimiento son más comunes en las instituciones educativas europeas que en Estados Unidos, donde la práctica de las pruebas orales declinó durante el siglo XX y es menos común en los grados superiores que en los inferiores. A muchos estudiantes no les gustan las pruebas orales y sienten que son medidas injustas del conocimiento y la comprensión. Sin embargo, los maestros de expresión oral, arte dramático, inglés e idiomas extranjeros, a menudo deploran la falta de atención a la evaluación de las habilidades del lenguaje hablado y sienten que la consecuencia de semejante descuido es una ciudadanía que no puede hablar de manera correcta, comprensible y cómoda. Aunque muchos maestros de idiomas y de otras materias en las cuales es importante el desarrollo de las habilidades del habla admiten lo deseable de los ejercicios y evaluaciones orales, también se dan cuenta de que las pruebas orales no sólo son muy subjetivas sino que a menudo resultan ineficientes (Crowl y McGinitie, 1974; Platt, 1961). Ventajas de las pruebas orales Desde los primeros años del siglo XX, las pruebas orales de rendimiento se han venido percibiendo como carentes de eficiencia y rigor psicométrico. También se les ha criticado por requerir demasiado tiempo, proporcionar una muestra limitada de respuestas y por estar mal planeadas en la mayoría de los casos. Sin embargo, a pesar de sus limitaciones, incluso los críticos de las pruebas orales admiten que éstas poseen algunas ventajas sobre las pruebas escritas. Una ventaja es la situación social interactiva que proporcionan, lo que permite evaluar cualidades personales como apariencia, estilo y manera de hablar. La situación cara a cara también hace poco probable la copia y quizá los engaños. Otras ventajas de las pruebas orales es que con frecuencia requieren respuestas a un 38 CAPÍTULO DOS Diseño y elaboración de tests nivel intelectual más alto que las escritas, y proporcionan práctica en comunicación oral e interacción social. También alientan una revisión más cuidadosa del material de prueba y pueden ser terminadas en menos tiempo que exámenes escritos comparables. Los individuos que aplican pruebas orales pueden seguir los procesos de pensamiento de los examinados y localizar con más facilidad los límites de su conocimiento y comprensión de la materia. Esos límites pueden ser determinados pidiendo a los examinados que expliquen, defiendan o se esmeren en sus respuestas. Por último, el tiempo que se necesita para preparar y evaluar las respuestas orales puede ser menor que para una prueba escrita comparable (Glovrozov, 1974; Platt, 1961). Las pruebas orales son especialmente apropiadas para los alumnos de primaria y para otros que experimentan dificultades en la lectura o escritura. Incluso en los niveles superiores puede estar justificada la aplicación de una prueba oral ocasional cuando el tiempo y/o los recursos para reproducir los materiales de prueba son escasos (Green, 1975). Los exámenes orales son cruciales en materias como expresión oral, idiomas y arte dramático. Las entrevistas estructuradas que constan de preguntas y respuestas orales a menudo se realizan con solicitantes de puestos en organizaciones gubernamentales e industriales. Es frecuente que tales entrevistas se efectúen por teléfono cuando los solicitantes no pueden viajar al sitio del examen. En exámenes de este tipo es posible introducir cierta cantidad de estandarización y control planteando a todos los examinados las mismas preguntas, limitando el tiempo del que disponen para responder y registrando electrónicamente sus respuestas para reproducirlas y evaluarlas más tarde. Pruebas orales contra pruebas escritas El hecho de que las calificaciones en las pruebas orales de rendimiento sólo tengan correlaciones moderadas con las calificaciones en pruebas escritas comparables, sugiere que miden aspectos diferentes del rendimiento. En general, el conocimiento de hechos específicos puede ser determinado con mayor rapidez por las pruebas objetivas escritas, por lo que los exámenes orales no deben contener grandes cantidades de esos tipos de preguntas. Como sucede con las pruebas de ensayo, las pruebas orales son más apropiadas cuando las preguntas requieren de respuestas extensas. Dado que los logros o las conductas evaluadas mediante pruebas orales son tan importantes como las mediciones de pruebas escritas, debería prestarse más atención a la principal fuente de error en las pruebas orales: los examinadores o evaluadores. Las personas que aplican pruebas orales deben poseer un conocimiento profundo de la materia y una conciencia muy aguda de las respuestas apropiadas. Además, las categorías usadas por los examinadores al describir o calificar las respuestas de los examinados deberían citar conductas observables específicas en lugar de conceptos vagos como potencial creativo, carácter, habilidad general o efectividad interpersonal. Estos conceptos indefinidos, y que quizá no puedan definirse, no son medidos más fácilmente por las pruebas orales que por las escritas. PRUEBAS DE DESEMPEÑO Las pruebas de lápiz y papel son las más eficientes y objetivas de todos los tipos de pruebas, pero por lo regular sólo proporcionan información indirecta acerca de la habilidad de una persona para hacer o fabricar algo. El conocimiento de la materia puede demostrarse de manera bastante minuciosa en un periodo corto por medio de una prueba de ensayo, una de opción múltiple u otra prueba escrita. Sin embargo, poseer un bagaje de información acerca de un tema o ser capaz de explicar cómo hacer algo no es lo mismo que usar la información o destreza en situacio- PRUEBAS DE DESEMPEÑO 39 nes prácticas. En alguna ocasión el autor condujo un taller de relaciones humanas con un grupo de supervisores de una línea de ensamblaje. Aunque todos los supervisores salieron bien en las pruebas escritas del material presentado en el taller y coincidieron en que un enfoque democrático hacia la supervisión era superior a uno autoritario, la mayoría reanudó su conducta autoritaria en la supervisión al regresar a la línea de ensamblaje. Hay muchos otros ejemplos de conductas específicas a la situación, en las cuales los estudiantes aprenden a dar la respuesta correcta en clase o en una prueba de lápiz y papel, pero la abandonan cuando enfrentan una situación de la vida real en la que podría ser aplicable. Buena parte del aprendizaje que se da en el salón de clase se relaciona con conductas en contextos no académicos, pero la relación está lejos de ser perfecta. La generalización del conocimiento y las habilidades del salón de clases a las situaciones de la vida real es particularmente endeble en el caso del conocimiento verbal. Los maestros se dan cuenta de que si la escuela debe preparar a los estudiantes para la vida, las habilidades y el conocimiento deben enseñarse de tal manera que se transfieran a situaciones laborales y otros contextos no académicos. Los maestros de ciencia, atletismo, arte dramático, música, artes industriales, expresión oral, lenguas extranjeras, caligrafía, agricultura, y muchas otras áreas temáticas, reconocen la necesidad de que los estudiantes practiquen repetidamente y tengan experiencia directa para que las habilidades sean bien aprendidas y transferibles. Los laboratorios y proyectos de ciencia, las habilidades psicomotrices aprendidas en juegos y deportes, tocar instrumentos musicales y cantar, actuar en obras, construir o aplicar objetos útiles en un taller, practicar el hablar en público y la conversación en español y en otros idiomas, todo lo anterior, proporciona oportunidades para aprender y practicar habilidades que son potencialmente útiles fuera de la clase y servirán como cimientos para el aprendizaje práctico experiencial posterior. Debido a un mayor realismo que las pruebas escritas, a las pruebas de ejecución en ocasiones se les conoce como evaluación auténtica o, para enfatizar que son una opción a las pruebas escritas, evaluación alternativa. Aunque puede no ser necesario seguir una taxonomía de objetivos psicomotrices al planificar una prueba para medir qué tan bien ha aprendido una persona una habilidad particular, es útil elaborar una lista detallada de las conductas que son indicadoras de un rango de competencia en esa habilidad. Deben tomarse de antemano decisiones como qué tanto peso (numérico) se dará a cada aspecto del desempeño y qué deducciones (si las hay) se harán por errores, lentitud o descuido. Una prueba de ejecución debe concentrarse, sobre todo, en el producto o resultado final de ejecutar una habilidad, pero también es importante observar la forma en que se realiza (el proceso). Por ejemplo, lo que cuenta más al jugar golf es el número de golpes requeridos para meter la bola en el hoyo, pero todos los instructores de golf se dan cuenta de que la forma, o estilo, también es importante. En las pruebas de ejecución que involucran un producto terminado tangible no sólo debe advertirse la cantidad y calidad del producto, sino también la eficiencia con la que fue hecho. Tanto los productos como los procesos del desempeño suelen evaluarse de manera subjetiva, principalmente por observación combinada con un registro escrito o electrónico y una lista de verificación o escala de calificación. Es posible examinar y evaluar portafolios enteros, o colecciones de los desempeños y productos de los estudiantes a lo largo de un periodo. Para la evaluación precisa del desempeño es crucial una observación cuidadosa que esté tan libre de sesgos como sea posible. Las pruebas de ejecución estructuradas, en las cuales se prueba a cada examinado bajo las mismas condiciones, suelen ser más objetivas que las no estructuradas, donde se observa y evalúa a los estudiantes de manera subrepticia durante la clase, en los pasillos o en otras áreas de la escuela. Pero incluso aunque se tenga sumo cuidado, por su misma naturaleza, las pruebas de ejecución son menos objetivas y, en consecuencia, menos confiables que las pruebas escritas. Además, las pruebas de ejecución requieren más tiempo que las escritas y a menu- 40 CAPÍTULO DOS Diseño y elaboración de tests do también equipo costoso y otras condiciones que consumen tiempo. Por esas razones, siempre que el costo y la ineficiencia de una prueba de ejecución no sean compensados por su carácter realista, es preferible una prueba escrita. RESUMEN Este capítulo trata principalmente de procedimientos para diseñar y elaborar pruebas de rendimiento educativo, pero los principios analizados también pueden aplicarse a otros tipos de instrumentos de evaluación psicológicos y educativos. El primer paso en la elaboración de una prueba de rendimiento es preparar una lista de los objetivos conductuales que van a evaluarse. Luego debe construirse una tabla de especificaciones que presente el número de reactivos necesarios en cada categoría de contenido (temático) para cada objetivo conductual. Se han propuesto varias taxonomías o métodos de clasificación de objetivos conductuales en los dominios cognoscitivo, afectivo y psicomotriz. La taxonomía de objetivos educativos más popular es la Taxonomía de objetivos educativos: el dominio cognoscitivo, de Bloom y Krathwohl. Tanto las pruebas de ensayo como las objetivas poseen ventajas y desventajas. Los reactivos de ensayo son más fáciles de elaborar, pero los reactivos objetivos pueden calificarse de manera más rápida y precisa. Las pruebas objetivas también proporcionan una muestra más representativa del contenido de la materia. Las preguntas de respuesta corta, de verdadero y falso, de opción múltiple y de aparejamiento son variedades de los reactivos objetivos. De éstos, los reactivos de opción múltiple son los más versátiles y populares. Al formar una prueba debe prestarse atención a factores como la longitud y el formato, el método para registrar las respuestas, las facilidades para la reproducción de la prueba, y las instrucciones para la aplicación. Las instrucciones de aplicación de una prueba incluyen el(los) propósito(s), los límites de tiempo, el procedimiento de calificación y lo aconsejable de adivinar cuando se tenga duda. Las pruebas orales no se usan tan a menudo como las pruebas escritas, pero cuando se planean, aplican y evalúan con cuidado pueden proporcionar información que por lo regular no se obtiene con otros métodos de evaluación. En cierto sentido, tanto las pruebas escritas como las orales son medidas de ejecución, pero el concepto de pruebas de ejecución por lo general se ha concentrado en conducta no verbal. Dado que las pruebas de ejecución son más realistas que las verbales, en ocasiones se les conoce como evaluación auténtica. En lugar de limitarse a describir cómo hacer algo o qué se hizo, las pruebas de ejecución requieren que los examinados demuestren un proceso. Dichas pruebas se emplean de manera extensa para evaluar habilidades aprendidas en el laboratorio y en situaciones de campo, las cuales abarcan desde el laboratorio de ciencia hasta la arena deportiva y otros contextos aplicados. A menudo los maestros conservan y evalúan portafolios del desempeño y los productos de los estudiantes. P R E G U N TA S Y A C T I V I D A D E S 1. Elija un tema para desarrollar una prueba en un área que le interese, plantee sus objetivos conductuales y de contenido, elabore una tabla de especificaciones y diseñe una prueba objetiva de una hora sobre el tema elegido usando varios tipos de reactivos. RESUMEN 41 2. Diseñe un sistema de objetivos educativos del dominio cognoscitivo para su salón de clases. ¿En qué difiere de los sistemas que se describieron en el texto? ¿Qué ventajas y desventajas particulares posee? 3. Elabore una taxonomía de objetivos para las humanidades o el currículo básico en la universidad. Incluya al menos cinco objetivos de su taxonomía, con dos o tres subobjetivos bajo los cinco objetivos principales. Defina cada una de las principales categorías y subcategorías de su taxonomía de manera tan clara y objetiva como sea posible. 4. Diseñe una tabla de especificaciones para una prueba global de humanidades que vaya a aplicarse a todos los estudiantes al final de su segundo año en la universidad. Base los objetivos conductuales y de contenido de su tabla de especificaciones en la taxonomía que elaboró en la actividad 3. 5. Describa las fortalezas y debilidades relativas de las pruebas de ensayo, orales y de ejecución. ¿Para qué propósitos y bajo qué condiciones es más apropiado cada tipo de prueba? 6. ¿Por qué suele considerarse que los reactivos de opción múltiple son superiores a los otros tipos de reactivos objetivos? ¿Puede pensar en una situación donde los reactivos de verdadero y falso, completamiento o aparejamiento sean preferibles a los de opción múltiple? 7. Escriba cinco reactivos de respuesta corta (completamiento), cinco de verdadero y falso, y cinco de opción múltiple basándose en la siguiente selección adaptada de Aiken (1980): Una razón para la escasez de datos psicométricos sobre los adultos mayores es que en este grupo de edad la gente, cuya conducta es menos susceptible de ser controlada por psicólogos y educadores, a menudo se muestra renuente a ser examinada. Hay muchas razones para explicar la poca cooperación de los adultos mayores en las situaciones de prueba, incluyendo la falta de tiempo, la percepción de las tareas de la prueba como triviales y sin sentido, y el temor de salir mal y parecer tontos. A los adultos mayores, en mayor medida que los adultos más jóvenes que están más conscientes de la prueba, no les entusiasma realizar tareas que los hagan ver ridículos o que son percibidas como irrelevantes en sus vidas. Debido a que los adultos mayores tienen poca motivación para ser examinados, se requiere sensibilidad y tacto de parte de los examinadores psicológicos para obtener respuestas válidas. Por desgracia, a menudo se cuestiona si los examinadores técnicamente competentes pero jóvenes pueden establecer suficiente rapport con los examinados mayores como para comunicarles adecuadamente las instrucciones de la prueba y estimularlos para hacer lo mejor que puedan. Relativamente pocos psicómetras parecen tener el entrenamiento y la experiencia suficientes en la examinación psicológica de los adultos mayores como para hacer un trabajo creíble. Sin embargo, la mayoría de los examinadores encuentra que una vez que las personas mayores aceptan ser probadas, tienen una motivación tan alta como la de los examinados jóvenes para hacer las cosas bien. Incluso cuando los adultos mayores se muestran cooperativos y motivados, los límites de tiempo de muchas pruebas, la presencia de defectos sensoriales, la tendencia a la distracción y la facilidad con que se fatigan les dificulta desempeñarse de manera satisfactoria. Una de las cosas más características acerca de ser mayor es que los reflejos y los movimientos físicos tienden a ser más lentos. Por esta razón, las explicaciones de la declinación relacionada con la edad en las calificaciones de pruebas en áreas como el aprendizaje y la memoria deben considerar el hecho de que los adultos mayores por lo general no reaccionan con tanta rapidez como los adultos jóvenes. Aunque la gente mayor suele estar en desventaja en las pruebas cronometradas, su desempeño mejora de modo significativo cuando se le da tiempo suficiente para responder. En las pruebas que no están cronometradas los adultos mayores muestran poca o ninguna inferioridad en comparación con los adultos más jóvenes. 42 CAPÍTULO DOS Diseño y elaboración de tests Los defectos sensoriales, en especial en las modalidades visual y auditiva, también pueden interferir con el desempeño en la vejez. Puede ser útil contar con materiales especiales de prueba, como caracteres grandes, y examinadores entrenados que estén alerta en cuanto a la presencia de defectos sensoriales. Sin embargo, en ocasiones un supuesto defecto sensorial en realidad puede ser una máscara para ocultar un problema de lectura o comprensión auditiva. El autor tuvo la experiencia de prepararse para probar a un hombre anciano que, avergonzado por su poca habilidad para la lectura, convenientemente olvidó sus lentes y, en consecuencia, no pudo leer los materiales de la prueba. 8. ¿Cuáles son las ventajas y desventajas de las pruebas orales en comparación con las pruebas escritas? ¿En qué circunstancias son apropiadas las pruebas orales? ¿Cómo deberían diseñarse, aplicarse y calificarse? 9. ¿Qué miden las pruebas de ejecución que no pueda ser medido por medio de pruebas de lápiz y papel (escritas) o por pruebas orales? Describa dos o tres pruebas de ejecución que haya presentado. CAPÍTULO TRES ADMINISTRACIÓN, APLICACIÓN Y CALIFICACIÓN DE LOS TESTS Sin importar qué tan cuidadosamente se elabore una prueba, los resultados no tienen ningún valor si no se administra y califica ésta en forma adecuada. La necesidad de contar con procedimientos y guías establecidos para administrar y calificar pruebas psicológicas y educativas es reconocida por todas las organizaciones profesionales dedicadas a la evaluación de personas. Una fuente importante de estos recursos son los Standards for Educational and Psychological Testing (American Educational Research Association, American Psychological Association y National Council on Measurement in Education, 1999), una serie de 264 normas para construir, evaluar, administrar y calificar pruebas y otros instrumentos psicométricos, y para interpretar y usar los resultados. Las 16 normas que conciernen específicamente a la administración, calificación y registro de pruebas ponen énfasis en la importancia de tener instrucciones claras para que la administración y calificación se sigan con todo cuidado. Las normas también hacen hincapié en que los materiales de las pruebas deben conservarse seguros, los fraudes han de detectarse y controlarse, y la interpretación de los resultados debe ser clara al leerla. APLICACIÓN DE LOS TESTS El procedimiento que debe seguirse para aplicar una prueba o cualquier otro instrumento psicométrico depende del tipo de que se trate (individual o colectiva, con tiempo predeterminado o sin éste, cognoscitiva o afectiva), lo mismo que de la edad cronológica, la educación, los antecedentes culturales y el estado físico y mental de los examinados. Cualesquiera que sean el tipo de prueba y las características de quienes se someten a ella, el desempeño también puede alterarse por factores como disposición y motivación del examinado, cantidad de sueño durante la noche previa a la prueba, molestias físicas, angustia relativa a la prueba, otros problemas emocionales, y medicamentos que se estén consumiendo. No sólo la disposición, la habilidad para resolver pruebas y la motivación de los examinados afectan el desempeño, sino también la apariencia y el comportamiento de quien aplica la evaluación, así como la situación. Sobre todo, en el caso de pruebas individuales, son importantes la habilidad y la personalidad del examinador. Quienes administran la mayoría de las pruebas individuales deben tener un título o certificado formal expedido por un organismo gubernamental apropiado o ser supervisados por otro examinador certificado. Estos requisitos contribuyen a garantizar que los examinadores cuenten con el conocimiento y la capacidad necesarios para administrar, calificar e interpretar diversos tipos de instrumentos psicométricos. 43 44 CAPÍTULO TRES Administración, aplicación y calificación de los tests Las variables situacionales, incluyendo el tiempo para resolver la prueba y el lugar donde se aplique, y condiciones ambientales como iluminación, temperatura, nivel de ruido, ventilación u otras distracciones, también pueden contribuir a la motivación, concentración y desempeño de las personas que se examinan. Por consiguiente, antes de administrar una prueba, debemos estar seguros de que el ambiente físico sea el apropiado. Deberes del examinador antes de la prueba Programación. Al programar una prueba, el examinador debe tomar en cuenta las actividades que suelen realizar los examinados en esa hora del día. No es sensato administrar pruebas a niños durante las horas del almuerzo o del juego, cuando acostumbran realizar alguna otra actividad placentera, o cuando acaban de tener lugar acontecimientos divertidos o emocionantes (por ejemplo, inmediatamente después de días feriados). El tiempo de la prueba casi nunca debe excederse de una hora al tratarse de niños pequeños o de una hora y media cuando son niños de secundaria. Debido a que 30 minutos es el límite de tiempo en que un niño de nivel preescolar y de primaria puede permanecer atento a las tareas de una prueba, puede requerirse más de una sesión para administrarse pruebas extensas a niños pequeños. Con respecto a las pruebas en el aula, debe informarse a los estudiantes con suficiente anticipación cuándo y dónde se administrará la prueba, qué contenido de materias incluirá, qué tipo de prueba (objetiva, de ensayo, oral) se administrará y cuánto tiempo se concederá para resolverla. Los estudiantes merecen la oportunidad de prepararse intelectual, emocional y físicamente para una prueba. Por ello, regularmente no es aconsejable imponer exámenes sorpresa. Si el maestro piensa que ocasionalmente las pruebas sin previo aviso ayudan a garantizar que los alumnos se mantengan al corriente con el material del curso, dichos exámenes no deben tener el mismo peso que las evaluaciones habituales. Consentimiento informado. En muchos lugares, la aplicación de una prueba de inteligencia o de otro instrumento de psicodiagnóstico a un niño requiere del consentimiento informado de uno de los padres, un tutor o de otra persona legalmente responsable del niño. El consentimiento informado consiste en un acuerdo entre una institución o individuo y una persona en particular o su representante legal. Con los términos del acuerdo se otorga permiso para aplicar tests psicológicos a una persona y/o conseguir otra información con propósitos de evaluación o de diagnóstico. Debe obtenerse el consentimiento informado de quienes se someterán a una prueba, o de sus representantes legales cuando sea adecuado, antes de iniciarla excepto (a) cuando la evaluación sin consentimiento sea ordenada por ley o por reglamentación gubernamental; (b) cuando la evaluación sea parte de las actividades habituales de la escuela, o (c) cuando el consentimiento esté claramente implícito (American Educational Research Association et al., 1999, p. 87). El requisito de consentimiento informado suele cumplirse al obtener la firma de una persona legalmente responsable en una forma estándar proporcionada por el distrito escolar u otra institución pertinente. La forma especifica el(los) objetivo(s) de la evaluación, el uso que se hará de los resultados, los derechos del padre o tutor y el procedimiento a seguir para obtener una copia del informe final o de la interpretación. Familiarizarse con la prueba. No debe haber duda en cuanto a la familiaridad con el material de la prueba y el procedimiento de aplicación cuando el examinador es la misma persona. APLICACIÓN DE LOS TESTS 45 Debido a que la persona que administra una prueba estandarizada rara vez es la misma que la elaboró, debe estudiarse con cuidado el manual adjunto antes de iniciar el proceso de evaluación. Es de particular importancia familiarizarse con las instrucciones de administración y con el contenido de la prueba. Para lograr esta familiaridad, es recomendable que el examinador mismo se someta a la prueba antes de administrarla a otra persona. Por último, es aconsejable revisar las instrucciones y otros materiales del procedimiento justo antes de la aplicación. Asimismo, los folletos, las hojas de respuestas y otros materiales de la prueba deben revisarse y contarse con anterioridad. Las pruebas seguras que incluyen un número de serie, como la Prueba de Evaluación Académica y los Exámenes de Registro de Graduados, deben inspeccionarse en forma minuciosa y ordenarse por número. Cuando un niño o un adulto sea remitido para un examen psicológico por una institución externa o por un médico o juez, las pruebas y otros procedimientos de psicodiagnóstico a administrarle dependerán de los tipos de información que requiera la fuente que remite y de los fines para los que se empleará la prueba. En consecuencia, es importante que la persona que remite especifique con precisión la información requerida y lo que se hará con ella. En todo caso, el examinador debe estar familiarizado a fondo con las pruebas o los demás instrumentos psicométricos y los tipos de individuos y condiciones para los que son adecuados. Garantizar condiciones de evaluación satisfactorias. Los examinadores deben asegurarse de que los asientos, la ventilación, la temperatura, el nivel de ruido y otras condiciones físicas del ambiente de evaluación sean satisfactorios. Es preferible utilizar una habitación que sea familiar para los examinados y esté relativamente libre de distracciones. Colocar un letrero de “PruebaNo molestar” en la puerta cerrada puede contribuir a evitar interrupciones y otros distractores. También deberá contarse con acceso fácil a las salidas y a las instalaciones sanitarias. Es mejor administrar una prueba individual en una habitación privada, sólo con el examinador, el examinado y, de ser necesario, uno de sus padres, el tutor u otra persona responsable. Ya sea en una prueba individual o en una colectiva, es preciso tomar previsiones especiales para examinados físicamente discapacitados o diferentes (por ejemplo zurdos). Reducir los fraudes. Los examinadores bien capacitados están muy conscientes de la importancia de la seguridad de la prueba, tanto antes como después de administrarla, y de aceptar la responsabilidad de que se conserve dicha seguridad. Debe advertirse a quienes se someten a una prueba que hacer que otra persona responda el examen en su lugar, revelar material confidencial o cualquier otra forma de fraude es un comportamiento inadecuado que puede generar sanciones (American Educational Research Association et al., 1999, p. 88). Antes de la prueba, debe procurarse que haya asientos confortables que además contribuyan a eliminar la posibilidad de fraude. Aunque es preferible, no siempre puede lograrse que los examinados dejen un asiento libre entre cada uno para que resulten difíciles las oportunidades de hacer trampa. Preparar formas múltiples (con reactivos distintos o con una distribución diferente) de la prueba y repartir formas distintas a los examinados adyacentes puede reducir las trampas en una prueba aplicada colectivamente. Otra posibilidad es usar diversas hojas de respuestas, es decir, con distinta disposición. También deben emplearse varios vigilantes cuando se trate de pruebas para un grupo grande. Ellos pueden ayudar a distribuir y recoger los materiales de la prueba y a responder dudas sobre el procedimiento; además, su presencia tiende a desalentar las conductas tramposas y la indisciplina. La vigilancia y otros procedimientos diseñados para pre- 46 CAPÍTULO TRES Administración, aplicación y calificación de los tests venir las trampas se consideran con suma seriedad al administrar pruebas estandarizadas seguras, tales como la Prueba de Evaluación Académica y los Exámenes de Registro de Graduados. Estas pruebas, los folletos y las hojas de respuestas, que se cuentan con todo cuidado antes y después de los exámenes, se supervisan minuciosamente. Se solicita de las personas que se someten a estas pruebas mostrar una identificación oficial antes de ser admitidos en el aula de exámenes. Deberes del examinador durante la prueba Seguir las instrucciones de la prueba. Mediante instrucciones meticulosamente preparadas, que se leen en forma lenta y clara al presentarse oralmente, se informa a los examinados sobre los objetivos de la prueba y cómo anotar sus respuestas. Se pide a los examinadores de pruebas estandarizadas que sigan cuidadosamente las instrucciones de administración, aun cuando una explicación adicional podría esclarecer la tarea para los examinados. El no apegarse a las instrucciones estándar puede dar como resultado una tarea distinta de la que tenían en mente los diseñadores de la prueba. Si las instrucciones no son idénticas a las presentadas a la muestra de personas con las que se estandarizó la prueba, los resultados no tendrán el mismo significado que los del grupo de estandarización. Por ende, se habrá perdido un útil marco de referencia para interpretar los resultados. Los examinadores de contextos clínicos y educativos en ocasiones van más allá de las instrucciones de la prueba e intentan probar los límites de las habilidades o las características personales de los examinados. Esto puede lograrse mediante procedimientos de evaluación dinámicos o auténticos para obtener claves adicionales con fines de interpretación o diagnóstico. Una ilustración de la evaluación dinámica se encuentra en el concepto de Feuerstein acerca de la evaluación del potencial de aprendizaje (Feuerstein, Feuerstein y Gross, 1997). La evaluación del potencial de aprendizaje implica un formato de prueba-enseñanza-prueba donde se examina a una persona, se le somete a una práctica sobre los materiales de la prueba y luego vuelve a aplicársele el examen. Se calcula entonces el cambio en el nivel de desempeño de la primera a la segunda ocasión en que se resuelve la prueba como una medida del potencial de aprendizaje del examinado (vea también Tombari y Borich, 1999). Permanecer alerta. Al administrar una prueba colectivamente, ya sea estandarizada o no, el examinador debe mantenerse alerta para evitar las trampas, así como que se hable o haya ruido innecesario. También es sensato tomar la precaución de tener un mensajero disponible para casos de emergencias médicas o algún otro problema. En pruebas elaboradas por el maestro, o incluso en pruebas estandarizadas si las instrucciones lo permiten, es posible informar periódicamente a los estudiantes cuánto tiempo les resta anotando la hora en el pizarrón o en otra superficie visible. Establecer una relación interpersonal. Tanto en pruebas individuales como colectivas, el comportamiento del examinador puede tener un efecto considerable en la motivación y el comportamiento de los examinados. En ocasiones, hasta una sonrisa puede brindar ánimo a los examinados nerviosos o poco preparados a fin de que conserven la calma y logren un desempeño óptimo. Debido a que las pruebas individuales proporcionan una mejor oportunidad de observar a los examinados que las pruebas de aplicación colectiva, es más probable detectar falta de motivación, distracción y tensión en un contexto de evaluación individual. Así, pueden realizarse esfuerzos para manejar estos problemas o por lo menos tomarlos en cuenta al interpretar los resultados. En una situación de evaluación colectiva, donde suele ser imposible mantener una interacción personal con cada uno de los examinados, el examinador tiene más dificultades para APLICACIÓN DE LOS TESTS 47 advertir cómo se está sintiendo y desempeñando una persona. Tanto en pruebas individuales como colectivas, una buena regla a seguir es mostrarse amigable pero objetivo, con autoridad mas no autoritario, con modales y vestuario apropiados y a cargo de la situación de evaluación. Tal comportamiento por parte del examinador tiende a crear una situación de rapport, es decir, una relación interpersonal cordial de aceptación que anima a los examinados a responder en forma honesta y precisa. Prepararse para manejar problemas especiales. En determinadas circunstancias, los examinadores deben ser especialmente activos y alentadores. Una situación de evaluación produce cierta cantidad de tensión casi en cualquier persona, y en ocasiones un examinado se pone muy nervioso. Las pruebas en personas muy jóvenes, muy viejas, perturbadas mentalmente, con retraso mental, discapacidad física o desventajas culturales presentan problemas especiales. En algunas situaciones, tal vez tengan que darse las preguntas y las respuestas en forma oral y no escrita, o en una lengua en particular. El examinador no sólo debe estar familiarizado con el material de la prueba, sino también conducirse de manera alerta, flexible, cálida y objetiva. Estas cualidades no se enseñan con facilidad, pero la experiencia en diversas situaciones de evaluación desempeña un papel importante para adquirirlas. Flexibilidad. También se permite cierta flexibilidad al administrar pruebas no estandarizadas e incluso en algunos instrumentos estandarizados, pero el exceso de flexibilidad puede volver inútiles las normas establecidas con propósitos de interpretación. Al evaluar con estas medidas, la sensibilidad y la paciencia por parte del examinador pueden proporcionar una mejor oportunidad para que los discapacitados y otros individuos con problemas especiales demuestren sus aptitudes. Otros procedimientos recomendados, que se han adaptado de técnicas de instrucción reconocidas, son los siguientes: 1. 2. 3. 4. 5. Proporcionar tiempo suficiente para que los examinados respondan el material de la prueba. Permitir la práctica necesaria con reactivos de ejemplo. Usar periodos de evaluación relativamente cortos. Observar si hay signos de fatiga o angustia y tomarlos en cuenta. Ser consciente y tomar las medidas pertinentes en caso de defectos visuales, de audición y otros sensoriales o perceptuales-motrices. 6. Brindar estímulo y refuerzo positivo con generosidad. 7. No intentar obligar a los examinados a responder cuando se han resistido a hacerlo en varias ocasiones. Pruebas orales. Los exámenes orales a menudo provocan en los estudiantes sentimientos encontrados y mucha aprehensión. Como resultado, los esfuerzos por calmar esos temores y ofrecer otros métodos de evaluación a quienes les afectan emocionalmente las situaciones de evaluación oral puede mejorar la efectividad de este tipo de pruebas. Los examinadores que realizan esfuerzos especiales por establecer una relación interpersonal con los examinados descubren que es posible que éstos lleguen a disfrutar de las pruebas orales. Aplicar una prueba En general, no se consideran justos los exámenes sorpresa. Los alumnos merecen la oportunidad de prepararse para una prueba. Debe informárseles con anticipación no sólo cuándo y dónde se realizará la prueba, sino también lo que abarcará y qué tipo de prueba será. Con respecto al for- 48 CAPÍTULO TRES Administración, aplicación y calificación de los tests mato, tanto los estudios en aulas como de laboratorio han revelado que las personas tienden a obtener mejores resultados en pruebas de recordatorio (ensayo, de respuestas breves) cuando se les informa que se administrará una prueba de ensayo (por ejemplo, May y Thompson, 1989). Esperar una prueba de reconocimiento (opción múltiple, de falso-verdadero) estimula un estudio de los detalles más concentrado, mientras que esperar una prueba de recordatorio origina mayores esfuerzos por recordar unidades de un nivel superior y temas del material (Schmidt, 1983). Hay estudios de aula donde se ha descubierto que comunicar con anticipación que se administrará una prueba objetiva está relacionado con calificaciones más elevadas en pruebas de opción múltiple, de falso-verdadero y otras de reconocimiento. Sin embargo, los resultados de estudios de laboratorio son más complejos (Lundeberg y Fox, 1991). Además, otros factores como la habilidad mental, la habilidad para resolver pruebas, adivinar y una cuidadosa lectura y consideración de los reactivos parecen tener tanto efecto en las calificaciones de las pruebas como saber qué tipo de prueba se aplicará. En cualquier caso, al aplicar una prueba de aprovechamiento, es justo proporcionar información previa sobre su forma y cobertura. Ingenio para resolver pruebas. Al responder reactivos de prueba objetivos, la gente suele emplear métodos muy diferentes de los que previó el autor de los reactivos. No todos los examinados leen con cuidado los reactivos y con frecuencia no utilizan la información proporcionada. Esto puede no ser esencial en todos los casos, ya que en ocasiones es posible reconocer las respuestas correctas en reactivos de opción múltiple sin haber leído el material en que se basan las preguntas. Por ejemplo, las opciones erróneas pueden descartarse al advertir que algunas están expresadas en forma incorrecta o son demasiado extensas o breves. Otras claves que pueden revelar las respuestas correctas en reactivos de opción múltiple son asociaciones aliteradas, opciones no relacionadas, lenguaje incluyente, opciones en clave que son más precisas que las demás, claves gramaticales y opciones que se revelan al aparecer resueltas en otros reactivos. Las observaciones de estudiantes que responden pruebas de opción múltiple y luego son entrevistados revelan que, si bien los reactivos a menudo se responden simplemente eliminando las opciones que parecen incorrectas, una práctica más común es realizar juicios comparativos entre las opciones. Los resultados de la investigación de Rogers y Yang (1997) indican que los alumnos primero deben tener cierto conocimiento del contenido de las opciones raíz y/o de los reactivos a fin de eliminar las opciones incorrectas y aprovechar las claves del reactivo. Otro aspecto del ingenio para resolver pruebas es el conocimiento de la idiosincracia del maestro. El ingenio para resolver pruebas parece ser una capacidad específica, no general, para identificar claves que se desarrolla en los estudiantes al madurar y compartir información sobre la forma de resolver pruebas (Evans, 1984). Por ejemplo, la extensión, el tecnicismo y cierto exotismo de las opciones proporcionan claves para encontrar las respuestas correctas (Strang, 1980; Tidwell, 1980). También es de interés el hecho de que la influencia del ingenio para resolver pruebas en general es mayor para los reactivos de cuatro opciones que para los de tres (Rogers y Harley, 1999). Los niños parecen tener más esta habilidad que las niñas (Preston, 1964), y los reactivos verbales son más susceptibles de resolverse mediante esta capacidad que los numéricos (Rowley, 1974). Algunos aspectos de dicha habilidad pueden enseñarse (American College, 1978; Millman y Pauk, 1969). El cuadro 3.1 contiene una lista de 15 sugerencias que, al practicarse antes y durante una prueba, pueden incrementar el ingenio para responder pruebas y mejorar los resultados. Cambiar las respuestas. A menudo los examinados se enfrentan a la duda de cambiar o no sus respuestas iniciales a los reactivos. En ocasiones se afirma que, como las primeras respuestas suelen ser las correctas, revisar la prueba y cambiar las respuestas sobre las que ya se ha re- APLICACIÓN DE LOS TESTS 49 CUADRO 3.1 SUGERENCIAS PARA MEJORAR LOS RESULTADOS DE SU PRUEBA Antes de la prueba 1. Pida al instructor una copia de viejas pruebas que pueda usted revisar legítimamente. 2. Pregunte a otros estudiantes qué tipo de pruebas suele administrar el instructor. 3. No espere a que llegue el día anterior para empezar a estudiar cuando la prueba ha sido anunciada con anticipación. 4. Estudie para el tipo de prueba (de elección múltiple, de falso-verdadero, de ensayo) que se ha anunciado. 5. Si no se ha especificado el tipo de prueba que se administrará, tal vez sea mejor estudiar para una prueba de recordatorio (ensayo). 6. No convierta el estudiar para una prueba en un acontecimiento social; en general es mejor aislarse para preparar una prueba. 7. No se ponga demasiado cómodo para estudiar. Su cuerpo supone que desea dormir cuando se recuesta o su posición resulta demasiado confortable. 8. Intente estructurar el material que estudia como reactivos de prueba, por ejemplo, en reactivos de opción múltiple si éste es el tipo de examen que tendrá, o en reactivos de ensayo si está programada una prueba de ensayo. 9. Aplique el Estudio Q3R (inspección, preguntas, lectura, recitación, revisión) al estudiar para una prueba. Revise el material, formúlese preguntas acerca de él, lea con atención intentando recordar, recite el material para usted mismo después de leerlo y revíselo justo antes de la prueba. Durante la prueba 1. Lea cuidadosamente las instrucciones de la prueba antes de empezar con las preguntas. Si cierta información, como los límites de tiempo, la corrección por adivinar, el peso de los reactivos o cuestiones similares se han omitido, no dude en preguntar al examinador. 2. En pruebas de ensayo, piense en las preguntas y formule respuestas en su mente y/o en un papel aparte antes de empezar a escribir las respuestas definitivas. 3. Tómese su tiempo al resolver una prueba. Por ejemplo, en una prueba de opción múltiple debe haber respondido una n fracción de la prueba para cuando haya transcurrido la n fracción del tiempo reglamentario. 4. Ya sea que se emplee o no la corrección por adivinar al calificar una prueba, no deje reactivos sin responder si puede descartar por lo menos una opción. 5. Pase por alto los reactivos más difíciles y regrese a ellos posteriormente. No entre en pánico si no puede responder un reactivo; enciérrelo en un círculo y regrese a él después de haber resuelto otros. Entonces, si aún no está seguro de la respuesta, reflexione y adivine la mejor opción. 6. No se apresure a entregar la prueba antes de que termine el tiempo; cuando le sea posible, revise sus respuestas. flexionado es contraproducente (Benjamin, Cavell y Shallenberger, 1984). Sin embargo, los resultados de varias investigaciones indican que los examinados tienden a obtener calificaciones más altas cuando reconsideran sus respuestas y cambian aquellas sobre las que dudan (vea, por ejemplo, Geiger, 1990, 1991a, 1991b). Es más probable que las respuestas erróneas se conviertan en acertadas que viceversa, aunque la cantidad de preguntas que de hecho se cambian tiende a ser pequeña. 50 CAPÍTULO TRES Administración, aplicación y calificación de los tests Adivinar. Las instrucciones para pruebas objetivas suelen incluir consejos sobre omitir un reactivo o adivinar cuando se duda sobre la respuesta correcta. Adivinar, lo que es más probable cuando los reactivos son difíciles o muy elaborados, origina más inflación de la calificación en reactivos de falso-verdadero que en pruebas de opción múltiple. En general, es aconsejable adivinar sólo cuando pueden eliminarse una o más opciones, o cuando se tiene cierta idea sobre la opción correcta. Debido a que en general es posible eliminar por lo menos una opción en un reactivo, adivinar antes que omitir reactivos suele producir calificaciones más altas. Esto es cierto ya sea que se “corrijan” o no los resultados por adivinar. Como es comprensible, los examinados adivinarán menos si se les informa que su calificación será reducida como castigo por adivinar, al contrario de lo que sucede cuando no se dan instrucciones al respecto o se les pide que adivinen cuando tengan dudas. Desafortunadamente, los estudiantes no siempre leen ni siguen con atención las instrucciones. Incluso quienes las leen palabra por palabra no siempre las interpretan del mismo modo. Sin importar lo que aconsejen o no las instrucciones, a algunas personas no les gusta tomar riesgos y se muestran renuentes a adivinar cuando no están seguros de la respuesta correcta. Deberes del examinador después de la prueba Después de administrar una prueba individual, el examinador debe recoger y guardar en lugar seguro todos los materiales de la prueba. Es preciso animar a los examinados sobre su desempeño, tal vez darles alguna pequeña recompensa si se trata de niños y conducirlos al lugar adecuado. En evaluaciones clínicas, en general es importante consultar con el padre o acompañantes del examinado, quizás antes y después de la prueba. Al terminar la prueba, también se dará información sobre lo que se hará con los resultados a los examinados y/o a sus acompañantes. El examinador tranquiliza a los interesados al prometer comunicarles los resultados e interpretaciones a los propios individuos o a la institución y recomendar medidas subsiguientes. Tras la administración de una prueba colectiva de grupo, el examinador tiene que recoger los materiales pertinentes (folletos, hojas de respuestas, papel para usar como borrador, lápices, etcétera). En caso de una prueba estandarizada, es necesario contar y cotejar los folletos y las hojas de respuestas, así como verificar todos los demás materiales para asegurarse de que nada falte. Sólo entonces se despide a los examinados o se les prepara para la siguiente actividad, y se ordenan las hojas de respuestas para calificarlas. Pruebas adaptativas Históricamente, no se ha seguido con precisión en todas las pruebas un procedimiento de aplicación de pruebas en el que se presenten los mismos reactivos a todos los examinados. No obstante, en general se ha permitido poca flexibilidad al determinar los reactivos. Este método tradicional de aplicación de pruebas es particularmente ineficaz en pruebas de aprovechamiento, porque se les presentan a los examinados muchos reactivos que resultan demasiado fáciles o difíciles para ellos. Adaptar el contenido de una prueba al nivel de capacidad del examinado elimina la necesidad de aplicar muchos reactivos muy fáciles o muy difíciles, lo que ahorra tiempo y esfuerzo. En pruebas adaptativas o a la medida, los reactivos específicos aplicados a una persona en particular dependen de su capacidad calculada a partir de sus respuestas a reactivos previos. Debido a que las pruebas son más precisas para medir la habilidad de las personas si la dificultad de los reactivos corresponde a su propio nivel de habilidad, evaluar ésta mientras el exami- APLICACIÓN DE LOS TESTS 51 nado avanza en la prueba permite seleccionar los reactivos más cercanos a su habilidad real (vea Meijer y Nering, 1999; Wainer, 2000). Los bancos de reactivos para pruebas adaptativas pueden ser recopilados por computadoras programadas para seguir alguna de las metodologías de respuesta de reactivos (vea los capítulos 4 y 5). En las pruebas adaptativas, deben cumplirse algunos supuestos de la teoría de respuesta al Ítem (IRT) incluyendo los siguientes: (1) todos los reactivos de una reserva miden una sola habilidad o dimensión de aprovechamiento, y (2) los reactivos son independientes, es decir, la respuesta de una persona a un reactivo no depende de su respuesta a ningún otro reactivo. El cumplimiento de la primera suposición, de unidimensionalidad, es más probable en el caso de bancos de reactivos o de pruebas derivadas del análisis factorial (vea el apéndice A). La segunda suposición se cumple si los reactivos no están interconectados o interrelacionados de alguna manera. El procedimiento adaptativo para aplicar una prueba de aprovechamiento o de capacidad funciona de la siguiente manera. Aplicando un modelo estadístico apropiado y una metodología de respuesta de reactivos, se recopila por computadora un banco de reactivos de prueba variando la dificultad y quizás otras características. Una estimación del nivel de habilidad del examinado determina los reactivos que se administrarán primero. Como alternativa, al principio pueden administrarse reactivos de mediana dificultad. La selección de los reactivos que se administrarán subsecuentemente depende de las respuestas del examinado a los reactivos previos. La evaluación continúa mientras el cálculo de error o el nivel de precisión de las respuestas no llegue a un nivel especificado. A diferencia del procedimiento de evaluación tradicional, en las pruebas adaptativas no se permite a los examinados saltarse reactivos ni revisar o cambiar sus respuestas.1 Pero debido a que no todos los reactivos de un banco se administran a cada examinado, las pruebas adaptativas son más eficientes que las convencionales. Se aplica al examinado sólo alrededor de la mitad de los reactivos usados en las evaluaciones tradicionales, sin que se pierda información y manteniendo confiabilidad y validez equivalentes. La calificación de una persona en la mayoría de las pruebas adaptativas está determinada no sólo por el procedimiento tradicional de contar la cantidad de reactivos contestados correctamente, sino tomando en cuenta las características estadísticas de los reactivos. En todo caso, la investigación ha demostrado que las calificaciones de las pruebas adaptativas computarizadas son sumamente comparables a las calificaciones de las pruebas de lápiz y papel equivalentes (Kapes y Vansickle, 1992; Mead y Drasgow, 1992). Asimismo, al administrar reactivos que son más apropiados para el nivel de habilidad del examinado, una prueba adaptativa puede resultar más confiable que otra más extensa diseñada para evaluar la misma habilidad. La seguridad de una prueba es más fácil de mantener en el caso de pruebas adaptativas asistidas por computadora. El requisito de seguridad es de particular importancia en el caso de sistemas de evaluación proporcionados a través de Internet, como el desarrollado por Northwest Evaluation Association (Olson, 2000). Otras ventajas de las pruebas adaptativas asistidas por computadora incluyen calificaciones y registros más precisos e inmediatos, menos errores generados por adivinación, así como la posibilidad de grabar las respuestas y los tiempos en que se resuelven los reactivos(Bunderson, Inouye y Olsen, 1989). Una desventaja, al menos cuando se 1Rocklin, O´Donnell y Holst (1995) propusieron una variante de la evaluación adaptativa computarizada, llamada evaluación autoadaptativa, que ofrece a los examinados la oportunidad de diseñar dinámicamente la dificultad de los reactivos y, por tanto, ampliar su estado afectivo y motivacional. En este procedimiento, antes de la presentación, los reactivos en una prueba autoadaptativa se agrupan por nivel de dificultad con base en datos normativos. Se permite al examinado especificar la categoría de dificultad de la que debe tomarse cada reactivo sucesivo. De esta manera, un examinado que busque un reto puede especificar que el siguiente reactivo sea difícil, mientras otro que esté intentando evitar el fracaso puede especificar que el siguiente reactivo sea bastante fácil. 52 CAPÍTULO TRES Administración, aplicación y calificación de los tests evalúan individuos o grupos pequeños, es el costo de la inversión inicial y el gasto por el mantenimiento del equipo y de la actualización de los programas de cómputo. Los usos de las pruebas adaptativas para evaluar la inteligencia general y las habilidades eran más bien limitados hasta hace relativamente poco. Algunos organismos ofrecen versiones adaptativas computarizadas de la Prueba de Evaluación Académica (SAT), la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB), los Exámenes de Registro de Graduados (GRE) y algunas otras pruebas de habilidades cognoscitivas (vea Bergstrom y Lunz, 1999; Mills, 1999; Segall y Moreno, 1999) y de personalidad (vea, por ejemplo, Forbey, Handel y Ben-Porath, 2000; Reise y Henson, 2000). CALIFICACIÓN DE LOS TESTS Los diseñadores profesionales de tests no esperan a que se elabore y administre una prueba antes de decidir qué procedimiento de calificación usarán. En una prueba realizada por maestros consistente en varias partes que incluyen distintos contenidos o tipos de reactivos, es posible que el maestro quiera obtener calificaciones separadas de las diversas partes, así como un resultado general de la prueba en su conjunto. También debe decidirse si se restará una corrección por adivinar, si se asignarán distintos pesos a la calificación de los diversos reactivos o secciones y si se entregarán los resultados en forma directa o convertidos a otras escalas numéricas. Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones. Las hojas de respuestas pueden calificarse a máquina, y aun cuando se califiquen a mano, pueden usarse plantillas de calificación, proporcionadas por el editor de las pruebas, de acuerdo con las instrucciones incluidas en el manual. Calificación de pruebas de ensayo Las pruebas de ensayo pueden hacerse más efectivas al estructurar la tarea con claridad, de modo que la interpretación de una pregunta no varíe mucho de una persona a otra. La calificación puede basarse entonces en la calidad de la respuesta. De manera similar, el procedimiento de calificación para los reactivos de ensayo deberá estar tan estructurado y ser tan objetivo como sea posible, de forma tal que las calificaciones dependan menos de factores ajenos al contenido o de impresiones y más del nivel de conocimiento y comprensión demostrado. Calificar con base en la destreza caligráfica más que en la calidad de las respuestas,2 generalizar demasiado (error de indulgencia) y asignar una calificación alta a una respuesta simplemente porque el examinado obtuvo una buena calificación en otros reactivos (efecto de halo), se encuentran entre los errores que pueden alterar las calificaciones en reactivos de ensayo. Pueden tomarse varias medidas para que las calificaciones de las pruebas de ensayo sean más objetivas y confiables. Para empezar, el examinador debe decidir ya sea calificar la pregunta en conjunto o asignar pesos distintos a cada componente. La calificación completa (global u holística) es común, pero tal vez sea más significativo emplear un procedimiento analítico en el que se asignen puntos para cada reactivo de información o habilidad incluido en la respuesta. En el primer reactivo de ensayo de la tabla 2.4, por ejemplo, puede otorgarse un punto por cada ventaja o desventaja correcta registrada y un máximo de cinco puntos para la forma en que se orga2Las calificaciones en las pruebas de ensayo no siempre se relacionan positivamente con la calidad caligráfica. En un es- tudio de Chase (1990-1991), los ensayos escritos con mala letra reciben calificaciones más elevadas que los escritos con buena letra. Esto puede deberse a que los mejores alumnos tenían mala caligrafía, a que los profesores interpretaban la buena letra como un intento por enmascarar el conocimiento deficiente del material, o a algún otro factor. CALIFICACIÓN DE LOS TESTS 53 niza la respuesta. La cantidad máxima de puntos asignados a un reactivo debe determinarse no sólo por el juicio del examinador sobre la importancia del reactivo, sino también por la extensión asignada a la respuesta. Cuando las instrucciones especifican una respuesta de media página, el reactivo debe tener menor peso que cuando se requiere una respuesta de página completa. Cualesquiera que sean los pesos de calificación asignados a preguntas y respuestas específicas, es aconsejable que el diseñador de la prueba prepare de antemano respuestas ideales para las preguntas. También se recomienda que se bloqueen los nombres de los examinados antes de revisar las pruebas, de modo que puedan evaluarse en forma anónima. A continuación se presentan otras recomendaciones: 1. Califique todas las respuestas a una pregunta antes de pasar a la siguiente pregunta. 2. Califique todas las respuestas a una pregunta específica durante el mismo periodo de calificación. 3. Cuando se califiquen tanto el estilo (mecánica, calidad de la redacción) como el contenido, es preciso evaluar las pruebas en forma separada. 4. Pida a otra persona que califique nuevamente cada prueba y como resultado final elija el promedio de puntos asignados por ella y por usted. 5. Escriba comentarios al lado de las respuestas de los examinados y marque las correcciones en las pruebas. Las correcciones y los comentarios escritos en las pruebas de aula son un complemento valioso de la cantidad de puntos o del grado asignado. Es más probable que el alumno aprenda algo extra si sus respuestas se corrigen y comentan que cuando sólo se les asigna un número o letra. Los programas de cómputo para calificar ciertos tipos de reactivos de ensayo ya están disponibles para usarse vía red en un formato de escribir-evaluar-reescribir. Dos ejemplos son Intelligent Essay Assessor, basado en el análisis semántico latente (Landauer, 1998, 1999) y el programa “e-rater”. Los procedimientos de calificación y asignación de grados basados en la computadora para los ensayos empiezan por “enseñar” al programa sobre el tema asignado mediante la lectura de cientos de miles de vocablos de textos en línea. Los ensayos escritos por expertos sobre el tema y los ensayos de estudiantes ya calificados por instructores son digeridos por el programa para establecer sus procedimientos de evaluación. Los programas van más allá de verificar simplemente la extensión y mecánica de las palabras y de evaluar el aprendizaje específico de temas y preguntas. Se determinan y evalúan la inclusión de conceptos clave, la estructura semántica y la orientación de los argumentos del alumno. Los programas disponibles en la actualidad para asignar grados a ensayos no determinan la medida en que la escritura resulta creativa o compleja, sino más bien están orientados hacia ensayos que exponen temas objetivos (Murray, 1998). Calificación de pruebas objetivas Una ventaja exclusiva de las pruebas objetivas es la eficiencia y precisión con que pueden calificarse. Mientras quienes evalúan pruebas de ensayo dedican en general horas para leer las respuestas y revisar su corrección, un empleado puede calificar una prueba objetiva de manera rápida y precisa mediante una plantilla o una máquina. De modo que es posible regresar las pruebas a los estudiantes cuando aún tienen en mente el material visto en ellas. Es posible preparar con gran facilidad tiras de claves o plantillas para calificar a mano los cuadernillos de prueba o las hojas de respuestas. Puede elaborarse una tira de claves funcional usando una tira de cartón donde las respuestas correctas se ubiquen en los sitios que corresponden a los espacios de la prueba donde se escriben las respuestas. Para preparar una plantilla de 54 CAPÍTULO TRES Administración, aplicación y calificación de los tests calificación a usar en hojas de respuestas especiales, en una hoja en blanco o cartoncillo se perfora en los espacios correspondientes a las respuestas correctas. Calificaciones a máquina. Aunque la mayoría de las hojas de respuestas para pruebas distribuidas comercialmente pueden calificarse a mano o a máquina, las que distribuyen ciertas organizaciones sólo se califican a máquina. Después de que se aplica una prueba, las hojas de respuestas se envían por correo a un servicio especial o se regresan al distribuidor para que las califiquen a máquina. Las máquinas para calificar han estado disponibles desde la primera mitad del siglo XX. Las máquinas de antaño eran sensibles sólo a marcas magnéticas colocadas en el papel, por lo que se requerían lápices magnéticos especiales para marcar las hojas de respuestas. Las máquinas contemporáneas para calificar lotes grandes de hojas de respuestas son lectores ópticos sensibles a las marcas realizadas con lápices comunes. No se requiere de una computadora para la calificación rápida y eficiente de pruebas, pero utilizarla provee de cierta flexibilidad de uso que posteriormente permite realizar análisis estadísticos, y la interpretación y almacenamiento de las calificaciones y otros datos personales. Además de la calificación realizada localmente con un lector óptico, las hojas de respuestas pueden enviarse por correo o módem a un servicio de calificación central. La programación requerida para usar un lector óptico de escritorio es bastante sencilla e incluye un rango amplio de funciones, tales como ponderar reactivos, calificar parcialmente, analizar reactivos, marcar aciertos y errores e imprimir diversos tipos de información, estadísticas y gráficas. Adicionalmente a las calificaciones sin depurar y a las convertidas, se registran distribuciones de frecuencia e histogramas, estadísticas de pruebas (medias aritméticas, desviaciones estándar, coeficientes de consistencia interna) y estadísticas de reactivos (índices de dificultad y de discriminación, distribución de las respuestas a opciones y conceptos similares). Pueden efectuarse calificaciones, análisis y registros de calificaciones usando un lector óptico conectado a una microcomputadora que tenga los programas de evaluación apropiados. Sin embargo, los paquetes de cómputo que elaboran pruebas de acuerdo con ciertas especificaciones, las califican, analizan y presentan los resultados, son complejos y costosos. Un ejemplo de dichos programas para fines generales es MicroCAT (de Assessment Systems Corporation), el cual hace posible la construcción, aplicación, calificación y análisis de pruebas diseñadas a partir de la perspectiva de respuesta al ítem o de la evaluación clásica y administradas mediante procedimientos adaptativos o convencionales. MicroCAT crea y mantiene bancos de reactivos que consisten en texto, gráficas e imágenes digitalizadas; desarrolla y elabora formas de pruebas impresas; produce y aplica tests computarizados que van desde simples pruebas convencionales hasta complejas pruebas adaptativas, y realiza análisis de reactivos convencionales, análisis de respuesta a ítemes y calibraciones de reactivos. Algunas funciones de elaboración y administración de pruebas de MicroCAT están disponibles en línea y es posible acceder a ellas mediante programas de cómputo como los sistemas C-Quest y FastTEST proporcionados por Assessment Systems Corporation. Errores humanos de calificación. La calificación de pruebas por computadora no es un proceso totalmente exento de errores, por ello se recomienda que los servicios de calificación de pruebas revisen la frecuencia de errores y emitan informes con las correcciones adecuadas cuando se encuentren tales fallas (American Educational Research Association et al., 1999). No obstante, en comparación con la calificación a mano, las tasas de errores de la calificación por computadora son reducidas. Considerando el hecho de que las instrucciones para calificar muchas pruebas individuales de inteligencia y personalidad no siempre son claras y objetivas, no es sorprendente que lle- 55 CALIFICACIÓN DE LOS TESTS guen a asignarse distintas puntuaciones a la misma respuesta. Aunque la variabilidad en las calificaciones tal vez sea mayor en el caso de evaluadores con poca experiencia (Slate y Jones, 1990), incluso los más experimentados cometen errores. Por ejemplo, se ha descubierto que los errores tanto en administración como en calificación ocurren cuando los estudiantes de psicología e incluso psicólogos profesionales administran pruebas de inteligencia individual (Franklin y Stillman, 1982; Ryan, Prefitera y Powers, 1983). En varios casos, los errores son de tal magnitud que se asignan a las personas niveles de inteligencia equivocados. También el personal clínico capacitado comete errores al calificar a mano inventarios de personalidad, en ocasiones tan graves que llegan a alterar los diagnósticos clínicos (Allard, Butler, Faust y Shea, 1995; Allard y Faust, 2000). Otros estudios han revelado que los resultados de las calificaciones se modifican por el agrado de quien administra o califica el examen hacia el examinado. También percibir al examinado como una persona cálida (Donahue y Sattler, 1971), brillante o aburrida (Sattler, Hillix y Neher, 1970; Sattler y Winget, 1970) puede afectar el resultado. Pueden ocurrir errores al convertir calificaciones brutas en calificaciones estándar o escaladas cuando se desconoce o se calcula mal la edad cronológica exacta del examinado. Ponderación de calificaciones para reactivos de opción múltiple y de falso-verdadero. Parece razonable esperar que en pruebas objetivas, como en reactivos de ensayo, la cantidad de puntos asignada a una respuesta varíe de acuerdo con el tipo de reactivo y la calidad de la respuesta. Se han llevado a cabo muchos estudios sobre los efectos de la ponderación previa de las respuestas a reactivos de pruebas objetivas convencionales, es decir, asignar distinta cantidad de puntos a tipos de reactivos diferentes y a diversas respuestas. Algunas investigaciones han concluido que la ponderación previa es más definida y confiable que la calificación convencional (Hsu, Moss y Khampalikit, 1984; Serlin y Kaiser, 1978; Willson, 1982). Sin embargo, las ventajas de la ponderación diferencial de las respuestas a reactivos no parecen justificarse por el aumento en el costo y el tiempo de calificar (Kansup y Hakstian, 1975). En pruebas de 20 o más reactivos, asignar simplemente una calificación de 1 a cada respuesta correcta y 0 a las incorrectas resulta tan satisfactorio como usar pesos diferenciales. Así, las calificaciones posibles en una prueba de 50 reactivos de opción múltiple que haya sido calificada en forma convencional o de otra de falso-verdadero calificada mediante este procedimiento varían de 0 a 50. Asignar pesos diferenciales a distintas respuestas puede ser más efectivo si el tipo de respuesta requerida fuese cambiado. Una variante interesante del formato de falso-verdadero es pedir a los examinados que indiquen qué tan seguros se sienten de sus respuestas. La tabla 3.1 ilustra TABLA 3.1 Procedimiento de ponderación de confianza para reactivos de falso-verdadero El examinado señala que: La afirmación en realidad es: La afirmación probablemente es verdadera La afirmación posiblemente es verdadera No tengo idea La afirmación posiblemente es falsa La afirmación probablemente es falsa VERDADERA 2 1 .5 0 –2 FALSA –2 0 .5 1 2 Fuente: Robert L. Ebel, Measuring Educational Achievement, © 1965, p. 131. Adaptado con permiso de Prentice Hall, Englewood Cliffs, NJ. 56 Administración, aplicación y calificación de los tests CAPÍTULO TRES dicho procedimiento de ponderación de la confianza para reactivos de falso-verdadero. Aunque este procedimiento represente una mejora sobre la calificación convencional de 0-1 para reactivos de falso-verdadero, tal vez dicha calificación es satisfactoria para la mayoría de las pruebas de aula formadas por 30 o más reactivos. Calificación de reactivos de clasificación. Así como con los reactivos de falso-verdadero y de opción múltiple, los reactivos de respuesta breve y de aparejamiento pueden calificarse asignando 1 punto a las respuestas correctas y 0 puntos a las erróneas y las omisiones. Debido a la gran cantidad de órdenes distintos en que puede colocarse un grupo de reactivos, la calificación de reactivos de clasificación presenta un problema especial. Por ejemplo, el error de asignar el segundo lugar a un reactivo al que de hecho corresponde el primero, no es tan grave como colocar dicho reactivo en cuarto lugar. Las dos fórmulas que pueden usarse para calificar reactivos de clasificación son: 冤 2⌺ 冷d冷 , c2 ⫺ j 冤 2⌺ (d)2 , c(c2 ⫺ 1) S1 ⫽ c 1 ⫺ S2 ⫽ c 1 ⫺ 冥 (3.1a) 冥 (3.1b) En estas fórmulas, c representa la cantidad de cosas clasificadas, las d son valores absolutos de las diferencias entre las posiciones asignadas por el examinado y las posiciones predeterminadas, y j = 0 cuando c es par y 1 si c es non. Para ejemplificar el uso de estas fórmulas, supongamos que deben ordenarse cinco ciudades de acuerdo con su población asignando una posición de 1 a la ciudad con la mayor población, 2 a la segunda más grande, y así sucesivamente. Los nombres de las cinco ciudades se incluyen en la primera columna de la tabla 3.2, las posiciones predeterminadas aparecen en la segunda columna y las asignadas por un examinado hipotético en la tercera columna. La cuarta columna contiene los valores absolutos de las diferencias entre la posición correcta para cada ciudad y las posiciones predeterminadas, y la quinta columna presenta el cuadrado de dichas diferencias. El total de los valores absolutos de las diferencias entre las posiciones del examinado y las posiciones predeterminadas es 10, y el total del cuadrado de las diferencias es 28. Sustituir c ⫽ 5, ⌺ⱍdⱍ ⫽10, y j ⫽ 1 en la fórmula 3.1a produce 5[1 – 2(10)/(52 ⫺ 1)] ⫽ .83 ⬇ 1. Sustituir c ⫽ 5 y ⌺d2 = 28 en la fórmula 3.1b da 5{1 – 3(28)/[5(52 – 1)]} ⫽ 1.5 ⬇ 2. Los resultados de aplicar estas dos fórmulas no coinciden porque, comparada con la fórmula 3.1a, la fórmula 3.1b otorga más peso a las diferencias de posición mayores que a las menores. Cualquiera de las dos fórmulas es satisfactoria, dependiendo de si se opta por asignar un castigo extra a las respuestas que varían mucho de las predeterminadas. En cualquier caso, no hay un método único para calificar reactivos de pruebas que sea el mejor en todos los aspectos: eso depende de la filosofía y los objetivos del evaluador. Corrección por adivinación. Después que la calificación total bruta se ha establecido, surge la pregunta de si es un indicador preciso de la verdadera situación del examinado en la prueba o si está inflada por los aciertos generados al adivinar. Es frecuente que las personas adivinen en pruebas objetivas, y las probabilidades de mejorar sus calificaciones de esa manera, en especial tratándose de reactivos con pocas opciones, pueden ser elevadas. Si la persona no conoce la respuesta correcta y todas las opciones son igualmente atractivas, la probabilidad de seleccionar la opción correcta adivinando es de 100/k, donde k es el número de opciones por reactivo. Así, la posibilidad de adivinar la respuesta correcta es de 50 sobre 100 en un reactivo de falso-verdadero, 57 CALIFICACIÓN DE LOS TESTS TABLA 3.2 Calificación de un ejemplo de reactivo de reacomodo CIUDAD Houston Chicago Los Ángeles Filadelfia Nueva York RANGO CORRECTO POSICIÓN DEL EXAMINADO 4 3 2 5 1 1 2 3 4 5 VALOR ABSOLUTO DE LA DIFERENCIA Totales CUADRADO DE LA DIFERENCIA 3 1 1 1 4 9 1 1 1 16 10 28 pero sólo de 25 sobre 100 en un reactivo de cuatro opciones. Obviamente, adivinar las respuestas de una gran cantidad de reactivos puede tener un efecto mucho más grave en una prueba de falso-verdadero que en una de opción múltiple. Corregir los efectos de adivinación en ciertas pruebas estandarizadas (por ejemplo, la SAT y la GRE) conlleva restar una porción de la cantidad de respuestas erróneas a la cantidad de respuestas acertadas. El razonamiento en que se basan las fórmulas llamadas de corrección por adivinar no es de nuestro interés aquí, salvo en lo concerniente a la suposición cuestionable de que los examinados adivinan a ciegas cuando tienen dudas. La fórmula de corrección por adivinar más común es: S ⫽ R ⫺ W , k ⫺ 1 (3.2) donde R es la cantidad de reactivos que el examinado acierta, W la cantidad de reactivos en que el examinado se equivoca, k la cantidad de opciones por reactivo y S la calificación corregida. Esta fórmula se ha criticado por producir resultados que son demasiado bajos cuando los examinados están menos familiarizados con el material de la prueba y muy elevados cuando están más familiarizados con dicho material (Little, 1962, 1966). Una fórmula alternativa propuesta por Little (1962) es: S ⫽ R ⫺ W , 2(k ⫺ 1) (3.3) Los profesionales que administran pruebas están de acuerdo, por lo general, en que las fórmulas de corrección por adivinación en realidad no corrigen los efectos de adivinar y suelen tener poca influencia en el orden de las calificaciones. Hay excepciones cuando la cantidad de reactivos sin contestar varían mucho entre las personas y cuando algunos reactivos tienen más probabilidades de ser contestados que otros. Por lo regular, estas fórmulas, que suponen procedimientos similares a asignar pesos diferenciales a distintos reactivos, no se recomiendan para calificar pruebas de aula. Probablemente son más útiles para revisar pruebas de falso-verdadero y de velocidad, en las cuales el factor de adivinación interviene mucho más que en otro tipo de exámenes. Las calificaciones negativas, que en general se originan cuando se aplica la fórmula 3.2 en pruebas de falso-verdadero (S ⫽ R ⫺ W), usualmente se cambian por cero. De cualquier 58 CAPÍTULO TRES Administración, aplicación y calificación de los tests modo, los examinados tienen derecho a saber si sus resultados se modificarán por adivinación. En las instrucciones de las pruebas debe añadirse información sobre cómo habrá de calificarse, incluyendo si se empleará corrección por adivinar. Calificaciones modificadas. Usualmente no vale la pena alterar las calificaciones sin depurar de las pruebas objetivas mediante la ponderación diferencial de reactivos o con fórmulas de corrección por adivinar, pero a menudo se modifican de otras maneras para que resulten más significativas. Como se describe en la sección sobre normas del capítulo 4, el proceso de interpretar resultados de pruebas se facilita al transformarlos en calificaciones de percentiles o en calificaciones estándar. Calificación de pruebas orales Aunque es más probable que ocurran errores al calificar respuestas orales que escritas, hay formas especiales de evaluar el desempeño que mejoran la objetividad de la calificación en pruebas orales (vea la forma 3.1). Otras maneras de reducir los errores en este tipo de pruebas consisten en prestar atención al diseño de las preguntas, elaborar modelos de respuestas a las preguntas antes de administrar la prueba, recurrir a varios evaluadores y capacitar a los examinadores para evitar favoritismos y otros sesgos. Si el tiempo asignado a la calificación no es crítico, puede mejorarse su precisión si se graban las respuestas y vuelven a evaluarse más tarde (vea Aiken, 1983a). FORMA 3.1 Forma para evaluar informes orales Instrucciones: Para cada una de las preguntas de la lista, califique el desempeño del estudiante en una escala de 1 a 10: 1 corresponde a muy deficiente y 10 a excelente. Escriba el número adecuado (1 a 10) en la raya. 1. ¿Qué tan bien conoce el estudiante el tema del informe? 2. ¿Qué tan bien organizado estaba el informe? 3. ¿Qué tan eficaz fue la introducción para captar su atención? 4. ¿Con cuánta claridad y precisión habló el alumno? 5. ¿Qué tan interesante fue el tema? 6. ¿Qué tan eficaces fueron los materiales audiovisuales (películas, carteles, notas del pizarrón) en caso de haberse usado? 7. ¿Qué tanto se abstuvo el alumno de ver sus notas casi todo el tiempo y en cambio miró a la clase durante el informe? 8. ¿Con cuánta eficiencia usó el alumno gestos, posturas corporales y otros mensajes no verbales para comunicarse? 9. ¿En qué medida el estudiante se refirió a investigaciones u otras fuentes para presentar el informe? 10. ¿Cómo calificaría la conclusión (resumen de los puntos principales, preguntas para reflexionar, etc.) del informe? Comentarios: RESUMEN 59 Calificación y notas Después de haber administrado y calificado las pruebas, es preciso calificar los resultados. En el caso de pruebas realizadas por el maestro, la evaluación de los resultados en general implica asignar letras o notas. La asignación de notas es un proceso bastante subjetivo, dependiente no sólo de la prueba misma, sino de las expectativas del evaluador y de las calificaciones obtenidas por otros estudiantes. Algunos maestros califican estrictamente sobre la curva, mientras que otros evalúan en términos de un estándar o criterio de desempeño fijo. Sin embargo, la mayoría tal vez emplea una combinación de notas de curva y de estándar fijo. En un procedimiento de curva, el método Cajori, se asignan letras como sigue: A para el mejor 7% de las pruebas, B al siguiente 24%, C al 38% que sigue, D al 24% siguiente y F al 7% más bajo. La desventaja de este método es que no considera que la dificultad de las pruebas varía y que el nivel de capacidad promedio no es el mismo para estudiantes de distintas clases. Otro procedimiento de curva establece límites de notas con letra para pruebas de aula cuando el nivel de capacidad de la clase, el desempeño de la clase en la prueba con respecto a otras clases, y los propios resultados de la prueba se toman en cuenta (Aiken, 1983b, 2000).3 El sistema de asignación de notas, en que A se considera excelente o superior, B superior al promedio o bueno, C es el promedio, D es inferior al promedio o deficiente, y F es insuficiente o reprobado, es una forma de interpretación de resultados o de evaluación del desempeño. Todas las instituciones públicas y privadas tienen estándares que se espera cumplan sus alumnos, empleados o miembros. Los estándares pueden ser flexibles, pero en algún momento se evalúa el desempeño de los miembros de la organización. El castigo por obtener una evaluación negativa puede consistir en trabajo extra, degradación, suspensión o incluso expulsión. Las recompensas por una evaluación favorable incluyen premios, privilegios y ascensos. Las notas en letra implican la evaluación del desempeño académico mediante la aplicación de diversas pruebas de aprovechamiento a los estudiantes. Las calificaciones en otras pruebas de habilidad y personalidad también requieren de interpretación si se pretende usarlas para ciertos fines como ubicación en puestos o clases especiales, psicodiagnóstico o tratamientos psicológicos, u otro tipo de intervenciones. Interpretar las calificaciones en dichas pruebas puede ser un proceso muy complejo, dependiendo del tipo de prueba y los propósitos para los que se aplique. La interpretación involucra factores tanto objetivos como subjetivos, incluyendo el uso de normas como se analiza en el siguiente capítulo. RESUMEN Los procedimientos para administrar y calificar pruebas varían en cierta medida según el tipo de prueba y las personas a las que está dirigida. Los examinados deben estar preparados, motivados para desempeñarse bien y relativamente exentos de tensión y de otras condiciones distractoras. 3Aiken (2000) analiza los problemas relacionados con las notas en letra y describe un conjunto de siete programas de cómputo que proporcionan una base más objetiva para la asignación de notas. Estos programas pueden usarse para asignar letras, calcular el promedio o una serie de letras ponderadas, convertir letras en percentiles, transformar notas en puntos de calidad y calcular estadísticas apropiadas, convertir calificaciones numéricas en una escala diferente, puntos en percentiles y calificaciones estándar, y almacenar o recuperar notas en letras, números enteros o decimales de un archivo. Previa solicitud puede obtenerse una copia de esta serie de programas enviando un disquete formateado de sistema DOS y un sobre de porte pagado al doctor Lewis R. Aiken, 3300 Blue Ridge Court, Thousand Oaks, CA 91362. 60 CAPÍTULO TRES Administración, aplicación y calificación de los tests Quienes administran las pruebas deben estar capacitados, familiarizados con la prueba en particular y tener la seguridad de que todo está en orden antes de iniciar una prueba. En general, las circunstancias de prueba deben ser física y psicológicamente cómodas, de modo que los examinados se sientan dispuestos a realizar su mejor esfuerzo. Como regla general, debe informarse a los examinados sobre el o los objetivos de la prueba, cuándo y dónde se administrará,cuál será el formato y el material que aborda. Los examinadores deben seguir las instrucciones cuidadosamente, tomar precauciones para reducir al mínimo las trampas y prepararse para manejar emergencias y otros problemas especiales. Suele permitirse cierta flexibilidad al aplicar pruebas elaboradas por maestros y estandarizadas, pero en caso de alejarse radicalmente de las instrucciones de administración se invalida el uso de las normas en las pruebas estandarizadas. Los examinadores también deben intentar entablar un buen rapport con los examinados, en particular en el caso de pruebas aplicadas de manera individual. El ingenio para resolver pruebas, los aciertos al adivinar, cambiar las respuestas y hacer trampas son algunos de los factores que pueden inflar los resultados en una prueba objetiva; alardear, usar una redacción rebuscada o buena caligrafía tienen el mismo efecto en las pruebas de ensayo. La influencia del ingenio lpara resolver pruebas se minimiza al elaborar los reactivos con cuidado y evitando las claves como la extensión de los reactivos, determinantes específicos, errores gramaticales, indicios estilísticos y opciones heterogéneas (no paralelas). Con frecuencia se aplican fórmulas de corrección por adivinación para reducir los efectos de adivinación. No obstante, con la posible excepción de los reactivos de falso-verdadero, al calificar pruebas de aula, las pruebas convencionales de corrección por adivinación no suelen compensar el tiempo y los esfuerzos invertidos. Las pruebas de ensayo pueden calificarse holística o analíticamente, pero en ambos casos debe informarse a los examinados cómo se revisarán las pruebas. Se recomienda calificar las respuestas de todos los examinados a una pregunta específica antes de continuar con la siguiente, lo mismo que evaluar el contenido y el estilo de las respuestas en forma separada. Además de una calificación numérica, a menudo es útil incluir comentarios, correcciones y explicaciones como retroalimentación sobre el desempeño en las pruebas de ensayo. Muchas pruebas objetivas se califican con ayuda de computadoras u otras máquinas especiales. En general, la calificación a máquina es superior en términos de velocidad y precisión, pero menos flexible que la realizada a mano. La evaluación de muchos tests de inteligencia y personalidad individuales no es del todo objetiva, y pueden cometer errores graves tanto los profesionales como el personal capacitado. En las pruebas adaptativas, donde la secuencia de las preguntas presentadas al examinado varía de acuerdo con su posición estimada en la variable especificada y con sus respuestas a reactivos anteriores, el tiempo de administración se reduce considerablemente. El uso de computadoras para presentar reactivos y evaluar respuestas hace de las pruebas adaptativas una opción eficiente, aunque más costosa, que el método tradicional de presentar dichos reactivos a todos los examinados. Se han investigado a fondo los efectos de asignar distinto peso en la calificación para diferentes tipos de reactivos objetivos o para distintas respuestas a un reactivo. En general, no se recomiendan ponderaciones previas para calificar pruebas que consistan en 20 o más reactivos. Las calificaciones brutas con frecuencia se convierten en percentiles o calificaciones estándar con el fin de calcular porcentajes, realizar comparaciones e interpretar calificaciones. Las calificaciones en pruebas de aula también pueden convertirse en notas, ya sea usando un conjunto establecido de porcentajes como los especificados en el método Cajori o de una manera más subjetiva. RESUMEN 61 P R E G U N TA S Y A C T I V I D A D E S 1. Defina lo que es el ingenio para resolver pruebas y describa los comportamientos que revelan dicha conducta. ¿Qué puede hacer un diseñador de pruebas para reducir lo más posible los efectos de tal habilidad en las calificaciones? 2. Pregunte a un grupo de sus compañeros de clase sobre las técnicas que usan para elegir respuestas en pruebas con reactivos de opción múltiple cuando no han estudiado el material en forma adecuada. ¿Qué técnicas son más comunes y qué tan efectivas son? 3. Sin duda ha observado que la velocidad para resolver una prueba de aula puede variar en gran medida de estudiante a estudiante. Algunos terminan un examen de dos horas en menos de una hora, mientras que otros continúan trabajando después de terminado el tiempo permitido. A juzgar por sus observaciones y conversaciones, ¿cuáles considera que son los principales factores que determinan la velocidad para concluir una prueba? 4. ¿Qué es una prueba adaptativa? ¿De qué manera las pruebas adaptativas son mejores que los procedimientos de evaluación objetivos convencionales? ¿En qué aspectos son inferiores? 5. ¿Cuáles son algunas de las ventajas y desventajas de elaborar, administrar y calificar pruebas por computadora, en comparación con las mismas actividades realizadas mediante procedimientos convencionales? 6. Juan resuelve una prueba de 50 reactivos de opción múltiple, con cuatro opciones. Acierta en 30 reactivos, se equivoca en 16 y deja 4 sin contestar. ¿Cuál es su calificación total, con corrección por adivinación y sin ésta? Si todos los reactivos son de falso-verdadero y obtiene el mismo número de aciertos y errores ya mencionados, ¿cuál será su calificación total, con y sin corrección por adivinación? 7. Un examen sobre historia británica contiene un reactivo de reacomodo consistente en una lista de siete batallas. Se pide a los alumnos que ordenen las siete batallas de acuerdo con la fecha en que ocurrieron. El orden correcto es: Batalla de Hastings, Batalla de Bunker Hill, Batalla de Yorktown, Batalla de Trafalgar, Batalla de Waterloo, Batalla del Marne, Battalla de Bretaña. Juan ordena las batallas de la siguiente manera: Waterloo, Hastings, Yorktown, Trafalgar, Marne, Bretaña y Bunker Hill. ¿Cuál sería su calificación en este reactivo? María elige el siguiente orden: Hastings, Waterloo, Yorktown, Bunker Hill, Trafalgar, Marne, Bretaña. ¿Cuál es su calificación? 8. Usando los porcentajes diseñados mediante el método Cajori, asigne letras de grado a las calificaciones de la distribución X en el ejercicio 3 del apéndice A (página 446). Después asigne letras de grado a la distribución Y del mismo ejercicio. Suponga que la calificación máxima es 50, la mínima 0, y la habilidad mediana de la clase es 50. 9. Observe la administración de una prueba en una de sus clases. ¿El examinador siguió los lineamientos descritos en este capítulo? Si no fue así, ¿qué errores cometió y cuáles fueron las consecuencias reales o posibles de sus equivocaciones? CAPÍTULO CUATRO ANÁLISIS DE REACTIVOS Y ESTANDARIZACIÓN DE PRUEBAS Este capítulo aborda dos temas en cierta medida técnicos, pero importantes: el análisis de reactivos y la estandarización de pruebas. Ambos temas tienen que ver con el cálculo de ciertos análisis estadísticos que deben revisarse con detalle para determinar si todos los reactivos de una prueba están funcionando como deberían, y cómo pueden interpretarse las calificaciones de las pruebas. El análisis de reactivos se centra en el funcionamiento de reactivos individuales, mientras que la estandarización de pruebas se ocupa de la interpretación normativa de los resultados de la prueba en su conjunto o de algunas de las partes o subpruebas que la integran. Los temas de este capítulo y del siguiente se tratan, sobre todo, desde la perspectiva de la teoría clásica (tradicional) sobre pruebas, pero no se dejan de lado los enfoques más recientes de la teoría de respuesta al ítem. Tanto la teoría clásica sobre pruebas (CTT) como la teoría de la respuesta a los ítemes (IRT) son útiles para el desarrollo, el análisis y las aplicaciones de pruebas y, dependiendo de la tarea específica, ambas han recibido apoyo. ANÁLISIS DE REACTIVOS Incluso después de haber sido administrada y calificada una prueba, no siempre es seguro que haya funcionado bien. Cuando se pilotea una prueba en un principio, es posible que surjan varios problemas. Ésta es una de las razones de que las pruebas que se distribuyen comercialmente se administren primero a una muestra de personas representativas del grupo que las pruebas están destinadas a medir. Entonces pueden analizarse las respuestas de esa muestra piloto para determinar si los reactivos están funcionando de manera adecuada. Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de los resultados es tan necesario como en medicina o en cualquier otra empresa humana. Entre las preguntas que es preciso contestar figuran las siguientes: ¿fueron adecuados los límites de tiempo? ¿Los examinados entendieron las instrucciones? ¿Fueron apropiadas las condiciones en que se administró la prueba? ¿Se manejaron de manera adecuada las situaciones de emergencia? Es inusual que puedan anticiparse todos los problemas o contingencias que surgen durante un piloteo, pero un análisis posterior puede proporcionar información y motivación para prever y manejar situaciones similares al administrar pruebas en el futuro. El cuestionario de la forma 4.1, que responden los examinados inmediatamente después de haberse sometido a una prueba de aprovechamiento, puede ofrecer información cualitativa sobre las percepciones en cuanto a la imparcialidad de la prueba, si se sentían preparados para ella, si cumplió con sus expectativas o cómo respondieron a los reactivos individuales. 62 ANÁLISIS DE REACTIVOS FORMA 4.1 63 Forma de evaluación de test Instrucciones: Llene esta forma después de terminar la prueba. Encierre su respuesta en un círculo para cada reactivo y responda en los espacios en blanco de ser necesario. Sí No 1. ¿Fue satisfactorio el ambiente (asientos, temperatura, ventilación, nivel de ruido, etc.) en que se aplicó la prueba? ____________________________ Sí Sí Sí No No No 2. ¿Leyó usted cuidadosamente las instrucciones antes de empezar la prueba? 3. ¿Fueron claras las instrucciones? 4. ¿El formato de la prueba (tipo de reactivos, acomodamiento, hoja de respuestas) fue satisfactorio? _____________________________________ Sí No 5. ¿La prueba cubrió de manera adecuada el material asignado? __________ Sí No 6. ¿Las preguntas de la prueba tenían dificultad adecuada? ______________ Sí No 7. ¿Estudió usted lo suficiente para la prueba? ________________________ Sí No 8. ¿Estudió el material correcto? ___________________________________ Sí No 9. ¿Piensa que respondió las preguntas de manera equivocada? ¿Cuáles? ___ Sí No 10. ¿Adivinó algunas de las respuestas? ¿Cuántas? ¿Cuáles? _____________ Sí Sí No No 11. ¿Omitió usted algunos de los reactivos? ¿Cuáles? ___________________ 12. ¿Tuvo bastante tiempo para terminar la prueba? _____________________ Sí Sí Sí No No No 13. ¿Al terminar la prueba, revisó sus respuestas? 14. ¿Estuvo nervioso o emocionalmente molesto durante la prueba? 15. ¿Fue justa la prueba? _________________________________________ Sí No 16. En general, ¿considera que la prueba fue buena? ____________________ Sí No 17. ¿Durante la prueba observó que se hiciera trampa? __________________ 18. ¿Qué calificación espera obtener en esta prueba? ______________________ El análisis de las respuestas que da un grupo determinado de personas a un reactivo individual en una prueba cumple varias funciones. El principal objetivo de dicho análisis de reactivos es contribuir a mejorar la prueba al revisar y descartar reactivos ineficaces. Otra función importante de dicho análisis, en especial en una prueba de aprovechamiento, es proporcionar información diagnóstica sobre lo que saben o no los examinados. 64 Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO Pruebas con referencias a criterios y de dominio El procedimiento empleado en evaluar la eficacia de los reactivos de prueba depende, en cierta medida, del propósito de la misma. Por ejemplo, el examinador puede estar interesado sólo en determinar qué tanto sabe un examinado sobre el material de la prueba, no en comparar su desempeño con el de otras personas. En este caso, el desempeño se mide contra un criterio o estándar establecido por el maestro del aula o por una política institucional. El objetivo de tal evaluación con referencias a criterio (o a un área) no es descubrir qué calificación obtiene una persona en relación con otras, sino en qué nivel se encuentra en cuanto a determinados objetivos de una lección, curso o programa. Un tipo particular de prueba con referencias a criterio, diseñada para medir el logro de un rango limitado de habilidades cognoscitivas, se conoce como prueba de dominio. La calificación de una persona en una prueba de dominio, o en cualquier otra prueba con referencias a criterio, se expresa como un porcentaje de la cantidad total de reactivos respondidos de manera correcta; una calificación perfecta indica el 100% de dominio del material. Diferencias individuales y validez de los reactivos Dado que suele ser difícil llegar a un acuerdo sobre cuánto debe saber una persona sobre una materia en particular o en qué consiste dominarla, tradicionalmente las calificaciones se han interpretado comparándolas con las obtenidas por otras personas. Las pruebas psicológicas se han diseñado, sobre todo, para evaluar diferencias entre individuos en cuanto a características. Las habilidades y la personalidad de la gente difieren, y los psicólogos intentan evaluar estas diferencias mediante diversos tipos de pruebas. Mientras mayor sea el cuidado con que se lleva a cabo dicha evaluación, mayor será la precisión con que podrá predecirse el comportamiento a partir de los resultados de las pruebas. En consecuencia, los encargados de elaborar pruebas intentan diseñar reactivos que permitan diferenciar a las personas en cuanto a lo que se quiera medir. De esta manera, aumenta la variabilidad de los resultados totales de las pruebas y entonces una calificación determinada se convierte en un índice más preciso de la posición de una persona en relación con la de otros individuos. A fin de evaluar la utilidad de un reactivo como medida de las diferencias individuales en cuanto a las características de habilidad o de personalidad, se requiere un criterio externo de medida de dicho rasgo. Si la prueba se elabora para predecir el desempeño en un trabajo o en la escuela, entonces un criterio apropiado consiste en la medida del desempeño laboral (digamos, las escalas del jefe) o del aprovechamiento escolar (por ejemplo, notas asignadas por el maestro). La validez de un reactivo para predecir una posición con base en un criterio externo puede determinarse al correlacionar las calificaciones de un reactivo (0 para los errores y 1 para los aciertos) con las calificaciones de la medida de criterio. Se han usado distintos tipos de coeficientes de correlación para este propósito; el más común es el coeficiente biserial puntual, que puede calcularse con la siguiente fórmula: 1Yp ⫺ Y2 2ntnp> 3 1nt ⫺ np 2 1np ⫺ 12 4 , (4.1) St donde nt = la cantidad total de examinados, np = la cantidad de examinados que resuelven correctamente el reactivo, = la media de las calificaciones de criterio de quienes pasan el reactivo, = la media de todas las calificaciones de criterio, y st = la desviación estándar de todas las calificaciones de criterio. El criterio puede ser externo (productividad en el trabajo o grados de un curso) o incluso calificaciones totales de la propia prueba. rpb ⫽ 65 ANÁLISIS DE REACTIVOS Para ilustrar el cálculo del coeficiente biserial puntual, supongamos que la media y la desviación estándar del total de las calificaciones de un grupo de 30 personas son 75 y 10, respectivamente. Ahora bien, si la calificación media de 17 examinados que aciertan en determinado reactivo es 80, la sustitución de estos valores en la fórmula 4.1 produce: rpb ⫽ 180 ⫺ 75 2 2301172> 3 131292 4 ⫽ .58. 10 Cuanto más elevada sea la correlación entre reactivo y criterio, más preciso será el reactivo como predictor del criterio. El que un reactivo se conserve o deseche depende del tamaño de este coeficiente. Aunque reactivos con coeficientes tan bajos como .20 pueden contribuir a predecir el criterio, se prefieren coeficientes más elevados. Un reactivo con una correlación cercana o menor que .00 con el criterio debe, sin duda, revisarse o descartarse. Sin embargo, la utilidad de un reactivo para predecir un criterio específico no sólo depende de la correlación entre reactivo y criterio, sino también de la correlación del reactivo con otros reactivos de la prueba. Son mejores los reactivos que tienen correlaciones elevadas con el criterio, pero bajas con otros reactivos, porque representan una contribución más independiente a la predicción de calificaciones de criterio. Dificultad de los reactivos e índices de discriminación Por lo general, no hay un criterio externo fácilmente disponible contra el cual validar los reactivos de las pruebas de aprovechamiento en el aula, de modo que a menudo se emplea un procedimiento distinto, el de consistencia interna. Al igual que con cualquier otra prueba, el análisis de reactivos de una prueba de aula conlleva determinar el porcentaje de examinados que pasan el reactivo y la correlación del reactivo con una medida de criterio. No obstante, en el caso de una clase de aprovechamiento de aula, el criterio consiste en calificaciones totales sobre la prueba misma. Suponiendo que la serie de reactivos en conjunto es una medida adecuada de aprovechamiento en el sujeto, la suma de las calificaciones se usa como el criterio para determinar la consistencia interna de la prueba. Un procedimiento más breve consiste en dividir a los examinandos en tres grupos según sus calificaciones en la prueba como un todo: un grupo superior formado por el 27% que obtuvo las calificaciones más altas, un grupo inferior compuesto por el 27% que tuvo las calificaciones más bajas, y el restante 46% incluido en un grupo intermedio. Cuando el número total de examinados es pequeño, el 50% correspondiente a los grupos inferior y superior a menudo se utiliza para propósitos de análisis de reactivos. En cualquier caso, los siguientes índices estadísticos se calculan a partir de los resultados de los grupos inferior y superior: p ⫽ Up ⫹ Lp (4.2) U ⫹ L y D ⫽ Up ⫺ Lp U . (4.3) Up y Lp son la cantidad de individuos que hay en los grupos superior e inferior, respectivamente, y que aciertan en el reactivo; U y L son el número total de personas en los grupos superior e inferior (obsérvese que U = L ), respectivamente. Al valor de p se le conoce como índice de dificultad del reactivo y al de D como índice de discriminación del reactivo. Para ejemplificar el cálculo de estos índices, supongamos que 50 personas presentan una prueba. Entonces los gru- 66 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas pos superior e inferior pueden formarse con los .27 × 50 L 14 superior y el 14 inferior de la suma total de calificaciones. Si 12 de las personas del grupo superior y 7 de las que forman el grupo inferior pasan el reactivo A, entonces p = (12 ⫹ 7)/28 = .68 y D = (12 ⫺ 7)/14 = .36. El índice de dificultad del reactivo tiene un rango de .00 a 1.00. Un reactivo con p = .00 es uno que nadie contestó correctamente, y un reactivo de p = 1.00 es el que todos respondieron en forma acertada. El valor p óptimo para un reactivo depende de varios factores, incluyendo los objetivos de la prueba y la cantidad de opciones de respuesta. Si el propósito de una prueba es identificar o seleccionar sólo un pequeño porcentaje de los mejores candidatos, entonces la prueba debe ser bastante difícil, como se refleja en un valor promedio inferior de p. Si la prueba está diseñada para rechazar sólo a algunos candidatos muy deficientes, entonces es mejor un valor promedio de p elevado. Por ejemplo, el valor de p óptimo debe ser muy bajo para reactivos de una prueba diseñada para otorgar becas o hacer contrataciones en puestos superiores, pero muy alto en una prueba diseñada para identificar estudiantes candidatos a programas terapéuticos. En una prueba elaborada para medir un rango amplio de habilidad, el valor de p óptimo es más cercano a .50. Como se muestra en la tabla 4.1, para una prueba semejante el valor promedio de p óptimo también varía inversamente con el número de opciones de respuestas (k). Los valores de p para reactivos aceptables caen dentro de un rango bastante estrecho, aproximadamente de .20, alrededor de estos valores registrados.1 Aunque algunos reactivos muy fáciles y otros muy difíciles con frecuencia se incluyen en una prueba de rango amplio, de hecho agregan muy poco a la efectividad general para distinguir entre estudiantes que poseen distinta cantidad de conocimiento, habilidad o comprensión del material de prueba. El índice de discriminación del reactivo (D) es una medida de la eficacia de un reactivo para discriminar entre quienes obtienen altas y bajas calificaciones en una prueba. Mientras más elevado sea el valor de D, resulta más eficaz para establecer dicha distinción. Cuando (D) es igual a 1.00, todos los examinados del grupo superior y ninguno del grupo inferior en las calificaciones totales de la prueba respondieron el reactivo en forma adecuada. Sin embargo, casi nunca resulta D igual a 1.00 y, por lo regular, se considera aceptable un reactivo si tiene un índice D de .30 o mayor. Pero D y p no son índices independientes, y el valor de D mínimo aceptaTABLA 4.1 Índices medios óptimos de la dificultad de los reactivos para pruebas con reactivos de opción múltiple NÚMERO DE OPCIONES (k) ÍNDICE MEDIO ÓPTIMO DE DIFICULTAD ( p) 2 3 4 5 Abierta (ensayo, respuesta breve) .85 .77 .74 .69 .50 Fuente: Elaborado con datos proporcionados por F. M. Lord, Psychometrika, 17 (1952), pp. 181-194. 1El rango de p debe ser menor que .20 en una prueba con topes máximos diseñada para medir con eficacia dentro de un rango bastante estrecho de capacidad. Éste es el caso, por ejemplo, de una prueba diseñada para seleccionar o identificar un grupo de personas relativamente pequeño con habilidades muy bajas o muy altas o con cualesquier características que tengan una tasa de aparición baja (tasa base) en la población de interés. ANÁLISIS DE REACTIVOS 67 ble varía de acuerdo con el valor de p. Un valor de D en cierta medida inferior a .30 es aceptable mientras p cada vez aumenta o disminuye más que el valor óptimo, sobre todo cuando los grupos de comparación superior e inferior son numerosos. Asimismo, un reactivo con un índice D bajo no se descarta automáticamente: es posible salvarlo modificándolo. Elaborar reactivos de pruebas adecuados es un proceso minucioso, de modo que los defectuosos deben corregirse y conservarse siempre que sea posible. Factores que afectan el funcionamiento de los reactivos Los resultados de un análisis de reactivos a menudo varían considerablemente dependiendo del grupo específico que se somete a la prueba, en particular cuando la cantidad de examinados es reducida. Algunos reactivos pueden responderse de manera diferente por hombres y por mujeres o por algún grupo étnico, de edad o socioeconómico en comparación con otro. Al elaborar una prueba estandarizada, en la actualidad es frecuente revisar cada reactivo y los análisis estadísticos correspondientes para buscar indicios de falta de discriminación o sesgo por grupo. Para facilitar este proceso, a menudo se calculan índices estadísticos del funcionamiento diferencial del reactivo (DIF). Se han propuesto muchos métodos para obtener información sobre el funcionamiento diferencial de los reactivos de pruebas, incluyendo el procedimiento de diagramas delta de reactivos del Servicio de Evaluación Pedagógica y varios procedimientos de chi cuadrada (vea Camilli y Shepard, 1994). Sólo porque la forma como se responde un reactivo varía de grupo a grupo no quiere decir necesariamente que un reactivo esté sesgado en contra de alguno de los grupos. Técnicamente, un reactivo se considera sesgado sólo cuando mide algo distinto —una característica o rasgo diferente— en un grupo con respecto a otro. Si las calificaciones de un grupo reflejan diferencias verdaderas en cuanto a la capacidad o cualquier característica para cuya medición se diseñó el reactivo, éste se encuentra técnicamente libre de sesgo. Al realizar un análisis de reactivo individual para cada grupo puede revelarse la presencia de sesgo en el reactivo, es decir, si el reactivo discrimina bien entre calificaciones altas y bajas en ambos grupos. También surgen problemas en el análisis de reactivos de las pruebas de velocidad, en las que los límites de tiempo son breves y no todos los examinados pueden terminar. En una prueba de velocidad, los reactivos cercanos al final de la prueba intentan resolverse por relativamente pocas personas. Si quienes alcanzan y por consiguiente tratan de resolver un reactivo final son los examinados más capaces, el índice de discriminación (D) probablemente será mayor del que resultaría si el límite de tiempo fuera más generoso. Por otra parte, si los más descuidados tienen más probabilidades de llegar a los reactivos del final de la prueba e intentar responderlos, los valores D de dichos reactivos tenderán a ser inferiores a los de aquellos que se encuentran cercanos al principio. Se han propuesto varios procedimientos para resolver los problemas que genera el análisis de reactivos hacia el final de las pruebas de velocidad, pero ninguno resulta del todo satisfactorio. A pesar de sus desventajas, los índices de dificultad y de discriminación de reactivos proporcionan información útil sobre el funcionamiento de los reactivos individuales. En general, se ha descubierto que el análisis de reactivos produce mejoras considerables en la eficacia de las pruebas. En particular, el índice de discriminación de reactivos es una medida bastante adecuada de la calidad del reactivo. Junto con el índice de dificultad (p), D puede servir como una advertencia de que algo está fallando en un reactivo. Los constructores de pruebas a menudo han recibido el consejo de registrar los resultados estadísticos del análisis de reactivos, junto con el reactivo mismo, en tarjetas de índices y archivar las tarjetas para su uso posterior. Con la llegada de las computadoras de alta velocidad, ahora los reactivos pueden codificarse por tema, niveles de dificultad y de discriminación, y tal vez 68 Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO hasta por los procesos cognoscitivos que implica responderlos, y después almacenarlos en un banco de reactivos. No sólo los profesionales que elaboran pruebas usan estos bancos de reactivos, también están disponibles como complementos de muchos libros de texto para usarse como pruebas prácticas o servir como banco de reactivos al elaborar pruebas de aula. Las computadoras pueden utilizarse para seleccionar reactivos de un banco que maneje distintos contenidos e integrarlos como una unidad de prueba o exámenes. También hay programas de computación especializados para facilitar la elección de reactivos que abordan un tema específico y, además, con las características estadísticas deseadas. Consistencia interna contra validez El concepto de validez del reactivo, en general, se refiere a la relación entre un reactivo y un criterio externo. Pero D es una medida de la relación de los resultados de reactivos con un criterio interno (total de calificaciones de la prueba) más que con un criterio externo. Seleccionar reactivos con valores D altos dará como resultado una prueba internamente consistente en la que las correlaciones entre reactivos son muy positivas. Sin embargo, las calificaciones de una prueba internamente consistente no siempre están muy correlacionadas con las calificaciones de un criterio externo. Para construir una prueba con una elevada correlación con un criterio externo, deben seleccionarse reactivos que tengan correlaciones bajas entre sí, pero elevadas con la medida de criterio. Seleccionar reactivos con base en la estadística D origina un tipo de prueba distinto al de una prueba compuesta por reactivos elegidos por sus altas correlaciones con un criterio externo. Cuál de estas estrategias, interna o externa, es superior depende de los propósitos de la prueba. Si se desea una medida internamente consistente de una característica, debe usarse el índice de discriminación (D) para seleccionar reactivos. Si se requiere el predictor más válido de un criterio externo en particular, deberán emplearse las correlaciones de criterio de reactivos. En ocasiones es adecuada una combinación de ambas estrategias: se elabora una prueba compuesta a partir de subpruebas con bajas correlaciones entre sí y correlaciones considerables con un criterio externo, pero los reactivos de cada subprueba están altamente intercorrelacionados. Reactivos con referencias a criterios Los índices de dificultad y de discriminación pueden calcularse también en reactivos de prueba con referencia a criterios, y se diseñan para determinar las posiciones de los examinados en objetivos pedagógicos específicos. En este caso, los examinados se dividen en dos grupos: un grupo superior consistente en los examinados U, cuyas calificaciones totales de prueba cumplen con el criterio establecido de desempeño aceptable, y un grupo inferior integrado por los examinados L, cuyas calificaciones totales no satisfacen los criterios. Para un reactivo particular, Up es el número en el grupo superior (encima del nivel de criterio) de quienes aciertan en el reactivo, y Lp es el número en el grupo inferior (debajo del nivel de criterio) de los que aciertan en el reactivo. Entonces el índice de dificultad del reactivo se define mediante la fórmula 4.2. Debido a que U y L no necesariamente son iguales, el índice de discriminación del reactivo se define como: D ⫽ Up Lp (4.4) . U L Puede emplearse un criterio externo para formar los grupos superior e inferior. En el caso de una prueba de aprovechamiento con referencia a criterio, por ejemplo, los examinados pueden dividirse en dos grupos: los que recibieron instrucciones sobre el tema asociado con la prueba (U) y quienes no recibieron dichas instrucciones (L). Los grupos U y L también pueden consis⫺ ANÁLISIS DE REACTIVOS 69 tir en los mismos individuos, tanto antes (L) como después (U) de la instrucción. En cualquier caso, puede usarse la fórmula 4.4 para determinar un índice de discriminación de reactivos. Análisis de distractores El análisis de los reactivos de opción múltiple suele empezar con el cálculo de índices de discriminación y dificultad para cada reactivo. Un análisis secundario se ocupa del funcionamiento de los distractores k ⫺ 1 para cada reactivo. El índice de discriminación de reactivos (D) proporciona cierta información sobre el funcionamiento de los distractores en conjunto. Un D positivo indica que los examinados en el grupo superior (en la calificación total de la prueba) tendieron a seleccionar uno de los distractores; la magnitud de D indica la medida de esta tendencia. Por otra parte, un D negativo indica que los distractores se eligieron con mayor frecuencia por examinados del grupo superior que por los del grupo inferior y que el reactivo debe revisarse. Sin embargo, el signo y la magnitud de D no revelan si todos los distractores funcionaron de manera adecuada. El método más sencillo para determinar si todos los distractores están funcionando como deberían es contar el número de veces que cada distractor se seleccionó como la respuesta adecuada por los examinados del grupo superior y por los del grupo inferior. Si, en el caso de un reactivo que por lo demás es satisfactorio, demasiados examinados del grupo superior o muy pocos del grupo inferior seleccionaron un distractor determinado, éste debería ser modificado o reemplazado. En términos ideales, todos los distractores k ⫺ 1 deberían ser igualmente aceptables para los examinados que no conocen la respuesta correcta de un reactivo; en consecuencia, todo distractor debe ser seleccionado por alrededor de la misma cantidad de personas. Curvas características de los reactivos Incluso los valores aceptables de p y D no garantizan que un reactivo esté funcionando de manera efectiva a lo largo de todos los niveles de desempeño de la prueba. Para ser más efectivo, la proporción de las personas que contestan un reactivo correctamente debería aumentar en forma continua con el incremento de las calificaciones totales en la prueba o subprueba. El que un reactivo de prueba funcione de esta manera puede determinarse mediante la curva característica del reactivo (ICC). Al construir una ICC, la proporción de examinados que dieron la respuesta en clave se contrasta contra sus calificaciones en un criterio interno (por ejemplo, las calificaciones totales de la prueba) o un criterio externo, como el aprovechamiento académico o el desempeño laboral. Una vez que se ha construido la curva característica de un reactivo en particular, es posible determinar el nivel de dificultad y el índice de discriminación de dicho reactivo. El nivel de dificultad (b) es la calificación de criterio en el que 50% de los examinados dio la respuesta acertada (predeterminada); el índice de discriminación (a) es la pendiente de la curva característica del reactivo en el punto del 50%. Por ejemplo, de las dos curvas características del reactivo trazadas en la figura 4.1, un valor de .50 en el eje vertical corresponde a una calificación total en la prueba de 68 en el caso del reactivo 1 y de 77 en el reactivo 2. Por consiguiente, el reactivo 2 es más difícil que el 1. Sin embargo, la ICC del reactivo 1 tiene una pendiente más pronunciada que la del reactivo 2, de modo que el reactivo 1 discrimina mejor que el 2 entre quienes obtienen las calificaciones superiores y los de las calificaciones inferiores en toda la prueba. Estas dos medidas (ubicación y pendiente de la ICC) son similares a los índices p y D del análisis de reactivos tradicional, pero una ICC proporciona de mejor modo una imagen detallada del funcionamiento de reactivos a lo largo de todo el rango de calificaciones de criterio interno o externo. Además Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO 1.0 0.9 0.8 Proporción de respuestas correctas al reactivo 70 Reactivo 1 0.7 0.6 0.5 Reactivo 2 0.4 0.3 0.2 0.1 55 60 65 70 75 80 85 90 95 Calificación total de la prueba Dos curvas características de reactivos. Vea la explicación en el texto. FIGURA 4.1 de trazar la proporción de respuestas correctas que corresponden a las calificaciones totales de una medida de criterio externo o interno, la proporción de individuos que obtiene cada calificación y que seleccionaron un distractor en particular puede trazarse al analizar la eficacia de los distractores de reactivos. Teoría de respuesta al Ítem A diferencia de la atención más bien superficial que otorgan la teoría y los métodos tradicionales sobre pruebas a las respuestas a reactivos individuales, tales respuestas son el núcleo de la teoría y metodología de respuesta a los ítemes. La teoría de respuesta al Ítem (IRT) se basa en 71 ANÁLISIS DE REACTIVOS la relación funcional teórica entre un continuo de capacidad latente supuesto y las respuestas a reactivos individuales en una prueba. Los cálculos que conlleva son muy complicados y en general deben realizarse con la ayuda de un programa de cómputo como LOGIST, BILOG, ASCAL o BIGSTEPS (vea Mislevy y Stocking, 1989; Vale, 1985; Wright y Linacre, 1991). El modelo usual de la IRT es una función logística que tiene uno, dos o tres parámetros. La fórmula para generar cálulos de probabilidad en el modelo de tres parámetros es: P1u2 ⫽ c ⫹ 11 ⫺ c2 1 . 1 ⫹ e ⫺a1u⫺b2 (4.5) En esta fórmula, e es la base del logaritmo natural (2.718282), a es un parámetro de la pendiente de un reactivo, b es un parámetro de ubicación de un reactivo, c es un parámetro seudoadivinatorio, ¨ es el nivel de capacidad del examinado en una escala de calificación estándar, y P(¨) es la probabilidad de que una persona con nivel de capacidad ¨ conteste el reactivo correctamente. Suponiendo que c = 0, la fórmula 4.5 se reduce a la ecuación para el modelo de dos parámetros: P1u2 ⫽ 1 . 1 ⫹ e ⫺a1u⫺b2 (4.6) Otra suposición de que todos los reactivos son igualmente discriminantes produce la ecuación para el modelo de un parámetro o modelo de Rasch: P1u2 ⫽ 1 . 1 ⫹ e ⫺11u ⫺ b2 (4.7) Aunque el modelo de Rasch ha originado una gran cantidad de investigaciones psicométricas, el modelo de dos parámetros tiene por lo menos la misma popularidad. Como se ilustra en la figura 4.2, la forma de una curva de respuesta a reactivos varía con los valores de los parámetros a y b. Ambas curvas de esta figura se construyeron con la función de dos parámetros de la fórmula 4.6. En la curva P, el parámetro de dificultad (b) es 1.00 y el parámetro de discriminación (a) es .5; en la curva Q, b = .25 y a = .75. Obsérvese que b es el valor de ¨ (el punto sobre el eje horizontal) que corresponde a P(¨) = .5, y a es la pendiente de la curva en P(¨) = .5. En el modelo de tres parámetros, b es el valor de P(¨) correspondiente a .5(c + 1), donde c es el punto en que la curva de respuesta al reactivo cruza el eje vertical. Un ejercicio instructivo consiste en trazar varias curvas de respuesta a criterios de uno, dos y tres parámetros usando diversos valores de los parámetros adecuados. Las calificaciones del continuo de capacidad latente se expresan en unidades de calificación estándar (z), pero en la mayoría de las aplicaciones pedagógicas, las calificaciones z se transforman a una escala con una media de 300 y desviación estándar de 50. En la práctica real, ni los parámetros de reactivos ni las calificaciones de capacidad latente (¨) de los examinados se conocen, y el problema es determinar la curva de respuesta a reactivos que mejor se ajuste a las respuestas a reactivos individuales. Esto incluye un procedimiento iterativo, de máxima aceptación, consistente en suponer ciertos valores iniciales para los parámetros de reactivos, calculando las P(¨) correspondientes a los diversos valores de ¨, comparando las respuestas a reactivos pronosticadas con las reales y continuando con el proceso hasta alcanzar una solución más adecuada. El proceso de calcular parámetros de reactivo requiere de las respuestas de una gran cantidad de sujetos que son representativos de la población de exami- Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO 1.0 0.8 Proporción de respuestas correctas al reactivo 72 Reactivo Q 0.6 Reactivo P 0.4 0.2 0 -3 -2 -1 0 1 2 3 Capacidad calculada (calificación estándar) Dos curvas de respuesta a reactivos. Vea la explicación en el texto. FIGURA 4.2 nandos potenciales, aproximadamente 2,000 para el modelo de tres parámetros y 500 para el de un parámetro (Rasch). Un rasgo importante de los parámetros de reactivos calculados es que son relativamente independientes del nivel de capacidad de la muestra particular de personas en que se basan. A diferencia de la metodología tradicional de evaluación, que confunde la dificultad y la discriminación de pruebas con la muestra de los individuos sometidos a la prueba, en la IRT estos parámetros son, al menos en teoría, independientes de la muestra particular de las personas evaluadas. Además de proporcionar cálculos de parámetros de reactivos, la IRT puede usarse para estimar las calificaciones de los examinados en el continuo de capacidad latente. De hecho, este es el principal propósito de aplicar una prueba construida mediante los principios de la IRT. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 73 Igual que al estimar parámetros de reactivos a partir de niveles de capacidad, el cálculo de calificaciones individuales en el continuo de capacidad latente es un proceso iterativo que se inicia al sustituir ciertos valores experimentales por la capacidad del examinado y los parámetros de reactivos supuestos en la ecuación logística apropiada. Las P(¨) resultantes se comparan entonces con las P(¨) reales, y el proceso continúa hasta que se obtiene una ecuación más adecuada. Los errores estándar de los valores estimados de ¨, una medida de la variabilidad de las ¨ estimadas alrededor de las ¨ reales pero desconocidas, también pueden calcularse. Otra propiedad interesante de la IRT, la invarianza de la capacidad del examinando con respuesta a los reactivos empleados para calcularla, se deriva del proceso de calcular las ¨. Esta característica de la IRT significa que puede aplicarse una prueba de cualquier nivel de dificultad para determinar la posición de una persona en el continuo de capacidad latente. Sin embargo, el cálculo más preciso se obtiene cuando los reactivos que constituyen la prueba, y por ende la prueba misma, son los más adecuados, es decir, que están en el mismo nivel de dificultad que la capacidad del examinando. La IRT se ha empleado para diversos propósitos, incluyendo la elaboración de pruebas, la calibración de calificaciones de pruebas con el fin de proporcionar un marco de referencia para interpretarlas, la estandarización de pruebas, la determinación del funcionamiento diferencial de reactivos (DIF), y evaluaciones adaptativas. Con respecto a la construcción de pruebas, pueden elegirse las áreas de la IRT sobre el continuo de capacidad donde se requieren mediciones más precisas, para que no se desperdicien reactivos en áreas menos importantes. Así, usando la IRT es posible desarrollar pruebas de clasificación, de selección y con referencias a criterios sumamente precisas, así como pruebas más tradicionales con un espectro amplio a lo largo del continuo de capacidad. El enfoque de la IRT sobre el DIF es trazar las curvas de respuesta a reactivos en forma separada para los dos o más grupos demográficos de personas (blancos contra negros, hombres contra mujeres, etc.). Las curvas de respuesta a reactivos con formas significativamente distintas para los grupos de comparación proporcionan pruebas del funcionamiento diferencial de los reactivos. Una desventaja de la mayoría de los modelos de la IRT es la suposición de que un único rasgo latente subyace en la ejecución de las pruebas, pero los modelos multidimensionales han progresado. La mayoría de los modelos de la IRT se limita también a una calificación de 0-10, aunque también se han diseñado procedimientos más complejos que incluyen calificaciones de múltiples puntos, como en las escalas de calificación. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en quienes se basa el diseño de un instrumento, son útiles para propósitos de interpretación de calificaciones. Con el fin de cumplir esta tarea, deben estandarizarse la prueba, el inventario, la escala de clasificación y cualquier otro instrumento psicométrico. Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que deben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo. La estandarización también incluye aplicar la prueba a una muestra grande de personas (la muestra de estandarización) seleccionada como representante de la población meta a la que está destinada la prueba. El principal propósito de estandarizar una prueba es determinar la distribución de puntuaciones crudas en la muestra de estandarización (grupo norma). Las calificaciones crudas obtenidas se transforman entonces en alguna forma de calificaciones derivadas o normas. Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y calificaciones estándar. La mayoría de los manuales de pruebas contiene tablas de normas con puntuaciones crudas y cierto tipo de calificaciones convertidas correspondientes. Así, la posición de 74 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas una persona en una prueba puede evaluarse con referencia a la tabla adecuada de normas y buscando los equivalentes de calificaciones convertidas de sus propias puntuaciones crudas. En este método de interpretación con referencias a normas, las normas obtenidas no funcionan como estándares del desempeño deseado, sino simplemente como un marco de referencia para interpretar calificaciones. Las normas indican la posición de una persona en la prueba con respecto a la distribución de las calificaciones obtenidas por personas de la misma edad cronológica, grado, sexo u otras características demográficas. Al evaluar niños discapacitados, en ocasiones es preciso aplicar una prueba fuera de nivel diseñada para una edad o nivel de grado inferior al de la persona evaluada. Se requieren entonces normas especiales fuera de nivel para interpretar las calificaciones. Hay varias pruebas estandarizadas, como la Batería de Kaufman de Evaluación para Niños, que proporcionan evaluaciones fuera de nivel y las normas correspondientes. En términos de tamaño de muestra y representatividad, con frecuencia las pruebas colectivas, y las de aprovechamiento en particular, se estandarizan de manera más adecuada que las pruebas individuales. Las normas para pruebas colectivas pueden estar basadas hasta en cien mil personas, mientras que el tamaño del grupo de norma para una prueba individual cuidadosamente estandarizada es más probable que sea de entre dos mil y cuatro mil. Sin embargo, una muestra de estandarización grande no garantiza que sea representativa de la población de interés. La muestra debe seleccionarse con sumo cuidado a fin de que sea representativa de la población meta. Selección de una muestra de estandarización Para funcionar con eficacia en la interpretación de calificaciones de pruebas, las normas deben ser apropiadas para el grupo o los individuos por evaluar. Por ejemplo, una calificación particular de un alumno de cuarto grado puede sobrepasar la del 80% de los niños de cuarto grado y la del 60% de los de sexto. Aunque puede ser de interés comparar la calificación de un estudiante de cuarto con las calificaciones de niños de tercero y sexto, la posición del alumno en su propio grupo (cuarto) es prioritaria. Siempre que se transforma una calificación con referencia a una tabla de normas, es importante tomar nota de las características de la muestra (edad, sexo, grupo étnico, educación, nivel socioeconómico, región geográfica) del grupo de norma en particular, e incluir esta información en todos los comunicados sobre el desempeño de la persona en las evaluaciones. Otra consideración importante es cuándo (en qué fecha) se obtuvieron las normas. En ciertas pruebas las normas pueden perder su vigencia en épocas de cambios sociales y educativos rápidos. Las modificaciones en el currículo escolar, por ejemplo, pueden requerir de una nueva estandarización o tal vez de modificar o reconstruir una prueba de aprovechamiento cada determinado número de años. La forma en que una muestra de estandarización se selecciona de una población varía desde un muestreo aleatorio sencillo hasta estrategias más complejas, tales como el muestreo aleatorio estratificado y el muestreo por grupos. En un muestreo aleatorio sencillo, cada uno de los miembros de la población meta tiene la misma oportunidad de ser seleccionado. Empero, la aleatoriedad no garantiza que haya representatividad. En consecuencia, una forma más adecuada de estandarizar una prueba es empezar por categorizar, o estratificar, la población de una serie de variables demográficas (sexo, edad, nivel socioeconómico, región geográfica y similares) que presumiblemente están relacionadas con las calificaciones de la prueba. Entonces la cantidad de individuos seleccionados al azar de cada categoría o estrato es proporcional al número total de personas de la población que caen en ese estrato. Cuando se emplea este procedimiento de muestreo aleatorio estratificado, se reduce la probabilidad de elegir una muestra atípica o sesgada. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 75 Las normas obtenidas de este modo proporcionan una base mejor para interpretar calificaciones de la prueba que las normas determinadas en una muestra aleatoria sencilla. El muestreo por grupos es más económico que el muestreo aleatorio estratificado, y tiene mayores probabilidades de originar una muestra representativa de la población meta. El proceso se inicia al dividir una región geográfica designada o alguna otra entidad relevante en bloques o grupos. Entonces se elige al azar un porcentaje especificado de los grupos y dentro de cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias, etc.). El último paso es administrar la prueba a cada persona de la subunidad, o por lo menos a una muestra aleatoria de personas con las características establecidas. Administrar todos los reactivos de una prueba a una muestra aleatoria estratificada o a una muestra por grupo resulta tedioso y prolongado, por lo que se han propuesto estrategias menos costosas para obtener normas. Una de tales estrategias es elegir una muestra tanto de individuos como de reactivos. En el muestreo de reactivos se aplican distintas muestras de reactivos a muestras diferentes de personas seleccionadas al azar. Un grupo responde una serie de reactivos y otros grupos contestan otras series. El proceso es eficiente, en cuanto a que pueden aplicarse más reactivos a una gran cantidad de personas en un lapso bastante breve. Pueden realizarse entonces análisis de reactivos y determinarse normas basadas en calificaciones de muestras representativas para un amplio rango de contenidos de pruebas. Las normas derivadas del muestreo de reactivos son muy similares a las logradas mediante el procedimiento tradicional, pero más laborioso, de aplicar toda la prueba a una muestra representativa grande. Las normas publicadas en manuales de pruebas son útiles para comparar la calificación de un examinado con las calificaciones de una muestra de personas de varias localidades, a veces una selección de todo el país. Pero en general los maestros están más interesados en saber cómo se desempeñaron los alumnos en comparación con otros en una escuela, un sistema escolar, estado o región particular, más que con las de una muestra de toda la nación. Cuando el interés se restringe a las calificaciones particulares de una escuela específica, el examinador querrá transformar las calificaciones crudas en normas locales mediante los procedimientos discutidos en las secciones subsiguientes. A menudo las normas locales se usan para fines de selección y colocación en escuelas y universidades. Normas de edad y grado Entre los tipos de normas más populares, sobre todo debido a que son bastantes fáciles de comprender para los usuarios, figuran las normas de edad y grado. Una norma de edad (equivalente de edad, edad educativa) es la calificación media de una prueba obtenida por las personas en una edad cronológica determinada; una norma de grado (equivalente de grado) es la calificación media obtenida por los estudiantes en un nivel de grado específico. Las normas de edad se expresan en doce intervalos de un mes que van, por ejemplo, para el décimo año, de 10 años, 0 meses, a 10 años, 11 meses. Las normas de grado se expresan en diez intervalos de un mes, con base en la suposición de que el crecimiento en la característica de interés durantes los meses de verano no tiene importancia. Por ejemplo, el rango de las normas de grado para el quinto grado es de 5-0 a 5-9, en intervalos de un mes desde el principio hasta el final del año escolar. A pesar de su popularidad, las normas de edad y de grado tienen desventajas serias. El principal problema es que el progreso en las características cognoscitivas, psicomotoras o afectivas no es uniforme en todo el rango de edades o grados. Debido a que las unidades de edad y de grado se reducen progresivamente al aumentar la edad o el nivel de grado, una diferencia de evolución de dos meses en el aprovechamiento en el cuarto grado (por ejemplo, de 4-2 a 4-4) no es pedagógica- 76 Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO mente equivalente a dos meses de evolución del aprovechamiento en un nivel de grado posterior (digamos, de 8-2 a 8-4). Las normas de edad y de grado implican erróneamente que la tasa de aumento de las capacidades evaluadas es constante de un año al siguiente, de modo que los especialistas en mediciones pedagógicas con frecuencia desaconsejan su uso. Se prefieren las normas en que la unidad de medida es menos variable a lo largo del rango de calificaciones. Debido a su conveniencia, las normas de edad y de grado siguen usándose en el nivel escolar elemental o de primaria, donde las unidades de crecimiento son más constantes a lo largo del tiempo. No obstante, incluso en este nivel las normas de edad y de grado deben complementarse con normas de rangos percentilares o de calificaciones estándar para una edad o grado en particular. Por lo común, los alumnos de un grado específico en el que se determinan normas de grado tienen un rango de edades bastante amplio: en las normas se incluyen las calificaciones de ciertos estudiantes que, de hecho, son mayores (o menores) que el alumno promedio en ese grado. Para proporcionar un índice más preciso de la calificación promedio de los alumnos en un nivel de grado establecido, en ocasiones se omiten las calificaciones de los estudiantes que son considerablemente mayores o menores que la edad modal, y la calificación media se calcula sólo en los estudiantes que tienen la edad apropiada para ese grado. Estas normas restringidas se conocen como normas de edad modales. Este tipo de normas, que casi no se encuentran en los manuales de pruebas de aprovechamiento contemporáneos, se mencionan aquí principalmente por su interés histórico. Como se recordará, el término edad mental se mencionó en el breve análisis del capítulo 1 sobre la historia de la evaluación mental. Este concepto, que ideó Alfred Binet, es un tipo de norma de edad empleado en diversas pruebas de inteligencia. La calificación de edad mental de un examinado en particular corresponde a la edad cronológica del subgrupo de niños (todos de la misma edad cronológica) del grupo de estandarización cuya calificación media es la misma que la del examinando. Con fines pedagógicos, la práctica en muchas escuelas para evaluar a los retrasados mentales ha sido agruparlos de acuerdo con su edad mental en lugar de su edad cronológica. Otra práctica de evaluación más antigua, que casi ha desaparecido, consiste en convertir las normas de edad en cocientes dividiendo las calificaciones de edad de cada examinando entre su edad cronológica (en meses) y multiplicando el cociente resultante por 100. El cociente intelectual (relación de CI) en la más antigua Escala de Inteligencia de Stanford-Binet, por ejemplo, se definió como: CI ⫽ 100 a MA b, CA (4.8) donde MA y CA son la edad mental y la edad cronológica del examinado en meses. De manera similar, un cociente educativo sobre ciertas pruebas de aprovechamiento se calculó como la relación entre la edad educativa (la norma de edad en una prueba de aprovechamiento educativo) y la edad cronológica en meses. Al comparar los resultados de un test de inteligencia con los de una prueba de aprovechamiento educativo, puede calcularse un cociente de aprovechamiento como la relación de la edad educativa con la edad mental. Algunos de estos cocientes aún se calculan evaluando las puntuaciones de pruebas, pero los especialistas en mediciones psicológicas no recomiendan esta práctica. Normas percentilares Las normas percentilares consisten en una tabla de percentiles que corresponden a puntuaciones crudas particulares. Las puntuaciones crudas se transforman como percentiles, y el porcentaje del grupo de norma inferior a una calificación en particular es el rango percentilar de dicha ca- 77 ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS TABLA 4.2 Rangos percentilares y calificaciones estándar correspondientes a los puntos medios de una distribución de frecuencia de puntuaciones de pruebas (1) (2) INTERVAVALO DE CALIF. PUNTO MEDIO 750–799 700–749 650–699 600–649 550–599 500–549 450–499 400–449 350–399 300–349 774.5 724.5 674.5 624.5 574.5 524.5 474.5 424.5 374.5 324.5 (3) (4) (5) RANGO PERCENTILAR FRECUENCIA DEL PUNTO FRECUENCIA ACUMULATIVA MEDIO 3 11 18 27 49 65 38 25 13 1 248.5 241.5 227.0 204.5 166.5 109.5 58.0 26.5 7.5 .5 99.4 (99) 96.6 (97) 90.8 (91) 81.8 (82) 66.6 (67) 43.8 (44) 23.2 (23) 10.6 (11) 3.0 (3) .2 (0) (6) (7) (8) (9) (10) z Z zn T NCE 2.59 2.03 1.48 .92 .37 –.19 –.74 –1.30 –1.85 –2.41 76 70 65 59 54 48 43 37 31 26 2.51 1.82 1.33 .91 .43 –.16 –.73 –1.25 –1.88 –2.88 75 68 63 59 54 48 43 38 31 21 103 88 78 69 59 47 35 24 11 –10 lificación. Las columnas 2 y 5 de la distribución que aparece en la tabla 4.2 muestran que, para este grupo de calificaciones, el rango percentilar de una calificación de 625 es aproximadamente 82, y el rango percentilar de una calificación de 475 es aproximadamente 23. Alternativamente, puede decirse que el octagésimo segundo percentil es 625 y el vigésimo tercero es 475. Las normas percentilares a menudo se usan para fines de selección y colocación en una escuela o grado en particular, de manera que el procedimiento para calcular percentiles se describirá con cierto detalle. Las columnas 1 y 3 de la tabla 4.2 son una frecuencia de distribución de 250 calificaciones obtenidas en una prueba de capacidad académica, y la columna 2 da los puntos medios de los intervalos de calificaciones. Al calcular el valor inicial de la columna 4 (frecuencia acumulativa inferior al punto medio) para un intervalo en particular, se suman las frecuencias de todos los intervalos hasta ese intervalo. A este total se añade la mitad de la frecuencia de ese intervalo. Por ejemplo, el valor 227.0 para el intervalo 650-699 se calcula como 1 ⫹ 13 ⫹ 25 ⫹ 38 ⫹ 65 ⫹ 49 ⫹ 27 ⫹ 12 (18) = 227.0. Dado que el valor inicial para un intervalo en particular de la columna 4 es la frecuencia acumulativa inferior al punto medio de ese intervalo, el rango percentilar de un punto medio de intervalo dado puede calcularse dividiendo la frecuencia acumulativa correspondiente de la columna 4 entre la cantidad total de calificaciones (n) y multiplicando el cociente resultante por 100. Para los datos de la tabla 4.2, n = 250, de modo que cada rango percentilar de la columna 5 es igual a 100 veces la frecuencia acumulativa correspondiente de la columna 4 dividida entre 250. Por ejemplo, el rango percentilar del punto medio 674.5 es 100(227/250) = 90.8 ⬇ 91. Los rangos percentilares son bastante fáciles de calcular y comprender, por lo que son más populares que las normas estándar de calificación. Las tablas de normas de rangos percentilares dentro de grupos de grados, edades cronológicas, género, ocupaciones, y otros grupos demográficos se incluyen en los manuales adjuntos a muchos instrumentos psicométricos. Desafortunadamente, el problema de las unidades de calificación desiguales, al que nos referimos antes en el análisis de las normas de edad y grado, no se resuelve con las normas de rangos percentilares. 78 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas Los rangos percentilares son medidas del nivel ordinal y no de intervalo (vea el apéndice A), y por lo tanto las unidades no son iguales en todas las partes de la escala. En relación con el atributo que se mide, la diferencia entre dos rangos percentilares ya sea en el extremo inferior o en el superior de la escala de Percentiles equivalentes (vea la figura 4.3) es mayor que la existente entre dos rangos percentilares con una diferencia numérica igual pero más cercana al centro de la escala. El hecho de que las unidades de rangos percentilares se acumulen en la mitad y se dispersen en los extremos de la escala dificulta la interpretación de los cambios y las diferencias en estas calificaciones transformadas. Así, la diferencia de capacidad entre una persona con un rango percentilar de 5 y otra con uno de 10 en una prueba de aprovechamiento no es igual a la diferencia de capacidad entre una persona con un rango percentilar de 40 y otra que tenga uno de 45. En términos del atributo (habilidad) que se mide, la diferencia entre los rangos percentilares de 5 y 10, por ejemplo, es mayor que la existente entre los de 45 y 50; esto se debe a que es mayor la unidad de medida para la primera diferencia. Para interpretar normas de rangos percentilares en n Porcentaje de casos por abajo de partes de la curva normal Desviaciones estándar Porcentajes acumulativos redondeados Percentiles equivalentes Calif. z +4.0 Calif. T Calif. CEEB Calif. NCE Estaninas Porcentaje en estanina Escalas de Wechsler Subpruebas Desviación de CIs FIGURA 4.3 Rangos percentilares y calificaciones estándar correspondientes a varios puntos de la línea base de una distribución normal de calificaciones. (H. G. Seashore, Methods of expressing test scores, The Psychological Corporation Test Service Bulletin, núm. 48, 1955.) 79 ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS forma precisa, debemos recordar asignar un peso mayor a las diferencias de rango percentilar en los extremos que a las mismas diferencias cerca de la mitad de la escala. Normas de calificación estándar A diferencia de los rangos percentilares, las calificaciones estándar representan la medición en una escala de intervalos. Las normas de calificación estándar son puntuaciones convertidas que tienen cualesquier media y desviación estándar deseadas. Hay muchos tipos de calificaciones estándar, los cuales incluyen a las calificaciones z, Z, CEEB, de CI de desviación, estaninas, T y NCE. Calificaciones z . Los equivalentes de calificaciones z de una distribución particular de puntuaciones crudas pueden determinarse como: z ⫽ X ⫺ X , s (4.9) donde X es una puntuación cruda dada, X es la media aritmética, y s es la desviación estándar de las puntuaciones crudas. Transformar puntuaciones crudas en calificaciones z produce una distribución de calificaciones con la misma forma, pero con una media y desviación estándar distintas a la distribución de la puntuación cruda (X). La media de las calificaciones z es 0, y la desviación estándar es 1. Las calificaciones z correspondientes a los puntos medios del intervalo incluidos en la columna 2 aparecen en la columna 6 de la tabla 4.2. La media y la desviación estándar de la distribución de calificaciones en la tabla 4.2 son 541.5 y 90.3, respectivamente. Por lo tanto, la calificación z correspondiente al punto medio 774.5 es (774.5 ⫺ 541.5)/90.3 = 2.58. Las calificaciones z correspondientes a los puntos medios de los demás intervalos pueden encontrarse del mismo modo. Las calificaciones z de varios puntos en la línea base de la curva normal se presentan en la figura 4.3. Calificaciones Z. El hecho de que las calificaciones z pueden ser números decimales positivos o negativos origina cierta dificultad para manipularlas. El problema puede resolverse multiplicando las calificaciones z por una constante y añadiendo otra constante a los productos. Multiplicar z por 10, sumar 50 al producto, y redondear el resultado al número entero más cercano produce una calificación Z. La media de un conjunto de calificaciones Z es 50 y su desviación estándar es 10, pero la distribución de frecuencia de las calificaciones Z tiene la misma forma que la distribución original de las puntuaciones calificaciones crudas (vea la columna 7 de la tabla 4.2). Calificaciones CEEB. En cierta época, las calificaciones estándar (calificaciones CEEB) sobre pruebas publicadas por el College Entrance Examination Board (Consejo de Evaluación de Ingreso a la Universidad) se determinaban multiplicando las calificaciones z correspondientes por 100 y sumando 500 a los productos. Por ejemplo, esto se hizo a las puntuaciones crudas de la Prueba de Aptitud Académica (SAT) aplicada en 1941, lo que produjo una nueva distribución con una media de 500 y desviación estándar de 100. Sin embargo, posteriormente las calificaciones obtenidas por estudiantes que se sometieron a la SAT no se transformaron de esta manera. Más bien, para garantizar una unidad de calificación constante por comparar los resultados de pruebas año con año, a partir de 1941 las calificaciones de la escala SAT se basaron en los resultados de la prueba aplicada ese año.2 2Las calificaciones estándar en la última versión de la SAT, renombrada como Prueba de Aptitud Académica, se basan en el desempeño de un millón de estudiantes que presentaron la prueba en 1994. Las nuevas calificaciones SAT se “reubicaron“ para tener una media de 500 y desviación estándar de 100. 80 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas Calificaciones Wechsler. Las puntuaciones crudas en las subpruebas de las escalas de inteligencia de Wechsler se transformaron para tener una media de 10 y desviación estándar de 3. No obstante, las puntuaciones verbales, de ejecución y de escala total (CIs de desviación) en las pruebas de Wechsler se convirtieron a una distribución con una media de 100 y desviación estándar de 15 (vea las últimas dos líneas de la figura 4.3). Calificaciones estándar normalizadas. Las normas de calificaciones estándar descritas arriba son simples transformaciones lineales de puntuaciones crudas. La media y las desviaciones estándar de las calificaciones transformadas son distintas de las de la distribución de la puntuación cruda, pero la forma de las dos distribuciones es idéntica. Si la distribución de la calificación es simétrica, también lo será la distribución de las calificaciones transformadas. Para hacer las calificaciones de distintas pruebas más directamente comparables, se usa un procedimiento de transformación que no sólo afecte la media y la desviación estándar, sino que también cambie la forma de la distribución de las puntuaciones crudas a la de una distribución normal. Transformar un grupo de puntuaciones crudas en calificaciones estándar normalizadas empieza por calcular los rangos percentilares que corresponden a las puntuaciones crudas. Entonces, a partir de una tabla de áreas bajo la curva normal (apéndice B), se encuentra la calificación z que corresponde a cada rango percentilar. Por ejemplo, supóngase que los puntos medios (la columna 2) de la distribución de la tabla 4.2 deben convertirse en calificaciones estándar normalizadas. Debido a que los rangos percentilares de estos puntos medios ya se han encontrado (columna 5), empezamos por convertir los rangos percentilares en proporciones (por ejemplo, 99.4 se convierte en .994). Entonces, a partir de la tabla del apéndice B, se determinan las calificaciones Z bajo las cuales se encuentran las proporciones dadas del área. Así, la calificación z (zn ) bajo la cual se encuentra .994 del área bajo la curva es 2.51. Las otras calificaciones z normalizadas de la columna 8 de la tabla 4.2 se determinaron de manera similar. Para eliminar los puntos decimales y los números negativos, estas calificaciones zn se transformaron en calificaciones T mediante la fórmula T = 10zn ⫹ 50 (columna 9) y en calificaciones NCE (equivalente de curva normal) mediante la fórmula NCE = 21zn ⫹ 50. Las calificaciones T van aproximadamente de 20 a 80 y las NCE de aproximadamente 0 a 100. Las calificaciones zn pueden transformarse en calificaciones normalizadas con cualesquier media y desviación estándar deseadas. Otra escala de calificación es la calificación estanina (nueve estándar) ejemplificada por la tercera escala desde abajo en la figura 4.3. En esta escala estándar normalizada, que tiene una media de 5 y desviación estándar de aproximadamente 2, hay nueve rangos distintos, o estaninas.3 Estos rangos se designan con los números 1 al 9, y, como se muestra en la figura, cierto porcentaje de una distribución normal de pruebas cae dentro del intervalo representado por una estanina dada. Sin embargo, la calificación estanina no es una verdadera escala de calificaciones estándar, porque la primera y la novena estanina están abiertas. Obsérvese en la figura 4.3 que la amplitud de las estaninas 2 a 8 es igual, indican unidades de calificación estándar iguales, pero las estaninas 1 y 9 abarcan una distancia mucho más amplia. Una ventaja de las calificaciones estaninas es que representan rangos más que puntos específicos. Esto contribuye a equilibrar la tendencia a considerar las calificaciones de pruebas como medidas precisas, invariables, de las diferencias individuales. Otro procedimiento que tiene el mismo efecto es registrar no sólo el rango percentilar o la calificación estándar correspondiente a una puntuacion cruda dada, sino también un rango percentilar o un intervalo de calificación estándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera posición del 3También se propusieron una calificación sten consistente en 10 unidades (Canfield, 1951) y una calificación C de 11 unidades (Guilford y Fruchter, 1973), pero sólo la segunda se ha usado en alguna medida. IGUALACIÓN DE PRUEBAS 81 examinado en la prueba. Esta práctica reconoce el hecho de que las calificaciones de las evaluaciones psicológicas y educativas no son exactas, sino que están sujetas a errores de medición. IGUALACIÓN DE PRUEBAS En muchas situaciones que implican la aplicación y la investigación de pruebas psicológicas, se requiere más de una versión de prueba. Las formas paralelas de una prueba son equivalentes en el sentido de que pueden contener los mismos tipos de reactivos de igual dificultad y que están altamente correlacionadas. Por lo tanto, las calificaciones que se obtienen en una forma son muy similares a las obtenidas por los mismos examinados en una segunda forma en el mismo nivel de edad o de grado que la primera forma. Desafortunadamente, elaborar pruebas paralelas es un proceso bastante caro y laborioso. Empieza con la preparación de dos pruebas, con el mismo tipo y número de reactivos, que originan las mismas medias y desviaciones estándar cuando se estandarizan en el mismo grupo de personas. Las formas paralelas producidas se igualan convirtiendo las calificaciones de una forma a las mismas unidades que las de la otra forma. Esto puede lograrse, por ejemplo, mediante el método equipercentil de cambiar las puntuaciones en cada forma a rangos percentilares. Entonces se prepara una tabla de calificaciones equivalentes sobre las dos formas equiparando el rango percentilar de p sobre la primera forma a la calificación del rango percentilar p sobre la segunda forma. Al proceso de igualar, o más bien de hacer comparables, dos pruebas del mismo nivel de dificultad (por ejemplo, el mismo grado) se le conoce como igualación horizontal. Esto también puede realizarse verticalmente, como cuando se igualan las calificaciones de dos pruebas con distintos niveles de dificultad (grados diferentes). En general, el proceso de igualar incluye sujetar las pruebas a reactivos comunes o a un banco, como se realizó cada año con la Prueba de Aptitud Académica (SAT) estadounidense. Al usar un conjunto de reactivos en común que eran los mismos que un subconjunto de reactivos en por lo menos una forma anterior de la prueba, las calificaciones de cada forma nueva de la SAT que se aplicaba cada año se igualaban estadísticamente a formas previas en la prueba. La teoría de respuesta al ítem (IRT), que prescribe métodos de calibración para un conjunto de reactivos de pruebas en un continuo de rasgos latente definidos de modo operativo (por lo común representados mediante calificaciones estándar en el eje horizontal de una curva de respuesta a ítemes), también se ha aplicado a la tarea de igualar pruebas. La propiedad de invarianza de la muestra en los parámetros de reactivos en la IRT, que se abordó en la explicación previa sobre análisis de reactivos, facilita el proceso de determinar calificaciones equivalentes o igualadas en distintas pruebas. El método de la IRT para igualar incluye buscar una ecuación lineal que transforme los parámetros del reactivo (índices de dificultad y de discriminación) de la versión de una prueba a los de una segunda versión. La metodología con que se establecen las constantes adecuadas para las ecuaciones lineales de transformación, de modo que los parámetros correspondientes en ambas pruebas se encuentren en la misma escala, se denomina vinculación. Los procedimientos de vinculación requieren que ambas pruebas compartan algunos reactivos en común (de soporte), o que un subconjunto de examinados resuelva ambas pruebas o un tercer examen que mida el mismo rasgo. Los procedimientos de igualación de la teoría de respuesta a los ítemes son económicos en cuanto a que también incluyen el muestreo de reactivos, en el que se aplican subconjuntos de reactivos seleccionados al azar a distintos grupos de personas seleccionadas también aleatoriamente. Cualquiera que sea el método empleado para intentar igualar dos pruebas (equipercentil, de respuesta a ítemes, transformaciones de calificaciones lineales o no lineales), las pruebas que midan distintas características psicológicas o que tengan diferente confiabilidad no pueden, es- 82 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas trictamente hablando, igualarse. En casi todos los casos, lo mejor que puede hacerse es lograr que ambas pruebas o instrumentos psicométricos resulten “comparables”. RESUMEN El principal objetivo de un análisis de reactivos es mejorar una prueba modificando o descartando los reactivos ineficaces. El análisis de reactivos también proporciona información específica sobre lo que saben o no los examinados. Los reactivos de pruebas pueden analizarse comparando respuestas a reactivos con calificaciones de criterio externo, como las notas asignadas por el maestro o las clasificaciones de los jefes, o de criterio interno, como calificaciones de prueba totales. Si el propósito es elaborar una prueba que pueda predecir al máximo las calificaciones con un criterio externo, entonces los reactivos deberían validarse contra el criterio. Se calculan diversos análisis estadísticos para validar los reactivos de pruebas contra criterios externos e internos. Dichas estadísticas, que son índices de la relación entre reactivos calificados dicotómicamente (correcta-incorrecta) y calificaciones con la medida de criterio, constituyen una base para aceptar o rechazar reactivos específicos. Dos sencillos coeficientes que pueden calcularse al analizar los reactivos de una prueba elaborada por maestros son el índice de dificultad de reactivos (p) y el índice de discriminación de reactivos (D). Estos índices se aplican a reactivos tanto con referencias a normas como con referencias a criterios. El valor óptimo de p depende de los propósitos de la prueba y de la cantidad de opciones por reactivo. En la mayoría de los casos se requiere un valor D de .30 o mayor para que un reactivo sea aceptable. Además de calcular los índices de dificultad y de discriminación de los reactivos de prueba, los reactivos deben examinarse en cuanto a sesgos, ambigüedad y los efectos de la velocidad. Las variaciones marcadas de la uniformidad en la distribución de frecuencia de las respuestas a los distractores son un signo de deficiencias en el funcionamiento del reactivo. Al elaborar una curva característica de los reactivos, la proporción de examinados que dan la respuesta en clave a un reactivo se traza contra las calificaciones con un criterio interno (calificaciones de prueba totales) o externo. Una extensión del método de curva característica de los reactivos, conocida como teoría de respuesta a los ítemes, conlleva incluir parámetros de dificultad, discriminación y adivinanza en una ecuación logística, o bien derivar valores de estos parámetros para dicha ecuación. La ecuación logística relaciona la proporción de examinados que contestaron el reactivo de manera correcta con cálculos de sus calificaciones en un continuo específico de capacidad u otra característica unidimensional. La estandarización consiste en aplicar una prueba a una muestra representativa de personas en condiciones estándar (uniformes) y mediante un procedimiento estándar. Las normas calculadas a partir de las puntuaciones de prueba obtenidas conforman un marco de referencia para interpretar puntuaciones alcanzadas por personas que después se someten a la prueba. Tradicionalmente, las normas se han establecido evaluando una muestra (aleatoria, aleatoria estratificada, por grupo) de la población para la que está destinada la prueba. De menor costo y más eficientes que los procedimientos convencionales de estandarización de pruebas son las técnicas de muestreo de reactivos, en las que se toman muestras no sólo de las personas sino también de los reactivos y distintos grupos de examinados responden diferentes conjuntos de reactivos. Dependiendo de las necesidades y recursos de los usuarios de pruebas, las normas pueden calcularse en muestras locales, regionales o nacionales. Las normas de edad y grado, que se establecen con mayor frecuencia para pruebas de aprovechamiento, permiten comparar calificaciones de pruebas individuales con el promedio de calificaciones de niños de cierta edad o grado. La principal desventaja de las normas de edad y grado es que el progreso en el aprovechamiento o capacidad no es uniforme a través de la edad o los niveles de grado. Las normas de 83 RESUMEN rangos percentilares, en las que las puntuaciones crudas de una prueba se convierten en porcentajes de personas en el grupo de estandarización que alcanzaron esas calificaciones o menos, también se ven afectadas por el problema de desigualdad en las unidades de calificación. Las normas de rango percentilar, de edad y de grado son bastante fáciles de comprender y su uso es conveniente; por ello, sin duda continuarán siendo populares. Las normas de calificaciones estándar se convierten en calificaciones que tienen una media y una desviación estándar designadas. A diferencia de las medidas ordinales representadas por la edad, el grado y las normas de rango percentilar, las calificaciones estándar (z, T, CEEB y otras) son medidas de nivel de intervalo. No todas las calificaciones estándar se distribuyen normalmente, pero pueden convertirse con facilidad en calificaciones estándar normalizadas. Las calificaciones de pruebas paralelas pueden escalarse para lograr igualdad, si no se igualan estrictamente, de varias maneras. Tradicionalmente, las pruebas se han igualado por el método equipercentil, pero los métodos más recientes acarrean modelos de respuesta a reactivos técnicamente más complejos. P R E G U N TA S Y A C T I V I D A D E S 1. ¿Cuáles son los índices de dificultad (p) y de discriminación (D) de una prueba administrada a 75 personas si 18 de las del grupo superior (27% superior en el total de calificaciones de la prueba) y 12 del grupo inferior (27% inferior del total de calificaciones de la prueba) aciertan en el reactivo? Obsérvese que el redondeo da como resultado 20 personas en el grupo superior y 20 en el grupo inferior. 2. Calcule los índices de dificultad (p) y de discriminación (D) de un reactivo de una prueba con referencia a criterio aplicada a 50 personas, 30 de las cuales obtuvieron calificaciones en el nivel del criterio o superior, y 20 consiguieron calificaciones por debajo del nivel de criterio. De quienes alcanzaron o superaron el nivel del criterio, 20 acertaron en el reactivo; entre las que quedaron bajo el nivel del criterio, 10 dieron la respuesta correcta al reactivo. 3. La siguiente tabla en dos direcciones indica si cada una de las 20 personas acertó (a) o falló (f) en cada uno de los 10 reactivos en una prueba de opción múltiple con cuatro opciones. Clasificando a los examinandos de la A a la J en el grupo superior y de la K a la T en el grupo inferior sobre la puntuación total de la prueba (vea la última línea de la tabla), calcule los índices de dificultad y de discriminación para cada reactivo. Escriba estos valores en las últimas dos columnas de la tabla. Al examinar los índices p y D, decida qué reactivos son aceptables y cuáles necesitan modificarse o descartarse. Examinado Reactivo A B C D E F G H I J K L M N O P Q R S T 1 2 3 4 5 6 7 8 9 10 a a a a a a a a a a a a f a a a f a a a a f a a f a f a a a f a a a a a f a a f f f a a a a a a f a f a f a a a a f a a a f a f a f a f a a a a f a a a a f f f a f a f f a f a a a a a f a f a a f a f f a f a f a f a a f a f a f a f f a a f a f a f f a a f f f f a f a f a f f a f f f f a f f a f a f f f a f f a f a f f a f f f f f f a f a f f f f f a a f f f f a f f f f a f f f f f f f f a f f f f Calif. 10 8 7 7 7 7 6 6 6 6 5 5 4 4 3 3 3 2 2 1 p D 84 Análisis de reactivos y estandarización de pruebas CAPÍTULO CUATRO 4. Suponga que Jorge obtiene una puntuación cruda de 65 en una prueba aritmética con una media de 50 y desviación estándar de 10, pero obtiene una puntuación cruda de 80 en una prueba de lectura con una media de 75 y desviación estándar de 15. ¿Cuáles son las calificaciones z y Z en las pruebas? ¿Jorge es mejor en aritmética o en lectura? 5. Con referencia a la tabla de áreas bajo la curva normal (apéndice B), busque las calificaciones z correspondientes a los rangos percentilares 10°, 20°, 30°, 40°, 50°, 60°, 70°, 80° y 90°. Luego convierta las calificaciones z en calificaciones T, CEEB, NCE y estaninas. 6. Construya una distribución de frecuencia a partir de las 30 calificaciones que aparecen enseguida, use un ancho de intervalo de 3. Luego calcule el rango percentilar y las calificaciones z, Z, zn y T correspondientes a los puntos medios del intervalo. 82 86 85 85 90 93 70 87 83 91 77 89 75 87 92 88 73 89 78 80 84 82 96 83 95 86 79 79 81 74 7. ¿Por qué las normas de calificaciones estándar se consideran superiores a las normas de edad, de grado y de rango percentilares? 8. A continuación se presenta una lista de calificaciones de una prueba de semejanzas de ocho reactivos en la que las posibles calificaciones van de 0 a 16. Calcule el rango percentilar, la calificación z, y la calificación T correspondiente a cada una de las puntuaciones crudas. Consulte el apéndice A como ayuda. CALIF. CRUDA FRECUENCIA 16 8 15 26 14 71 13 140 12 171 11 223 10 272 9 250 8 257 7 209 6 183 5 124 4 89 3 79 2 51 1 23 0 25 RANGO PERCENTILAR z Z T 9. Describa los procedimientos para igualar (es decir, volver comparables) las calificaciones en dos pruebas diseñadas como formas paralelas. CAPÍTULO CINCO CONFIABILIDAD Y VALIDEZ La estandarización es un paso importante en el diseño y la evaluación de pruebas psicológicas y otros instrumentos de evaluación, pero no es el último paso. Antes de que una prueba pueda utilizarse con cierta seguridad, debe obtenerse información acerca de su confiabilidad y validez por lo que a sus propósitos específicos concierne. CONFIABILIDAD Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente confiable como para medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones sobre su conducta. Hablando en términos estrictos, más que ser una característica de una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas (Thompson, 1994). Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una característica relativamente estable. A diferencia de la inestabilidad, la falta de confiabilidad es resultado de errores de medición producidos por estados internos temporales, como la baja motivación o la falta de disposición, o de condiciones externas como un ambiente de prueba incómodo o con distracciones. Teoría clásica de la confiabilidad En la teoría clásica de los tests se supone que la calificación observada de una persona en una prueba está compuesta por una puntuación “real” más algún error no sistemático de medición. La puntuación real de una persona en una prueba particular se define como el promedio de las puntuaciones que obtendría si presentara la prueba un número infinito de veces. Es obvio que la puntuación real de una persona nunca puede medirse de manera exacta; tiene que ser estimada 85 86 CAPÍTULO CINCO Confiabilidad y validez a partir de su puntuación observada en la prueba. También se asume en la teoría clásica de los tests que la varianza de las puntuaciones observadas (s2obs) de un grupo de personas es igual a la varianza de sus puntuaciones reales (s2rea) más la varianza debida a los errores no sistemáticos de medición (s2err): s2obs = s2rea ⫹ s2err (5.1) Entonces la confiabilidad (r11) de las calificaciones se define como la razón de la varianza de la calificación real con la varianza de la calificación observada, o la proporción de la varianza observada que es explicada por la varianza real: r11 ⫽ 2 stru 2 sobs (5.2) La proporción de la varianza observada explicada por la varianza de error o que no se explica por la varianza real puede determinarse a partir de las fórmulas 5.1 y 5.2 como: s2 err 2 sobs ⫽ 1⫺ r11. (5.3) La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un número decimal positivo que fluctúa entre .00 y 1.00. Una r11 de 1.00 indica una confiabilidad perfecta, y una r11 de .00 indica una falta absoluta de confiabilidad de la medición. Como la varianza de las calificaciones reales no puede calcularse de manera directa, la confiabilidad se estima analizando los efectos de variaciones en las condiciones de la administración y el contenido de la prueba en las calificaciones observadas. Como advertimos antes, la confiabilidad no es influida por cambios sistemáticos en las calificaciones que tienen un efecto similar en todos los examinados, sino sólo por cambios no sistemáticos que tienen efectos diferentes en personas distintas. Dichos factores no sistemáticos influyen en la varianza de error y, por lo tanto, en la confiabilidad de las calificaciones en la prueba. Cada uno de los diversos métodos para estimar la confiabilidad (test-retest, formas paralelas, consistencia interna) toma en consideración los efectos de circunstancias algo diferentes que pueden producir cambios no sistemáticos en las puntuaciones y, por ende, afectan la varianza de error y el coeficiente de confiabilidad. Coeficiente test-retest Se calcula un coeficiente test-retest para determinar si un instrumento mide de manera consistente de una ocasión a otra. Este coeficiente, conocido también como coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo de personas en una aplicación con sus puntuaciones en la segunda aplicación de la prueba. El procedimiento test-retest toma en consideración los errores de medición que resultan de diferencias en las condiciones (ambientales, personales) asociadas con las dos ocasiones en que se administró la prueba. Dado que en ambas ocasiones se aplicó la misma prueba, los errores debidos a diferentes muestras de los reactivos de la prueba no se reflejan en un coeficiente test-retest. Además, es probable que las diferencias entre las condiciones de la aplicación sean mayores luego de un intervalo largo CONFIABILIDAD 87 que de uno corto. Como resultado, la magnitud de un coeficiente de confiabilidad test-retest tiende a ser mayor cuando el intervalo entre la prueba inicial y el retest es corto (unos cuantos días o semanas) que cuando es largo (meses o años). Coeficiente de formas paralelas Cuando el intervalo entre la prueba inicial y el retest es corto, los examinados recuerdan, por lo general, muchas de las preguntas y respuestas de la prueba inicial. Como es obvio, esto afecta sus respuestas en la segunda aplicación, un hecho que por sí mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin embargo, por lo regular algunas personas recuerdan más del material de la prueba que otras, ocasionando que la correlación entre el test y el retest sea menos que perfecta. Lo que parece necesitarse para superar esta fuente de error es una forma paralela del instrumento, esto es, una que conste de reactivos similares pero no de los mismos reactivos. Entonces puede calcularse como índice de confiabilidad un coeficiente de formas paralelas, también conocido como coeficiente de equivalencia. En principio, la idea de formas paralelas es razonable: al aplicar una forma paralela luego de un intervalo apropiado que sigue a la aplicación de la primera forma puede determinarse un coeficiente de confiabilidad que refleje los errores de medición debidos a los diferentes reactivos y los distintos momentos de aplicación. Para controlar los efectos de confusión de la forma de la prueba con el momento de la aplicación, la forma A debe administrarse primero a la mitad del grupo y la forma B a la otra mitad; luego, en la segunda aplicación, el primer grupo presenta la forma B y el segundo la forma A. La correlación resultante entre las calificaciones de las dos formas, conocida como coeficiente de estabilidad y equivalencia, toma en cuenta errores debidos a los diferentes momentos de aplicación o a los distintos reactivos. Coeficientes de consistencia interna Se dispone de formas paralelas para una serie de pruebas, en particular para pruebas de habilidad (aprovechamiento, inteligencia, aptitudes especiales). Sin embargo, una forma paralela de una prueba a menudo es costosa y difícil de elaborar. Por esta razón se elaboró un método menos directo de tomar en cuenta los efectos de diferentes muestras de los reactivos de una prueba sobre la confiabilidad. Éste es el método de consistencia interna, que incluye el método de división por mitades de Spearman, las fórmulas de Kuder-Richardson y el coeficiente alfa de Cronbach. Sin embargo, los errores de medición causados por diferentes condiciones o momentos de aplicación no se reflejan en un coeficiente de consistencia interna. En consecuencia, este tipo de coeficientes no pueden verse como verdaderos equivalentes de los coeficientes test-retest o de formas paralelas. Método de división por mitades. En este enfoque simplificado de la consistencia interna una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones pueden calificarse por separado de los que tienen números pares. Entonces la correlación (roe) entre los dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de confiabilidad de formas paralelas para una mitad de la prueba tan larga como la prueba original. Suponien- 88 CAPÍTULO CINCO Confiabilidad y validez do que las dos mitades equivalentes tienen medias y varianzas iguales, la confiabilidad de la prueba como un todo puede estimarse mediante la fórmula Spearman-Brown: r11 ⫽ 2roe 1⫹roe (5.4) Para demostrar el uso de la fórmula 5.4, suponga que la correlación entre las calificaciones totales obtenidas en los reactivos con números nones y en los reactivos con números pares de una prueba es .80. Entonces la confiabilidad estimada de toda la prueba es r11 = 2(.80)/(1 +.80) = .89. Método de Kuder-Richardson. Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual número de reactivos. Como cada forma puede dar por resultado un valor algo diferente de r11, no queda claro qué estrategia de división producirá el mejor estimado de confiabilidad. Una solución al problema es calcular el promedio de los coeficientes de confiabilidad obtenidos de todas las divisiones por mitades como el estimado global de confiabilidad. Esto puede hacerse, pero el siguiente procedimiento abreviado fue elaborado por Kuder y Richardson (1937). Bajo ciertas condiciones, la media de todos los coeficientes de división por mitades puede estimarse mediante una de las siguientes fórmulas: 冥 r11 ⫽ k[1 ⫺ Σpi(1 ⫺ pi)兾s2] ] k⫺1 (5.5) r11 ⫽ k ⫺ X(k ⫺ X)兾s2 k⫺1 (5.6) En estas fórmulas, k es el número de reactivos en la prueba, x es la media de las calificaciones totales de la prueba, s2 es la varianza de las calificaciones totales de la prueba (calculadas con n en lugar de n – 1 en el denominador), y pi es la proporción de examinados que dan la respuesta de la clave al reactivo i. Las pi se suman a lo largo de todos los reactivos k. Las fórmulas 5.5 y 5.6 se conocen como fórmulas Kuder-Richardson (K-R) 20 y 21, respectivamente. A diferencia de la fórmula 5.5, la 5.6 se basa en la suposición de que todos los reactivos son de igual dificultad; esto también conduce a una estimación más conservadora de la confiabilidad y es más fácil de calcular que la fórmula 5.5. Para demostrar la aplicación de la fórmula 5.6, suponga que una prueba que contiene 75 reactivos tiene una media de 50 y una varianza de 100. Entonces r11 = [75 – 50(75 – 50)/100]/74 = .84. Coeficiente alfa. Las fórmulas 5.5 y 5.6 son casos especiales del coeficiente alfa más general (Cronbach, 1951). El coeficiente alfa se define como α⫽ k(1 ⫺ Σs2i 兾s2t ) k⫺1 (5.7) donde k es el número de reactivos, s2i la varianza de las calificaciones en el reactivo i, y s2t la varianza de las calificaciones totales de la prueba. Las fórmulas de Kuder-Richardson sólo son aplicables cuando los reactivos de la prueba se califican con 0 o 1, pero el coeficiente alfa es una fórmula general para estimar la confiabilidad de una prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a respuestas diferentes. Todos los procedimientos de consistencia interna (división por mitades, Kuder-Richardson, coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad. En consecuencia, CONFIABILIDAD 89 deben modificarse para proporcionar estimaciones razonables de confiabilidad cuando la mayoría de los examinados no termina la prueba en el tiempo permitido. Para ello, una posibilidad consiste en aplicar las dos mitades de la prueba en momentos diferentes, pero con límites de tiempo iguales. Se calcula entonces la correlación entre las calificaciones de las dos mitades cronometradas por separado y los coeficientes resultantes se corrigen con la fórmula 5.4. También pueden usarse los procedimientos de test-retest y de formas paralelas para estimar las confiabilidades de las pruebas de velocidad. Confiabilidad entre calificadores Salvo por errores administrativos, las calificaciones calculadas por dos calificadores diferentes de una prueba objetiva presentada por un individuo deben ser idénticas. Sin embargo, la calificación de las pruebas de ensayo y orales, además de otros juicios evaluativos (calificaciones de personalidad, calificación de pruebas proyectivas) es un proceso bastante subjetivo. Al evaluar las calificaciones que implican el juicio subjetivo del calificador, es importante conocer el grado en que diferentes calificadores están de acuerdo en las calificaciones y otros valores numéricos dados a las respuestas de diferentes examinados y reactivos. El enfoque más común para determinar la confiabilidad entre calificadores es hacer que dos personas califiquen las respuestas de un número considerable de examinados y calcular luego la correlación entre los dos conjuntos de calificaciones. Otro enfoque es hacer que muchas personas califiquen las respuestas de un examinado o, mejor aún, que muchas personas califiquen las respuestas de varios examinados. Esta última estrategia arroja un coeficiente intraclase o coeficiente de concordancia, el cual es un coeficiente generalizado de confiabilidad entre calificadores. En muchos libros de estadística se describen los procedimientos para calcular estos coeficientes. Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone de formas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se juzga el desempeño oral (vea la forma 3.1 en la página 58). Aunque los exámenes orales tienen, por lo general, una confiabilidad menor que pruebas escritas comparables, la atención cuidadosa al diseño de las preguntas orales, a la elaboración de las respuestas modelo a las preguntas antes de aplicar la prueba, y al uso de calificadores múltiples, puede mejorar la confiabilidad de las calificaciones en las pruebas orales. Dichos procedimientos han dado por resultado coeficientes de confiabilidad entre calificadores de .60 y .70 para las pruebas orales aplicadas en ciertos cursos de licenciatura, posgrado y de escuelas profesionales. Otras sugerencias para mejorar la confiabilidad de las evaluaciones del desempeño oral incluyen alentar a los examinados a demorar la respuesta hasta que hayan pensado por un momento en la pregunta, y registrar las respuestas de manera electrónica para que más tarde sean reproducidas y reevaluadas por los calificadores. Interpretación de los coeficientes de confiabilidad Los coeficientes de confiabilidad de instrumentos afectivos como las listas de verificación, escalas de calificación e inventarios de personalidad, intereses o actitudes, por lo general son más bajos que los de las pruebas cognitivas de aprovechamiento, inteligencia o habilidades especiales. Sin embargo, los coeficientes de confiabilidad obtenidos con esos instrumentos afectivos pueden ser bastante respetables, y los obtenidos con los instrumentos cognitivos en ocasiones son bastante bajos. ¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instrumento psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las puntuaciones de la prueba. Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de dos grupos de personas son significativamente diferentes, un coeficiente de confia- 90 CAPÍTULO CINCO Confiabilidad y validez bilidad de .60 a .70 puede ser satisfactorio. Por otro lado, cuando se utiliza la prueba para comparar la calificación de una persona con la de otra, o la calificación de una persona en una prueba con su calificación en otro instrumento, se necesita un coeficiente de confiabilidad de al menos .85 para determinar si diferencias pequeñas en las calificaciones son significativas. Variabilidad y extensión de la prueba Como con otras medidas de relación, los coeficientes de confiabilidad tienden a ser más altos cuando la varianza de las puntuaciones de la prueba, las puntuaciones del reactivo, las calificaciones u otras variables que son evaluadas, es grande que cuando es pequeña. Como la varianza de la calificación de la prueba se relaciona con la extensión de ésta, un método para incrementar la confiabilidad es hacer la prueba más larga. Sin embargo, la simple inclusión de más reactivos en una prueba no necesariamente incrementa su confiabilidad. Los nuevos reactivos deben ser del mismo tipo general y medir la misma cosa que los reactivos que ya contiene la prueba. De hecho, agregar reactivos que miden algo diferente de lo que miden los reactivos originales puede dar lugar a una reducción en la confiabilidad. La fórmula general de Spearman-Brown es una expresión del efecto que tiene sobre la confiabilidad el alargar una prueba incluyendo más reactivos del mismo tipo general. Esta fórmula, una generalización de la fórmula 5.4, es: rmm ⫽ mr11 1 ⫹ (m ⫺ 1)r11 (5.8) donde m es el factor por el cual se alarga la prueba, r11 la confiabilidad de la prueba original no alargada, y rmm la confiabilidad estimada de la prueba alargada. Por ejemplo, si una prueba de 20 reactivos que tiene un coeficiente de confiabilidad de .70 se hace tres veces más larga agregando 40 reactivos más, la confiabilidad estimada de la prueba alargada será 3(.70) / [1 + 2(.70)] = .875. La figura 5.1 ilustra los efectos que produce sobre la confiabilidad el incrementar el número de reactivos en una prueba por un factor de 11/2, 2, 3, 4 o 5. Note que el incremento creciente en la confiabilidad es menor cuando la confiabilidad inicial es alta y con incrementos sucesivamente mayores en la extensión de la prueba. Resolver la fórmula 5.8 para m arroja la siguiente fórmula para determinar cuántas veces más extensa debe ser una prueba de confiabilidad r11 a fin de obtener una confiabilidad deseada (r11): m⫽ rmm(1 ⫺ r11) r11(1 ⫺ rmm) (5.9) Esta fórmula puede utilizarse para determinar el incremento necesario en la longitud de la prueba y, en consecuencia, el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde r11 hasta rmm. Además de depender del número de reactivos, la varianza y la confiabilidad de una prueba son afectadas por la heterogeneidad de la muestra de personas que la presentan. Entre mayor sea el rango de diferencias individuales en cierta característica, mayor será la varianza de las calificaciones en una medida de esa característica. En consecuencia, el coeficiente de confiabilidad de una prueba u otro instrumento de evaluación será mayor en un grupo más heterogéneo con una varianza más grande en la calificación de la prueba. El que la confiabilidad de una prueba varíe con la naturaleza del grupo probado se refleja en la práctica de informar acerca de coeficientes de confiabilidad separados para grupos que difieren en edad, grado, género y posición 91 CONFIABILIDAD Factor de alargamiento 1.5 4 2 5 3 Confiabilidad de la prueba alargada 1 0.8 0.6 0.4 0.2 0 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 Confiabilidad de la prueba inicial (no alargada) 0.90 1.00 Figura 5.1 Confiabilidad de una prueba alargada como función de la confiabilidad inicial y el factor de alargamiento. La confiabilidad se incrementa a medida que se agregan a una prueba más reactivos del mismo tipo general, pero el monto del incremento es mayor cuando la confiabilidad inicial es baja. Además, la confiabilidad de la prueba alargada se nivela gradualmente conforme la prueba se vuelve cada vez más larga. socioeconómica. La asociación entre la varianza y la confiabilidad de una prueba también se advierte en que las pruebas compuestas, sobre todo por reactivos de dificultad intermedia (valores p de alrededor de .50), tienden a ser más confiables que las pruebas donde la mayoría de los reactivos tienen índices más altos o más bajos de dificultad. Error estándar de medición Puesto que se desconoce la varianza de las calificaciones reales, no puede calcularse la confiabilidad de manera directa a partir de la fórmula 5.2. Sin embargo, dado un estimado de la confiabilidad, puede calcularse la varianza de la calificación real a partir de la fórmula 5.2 o, lo que es de mayor interés, calcular la varianza de error a partir de la fórmula 5.3. Al resolver la fórmula 5.3 para serr obtenemos: serr ⫽ sobs兹1 ⫺ r11 (5.10) donde s es la desviación estándar de las calificaciones observadas de la prueba y r11 el coeficiente de confiabilidad test-retest. Este estadístico, conocido como error estándar de medición (serr), es una estimación de la desviación estándar de una distribución normal de las calificaciones de 92 CAPÍTULO CINCO Confiabilidad y validez la prueba que se supone serían obtenidas por una persona que presentara la prueba un número infinito de veces. La media de esta distribución hipotética de calificaciones sería la calificación real de la persona en la prueba. Para ilustrar el cálculo y el significado del error estándar de medición, suponga que la desviación estándar de una prueba es 6.63 y el coeficiente de confiabilidad test-retest es .85; entonces serr ⫽ 6.63兹1 ⫺ .85 ⫽ 2.57. Si la calificación de una persona en la prueba es 40, puede concluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 – 2.57 = 37.43 y 40 + 2.57 = 42.57. Para obtener el intervalo de confianza de 95% para una calificación real, debe multiplicarse serr por 1.96 y el producto resultante agregarse y restarse de la calificación observada: calificación observada ±1.96 serr. La figura 5.2 es un perfil o psicógrafo de las puntuaciones obtenidas por un estudiante de undécimo grado en las diez pruebas y tres compuestos de la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). La puntuación del estudiante en una prueba o compuesto particular está indicada por las líneas verticales cortas que se proyectan a partir de la mitad de la barra horizontal correspondiente. La anchura de la barra horizontal es igual a 1.96 veces el error estándar de medición de esa prueba o compuesto particular. En consecuencia, podemos decir que hay una probabilidad de .95 de que la calificación real del estudiante en la prueba caiga denPrueba o compuesto ASVAB Habilidad académica Habilidad verbal Habilidad matemática Conocimiento del mundo Comprensión de párrafos Razonamiento aritmético Conocimiento matemático Ciencia general Información automotriz y de taller Comprensión mecánica Información electrónica Operaciones numéricas Velocidad de codificación 0 10 20 30 40 50 60 Calificación T estándar 70 80 Figura 5.2 Gráfica de las calificaciones T de un estudiante (líneas verticales cortas que se proyectan desde la mitad de las barras horizontales) y barras que representan los intervalos de confianza del 95% para las calificaciones T reales del estudiante en las 10 pruebas y tres compuestos de la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). Vea el texto para detalles. CONFIABILIDAD 93 tro del rango numérico representado por la barra horizontal que se extiende desde la calificación observada –1.96serr hasta la calificación observada +1.96serr. Como regla empírica, la diferencia entre las puntuaciones de dos personas en la misma prueba no debe considerarse significativa salvo que sea por lo menos dos veces el error estándar de medición de la prueba. Por otro lado, la diferencia entre las puntuaciones de la misma persona en dos pruebas debe ser mayor que dos veces el error estándar de medición más grande para que la diferencia se interprete como significativa. Esto es así porque el error estándar de la diferencia entre las puntuaciones en las dos pruebas es mayor que el error estándar de medición de cada prueba. Como vimos en la fórmula 5.10, el error estándar de medición se relaciona inversamente con el coeficiente de confiabilidad. Cuando r11 = 1.00, no hay error al estimar la calificación real de una persona a partir de su calificación observada; cuando r11 = .00, el error de medición alcanza su valor máximo (s). Por supuesto, una prueba que tiene un coeficiente de confiabilidad cercano a .00 es inútil porque la precisión de cualquier decisión tomada sobre la base de las puntuaciones estará al nivel del azar. A diferencia de la teoría clásica de los tests, en la cual el error estándar de medición se aplica a todas las puntuaciones en una población particular, en la teoría de respuesta al ítem (IRT) difiere de una calificación a otra. En la IRT, el error estándar de medición de las puntuaciones correspondientes a un nivel particular de habilidad es igual al recíproco de la cantidad de información transmitida por una calificación a ese nivel. La cantidad de información proporcionada por las respuestas a un reactivo particular es determinada a partir de la función de información del reactivo, y la información proporcionada por la prueba como un todo en un nivel particular de habilidad es la suma de los valores de información del reactivo en ese nivel de habilidad (vea Hambleton, Swaminathan y Rogers, 1991). Confiabilidad de las pruebas referidas a criterio El concepto tradicional de confiabilidad corresponde a las pruebas referidas a normas, las cuales están diseñadas principalmente para diferenciar entre individuos que poseen varias cantidades de una característica específica. Entre mayor sea el rango de diferencias individuales en las puntuaciones de una prueba, mayor será la confiabilidad de la prueba. Por otro lado, al elaborar la mayoría de las pruebas referidas a criterio la meta es identificar a las personas como pertenecientes a uno de dos grupos. Un grupo consta de personas cuyas puntuaciones igualan o exceden el nivel de criterio (de dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan el nivel de criterio. En esta situación, resultan inapropiados los procedimientos correlacionales tradicionales para determinar los coeficientes testretest, de formas paralelas y de consistencia interna. El coeficiente de acuerdo, que es la proporción de calificaciones que caen por encima o por debajo del nivel de criterio en ambas aplicaciones o ambas formas, es un índice de la confiabilidad de una prueba referida a criterio. Otro índice es el coeficiente kappa, que es algo más difícil de calcular, pero estadísticamente más apropiado que el coeficiente de acuerdo (Cohen, 1968; Aiken, 1988). Teoría de la generalización Durante muchos años los psicómetras han enfatizado que una prueba no tiene una sino muchas confiabilidades, dependiendo de las varias fuentes de error de medición que se toman en consideración al calcular un coeficiente de confiabilidad. La muestra particular de reactivos incluidos 94 CAPÍTULO CINCO Confiabilidad y validez en la prueba, las instrucciones de aplicación, las condiciones ambientales (temperatura, iluminación, ruido) en que se aplica la prueba, y las idiosincracias y estados físicos o psicológicos temporales de los examinados pueden afectar la confiabilidad estimada de una prueba. Cualquiera de esas condiciones, o todas, puede contribuir a la varianza de error, simbolizada en la fórmula clásica 5.1 de la varianza de la prueba. Los procedimientos matemáticos de análisis factorial (vea el apéndice A) proporcionan una forma de dividir la varianza de la calificación real en la fórmula 5.1 en varianzas común y de factor específico, pero la fórmula no distingue entre varias fuentes de error que contribuyen a la varianza de error. El hecho de que una prueba puede tener muchas confiabilidades, dependiendo de los efectos de varias fuentes de varianza de error, o facetas, ha sido incorporado en otros enfoques hacia la teoría de los tests . Uno de esos enfoques, la teoría de la generalización, empieza por conceptualizar una calificación observada de la prueba como una estimación de un universo de calificaciones correspondiente. El grado de precisión con el que la puntuación de la prueba estima el universo de puntuaciones depende de la naturaleza del universo, es decir, de las facetas particulares que lo definen. Una puntuación de la prueba puede generalizarse a muchos universos diferentes, cada uno definido de acuerdo con cierta combinación de facetas. Las facetas que caracterizan a un universo dado, como las condiciones de aplicación de la prueba y la composición de reactivos o formas de ésta, pueden ser muy diferentes de las que definen a otros universos. Algunas de esas facetas pueden no tener efecto sobre la generalización de las puntuaciones de la prueba, mientras que los efectos de otras facetas pueden ser significativos. Los cálculos de la teoría de la generalización implican aplicar las técnicas estadísticas de análisis de varianza para determinar la generalización de las puntuaciones de la prueba como función de los cambios en la(s) persona(s) que la presenta(n), diferentes muestras de reactivos que componen la prueba, las situaciones o condiciones en que se presenta ésta, y los métodos o personas involucrados en su calificación. Luego puede calcularse un coeficiente de generalización, el cual es similar al coeficiente tradicional de confiabilidad, como la razón de la varianza esperada de las calificaciones en el universo con la varianza de las calificaciones en la muestra. Por último, puede estimarse un valor universal de la calificación, similar a la calificación real de la teoría clásica de la confiabilidad (Cronbach, Gleser, Nanda y Rajaratnam, 1972). Al enfatizar la importancia de las condiciones en que se administra una prueba y los propósitos para los que se diseñó, la teoría de la generalización ha cambiado el enfoque de los usuarios de las pruebas más allá de la preocupación con la prueba misma como un instrumento psicométrico bueno o malo en general a la pregunta de “¿Bueno o malo para qué propósito?” La teoría de la generalización, la teoría de respuesta al ítem, el análisis de las estructuras de covarianza y otros métodos estadísticos modernos ciertamente tienen mayor complejidad técnica que la teoría clásica de los tests. Sea como sea, el desarrollo y las aplicaciones de una prueba todavía se basan en gran medida en los conceptos tradicionales de confiabilidad y validez y en los procedimientos derivados de ellos. VALIDEZ De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que está diseñada para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas cla- VALIDEZ 95 ses de validez, dependiendo de los propósitos específicos para los cuales fue diseñada, la población objetivo, las condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el contenido de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y las calificaciones en el criterio de interés y (3) investigar las características psicológicas particulares o constructos medidos por la prueba. Todos esos procedimientos son útiles en la medida que mejoran la comprensión de lo que mide una prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de interés evaluar la validez creciente de una prueba, es decir, qué tanto añade la prueba a la predicción y comprensión de los criterios que ya son anticipados por otras medidas. A diferencia de la confiabilidad, la cual es influida sólo por los errores no sistemáticos de medición, la validez de una prueba es afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes). Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida sin ser confiable. La confiabilidad es una condición necesaria, pero no suficiente, para la validez. Validez de contenido La apariencia física de una prueba con respecto a sus propósitos particulares (validez de facie) es ciertamente una consideración importante a tener en cuenta al comercializarla. No obstante, el concepto de validez de contenido se refiere a algo más que a la apariencia. La validez de contenido atañe a si éste produce un rango de respuestas que son representativas del dominio entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe medir la prueba. Se supone que las respuestas a la muestra de reactivos de una prueba bien diseñada son indicativas de lo que serían las respuestas al universo entero de conductas de interés. Un análisis de la validez de contenido ocurre más a menudo en conexión con las pruebas de aprovechamiento, para las cuales por lo general no existe un criterio externo especificado. La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad, aunque quizá menos que la validez de constructo o la relacionada con un criterio. En una prueba de aprovechamiento se evalúa la validez de contenido analizando la composición de la prueba para determinar el grado en que representa los objetivos de la enseñanza. Una forma de lograr esto es comparar el contenido de la prueba con un bosquejo o tabla de especificaciones concernientes a la materia que va a ser cubierta por la prueba. Si expertos en la materia coinciden en que una prueba parece y actúa como un instrumento diseñado para medir lo que se supone debe medir, entonces se dice que posee validez de contenido. Dichos juicios involucran no sólo la apariencia de los reactivos de la prueba, sino también los procesos cognitivos implicados al responderlos. Es obvio que el proceso de evaluar la validez de contenido no debería esperar hasta que se haya elaborado la prueba. El juicio de los expertos en lo que se refiere a qué reactivos incluir es necesario desde el principio del proceso de elaboración de la prueba. Al definir el universo del contenido de la prueba y la muestra de ese universo que se va a incluir, los diseñadores establecen las condiciones indispensables para lograr construir un instrumento con validez de contenido. Validez con relación a criterio La validación de cualquier prueba de habilidad consiste en relacionar las calificaciones en la prueba con el desempeño en medidas o estándares de criterio con los cuales pueden compararse las calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio 96 CAPÍTULO CINCO Confiabilidad y validez hace referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de personas se comparan con las puntuaciones, clasificaciones u otras medidas de desempeño. Algunos ejemplos de criterios contra los cuales se validan las pruebas son las notas escolares, calificaciones de un supervisor y número o cantidad de dólares en ventas. Siempre que se dispone de una medida de criterio en el momento de la prueba puede determinarse la validez concurrente del instrumento. Cuando las calificaciones en el criterio no están disponibles sino hasta cierto tiempo después de que se aplicó la prueba, se enfatiza la validez predictiva de la prueba. Validez concurrente. Los procedimientos de validación concurrente se emplean siempre que una prueba se aplica a personas clasificadas en varias categorías, como grupos de diagnóstico clínico o niveles socioeconómicos, con el propósito de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son significativamente diferentes de las de los individuos que se hallan en otras categorías. Si la calificación promedio varía de modo sustancial de una categoría a otra, entonces la prueba puede usarse como otra forma, quizá más eficiente, de asignar a la gente a esas categorías. Por ejemplo, las puntuaciones en el Inventario Multifásico de Personalidad de Minnesota (MMPI) han sido útiles en la identificación de trastornos mentales específicos, porque se ha encontrado que los pacientes a quienes los psiquiatras diagnostican trastornos particulares tienden a diferir del resto de la población en las puntuaciones que obtienen en ciertos grupos de reactivos (escalas). Validez predictiva. La validez predictiva atañe a la precisión con que las puntuaciones de una prueba predicen puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio del desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se correlacionan con las puntuaciones, notas de cursos, calificaciones de pruebas de aprovechamiento y otros criterios de desempeño. La magnitud de un coeficiente de validez predictiva está limitada por la confiabilidad de las variables de predicción y de criterio; no puede ser mayor que la raíz cuadrada del producto de esas dos confiabilidades. Por ésta y por otras razones, la correlación entre un predictor y una variable de criterio, calculada mediante procedimientos descritos en el apéndice A, varía con el criterio específico, pero rara vez es mayor a .60. Como la proporción de la varianza en la variable de criterio que puede ser explicada por la variación en la variable predictora es igual al cuadrado de la correlación entre las variables predictora y de criterio, por lo general no puede predecirse más de 36% de la variación en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una prueba u otro instrumento psicométrico. Esto deja sin explicar o predecir 64% de la varianza de criterio. Considerando que la validez predictiva de la mayoría de las pruebas es menor de .60, es comprensible por qué deben hacerse con cuidado las afirmaciones concernientes a la posibilidad de predecir los criterios de desempeño a partir de las puntuaciones obtenidas en las pruebas psicológicas. Error estándar de estimación. La sección sobre regresión y predicción en el apéndice A describe el procedimiento a seguir para determinar una ecuación de regresión (ecuación de predicción) y pronosticar las calificaciones de criterio de un grupo de personas a partir de sus puntuaciones en pruebas o en otras variables. Sin embargo, ingresar la puntuación de una persona en una prueba a una ecuación de regresión sólo produce un estimado de la calificación que la persona obtendrá en realidad en la variable de criterio. Si la calificación de criterio que se predice para una persona se considera como la media de una distribución normal de las calificacio- 97 VALIDEZ nes de criterio obtenidas por un grupo de individuos que obtuvieron la misma calificación que la persona en la variable predictora, entonces la desviación estándar de esta distribución es un índice del error promedio en esas predicciones. Este estadístico, conocido como error estándar de estimación (sest), es aproximadamente igual a: sest ⫽ s兹1 ⫺ r2 (5.11) donde s es la desviación estándar de la calificación de criterio y r es la correlación producto-momento entre el predictor (prueba) y el criterio. Por ejemplo, suponga que la desviación estándar de cierta medida de criterio es 15 y la correlación entre las puntuaciones de la prueba y de criterio es .50; entonces sest ⫽ 1521 ⫺ 502 = 13. Si la calificación de criterio que se predice de un sujeto es 50, hay una posibilidad de 68 entre 100 de que la persona obtendrá una calificación de criterio entre 37 y 63 (Ypred ± sest), y aproximadamente 95 de 100 de que obtendrá una calificación de criterio entre 25 y 75 (Ypred ± 1.96 sest). De manera más precisa, las posibilidades son de 68 entre 100 de que la persona forme parte de un grupo de individuos que tienen una calificación de criterio pronosticada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 37 y 63. De manera similar, hay una posibilidad aproximada de 95 entre 100 de que el individuo forme parte de un grupo de personas con una calificación promedio anticipada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 25 y 75. Como lo ilustra este ejemplo, cuando la correlación entre las calificaciones de la prueba y de criterio es baja, la calificación de criterio obtenida por una persona puede ser muy diferente de la pronosticada. Por esta razón, debe tenerse cautela al interpretar las calificaciones predichas cuando la correlación entre la prueba y la medida de criterio es modesta. Entre menor sea el coeficiente de correlación, más grande es el error estándar de estimación y menos precisa es la predicción de la prueba al criterio. Factores que afectan la validez con relación a criterios La validez con relación a criterios de una prueba puede ser influida por una serie de factores, incluyendo las diferencias de grupo, la extensión de la prueba, la contaminación del criterio y la tasa base. La validez creciente de una prueba, es decir, la contribución de la prueba que excede a las contribuciones de otras variables, también debería ser considerada al decidir si se va a utilizar la prueba con propósitos de selección y ubicación. Diferencias de grupo. Las características de un grupo de personas en quienes se valida una prueba incluyen variables como sexo, edad y rasgos de personalidad. Esos factores, que en este contexto se conocen como variables moderadoras, pueden afectar la correlación entre una prueba y una medida de criterio. La magnitud de un coeficiente de validez, como la de un coeficiente de confiabilidad, también está influida por el grado de heterogeneidad del grupo de validación en lo que mide la prueba. Los coeficientes de validez tienden a ser más pequeños en los grupos más homogéneos, es decir, los grupos que tienen un rango más estrecho de calificaciones. El tamaño de un coeficiente de correlación es una función de las variables de predicción y de criterio, por lo que estrechar el rango de calificaciones en cualquier variable tiende a disminuir el coeficiente de validez predictiva. Como la magnitud de un coeficiente de validez varía con la naturaleza del grupo probado, una prueba recién elaborada que resulte ser un predictor válido de una variable de criterio particular en un grupo de gente debe tener una validación cruzada en un segundo grupo. En la valida- 98 CAPÍTULO CINCO Confiabilidad y validez ción cruzada se aplica una prueba a una segunda muestra de personas para determinar si conserva su validez entre muestras diferentes. Debido a la operación de los factores del azar, la magnitud de un coeficiente de validez por lo general se reduce en alguna medida en la validación cruzada. En consecuencia, en la mayor parte de los casos se considera que la correlación entre las calificaciones de predicción y de criterio en la validación cruzada es un mejor indicador de la validez predictiva que la correlación original prueba-criterio. La validación cruzada, que es una manera de determinar la generalización de la validez de una prueba, es decir, si la prueba sigue siendo válida en situaciones diferentes, también puede involucrar una muestra diferente (paralela) de reactivos. Con diferentes muestras de examinados, diferentes muestras de reactivos de la prueba, o en ambos casos, suele darse alguna reducción del coeficiente de validez en la validación cruzada. Se han propuesto fórmulas para “corregir” dicha reducción, pero implican ciertas suposiciones que no siempre se cumplen. Extensión de la prueba. Al igual que la confiabilidad, la validez varía directamente con la extensión de la prueba y con la heterogeneidad del grupo de personas examinadas. Hasta cierto punto, las puntuaciones en una prueba más larga y en una prueba administrada a un grupo de individuos que varían de manera considerable en las características a medir tienen varianzas más grandes y, en consecuencia, mayor validez predictiva que las puntuaciones de pruebas más cortas o de pruebas aplicadas a grupos más homogéneos. Se han propuesto fórmulas que corrigen los efectos que tienen en la validez la restricción de rangos de calificación y la extensión acortada de la prueba, pero sólo son apropiadas bajo ciertas circunstancias especiales. Contaminación de criterios. La validez de una prueba está limitada no sólo por su confiabilidad y el criterio, sino también por la validez del propio criterio como medida de la variable de interés. En ocasiones el criterio se hace menos válido, o se contamina, por el método particular de medir las calificaciones de criterio. Por ejemplo, un psicólogo clínico enterado de que un grupo de pacientes ya ha sido diagnosticado como psicótico puede percibir mal los signos psicóticos en las respuestas de esos pacientes a las pruebas de personalidad. Entonces el método de comparación de grupos, en el cual se comparan las calificaciones obtenidas por los psicóticos en la prueba con las obtenidas por los normales, arrojará evidencia falsa a favor de la validez de la prueba. Dicha contaminación del criterio (psicóticos contra normales) puede controlarse por medio de un análisis ciego, esto es, haciendo que quien emite el diagnóstico no disponga de información acerca de los examinados a excepción de sus puntuaciones en la prueba. Sin embargo, muchos psicólogos clínicos sostienen que el análisis ciego no es natural ya que no es la forma en que las pruebas se emplean en realidad en los escenarios clínicos. Validez creciente. Cuando se intenta decidir si la aplicación de un instrumento particular de evaluación con propósitos predictivos o de diagnóstico está justificada por su costo, también debería considerarse la validez creciente. La validez creciente se refiere a la cuestión de qué tanta precisión más tienen las predicciones y los diagnósticos cuando se incluye una prueba particular en una batería de procedimientos de evaluación. Es posible que otros métodos de evaluación menos costosos (observación, entrevista, inventario biográfico) puedan satisfacer los propósitos de la evaluación igual de bien sin usar una prueba adicional. La validez creciente se relaciona con el concepto de utilidad, tal como se aplica en los contextos de selección de personal. La utilidad de una prueba se define como un incremento medido en la calidad de los empleados que son contratados o promovidos sobre la calidad de los empleados cuando no se usa una prueba u otro procedimiento de evaluación (Cascio, 2000). VALIDEZ 99 Validez de constructo La validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional o educativo. Diferentes tipos de pruebas de habilidad, y en ocasiones pruebas de personalidad y de interés, se utilizan con propósitos de selección y ubicación. La validez de constructo es de un interés mayor aún con respecto a las pruebas de personalidad. La validez de constructo de un instrumento de evaluación psicológica se refiere al grado en que el instrumento mide un constructo particular, o concepto psicológico como la ansiedad, la motivación para el logro, la extroversiónintroversión o el neuroticismo. La validez de constructo, que es el tipo más general de validez, no se determina de una sola manera o por una investigación. Más bien involucra una red de investigaciones y otros procedimientos diseñados para determinar si un instrumento de evaluación que supuestamente mide una determinada variable de personalidad en realidad lo hace. Evidencia a favor de la validez de constructo. Entre las fuentes de evidencia a favor de la validez de constructo de una prueba se encuentran las siguientes: 1. Los juicios de expertos de que el contenido de la prueba corresponde al constructo de interés. 2. Análisis de la consistencia interna de la prueba. 3. Estudios, tanto en grupos formados de manera experimental como en grupos que se presentan de manera natural, de las relaciones entre las puntuaciones de la prueba y otras variables en las cuales difieren los grupos. 4. Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y variables con las cuales se espera que tengan cierta relación, seguidas por un análisis factorial de esas correlaciones. 5. Interrogar con detalle a los examinados o a los calificadores acerca de sus respuestas a una prueba o escala de calificación para revelar los procesos mentales específicos implicados al dar respuesta a los reactivos. Como lo revela esta lista, varios tipos de información contribuyen al establecimiento de la validez de constructo de un instrumento psicométrico. La información puede obtenerse de análisis racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su capacidad para predecir la conducta en las situaciones en que opera el constructo. Las demostraciones experimentales como las usadas en la validación de constructo de la Escala de Taylor de Ansiedad Manifiesta (TMAS) (Taylor, 1953) son particularmente importantes en el establecimiento de la validez de constructo. De acuerdo con la teoría hulliana del aprendizaje, la ansiedad es una pulsión y, por consiguiente, la gente muy ansiosa debe condicionarse con mayor facilidad que la gente menos ansiosa. Suponiendo que esta teoría es correcta, los individuos que tienen un alto nivel de ansiedad deben adquirir —con más rapidez que quienes tienen un bajo nivel de ansiedad— un parpadeo condicionado en una situación de condicionamiento clásico donde estén presentes una luz, un soplo de aire y el parpadeo. Por lo tanto, si es una medida válida del constructo de ansiedad, quienes obtienen puntuaciones altas en la escala TMAS deberían condicionarse con mayor facilidad en esta situación que quienes obtienen bajas puntuaciones. La verificación de esta predicción contribuyó de manera significativa a aceptar la validez de constructo de la TMAS. Validación convergente y discriminante. Un instrumento con validez de constructo debe tener correlaciones altas con otras medidas o métodos de medición del mismo constructo (validez convergente), pero correlaciones bajas con las medidas de constructos diferentes (validez discri- 100 CAPÍTULO CINCO Confiabilidad y validez minante). La evidencia a favor de estas validaciones de un instrumento psicométrico puede obtenerse comparando las correlaciones entre las medidas de: 1. 2. 3. 4. El mismo constructo usando el mismo método. Diferentes constructos usando el mismo método. El mismo constructo usando métodos diferentes. Diferentes constructos usando métodos diferentes. La validez de constructo de un instrumento psicométrico se confirma por este planteamiento de características y métodos múltiples (Campbell y Fiske, 1959) cuando las correlaciones entre el mismo constructo medidas por el mismo y por diferentes métodos son significativamente mayores que las correlaciones entre diferentes constructos medidas por los mismos o por diferentes métodos. Por desgracia, los resultados de dichas comparaciones no siempre resultan de esta manera. Ocasionalmente las correlaciones entre diferentes constructos medidas por el mismo método son más altas que las correlaciones entre el mismo constructo medidas por métodos diferentes. Esto significa que el método (inventario de lápiz y papel, técnica proyectiva, escala de calificación, entrevista, etc.) es más importante que el constructo o rasgo particular en la determinación de lo que está siendo medido que el constructo o rasgo que supuestamente está siendo evaluado. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en determinados puestos para realizar varias tareas. Sin embargo, con frecuencia los procedimientos seguidos para seleccionar, clasificar y ubicar personal han sido azarosos y asistemáticos. Se ha empleado gran variedad de procedimientos para la selección y valoración de personal, muchos de los cuales se basan en la observación casual y la intuición. Por ejemplo, en un tiempo se asignó gran importancia a rasgos físicos como la forma de la cabeza, los movimientos oculares y la apariencia corporal general. El origen étnico, la posición social y las conexiones sociales también influyeron en la determinación de quién era designado para ocupar cierto puesto, contratado para un trabajo específico o aceptado en determinado programa educativo. Detección De manera tradicional, la selección de personal se ha interesado en identificar, de entre un grupo de solicitantes, a los que son más capaces de realizar las tareas designadas. En este enfoque se utilizan las pruebas psicológicas, junto con información que no proviene de la prueba (historia personal, características físicas, recomendaciones, etc.), para ayudar a seleccionar a los solicitantes que pueden desempeñar trabajos particulares, ya sea de manera inmediata o luego de un entrenamiento apropiado. Un procedimiento de selección de personal puede ser bastante simple o muy complejo, dependiendo de la naturaleza de la organización y de la tarea para la cual se están seleccionando los solicitantes. El planteamiento más directo es la estrategia de hundirse o nadar en la cual todos los solicitantes son seleccionados o admitidos, pero sólo se conserva a quienes tienen un desempeño efectivo. En algunas formas ésta es una estrategia ideal de selección, pero también es costosa tanto para la organización como para los solicitantes. En consecuencia, casi todas las organizaciones grandes utilizan actualmente algún tipo de procedimiento de detección por el cual los solicitantes que son UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 101 claramente inadecuados para la tarea (trabajo, programa, etc.) son rechazados de inmediato. Si el instrumento de detección es un instrumento psicométrico de algún tipo, se acepta a los solicitantes que obtienen una calificación mínima especificada (calificación límite) o más alta en la prueba, mientras que se rechaza a los que puntúan por debajo de la calificación límite. Este procedimiento es bastante impersonal, y en ocasiones puede parecer duro desde la perspectiva de los solicitantes. Pero las organizaciones funcionan de manera más eficiente cuando los empleados poseen las habilidades indispensables para realizar de manera efectiva las tareas asignadas. Clasificación y ubicación La detección inicial, por lo regular, es seguida por la clasificación y la asignación de los solicitantes seleccionados a una de varias categorías ocupacionales. Las decisiones de clasificación pueden implicar el agrupamiento de los empleados sobre la base de sus puntuaciones en más de una prueba psicológica, como la asignación de los reclutas militares a especialidades ocupacionales de acuerdo con sus calificaciones en la Batería de Aptitudes Vocacionales de las Fuerzas Armadas. La detección y la clasificación con frecuencia son seguidas por la ubicación de los seleccionados en un nivel particular de determinado trabajo o programa. El proceso de selección de personal consiste usualmente en una secuencia de etapas vinculadas a una serie de decisiones de sí-no (pase-fracaso) basadas en la información obtenida de formularios de solicitud, cartas de referencia, llamadas telefónicas, entrevistas personales, observaciones y pruebas psicológicas. El propósito de recabar dicha información es idéntico al de cualquier otra aplicación de la psicología: hacer mejores predicciones de la conducta futura sobre la base de la conducta pasada y presente. Entre más confiable y válida sea la información, mayor es la probabilidad de hacer predicciones precisas de la conducta en el trabajo o en el programa y, por ende, resultan más adecuadas las decisiones de selección. Por supuesto, la confiabilidad y validez de los instrumentos y procedimientos de evaluación psicológica para tomar decisiones de selección no pueden determinarse sólo mediante la inspección de los materiales de evaluación. La confiabilidad y la validez deben evaluarse de manera empírica, lo cual es una de las tareas propias de los psicólogos organizacionales. Una tabla de expectativas Cuando se utilizan las pruebas con propósitos de selección no es esencial determinar la correlación prueba-criterio ni la ecuación de regresión que vincula el desempeño en la variable de criterio con las calificaciones en la prueba. Los métodos correlacionales pueden aplicarse a la elaboración de tablas de expectativas teóricas, pero es posible elaborar una tabla de expectativas empíricas sin calcular un coeficiente de correlación o cualquier otro estadístico a excepción de frecuencias y porcentajes. Suponga, por ejemplo, que la tabla 5.1 fue elaborada a partir de una distribución conjunta de frecuencia de las calificaciones de 250 solicitantes de empleo en una Prueba de Selección Ocupacional (OST), y de las puntuaciones asignadas a los solicitantes por sus supervisores laborales seis meses después de haber sido contratados. Los intervalos de calificación de la OST se presentan al lado izquierdo de la tabla y las puntuaciones de desempeño (en una escala de 1 a 8) a lo largo de la parte superior. Las frecuencias sin cursivas colocadas en las celdas de la tabla representan la cantidad de empleados que obtuvieron tanto puntuaciones en la OST, dentro de un rango especificado de 5 puntos, como las puntuaciones de desempeño indicadas en la parte superior de la columna. Por ejemplo, 10 empleados cuyas puntuaciones en la OST estuvieron entre 81 y 85 recibieron de sus supervisores una calificación de desempeño de 5, mientras que 14 empleados cuyas puntuaciones en la OST cayeron entre 66 y 70 recibieron una calificación de desempeño de 4. 102 CAPÍTULO CINCO TABLA 5.1 Confiabilidad y validez Tabla empírica de expectativas CALIFICACIÓN DEL DESEMPEÑO CALIFICACIÓN EN LA PRUEBA DE SELECCIÓN OCUPACIONAL 1 2 3 4 5 6 7 (100) 1 96–100 (100) 2 91–95 8 (67) 2 (82) 5 (36) 4 86–90 (100) 1 (94) 8 (50) 3 (33) 4 (11) 2 81–85 (100) 4 (85) 10 (48) 7 (22) 5 (4) 1 (100) 6 (88) 12 (63) 16 (31) 13 (4) 2 (5) 3 76–80 71–75 (100) 4 (94) 7 (83) 25 (45) 21 (12) 5 66–70 (100) 5 (87) 10 (61) 14 (24) 7 (5) 2 (20) 4 (4) 1 61–65 (100) 1 (96) 6 (72) 8 (40) 5 56–60 (100) 2 (85) 5 (46) 4 (15) 2 51–55 (100) 1 Los números en cursivas y entre paréntesis de la tabla 5.1 son los porcentajes de la gente con puntuaciones OST, en un intervalo determinado, cuyas puntuaciones de desempeño fueron iguales o mayores al valor correspondiente en las celdas dadas. De este modo, 85% de los empleados cuyas puntuaciones en la OST cayeron en el intervalo 81 a 85 recibieron de desempeño de 5 o más altas, y 61% de los que obtuvieron puntuaciones en la OST entre 66 y 70 tuvieron calificaciones de desempeño de 4 o más altas. Para ilustrar cómo se aplica este tipo de información al proceso de selección ocupacional, suponga que Juan, un empleado potencial de un grupo similar al grupo para el cual se elaboró la tabla 5.1, obtiene una puntuación de 68 en la Prueba de Selección Ocupacional. Entonces puede estimarse que Juan tiene una posibilidad de 61 en 100 de recibir de su supervisor una calificación de 4 o más alta en el desempeño en el trabajo seis meses después de empezar éste, pero sus posibilidades de obtener una calificación del desempeño de 6 o más alta son sólo de 5 en 100. Si una calificación de 4 o más alta es aceptable, es probable que Juan sea contratado. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 103 Factores que afectan la precisión predictiva La precisión con la que puede predecirse la calificación de criterio de un solicitante no sólo depende del tamaño de la correlación entre las variables de predicción y de criterio, sino también del número de errores por falsos-positivos y falsos-negativos, la razón de selección, y la tasa base. Si en una prueba se establece una calificación límite muy baja, habrá muchas aceptaciones incorrectas o falsos positivos; esto es, solicitantes que fueron seleccionados pero que no tuvieron éxito en el trabajo o en el programa. Por otro lado, si se establece una calificación límite muy alta, habrá muchos rechazos incorrectos o falsos negativos; esto es, solicitantes que no fueron seleccionados pero que de haberlo sido habrían tenido éxito. Como el propósito de la selección de personal es obtener tantos “aciertos” como sea posible (rechazar a los fracasos potenciales y seleccionar a los éxitos potenciales), la calificación límite debe establecerse con cuidado. Para ilustrar estos conceptos, vaya de nuevo a la tabla 5.1. Suponga que la calificación límite en la OST se establece en 66 y que 4 se considera una calificación mínima aceptable de desempeño en el trabajo. Entonces 4 + 5 + 6 + 7 + 10 = 32 de los empleados representados en la tabla 5.1 serán clasificados como falsos positivos: tuvieron una calificación de al menos 66 en la OST, pero tuvieron calificaciones de desempeño de menos de 4. Por otro lado, 5 + 2 + 4 + 1 = 12 empleados serán falsos negativos: calificaron por debajo de 66 en la OST, pero recibieron calificaciones de desempeño de 4 o más altas. Observe que al elevar la calificación límite en la OST disminuye el número de falsos positivos, pero incrementa el número de falsos negativos. El efecto opuesto, un incremento en los falsos positivos y una disminución en los falsos negativos, ocurre cuando se baja la calificación límite en la OST. Otro factor importante a considerar al establecer la calificación límite en una prueba o prueba compuesta es la razón de selección, que es la proporción de solicitantes que serán seleccionados. Entre menor sea la razón de selección, más alta es la calificación límite y viceversa. Como el número de errores por falsos positivos y falsos negativos es afectado dependiendo de dónde se establezca la calificación límite, podemos argumentar que la razón de selección debería ser determinada por la gravedad relativa de esos dos tipos de error. ¿Es el error cometido al aceptar a un solicitante que no logra realizar el trabajo de manera satisfactoria (falso positivo) más o menos grave que rechazar a un solicitante que podría haberlo realizado con éxito si hubiera sido seleccionado (falso negativo)? Dichos errores deberían ser tomados en cuenta, pero el número total de solicitantes es al menos igual de importante al determinar la razón de selección. Por ejemplo, cuando el mercado de trabajo es cerrado, el número de solicitantes será pequeño. Entonces la razón de selección necesitará ser alta y, en consecuencia, la calificación límite en la prueba debe ser lo bastante baja como para obtener el número deseado de personas. Por otro lado, en un mercado laboral libre o abierto, el número de solicitantes es grande, por lo que la razón de selección será baja. Una razón de selección baja significa que será necesario establecer una calificación límite bastante alta en la prueba, lo que dará lugar a un número menor de solicitantes aceptados y falsos positivos y a un número mayor de solicitantes rechazados y falsos negativos. El porcentaje de solicitantes exitosos varía inversamente con la razón de selección, pero varía directamente con la validez de la prueba u otros instrumentos de selección. En general, una prueba más válida conduce a un porcentaje más grande de aciertos y a un porcentaje más pequeño de falsos positivos y falsos negativos. Un factor más que también afecta la precisión con que una prueba puede identificar a las personas que se comportarán de cierta manera es la tasa base, esto es, la proporción de solicitantes que se esperaría desempeñaran satisfactoriamente un trabajo incluso si no se hubiera empleado un instrumento o procedimiento de selección. Como con la razón de selección, una prueba diseñada para 104 CAPÍTULO CINCO Confiabilidad y validez predecir un tipo particular de conducta es más efectiva cuando la tasa base es 50% y menos efectiva cuando la tasa base es muy alta o muy baja. Por ello, una prueba diseñada con el propósito de seleccionar gente para un trabajo muy complejo, en el cual relativamente pocos solicitantes pueden tener un buen desempeño, no sería tan efectiva como una diseñada para seleccionar gente para un trabajo en el cual la mitad de la población de solicitantes puede tener un desempeño satisfactorio. El concepto de tasa base no se limita a la selección de personal; también es importante en el diagnóstico clínico. Por ejemplo, debido a que la incidencia de suicidios en la población general es muy baja, una prueba diseñada para identificar a personas suicidas no sería muy exacta. Se esperaría un mejor resultado de una prueba diseñada para identificar a neuróticos porque el porcentaje de neuróticos en la población general es más alto que el de suicidas potenciales. La cantidad de información aportada por una prueba más allá de la tasa base puede ser determinada consultando la tabla Taylor-Russell para la tasa base especificada (Taylor y Russell, 1939). La tabla presenta el porcentaje de solicitantes seleccionados que puede esperarse tengan éxito en un trabajo, o en otra situación de selección, como función del coeficiente de validez de la prueba, la tasa base y la razón de selección. La inspección de varias tablas Taylor-Russell para tasas base específicas muestra que el porcentaje de solicitantes que se espera tengan éxito varía directamente con el coeficiente de validez, pero inversamente con la razón de selección. En general, en una tasa base intermedia y con una razón de selección baja, las calificaciones en una prueba que tiene un coeficiente de validez modesto pueden producir un incremento sustancial en el número de aciertos en una situación de selección. El uso de las tablas Taylor-Russell supone una definición clara, discreta y dicotómica del éxito (contra el fracaso) en una situación de selección. Se han elaborado enfoques similares que implican criterios continuos de éxito basados en la teoría de la decisión y la utilidad, pero son complejos y escapan al alcance de este libro (vea Cascio y Ramos, 1986; Cronbach y Gleser, 1965; Raju, Normand y Burke, 1990; Schmitt y Robertson, 1990). Límite múltiple y regresión múltiple Establecer la calificación límite para una prueba de selección o ubicación es un proceso complejo de juicio. Además de los factores analizados líneas arriba, la calificación límite y la utilidad de una prueba en general son afectadas por otros tipos de información del solicitante. Con frecuencia, un conjunto de calificaciones de prueba y otras medidas se combinan para tomar decisiones de selección y clasificación. Un procedimiento para combinar calificaciones, conocido como obstáculos sucesivos o límites múltiples, establece calificaciones límite separadas en cada una de varias medidas. Entonces un solicitante debe puntuar en el punto límite o por arriba de éste en cada medida separada en una situación donde una alta calificación en una medida no compensa una baja calificación en otra medida. Por ejemplo, la habilidad para diferenciar entre tonos de diferentes alturas es esencial para el desempeño efectivo de un director de orquesta. Independientemente de qué tan altas puedan ser sus calificaciones en pruebas de habilidades cognoscitivas, no puede esperarse que las personas sordas a los tonos sean buenos directores de orquesta.1 1Puede desafiar la imaginación, pero han existido algunas excepciones notables al requisito de que los ejecutantes musicales deberían tener buena audición. En música, como en otras actividades profesionales, la gente puede ser capaz de compensar las discapacidades sensoriales o motrices enfatizando otras capacidades que permanecen intactas. Además, al igual que Demóstenes, pueden sobrecompensar. Se dice que Demóstenes superó un defecto del habla al colocar guijarros en su boca y rugir a las olas, convirtiéndose en uno de los más grandes oradores de la antigua Grecia. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 105 Un enfoque más matemático de la combinación de las calificaciones de una muestra grande de personas en varias medidas es determinar una ecuación de regresión múltiple en la cual se apliquen diferentes pesos asignados estadísticamente a las calificaciones en diferentes pruebas. Una vez que se han determinado los pesos de regresión, puede calcularse para cada solicitante una sola calificación de criterio pronosticada multiplicando la calificación del solicitante en cada variable por el peso apropiado, sumando los productos y restando una constante. Por ejemplo, una ecuación de regresión múltiple empleada para propósitos de admisión en una universidad fue el GPApred = .002(SAT-V) + .001(SAT-M) + .030(HSR) - 2.00, donde SAT-V y SAT-M son las calificaciones del solicitante en las secciones Verbal y Matemática de la Prueba de Evaluación Escolar, HSR es una calificación T del rango del solicitante en su clase de graduación de la preparatoria, y GPApred es el promedio académico pronosticado en el primer año del solicitante en la universidad. Si las calificaciones de un solicitante en particular en las dos secciones del SAT son 600 y 500 y su rango en la preparatoria es 70, entonces su promedio académico pronosticado es GPApred = .002(600) + .001(500) + .030(70) –2.00 = 1.8, lo cual equivale a una C baja. En el enfoque de regresión múltiple, una calificación alta en una variable predictora puede compensar una calificación baja en otra variable predictora. En consecuencia, este planteamiento no debería usarse cuando una calificación mínima en cualquiera de los predictores sea esencial para el desempeño efectivo en el criterio. Cuando se utiliza un enfoque de regresión múltiple, debe calcularse un coeficiente de correlación múltiple (R), el cual es un indicador de la relación de una combinación ponderada de las variables predictoras con la variable de criterio. RESUMEN La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de prueba de los errores de medición. En la teoría clásica de las calificaciones de prueba, la confiabilidad se define como la razón de la varianza de la calificación real en una prueba con la varianza de su calificación observada. Dado que la varianza de la calificación real no puede calcularse directamente, la confiabilidad debe estimarse mediante uno de varios procedimientos que toman en consideración varias fuentes de error de medición. Tres métodos tradicionales para estimar la confiabilidad de una prueba u otro instrumento de evaluación son test-retest, formas paralelas y consistencia interna. El método de formas paralelas, que tiene en consideración los errores debidos a diferentes momentos de aplicación, así como los debidos a diferentes muestras de los reactivos de prueba, es el más satisfactorio. Debido a que la elaboración de las formas paralelas es costosa y consume tiempo, los procedimientos de test-retest y de consistencia interna son las fuentes más populares de evidencia de confiabilidad. Los enfoques de consistencia interna, que son menos apropiados para las pruebas de velocidad, comprenden la división por mitades, las fórmulas Kuder-Richardson y el coeficiente alfa. El error estándar de medición, que varía inversamente con la magnitud del coeficiente de confiabilidad, se emplea al calcular intervalos de confianza para las calificaciones reales en una prueba. Entre más grande sea el error estándar de medición, más amplio es el rango de calificaciones que puede decirse, con un grado especificado de confianza, contiene la calificación real de un examinado en la prueba. 106 CAPÍTULO CINCO Confiabilidad y validez La confiabilidad de una prueba varía directamente con el número de reactivos y la heterogeneidad del grupo que la presenta. La confiabilidad también varía con el nivel de dificultad de los reactivos que componen la prueba, siendo más alta con reactivos de dificultad intermedia. En este capíulo se analizaron de manera breve los procedimientos para determinar la consistencia entre diferentes calificadores (confiabilidad entre calificadores) y la confiabilidad de las pruebas referidas a criterio. También se prestó atención a la teoría de la generalización, la cual conceptualiza la calificación de una prueba como la muestra de una población y, por ende, como el estimado de una calificación real o valor universal. La confiabilidad es una condición necesaria pero no suficiente para lograr la validez, que es el grado en el cual una prueba mide lo que está diseñada para medir. La información sobre la validez de una prueba puede obtenerse de varias maneras: analizando el contenido de la prueba (validez de contenido), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas en un momento posterior (validez predictiva), y por el estudio sistemático de lo adecuado de la prueba para valorar un constructo psicológico especificado (validez de constructo). En las pruebas de aprovechamiento, por lo regular, se valida el contenido, mientras que la validez predictiva es de mayor interés con respecto a las pruebas de aptitud. La validez concurrente y la de constructo son importantes para las pruebas de personalidad. La magnitud de un error cometido al predecir la calificación de criterio de una persona a partir de su calificación en una prueba es calculada mediante el error estándar de estimación, el cual varía inversamente con el tamaño del coeficiente de validez relacionado con el criterio. Tanto el coeficiente de validez relacionado con el criterio como el error estándar de estimación son afectados por varios factores que comprenden las diferencias de grupo, la extensión de la prueba y la contaminación del criterio. Como la magnitud de un coeficiente de validez puede ser afectada por factores aleatorios, las pruebas usadas con propósitos predictivos deberían someterse a validación cruzada en muestras separadas de personas. También es importante considerar cuánto contribuyen las calificaciones de prueba al proceso de tomar buenas decisiones acerca de la gente mucho más allá de las contribuciones de otras variables (validez creciente). La información sobre la validez de constructo de una prueba como medida de una variable o característica psicológica particular puede obtenerse de varias maneras. En particular, es útil un análisis de correlación entre la prueba y otras medidas del mismo constructo obtenidas por el mismo método o por métodos diferentes, así como medidas de diferentes constructos obtenidas por el mismo método o por métodos diferentes (matriz de rasgos y métodos múltiples). Las pruebas psicológicas se aplican en escenarios ocupacionales con propósitos de selección, clasificación, promoción y valoración periódica de empleados. Algunos de los procedimientos estadísticos que se utilizan con esos propósitos son tablas de expectativas, razones de selección y métodos de límites múltiples y regresión múltiple. P R E G U N TA S Y A C T I V I D A D E S 1. Calcule los coeficientes de confiabilidad de división por mitades (nones y pares) y Kuder-Richardson (fórmulas 20 y 21) en las siguientes calificaciones de diez examinados a diez reactivos en una prueba de aprovechamiento donde 1 indica una respuesta correcta y 0 una respuesta errónea. 107 RESUMEN EXAMINADO REACTIVO A B C D E F G H I J 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 0 1 0 1 1 1 0 1 0 0 1 0 1 1 1 0 1 0 1 0 1 0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 1 0 0 0 Totales 10 7 7 6 6 5 4 3 3 2 La media ( X ) de las calificaciones totales es 5.30 y la varianza (s2) es 5.21. 2. Calcule el error estándar de medición (serr) de una prueba que tiene una desviación estándar de 10 y un coeficiente de confiabilidad de formas paralelas de .84. Luego use el valor obtenido de serr para encontrar el intervalo de confianza de 95% para las calificaciones reales correspondientes a las calificaciones obtenidas de 40, 50 y 60. 3. Una prueba que consta de 40 reactivos tiene un coeficiente de confiabilidad de .80. ¿Aproximadamente cuántos reactivos más del mismo tipo general deben agregarse a la prueba para incrementar su confiabilidad a .90? 4. ¿Cuál es la diferencia entre el error estándar de medición y el error estándar de estimación? ¿Cómo se relacionan esos dos estadísticos con los coeficientes de confiabilidad y validez de una prueba? 5. ¿Cuál es el error estándar cometido al estimar los promedios académicos a partir de las calificaciones de una prueba de aptitud si la desviación estándar del criterio es .50 y la correlación entre la prueba y el criterio es .60? Si el promedio académico pronosticado de un estudiante es 2.5, ¿cuál es la probabilidad de que su promedio académico obtenido caiga entre 2.1 y 2.9? ¿Entre 1.72 y 3.28? 6. Construya una tabla empírica de expectativas para las calificaciones apareadas X, Y en la tabla A.2 del apéndice A (página 438). Deje que X sea la variable predictora (hilera) y Y la variable de criterio (columna). Use un ancho de intervalo de 7 para ambas variables al establecer los intervalos de calificación para X y Y. 7. Describa tres tipos de confiabilidad y tres tipos de validez. ¿Para qué tipos de pruebas y situaciones es más apropiado cada tipo de validez y confiabilidad? CAPÍTULO SEIS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS Las pruebas de aprovechamiento, definido como el nivel de conocimiento, habilidad o logro en un área de desempeño, son los instrumentos psicométricos más populares. Si consideramos todas las pruebas aplicadas en el salón de clases que elaboran los profesores y todas las pruebas estandarizadas vendidas a las escuelas y a otras organizaciones, el número de pruebas de aprovechamiento aplicadas sobrepasa con facilidad a todos los otros tipos de pruebas psicológicas y educativas. En Estados Unidos, la mayoría de los 50 estados ha establecido como obligatorio que los estudiantes presenten pruebas de aprovechamiento en algunos grados. La mayoría de las pruebas estandarizadas de aprovechamiento aplicadas en las escuelas estadounidenses corresponde a las áreas de lectura y lenguaje, aunque cada año se invierten también millones de dólares en pruebas de matemáticas, ciencia, ciencias sociales y otras materias. FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO Cualquier prueba de habilidad (inteligencia general, habilidades especiales, aprovechamiento) en realidad mide lo que la gente ha logrado. Los reactivos de las pruebas de inteligencia y habilidades especiales, como los de las pruebas de aprovechamiento, requieren que los examinados demuestren algún logro. Las calificaciones en las pruebas de aprovechamiento se utilizan para muchos de los mismos propósitos que las calificaciones en otras pruebas de habilidades generales o específicas. Esos propósitos incluyen evaluación global y diagnóstica de las habilidades del individuo, así como evaluación de la efectividad de los programas educativos y sociales. Las pruebas de aprovechamiento educativo a menudo son mejores predictores de las notas escolares que las pruebas de inteligencia y de habilidades especiales, pero no pueden reemplazarlas por completo. Los logros medidos por las pruebas de inteligencia general son más amplios y son producto de experiencias de aprendizaje menos formales y, por lo regular, menos recientes que los logros medidos por las pruebas estandarizadas de aprovechamiento. La mayoría de las pruebas de aprovechamiento evalúa el conocimiento de algo que ha sido enseñado de manera explícita, por lo que las calificaciones en esas pruebas tienden a estar más influidas por la asesoría que las calificaciones en las pruebas de inteligencia y de habilidades especiales. También puede hacerse una distinción entre las pruebas de aprovechamiento y otras medidas de habilidades cognoscitivas en términos de sus diferentes énfasis. Las pruebas de aprovechamiento se concentran más en el presente, es decir, en lo que la persona sabe y puede hacer ahora. Por otro lado, las pruebas de inteligencia y de habilidades especiales se concentran en el futuro: miden la aptitud para el aprendizaje, es decir, lo que una persona deberá ser capaz de hacer con educación y entrenamiento ulteriores. 108 FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 109 Una serie de pruebas populares de aprovechamiento están vinculadas con pruebas de aptitud publicadas por la misma compañía y han sido estandarizadas en la misma población de estudiantes. El uso combinado de esas medidas de aprovechamiento y aptitud puede facilitar la interpretación de los resultados de la prueba de aprovechamiento, más allá de la información proporcionada por las normas de la prueba sola. Pueden hacerse conclusiones de si los estudiantes están desempeñándose al nivel de su potencial y en qué áreas de contenido es más probable que se beneficien de la instrucción y estudio adicionales. Panorama histórico Exámenes escritos en forma de composición y poesía, recopiados y juzgados por dos calificadores, se usaron por primera vez en China alrededor del año 1370 d. de C. Luego de la introducción del proceso de elaboración del papel en Europa, una habilidad que los europeos aprendieron de los árabes en el siglo XII y que éstos a su vez habían aprendido de los chinos en el siglo VIII, los exámenes escritos empezaron a reemplazar a los orales en algunas universidades europeas. Se sabe que el primer uso educativo de las pruebas escritas en una universidad europea se dio en Cambridge, Inglaterra, en 1702, y la Universidad de Londres fue acreditada como un centro de exámenes para pruebas escritas en 1836 (Green, 1991). Sin embargo, no fue sino hasta 1845 que los exámenes escritos se aplicaron a gran escala en Estados Unidos (Greene, Jorgensen y Gerberich, 1954). A principios del siglo XIX, el número de estudiantes en las escuelas de las ciudades estadounidenses había crecido demasiado como para que la aplicación frecuente de exámenes orales resultara un recurso práctico. La examinación oral continuó siendo el principal método para evaluar el aprovechamiento de los alumnos en Estados Unidos hasta la última mitad del siglo XIX. En 1845, un educador de Boston, Horace Mann, argumentó de manera convincente que los exámenes escritos, aplicados y calificados en condiciones uniformes, eran una mejor medida del aprovechamiento que los exámenes orales. La influencia de Mann llevó a que las escuelas de Boston comenzaran a administrar cada año exámenes escritos a sus alumnos. Se esperaba que esta práctica ayudara a determinar “la condición, mejoría o deterioro de nuestras escuelas” (Fish, 1941, p. 23). A pesar de los esfuerzos de Mann y de otros educadores, durante muchos años los exámenes orales continuaron siendo el método principal para evaluar el aprovechamiento escolar y sólo gradualmente fueron reemplazados por las pruebas escritas. La calificación de las pruebas orales y escritas continuó siendo bastante subjetiva. La primera prueba objetiva de aprovechamiento, una que podía calificarse de manera confiable, fue una escala de escritura elaborada por el inglés George Fisher en 1864. Un año después, en un esfuerzo por elevar los estándares educativos, el estado de Nueva York inició los Exámenes Regentes. Otro paso importante en la medición educativa fue dado por J. M. Rice en 1897 en su estudio clásico de las habilidades de ortografía de los escolares. Los resultados obtenidos al aplicar una prueba de ortografía de 50 palabras a 33,000 niños llevaron a Rice a concluir que se aprendía lo mismo en 15 que en 40 minutos de instrucción diaria en ortografía. En estudios posteriores, Rice elaboró pruebas objetivas para evaluar las habilidades de lenguaje y los logros aritméticos de los niños. Las pruebas de Rice por lo general se consideran como precursoras de las pruebas estandarizadas de aprovechamiento, una base sobre la que luego construyeron otros pioneros de la medición educativa. Varias pruebas estandarizadas de aprovechamiento fueron publicadas en los primeros años del siglo XX bajo la dirección de E. L. Thorndike, a quien Ross y Stanley (1954) consideraban padre del movimiento de examinación educativa. Esas pruebas incluían la Prueba de Aritmética para Operaciones Fundamentales y la Prueba de Razonamiento Aritmético de C. L. Stone (1908), la Serie de Pruebas de Aritmética de S. A. Courtis (1909) y la Escala de Caligrafía para 110 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Niños de Thorndike (1909). Las demostraciones de la falta de confiabilidad de las calificaciones asignadas por los maestros, incluso en las materias más exactas como matemáticas (Starch y Elliot, 1913), aumentaron el interés en las pruebas objetivas estandarizadas. Para el final de la década de 1920 se disponía de numerosas pruebas estandarizadas de aprovechamiento, incluyendo baterías de medidas como la Prueba de Aprovechamiento de Stanford (1923) para alumnos de primaria y el Examen de Contenido de Educación Superior de Iowa (1924). En 1926 la Prueba de Aptitudes Académicas de opción múltiple reemplazó a las pruebas de ensayo que previamente habían sido aplicadas por el Consejo de Examen de Ingreso a la Universidad (Donlon, 1984). El nuevo formato de opción múltiple, junto con la invención de máquinas de calificación automatizada, dio lugar a un rápido incremento en el uso de pruebas estandarizadas para la evaluación del aprovechamiento de los alumnos. Más que haber sido motivado únicamente por intereses educativos y científicos, el crecimiento en la producción de exámenes de aprovechamiento en Estados Unidos puede atribuirse en parte al hecho de que ambos lados de un debate público sobre las escuelas públicas encontraron que la defensa y los resultados de la examinación eran políticamente útiles (Levine, 1976). Incluso hoy, la administración de pruebas estandarizadas en las escuelas sigue teniendo ramificaciones políticas significativas. El debate sobre las pruebas nacionales en las materias de educación básica (lectura, matemáticas, etc.) es ilustrativo de la política estadounidense contemporánea sobre la examinación. Pruebas de ensayo y pruebas objetivas A pesar de cientos de estudios de investigación, la cuestión de los méritos relativos de las pruebas de ensayo y las pruebas objetivas nunca se ha resuelto por completo. De hecho, a menudo se afirma que los maestros actuales se han excedido en el uso de las pruebas objetivas hasta llegar al detrimento de las habilidades de composición de los estudiantes. No obstante, es claro que las pruebas objetivas diseñadas con cuidado pueden medir no sólo la memorización de acontecimientos, sino también muchos de los objetivos más complejos de la instrucción que en otro tiempo se pensaba sólo podían ser evaluados mediante exámenes de ensayo. En las décadas pasadas se ha observado una tendencia notable hacia las pruebas que evalúan la obtención de objetivos instruccionales de orden superior, como la aplicación, el análisis y la evaluación. Otra tendencia ha sido la de alejarse de las pruebas estandarizadas de aprovechamiento que intentan medir el logro individual en objetivos educativos amplios y aproximarse a las pruebas diseñadas de manera específica para textos y programas de enseñanza particulares. Por último, en respuesta a la crítica de que las pruebas objetivas alientan una redacción deficiente y una autoexpresión inadecuada, ahora se concede mayor énfasis a las pruebas estandarizadas de ensayo de la expresión escrita. En un intento por ampliar la evaluación del aprovechamiento del estudiante, también se utilizan pruebas de respuesta construida en matemáticas y ciencia, protocolos de experimentos de laboratorio y portafolios del trabajo (Aiken, 1998, capítulo 5; Linn,, 1992). Propósitos y funciones de las pruebas de aprovechamiento La función básica de las pruebas de aprovechamiento es determinar cuánto saben las personas acerca de ciertos temas o qué tan bien pueden desempeñar ciertas habilidades. Éste es el primer propósito mencionado en la tabla 6.1. Los resultados de las pruebas de aprovechamiento informan a los estudiantes, así como a los maestros y padres, acerca de sus logros y deficiencias escolares. Otras funciones de las pruebas de aprovechamiento incluyen proporcionar información para la ubicación avanzada, la acreditación de cursos y la certificación. Esas pruebas también FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO TABLA 6.1 1. 2. 3. 4. 5. 6. 7. 8. 111 Los muchos propósitos de las pruebas de aprovechamiento Evaluación de la competencia lograda Diagnóstico de las fortalezas y debilidades Asignación de calificaciones Certificación y promoción Ubicación avanzada y crédito por examinación Evaluación del currículo y el programa Responsabilidad Información para la política educativa Fuente: Linn, R. L. (1992). Achievement testing. En M. C. Alkin (editor), Encyclopedia of educational research (6a edición, págs. 1-12. Nueva York: Macmillan) pueden estimular el aprendizaje de los estudiantes, proporcionar a los maestros y al personal administrativo información para planificar o modificar el currículo de un estudiante o grupo de estudiantes, y servir como medio de evaluación del programa instruccional y el equipo. Las pruebas sólo miden una muestra de los logros educativos, pero se supone que esa muestra es representativa de una materia o grado particular. Es evidente que las pruebas de aprovechamiento no son el único método para determinar la efectividad de la instrucción, pero proporcionan medidas de la calidad de la educación y, por ende, pueden contribuir a su mejoramiento. Por lo menos, las calificaciones en las pruebas de aprovechamiento sirven como señales para alertar a maestros, personal administrativo y padres acerca de las necesidades instruccionales de los estudiantes a nivel individual y colectivo (Ansley, 1997). Las pruebas de aprovechamiento no pueden evaluar todos los objetivos o metas adoptadas por los filósofos educativos. Esas pruebas no miden de manera directa variables afectivas como el deleite y la confianza en el pensamiento, el interés en la materia educativa, el placer al usar las habilidades, el disfrute de la lectura, el aprender a aprender y a afrontar el cambio o el desarrollo de habilidades interpersonales y sociales. Lo que pueden medir, y con mayor precisión que los juicios de los maestros u otras evaluaciones subjetivas, es el grado en el que los estudiantes han alcanzado ciertos objetivos cognoscitivos de instrucción (Levine, 1976). Pruebas donde hay mucho en juego y donde hay poco en juego Los resultados de los exámenes pueden usarse con propósitos múltiples que conciernen tanto a individuos como a grupos. Por ejemplo, en los contextos educativos, las pruebas pueden supervisar el aprovechamiento del estudiante y evaluar la efectividad de los programas educativos. El grado en el que las decisiones aportadas por los resultados de una prueba impactan o acarrean consecuencias importantes para estudiantes y grupos se conoce como lo que está en juego en la prueba. Dichas decisiones pueden involucrar el diagnóstico de que un estudiante tiene una discapacidad de aprendizaje, el programa educativo apropiado para un estudiante con tal discapacidad, la ubicación de un estudiante en un programa para superdotados y talentosos, y la promoción o graduación de un estudiante de bachillerato. Otras decisiones importantes a las que contribuyen las pruebas son la admisión a cierta institución, la ubicación en un programa deseado, la obtención de una beca y la certificación o licencia profesional (Heubert y Hauser, 1999). En contraste con las pruebas donde hay mucho en juego, las pruebas donde hay poco en juego consisten en la aplicación de un examen sólo con propósitos informativos o para juicios al- 112 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas tamente tentativos. Por ejemplo, los resultados pueden utilizarse sólo para supervisar el progreso académico y proporcionar retroalimentación sobre ese progreso a los estudiantes, maestros y padres, sin que ello implique tomar una decisión específica (American Educational Research Association et al., 1999). Sea cual sea el propósito para el que puedan usarse y que estén involucradas decisiones donde hay mucho o poco en juego, es importante que todos los instrumentos psicométricos midan lo que están diseñados para medir, y que lo hagan de manera confiable. Sin embargo, cuando los resultados de una prueba se utilizan para tomar decisiones en las que hay mucho en juego y pueden tener efectos importantes en la vida de los estudiantes, es particularmente importante que la calidad de la prueba (validez, confiabilidad, estandarización y cosas similares) sea tan alta como sea posible. Debe tenerse extremo cuidado al aplicar y calificar la prueba, y los resultados deben interpretarse de manera correcta. También debe tenerse en cuenta el contexto en el cual se toman las decisiones a partir de las calificaciones. Pruebas elaboradas por el maestro y pruebas estandarizadas Las pruebas estandarizadas de aprovechamiento representan sólo una fracción de la cantidad de pruebas aplicadas en la escuela; los estudiantes pasan mucho más tiempo presentando pruebas elaboradas por el maestro que pruebas estandarizadas (Dorr-Bremme y Herman, 1986). Sea como sea, los propósitos o funciones de las pruebas de aprovechamiento descritos en los párrafos precedentes se aplican tanto a las pruebas administradas en el aula y preparadas por los maestros como a las estandarizadas elaboradas por profesionales en la medición educativa. Las pruebas preparadas por el maestro difieren de las estandarizadas en ciertos aspectos importantes. Las primeras son más específicas para un maestro en particular, un salón de clases y una unidad de instrucción, y son más sencillas de mantener actualizadas que una prueba estandarizada. En consecuencia, es más probable que una prueba elaborada por el maestro refleje los objetivos educativos vigentes en una escuela o para un maestro en particular. Por otro lado, las pruebas estandarizadas se elaboran alrededor de un núcleo de objetivos educativos comunes a muchas escuelas diferentes. Esos objetivos representan los juicios combinados de expertos en la materia, quienes cooperan con los especialistas en la elaboración de pruebas para desarrollar estos instrumentos. Las pruebas estandarizadas de aprovechamiento también se interesan tanto o más en la comprensión y los procesos de pensamiento como en el conocimiento factual. De este modo, las pruebas preparadas por el maestro y las estandarizadas son complementarias más que métodos opuestos de evaluar el aprovechamiento. Miden cosas algo diferentes pero de igual importancia y, dependiendo de los objetivos del aula o escuela en particular, deben emplearse ambos tipos de pruebas. Cuando una prueba estandarizada particular no evalúa las metas educativas de cierto sistema escolar, deben considerarse otras pruebas estandarizadas o incluso una prueba elaborada por el maestro. Además de elaborarse con mayor cuidado y de tener una cobertura de contenido más amplia que las pruebas preparadas por el maestro, las pruebas estandarizadas de aprovechamiento tienen normas y por lo general son más confiables. Por esas razones, las pruebas estandarizadas de aprovechamiento son particularmente útiles al comparar a alumnos de manera individual con el propósito de ubicación en la clase, así como en la evaluación de diferentes programas de estudio mediante la valoración de los logros relativos de escuelas y distritos diferentes. La función diagnóstica de una prueba, por medio de la cual se determinan las capacidades y discapacidades de una persona en cierta materia o área, puede ser cumplida por las pruebas preparadas por el maestro y por las estandarizadas. Sin embargo, las pruebas estandarizadas son algo más efectivas para este propósito. Las decisiones que atañen a la individualización de la enseñanza, a la ubicación de los estudiantes en niveles particulares de instrucción y a la educación terapéutica, FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 113 por lo general se toman sobre la base de las calificaciones obtenidas en pruebas estandarizadas más que en las preparadas por el maestro. Responsabilidad Las calificaciones de las pruebas se han empleado no sólo para evaluar el desempeño de los estudiantes, sino también para evaluar a los maestros y las escuelas. El hacer que los maestros rindan cuentas de su grado de éxito al enseñar a los estudiantes, o responsabilidad, ha sido un tema controvertido en la educación durante muchos años. ¿Deben los maestros, a quienes por lo general no se les permite seleccionar a sus estudiantes, pero que deben tratar de enseñar a todos los que se les asignan, ser recompensados sólo cuando alcanzan los objetivos instruccionales y no ser recompensados o incluso ser penalizados cuando no lo logran? Como resultado de la creciente preocupación pública por el fracaso de las escuelas para hacer un trabajo adecuado al educar a los estudiantes, se ha prestado particular atención a la responsabilidad por la efectividad de la enseñanza. En los sectores público y privado se han hecho intentos por responsabilizar a los maestros del aprendizaje de los estudiantes. De conformidad con esos esfuerzos, se especifican las competencias que los estudiantes deben alcanzar para completar un grado o curso de estudio o para graduarse del bachillerato. La evaluación de la efectividad de la instrucción se basa luego en la obtención de esas competencias, según lo indican en gran medida las calificaciones en las pruebas de aprovechamiento. Por desgracia, muchos estudiantes y padres ven la educación formal desde una perspectiva más bien estrecha de vendedor-consumidor, en la cual las escuelas son vistas como mercados que “venden” productos educativos a los clientes estudiantes. Dicha perspectiva hace recaer la responsabilidad del aprendizaje del estudiante casi por completo en los maestros, los materiales educativos y la estructura y dinámicas de las organizaciones en las que tiene lugar el aprendizaje. Sin embargo, los maestros saben que es difícil, si no imposible, enseñar a estudiantes que no están interesados en aprender la materia y/o que no aceptan parte de la responsabilidad por su propia educación. De este modo, además de la responsabilidad del maestro, es necesario enfatizar la importancia de la responsabilidad del estudiante y de la responsabilidad de los padres para hacer efectivo el proceso de aprendizaje. La siguiente carta de un maestro de octavo grado es informativa: Les pedí a los estudiantes de octavo grado en tres clases de matemáticas que levantaran la mano si habían planeado asistir a un colegio o universidad luego de su graduación de bachillerato. Con excepción de dos o tres estudiantes en cada grupo, todos los demás levantaron la mano. Aun así, aproximadamente la mitad de quienes dijeron que tenían planeado seguir con la educación superior no se habían molestado en terminar la tarea de matemáticas. Muchos habían estado demasiado ocupados viendo televisión, jugando videojuegos, hablando por teléfono, visitando amigos, haciendo compras o caminando por las calles en busca de algo qué hacer. En lugar de culpar a los maestros, administradores y exámenes de ingreso a la universidad por los fracasos personales, es tiempo de que los estudiantes y sus padres acepten la responsabilidad por sus éxitos o fracasos educativos. Los padres que asignan un gran valor al aprendizaje y enseñan autodisciplina, respeto por los demás, integridad personal y simplemente trabajar duro, tienen hijos con mayor probabilidad de adquirir la autoconfianza y las habilidades necesarias para lograr sus metas futuras (US News, 30 de abril de 2001). Contrato de desempeño La responsabilidad se asocia con el contrato de desempeño, es decir, con hacer que los salarios de los profesores se establezcan en proporción a su efectividad en la enseñanza. Un criterio importante de la efectividad en la enseñanza consiste en cambios del pretest al postest en el cono- 114 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas cimiento o la competencia del estudiante. Al usar las pruebas para determinar el grado en que los maestros han cumplido un contrato para enseñar el material educativo a los estudiantes, se aplican las mismas pruebas u otras equivalentes al inicio y al final de una unidad instruccional o un curso. En consecuencia, entre mayores sean los avances en el aprovechamiento de un estudiante del pretest al postest, mayor será el salario del maestro. Por desgracia, un resultado frecuente de la aplicación de exámenes antes y después es que se presta demasiada atención al contenido de las pruebas a expensas de otros objetivos instruccionales importantes. Cuando se combinan con otras medidas del desempeño, las calificaciones de las pruebas de aprovechamiento pueden y deben contribuir a tomar las decisiones concernientes a la responsabilidad y el contrato de desempeño, pero tienen limitaciones definidas cuando se usan con este propósito. Puede parecer como si la determinación de la importancia de las diferencias o cambios en las calificaciones de la prueba no presentara problema. Supuestamente, todo lo que necesitamos hacer es restar las calificaciones del pretest a las del postest y analizar las diferencias de la manera que se considere apropiada. Sin embargo, un problema con este enfoque es que la diferencia en las puntuaciones crudas puede ser muy poco confiable. Esto es particularmente cierto cuando los coeficientes de confiabilidad de las calificaciones del pretest y del postest son bastante bajos, aunque sean más altos que la confiabilidad de la diferencia de las calificaciones. Otro problema estadístico encontrado al analizar la diferencia de las puntuaciones es la regresión hacia la media, que es la tendencia a que los examinados cuyas calificaciones en el pretest son muy bajas o muy altas obtengan en el postest calificaciones más cercanas a la media. El uso de la diferencia regresada de las calificaciones a menudo se recomienda como una forma de tratar con la regresión a la media, pero dicho procedimiento no siempre es aconsejable. Se han propuesto procedimientos estadísticos más complejos para analizar los cambios en las calificaciones de la prueba, pero todos tienen limitaciones de un tipo u otro. Evaluaciones sumatoria y formativa La práctica tradicional demanda aplicar una prueba de aprovechamiento al final de una unidad instruccional o de un curso para determinar si los estudiantes alcanzaron los objetivos educativos especificados. En este procedimiento, conocido como evaluación sumatoria, la calificación en una prueba se ve como un producto final, o suma, de unidades extensas de experiencia educativa. En contraste con la evaluación sumatoria, la necesidad de evaluación formativa se deriva de la creencia de que la instrucción y la evaluación deberían estar integradas. El propósito de la evaluación formativa es “ayudar tanto al aprendiz como al profesor a centrarse en el aprendizaje particular necesario para avanzar hacia el dominio” (Bloom, Hastings y Madaus, 1971, p. 61). Cuando la evaluación es formativa, las pruebas y otros métodos de evaluación del progreso educativo se aplican de manera continua durante el proceso de instrucción. Se desarrollan unidades instruccionales que incluyen los exámenes como parte integral y progresiva de la instrucción, en lugar de ser una simple culminación del proceso. De esta forma, el desempeño del aprendiz se supervisa a lo largo de la secuencia instruccional y puede servir para dirigir la revisión y el aprendizaje ulterior. Medición con referencias a normas y a criterio De manera tradicional, la medición educativa no sólo ha sido sumatoria más que formativa, sino que también se ha referido a normas más que a criterios. La calificación de una persona en un prueba con referencia a normas se interpreta comparándola con la distribución de calificaciones de un grupo de norma (estandarización) particular. Pero la calificación de una persona en una prueba con referencia a criterio se interpreta comparándola con un estándar o criterio estableci- FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 115 do de desempeño efectivo.1 Este estándar puede ser formulado a partir del consenso de un grupo de personas relacionadas con todas las carreras de la vida que se interesan en la educación —profesores y personal administrativo, padres, expertos en medición y políticos. En términos del contenido, las pruebas con referencia a normas suelen ser más amplias y contener tareas más complejas que las pruebas con referencia a criterio. En consecuencia, las diferencias individuales en las calificaciones de una prueba con referencia a normas tienden a ser más extensas que las de una prueba con referencia a criterio. A pesar de las diferencias en el propósito y diseño de las pruebas con referencia a normas y con referencia a criterio, una prueba particular de aprovechamiento puede funcionar de ambas maneras. Con frecuencia es posible determinar con el mismo instrumento cuánto material ha aprendido un estudiante (función referida a criterio) y cómo se compara su desempeño con el de otros estudiantes (función referida a normas) (Carver, 1974). Se dispone de pruebas con referencia a criterio diseñadas para medir el aprovechamiento en una sola materia, digamos lectura o matemáticas, así como de baterías completas de estas pruebas. Otro producto ofrecido por ciertas compañías editoras de exámenes son las pruebas de una sola materia combinadas con estrategias instruccionales adecuadas para cada materia. Varias compañías dedicadas a la examinación también preparan pruebas con referencia a criterio elaboradas según ciertas especificaciones, o tienen disponibles bancos de reactivos con referencia a criterio en diversas materias. Esas pruebas elaboradas según especificaciones tienen la ventaja de estar adaptadas a los objetivos de un sistema escolar en particular, pero también tienen varias desventajas. Además del problema de decidir sobre una calificación aceptable para aprobar o el nivel de dominio en cada prueba, la necesidad de un gran número de subpruebas para medir muchos objetivos educativos diferentes requiere que cada subprueba sea relativamente corta; por ende, su confiabilidad es bastante baja. Además, no se ha resuelto del todo el problema de cómo determinar la confiabilidad y validez de las diversas subpruebas y de la prueba como un todo (Taylor y Lee, 1995). Evaluación Nacional del Progreso Educativo En Estados Unidos, ciertas pruebas de aprovechamiento se administran sobre una amplia base escolar, distrital o estatal para evaluar el progreso educativo de los estudiantes y supervisar la efectividad a largo plazo de programas educativos particulares. Los resultados de dicho sistema de examinación se presentan en los medios y a menudo se emplean para apoyar la acción legislativa y los gastos concernientes a la educación pública. Aunque se administra una serie de pruebas de aprovechamiento a nivel nacional, de manera periódica se efectúan pruebas distritales de aprovechamiento para evaluar el estatus educativo de muestras representativas de estudiantes en cada estado. Las pruebas administradas por la Evaluación Nacional del Progreso Educativo están próximas a merecer esta distinción. Un enfoque con referencia a criterio ha conducido a la Evaluación Nacional del Progreso Educativo (NAEP), también conocida como La Boleta de Calificaciones de la Nación. La NAEP es un estudio continuo, a nivel nacional, del conocimiento y las habilidades, capacidades intelectuales y actitudes de los jóvenes estadounidenses. Su propósito declarado “es mejorar la efectividad de las escuelas de nuestra nación al poner a disposición de los responsables de la política a nivel nacional, estatal y local información objetiva acerca del desempeño de los estudiantes en 1Algunos autores (por ejemplo, Anastasi y Urbina, 1997) prefieren el término prueba con referencia al dominio a prueba con referencia a criterio. Ambos términos indican que el marco de referencia empleado al interpretar las calificaciones de una prueba es el contenido de la prueba, más que la muestra de examinados en los que se estandarizó ésta. 116 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas áreas selectas de aprendizaje” (Public Law 100-297, sección 3401). Desde 1969, la NAEP ha evaluado periódicamente las habilidades de grandes muestras de estadounidenses en cuatro grupos de edad (9, 13, 17 y de 25 a 35 años) en lectura, matemáticas, ciencia, redacción, historia de Estados Unidos, geografía y artes. En la NAEP nacional se ha utilizado un procedimiento de muestreo aleatorio estratificado para seleccionar a cierto número de personas de cada género, nivel socioeconómico y raza de cuatro regiones geográficas y cuatro tipos de comunidades. Aunque se plantean muchas preguntas concernientes a cada tema, el hecho de que se muestrean tanto los examinados como los reactivos permite que sólo se necesite un periodo de prueba relativamente corto (50 minutos) por persona. A los adultos se les evalúa de manera individual, y a las personas más jóvenes tanto de manera individual como en grupo. Como los resultados se expresan en términos de los porcentajes de personas en cada grupo de edad que poseen ciertas habilidades y conocimiento, los nombres de esas personas no aparecen en los documentos de la prueba. Los resultados se presentan para la nación como un todo y para regiones geográficas específicas. Los resultados a largo plazo en matemáticas, ciencia y lectura se obtienen para las edades de 9, 13 y 17 años, y en redacción para los grados cuarto, octavo y undécimo. Desde 1990, las evaluaciones de la NAEP también se han realizado de manera voluntaria a nivel estatal. Se seleccionan muestras separadas representativas de estudiantes para cada jurisdicción o estado participante, pero los resultados no son representativos del estado en general. La NAEP fue planificada como un programa continuo para proporcionar al público estadounidense, y en especial a los legisladores y educadores, información sobre el estado y crecimiento de los logros educativos en Estados Unidos y sobre el grado en que se están alcanzando las metas educativas de esa nación. No fue diseñada, como algunos han temido, para evaluar los logros de escuelas o distritos escolares específicos o como un medio de control federal sobre los programas de las escuelas públicas. Sin embargo, los hallazgos han sido analizados por área geográfica, tamaño y tipo de comunidad, género, educación de los padres y grupo étnico. De particular interés son los análisis de los efectos del apoyo federal y de tipos específicos de programas sobre los logros educativos.2 TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS Existen cuatro tipos de pruebas de aprovechamiento estandarizadas: baterías de pruebas de estudio, pruebas de estudio en materias especiales, pruebas de diagnóstico y pruebas de pronóstico. Algunas son pruebas individuales diseñadas para aplicarse a una persona a la vez, pero la gran mayoría son pruebas colectivas que pueden aplicarse a cualquier número de personas al mismo tiempo. El mercado para pruebas muy especializadas en un área temática particular es más bien limitado, por lo que las pruebas estandarizadas de aprovechamiento por lo regular cubren áreas amplias de contenido y tratan con materias de conocimiento general. Debido a que el currículo se vuelve más especializado en los niveles superiores, la administración de pruebas estandarizadas de aprovechamiento es menos común después de la secundaria. 2Es posible obtener informes de la NAEP y publicaciones relacionadas en ED Pubs, P.O. Box 1398, Jessup, MD 20794-1398. Teléfono: 877-4ED-PUBS. FAX: 301-470-1244. Direcciones Web: http://www.ed.gov/pubs/edpubs.html y http://nces.ed.gov/nationsreportcard. TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS 117 Baterías de pruebas de estudio La forma más integral de evaluar el aprovechamiento es aplicando una batería de pruebas de estudio, que es un conjunto de pruebas sobre una materia diseñadas para un nivel particular. El propósito principal de aplicar una batería de pruebas es determinar la posición general de un individuo en varias materias, más que medir sus fortalezas y debilidades específicas. En consecuencia, cada prueba de una batería de estudio contiene una muestra bastante limitada del contenido y las habilidades de una materia en particular. Como todas las pruebas de una batería se estandarizan en el mismo grupo de personas y las calificaciones se expresan en la misma escala numérica, el desempeño de una persona en diferentes materias puede compararse de manera directa. Aunque las baterías de pruebas proporcionan una evaluación más amplia del aprovechamiento de los alumnos que las pruebas sencillas, tienen una serie de desventajas. A pesar de que el tiempo total de administración de una batería es más largo, las pruebas son más cortas que las pruebas de estudio sencillas por lo que su confiabilidad suele ser menor. Por supuesto, no es necesario administrar todas las pruebas de una batería a un grupo dado de estudiantes; el examinador puede decidir administrar sólo las pruebas que proporcionen información relevante relacionada con las metas específicas de la evaluación. Pruebas de estudio de una sola materia Las pruebas de una sola materia por lo general son más largas y más detalladas que las pruebas comparables en una batería, por lo que permiten una evaluación más pormenorizada del aprovechamiento en un área específica. Las pruebas de una sola materia arrojan regularmente una calificación global y quizás un par de subcalificaciones, y no fueron diseñadas para identificar causas específicas de alto o bajo desempeño en la materia. Debido a la mayor uniformidad existente entre las diferentes escuelas en lo que toca a la instrucción de la lectura y las matemáticas más que en otras materias, las pruebas estandarizadas en esas dos áreas tienden a ser más válidas que, por ejemplo, las pruebas en ciencia y ciencias sociales. Pruebas de diagnóstico Estas pruebas tienen la función diagnostica de identificar dificultades específicas en el aprendizaje de una materia. Para elaborar una prueba de diagnóstico en una habilidad básica como lectura, aritmética u ortografía, se analiza el desempeño en la materia como un todo en subhabilidades, y luego se elaboran grupos de reactivos para medir el desempeño en esas subhabilidades. A diferencia de las pruebas de estudio, que se concentran en las calificaciones totales, las pruebas de diagnóstico generan calificaciones en cada una de varias subhabilidades. Como las diferencias entre calificaciones en las diversas partes de las pruebas se interpretan al hacer diagnósticos, el número de reactivos para medir una subhabilidad particular debe ser suficiente para asegurar que las diferencias entre las calificaciones de las partes sean confiables. Por desgracia, el número de los reactivos que componen las calificaciones de las partes a menudo es pequeño y las calificaciones de las partes se correlacionan, lo que da por resultado que las diferencias de las calificaciones tengan poca confiabilidad. La mayoría de las pruebas de diagnóstico son de lectura, pero también se dispone de estas pruebas en matemáticas, ortografía y lenguas extranjeras. Una prueba de diagnóstico contiene una mayor variedad de reactivos y, por lo general, su administración se lleva más tiempo que una prueba de estudio de la misma materia. Las pruebas de diagnóstico también pueden implicar el uso de aparatos especiales, como un taquitoscopio, para presentar el material de lectura sólo por 118 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas un periodo breve, y la cámara de movimientos oculares para seguir la dirección en que se mueven los ojos al leer. Ciertas pruebas de estudio de administración individual, o pruebas globales, también se utilizan con propósitos de diagnóstico educativo. Algunos ejemplos son la Prueba de Aprovechamiento Educativo de Kaufman y la Prueba de Aprovechamiento Individual de Peabody, Revisada. Aún más globales en sus propósitos de diagnóstico son las Pruebas de Aprovechamiento de Woodcock-Johnson III, una batería de pruebas de habilidades múltiples de administración individual diseñada para medir la habilidad intelectual general, habilidades cognoscitivas específicas, lenguaje oral y aprovechamiento académico de individuos de entre 2 y 90 años de edad. La administración de una batería de pruebas de estudio es un primer paso razonable en un programa de examinación porque proporciona una imagen global de la posición de una persona en varias materias. Si se necesita una segunda evaluación del aprovechamiento de una persona en un área particular, puede administrarse una sola prueba de la materia específica. Por último, si se requiere hacer un análisis detallado de la discapacidad de una persona en lectura o matemáticas y determinar las causas de la discapacidad, debe administrarse una prueba de diagnóstico. Pruebas de pronóstico Las pruebas de pronóstico, al igual que las pruebas de aptitud, contienen una mayor variedad de reactivos que las pruebas de estudio del aprovechamiento en la misma materia, ya que están diseñadas para predecir el aprovechamiento en materias escolares específicas. Por ejemplo, el propósito de una prueba de preparación para la lectura aplicada a un alumno de jardín de niños o de primer grado es predecir si el niño está preparado para beneficiarse de la enseñanza de la lectura. A un nivel superior, se dispone de pruebas de pronóstico en matemáticas (álgebra, geometría) y en lenguas extranjeras con el fin de predecir la facilidad para el aprendizaje de esas materias. Selección de una prueba estandarizada La selección de una prueba estandarizada de aprovechamiento básicamente es cuestión de encontrar un instrumento con un contenido que se ajuste a los objetivos instruccionales de una organización, clase, escuela o sistema escolar particular. Esto significa que el nivel de conocimiento o habilidad de los examinados y el contenido y objetivos del currículo deben determinarse antes de decidir qué prueba(s) administrar. Además, deberán considerarse las razones para administrar la prueba y la forma en que van a usarse las calificaciones; no tiene sentido administrar una prueba simplemente porque “parece buena” y luego dejar que los resultados no utilizados se empolven en una gaveta o en un armario. Propósitos y consideraciones prácticas. El manual que acompaña a una prueba por lo regular proporciona detalles sobre sus usos potenciales (evaluación, ubicación, diagnóstico de las discapacidades de aprendizaje, preparación para aprender, evaluación del currículo) y cita evidencia de apoyo. En consecuencia, antes de seleccionar una prueba deben aclararse las formas específicas en que van a usarse las calificaciones y consultarse los manuales de la prueba para determinar qué instrumentos son apropiados para esos propósitos. Además de leer el manual, los posibles usuarios deben examinar una copia de la prueba e incluso resolverla para determinar si es adecuada para sus propósitos. Algunas empresas también publican muestras de las pruebas que editan, las cuales constan de un folleto de la prueba, una hoja de respuestas, un manual, una clave de calificación y otros materiales asociados. También pueden solicitarse catálogos de pruebas. Esos materiales son útiles para decidir qué pruebas administrar. La mayoría de las com- TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS 119 pañías de pruebas también tienen sitios Web en los que describen sus propósitos, productos y servicios (vea el apéndice C). Otra cosa que debe considerarse al seleccionar una prueba es el grado de cooperación que puede esperarse de la escuela u otra organización al administrarla e interpretar los resultados. También son de importancia cuestiones prácticas como costo y tiempo de aplicación, calificación y análisis de los resultados. Los servicios de calificación por medio de una máquina proporcionados por firmas comerciales de pruebas facilitan en gran medida los procesos de calificación y análisis y, por lo común, son de un costo bastante razonable. Confiabilidad, validez y normas. Las características estadísticas de las pruebas de aprovechamiento suelen pasarse por alto al momento de seleccionar una prueba de este tipo, pero es crucial atender este aspecto. La confiabilidad de la mayoría de las pruebas de aprovechamiento se ubica entre .80 y .90, pero el significado de esos altos coeficientes depende de los procedimientos con que se obtuvieron. Un coeficiente de formas paralelas es preferible a un coeficiente de test-retest o a uno de consistencia interna porque es más probable que los dos últimos estén inflados por el error de medición. Para decidir si una prueba de aprovechamiento es válida, debe obtenerse evidencia de su validez de contenido comparando éste con los objetivos del programa instruccional de interés. Un manual de la prueba preparado adecuadamente describe el sistema para clasificar el contenido y los objetivos conductuales utilizados al elaborar la prueba, y los usuarios potenciales deben decidir si esos objetivos corresponden a los suyos. Cuando se administra una prueba con el propósito de predecir el aprovechamiento posterior, como sucede con una prueba de preparación para la lectura u otra prueba de pronóstico, también es importante obtener evidencia de su validez predictiva. Además de la confiabilidad y la validez, antes de seleccionar una prueba también debe examinarse si las normas son adecuadas y apropiadas. La mayoría de las pruebas de aprovechamiento bien elaboradas se estandarizaron en muestras (estadounidenses) nacionales representativas, en ocasiones estratificadas de acuerdo con edad, sexo, región geográfica, posición socioeconómica y otras variables relevantes. Los compradores de la prueba que planean presentar las calificaciones en términos de esas normas deben asegurarse de que las características del grupo de norma son similares a las de los estudiantes que van a examinarse. Para propósitos de ubicación y otras comparaciones dentro de una escuela o sistema escolar determinado, las normas locales pueden ser incluso más significativas que las nacionales. Los usuarios de las pruebas estandarizadas de aprovechamiento también deben estar al tanto de que, al trazar el progreso académico de un estudiante por medio de calificaciones normadas en una prueba estandarizada de aprovechamiento aplicada a niveles sucesivos, se asume que los grupos de diferentes niveles en los que se estandarizó la prueba son equivalentes. Por ejemplo, los cambios demográficos en las comunidades de las que se extrajeron estudiantes de ciertas escuelas pueden producir diferencias significativas en la composición de grupos de estudiantes de diferentes niveles. Esto puede suceder debido a la llegada migratoria reciente de personas que difieren en el nivel socioeconómico, nacionalidad o grupo étnico. Si hay razones para creer que existen diferencias significativas entre los grupos de norma en variables distintas a las relacionadas con el crecimiento, entonces las calificaciones normadas por grado, de rango percentilar o estándar obtenidas por un estudiante en una prueba no pueden compararse con precisión entre los niveles. Al adquirir una prueba es importante no dejarse engañar por su nombre. Los usuarios de pruebas experimentados están bien conscientes de que es un error suponer que instrumentos con el mismo nombre miden la misma cosa e instrumentos que tienen nombres diferentes miden cosas distintas. Antes de decidir qué pruebas de aprovechamiento adquirir, tanto los usuarios no- 120 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas vatos como los experimentados pueden beneficiarse de consultar The Mental Measurements Yearbook, Test Critiques y las revisiones de pruebas en revistas profesionales y otras fuentes. BATERÍAS DE PRUEBAS DE APROVECHAMIENTO Las baterías de pruebas de aprovechamiento representan esfuerzos por medir las amplias capacidades y habilidades cognoscitivas cultivadas por las experiencias educativas en áreas centrales. Estas baterías de pruebas de niveles múltiples evalúan destrezas básicas en lectura, matemáticas, lenguaje y, a los niveles apropiados, habilidades de estudio, ciencias sociales y ciencia. Es posible encontrar descripciones de baterías de pruebas de aprovechamiento que están comercialmente disponibles en las diversas ediciones de The Mental Measurements Yearbook, Tests in Print, Tests y Test Critiques, así como en los catálogos de los editores de pruebas. Tales baterías fueron diseñadas para evaluar el aprovechamiento educativo formal de estudiantes desde el jardín de niños hasta bachillerato, con énfasis en los años de primaria y secundaria. Los programas de exámenes de muchas escuelas se basan en las baterías de pruebas de aprovechamiento aplicadas en otoño y primavera a sus alumnos con el propósito de medir el logro y el progreso educativo general. Los resultados de estas pruebas son de interés para los maestros, padres, personal administrativo, miembros de los consejos escolares, líderes políticos y, por supuesto, para los estudiantes. Una limitación del uso de baterías es que algunas de las pruebas pueden no corresponder a los objetivos particulares de la escuela o sistema escolar. Además, no todas las pruebas en una batería determinada tienen igual confiabilidad o la misma validez de contenido. Normas de una batería de pruebas Debido a que las diversas subpruebas de un nivel particular en una batería de pruebas de aprovechamiento se estandarizaron en el mismo grupo de personas, el conjunto unificado de normas resultantes permite la evaluación directa del aprovechamiento relativo de una persona en varias áreas temáticas. Además, si puede asumirse que diferentes niveles de una batería de pruebas se estandarizaron en grupos comparables de estudiantes, entonces el progreso cognoscitivo del alumnado puede trazarse comparando sus calificaciones en las pruebas que componen la batería a lo largo de un periodo de varios años. Sin embargo, esto no debe hacerse cuando existe alguna duda acerca de la equivalencia o posibilidad de comparación de las diferentes muestras de nivel de los estudiantes en los que se estandarizó la batería. Además, las normas contra las que se comparan las calificaciones de los estudiantes deben haberse obtenido de la aplicación de la(s) prueba(s) al grupo de estandarización en la misma época del año (otoño o primavera) en que se examine a los alumnos cuyas calificaciones están siendo evaluadas. Contenido de las baterías de pruebas de aprovechamiento Nivel de escuela primaria. Debido a la mayor uniformidad del contenido instruccional en la primaria, las baterías de pruebas de aprovechamiento se administran con mayor frecuencia en este nivel para evaluar el desarrollo educativo. Una batería típica para la escuela primaria consta de subpruebas sobre vocabulario de lectura, lectura de comprensión, uso del lenguaje, ortografía, aritmética básica y comprensión de la aritmética. También puede incluir subpruebas para medir habilidades de estudio, ciencias sociales y ciencia, pero al nivel de primaria se enfatiza la medición del aprovechamiento en habilidades cuantitativas y verbales básicas. Las baterías populares de pruebas de aprovechamiento para este nivel incluyen la Serie de Pruebas de Aprovechamiento de Stanford, las Pruebas de Aprovechamiento de California, la Prueba Comprensiva BATERÍAS DE PRUEBAS DE APROVECHAMIENTO 121 de Habilidades Básicas y las Pruebas de Aprovechamiento Metropolitanas. Esas baterías también contienen pruebas para niveles de jardín de niños y secundaria. Nivel de escuela secundaria. Debido a la variabilidad en los programas académicos de diferentes estudiantes de nivel medio, las baterías de pruebas de aprovechamiento son menos útiles a este nivel. Las baterías de pruebas al nivel de escuela secundaria siguen enfatizando las habilidades básicas en lectura, lenguaje y aritmética, pero también se incluyen pruebas de ciencias sociales, ciencia y habilidades de estudio. Tanto a nivel de primaria como de secundaria, las pruebas de aprovechamiento enfatizan el desarrollo educativo general y no están vinculadas a cursos específicos en escuelas particulares. Al nivel de la educación media también son de interés baterías como las Pruebas Universitarias Estadounidenses (ACT), las cuales se administran anualmente con propósitos de admisión a la universidad. La ACT es en realidad una batería de pruebas de aprovechamiento, pero es similar a una prueba de aptitud en el hecho de que su amplio rango de contenido se relaciona menos con experiencias escolares específicas que la mayoría de las pruebas de aprovechamiento. Pruebas de educación básica Varias baterías de pruebas de aprovechamiento se han diseñado de manera específica para medir la competencia en las habilidades básicas de los adultos con educación inferior al nivel medio. Un ejemplo son las Pruebas de Educación Básica para Adultos (TABE) (de CTB/McGraw-Hill), las cuales constituyen una prueba de niveles múltiples estandarizada en adultos que destaca las habilidades en lectura, matemáticas y lenguaje. Otra prueba para determinar el nivel de desarrollo en lectura y aritmética de empleados o solicitantes en una amplia variedad de ocupaciones y ambientes de rehabilitación es el Índice de Lectura-Aritmética (RAI) (de NCS London House). En la figura 6.1 se presentan reactivos de muestra de esta prueba, la cual, si bien no se cronometra, se lleva alrededor de 25 minutos por cada una de sus dos partes. A pesar de la disponibilidad de pruebas de habilidades básicas para adultos, sólo una minoría de los negocios y las industrias evalúan en realidad la alfabetización de sus empleados. En consecuencia, muchos trabajadores son funcionalmente iletrados y deben “engañar” al realizar un trabajo que requiere habilidades de lectura. Es de suponer que los ejecutivos de dichas compañías se dan cuenta de que algunos de sus empleados no pueden leer, escribir, realizar cálculos o comprender bien el idioma, pero parecen estar limitados en lo que pueden hacer acerca de esta situación. Esto es desafortunado porque los empleados analfabetas tienen mayor probabilidad de sufrir accidentes y se ven impedidos en su capacidad para avanzar en una organización. Pruebas GED Las Pruebas de Desarrollo Educativo General (GED) (de GED Testing Service) también son apropiadas para adultos con educación formal limitada, y son presentadas cada año por más de 800,000 adultos. Las pruebas GED fueron diseñadas para medir los logros educativos de personas con educación media o equivalente. La batería completa, que se lleva alrededor de siete horas y media, consta principalmente de reactivos de opción múltiple en cinco áreas: habilidades de redacción, ciencias sociales, ciencia, literatura y arte, y matemáticas. La prueba de habilidades de redacción también incluye un ensayo que documenta la habilidad del examinado para escribir y comunicarse de manera efectiva. En lugar de enfatizar hechos y detalles específicos, los reactivos de la GED tratan sobre conceptos amplios y generalizaciones basadas en competencias y conocimiento enseñados en los programas académicos de la secundaria. Muchas organizaciones académicas y de negocios, así como las fuerzas armadas de Estados Unidos, aceptan califi- 122 Pruebas de aprovechamiento estandarizadas CAPÍTULO SEIS Índice de lectura Índice aritmético Esto es un(a) ......1. niño bote pelota pájaro Un cocinero prepara azúcar ensalada arena sal Índice de lectura Sume: Reste: Índice aritmético Esto es un(a) ....1. vaca caballo cerdo león Sume: La gente respira: aire agua arena comida FIGURA 6.1 Reste: Muestra de reactivos del Índice de Lectura-Aritmética. (Copyright © 1968 NCS Pearson, Inc. Todos los derechos reservados. Publicado y distribuido exclusivamente por NCS Pearson, Inc. Reproducido con autorización de NCS Pearson, Inc.) caciones en esas pruebas de diploma de equivalencia general sobre la misma base que el diploma de secundaria (vea el sitio Web www.gedtest.org). PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS La aplicación de una batería de pruebas de aprovechamiento tiene prioridad en un programa escolar de pruebas típico. Cuando se necesita más información sobre el desempeño del estudiante en una materia particular, el procedimiento usual es administrar una prueba específica en esa materia luego de la batería. Esas pruebas específicas de aprovechamiento tienen ciertas ventajas sobre pruebas comparables en una batería. Por ejemplo, el que una prueba específica contenga más reactivos y una temática más amplia que la prueba de una batería de aprovechamiento, le da mayor probabilidad de representar de manera más adecuada los objetivos instruccionales de una amplia gama de aulas y de escuelas. Además, debido a su extensión, probablemente sea más confiable que una prueba comparable en una batería de aprovechamiento. PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 123 Una línea de una antigua canción inglesa, “Reading and writing and ‘rithmetic, taught to the tune of a hickory stick”, es un testimonio de la relevancia que han tenido esas materias a lo largo del tiempo en el programa de estudios de la escuela primaria. Se dispone de cientos de pruebas para materias específicas en lectura, matemáticas, lenguaje, ciencia, ciencias sociales, profesiones, negocios y oficios. Otras áreas en las que se han publicado pruebas estandarizadas de aprovechamiento son salud, economía doméstica, artes industriales, uso de las bibliotecas, literatura, la Biblia, música, oratoria, ortografía y educación vial. Además de las pruebas tradicionales con referencia a normas del tipo de estudio, diagnóstico y pronóstico, hay muchas pruebas con referencia a criterio en materias específicas. Más aún, el énfasis que en las décadas recientes se dio en las secundarias a las pruebas de competencia en habilidades básicas llevó a la publicación de una serie de pruebas de competencia para evaluar el conocimiento y las habilidades de estudiantes de secundaria y preparatoria en lectura, redacción y matemáticas. Esas habilidades de supervivencia se consideran esenciales para enfrentar las demandas de la vida diaria. Pruebas de lectura Muchas de las dificultades experimentadas por los niños en el aprendizaje de las materias escolares se relacionan con problemas en la lectura, una razón común para canalizar a un niño a evaluación psicoeducativa. Las dificultades en la lectura son acumulativas y afectan el desempeño en casi todo el trabajo escolar, por lo que es importante evaluar el nivel de lectura y diagnosticar deficiencias en esta materia de manera oportuna y regular. Debido a sus muchos usos, se administran más pruebas de lectura que cualquier otro tipo de prueba de aprovechamiento. Se dispone de varios tipos de pruebas de lectura, siendo las tres categorías principales las pruebas de estudio, pruebas de diagnóstico y pruebas de preparación para la lectura. Otras formas de clasificar las pruebas de lectura son con referencia a norma y a criterio (o ambas) y lectura en silencio y lectura oral. Pruebas de estudio de lectura. La razón principal para aplicar una prueba de estudio de lectura es determinar la habilidad general de una persona para la lectura. Las pruebas de este tipo contienen secciones de reactivos de vocabulario y secciones de párrafos o pasajes acerca de los cuales se plantean preguntas. Se obtiene una medida del conocimiento de las palabras a partir de los reactivos de vocabulario, mientras que la velocidad y el nivel de comprensión se miden a partir de los párrafos. Algunos ejemplos de las mejores pruebas de este tipo son las Pruebas de Lectura de Gates—MacCinitie (GMRT), cuarta edición. Diseñadas para los grados K—12 y Lectura de Adultos, las dos formas (S y T) de la GMRT contienen cinco niveles: Prelectura (PL), Lectura de Principiantes (LP), 1 y 3, 3—12 y Lectura de Adultos (LA). Las habilidades de lectura de principiantes y de nivel primaria se evalúan en los niveles inferiores, y el progreso continuo en la competencia para la lectura se mide en los niveles superiores. La mayoría de las pruebas de estudio de lectura emplean un formato de respuesta de opción múltiple, pero en la Prueba de Lectura Stanford 9 de Final Abierto se utiliza un formato abierto-cerrado o de respuesta elaborada. Otros dos ejemplos de pruebas de estudio de lectura son la Prueba de Lectura Oral de Gray, revisada, y la Prueba de Comprensión de Lectura (de pro.ed). Algunas pruebas de estudio de lectura, como el CD-ROM de la Prueba de Lectura de Nelson-Denny, pueden administrarse por medio de una computadora. Pruebas de diagnóstico de lectura. Las pruebas de diagnóstico de lectura, que son por mucho el tipo más común de pruebas de diagnóstico, pretenden evaluar muchos factores diferentes que afectan la lectura y, por ende, descubrir la fuente de las discapacidades de los estudiantes en la materia. Entre esos factores se incluyen la coordinación ojo-mano, la percepción visual y audi- 124 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas tiva, la comprensión de conceptos e incluso la motivación. Una prueba de diagnóstico de lectura puede contener subpruebas en discriminación visual y auditiva, vocabulario de vista y vocabulario en contexto, fonemas/grafemas, vocales y consonantes, lectura en silencio y oral, lectura de comprensión y tasa de comprensión. Como las correlaciones entre esas subpruebas a menudo son sustanciales, las diversas habilidades medidas por las pruebas de diagnóstico de lectura no son necesariamente independientes. Además, la confiabilidad de las subpruebas y de la prueba como un todo frecuentemente no es tan alta como sería deseable. Algunas pruebas representativas de esta categoría son las Pruebas de California para el Diagnóstico de la Lectura (de CTB/McGraw-Hill), las Pruebas de Stanford para el Diagnóstico de la Lectura, cuarta edición (de Harcourt Brace) y la Batería de Diagnóstico de la Lectura de Woodcock (de Riverside Publishing). Pruebas de preparación para la lectura. Como medida del grado en que los niños poseen las habilidades y el conocimiento necesarios para aprender a leer, una prueba de preparación para la lectura con frecuencia permite formular una mejor predicción del aprovechamiento en primer grado que una prueba de inteligencia general, y requiere menos tiempo de aplicación. Las pruebas de preparación para la lectura contienen muchos de los mismos tipos de reactivos que las pruebas de diagnóstico de lectura, y ciertas pruebas de lectura contienen componentes de diagnóstico y de pronóstico. Pruebas de matemáticas De manera similar a las pruebas de aprovechamiento en lectura, las de aprovechamiento en matemáticas pueden clasificarse como de estudio, diagnóstico y pronóstico. Pruebas de estudio de matemáticas. Diversos enfoques hacia la instrucción están representados por las pruebas actuales de matemáticas, incluyendo el énfasis más tradicional en los programas de matemáticas así como puntualizaciones más modernas en lo relativo a resolución de problemas, desarrollo de conceptos y razonamiento. Ciertas pruebas están diseñadas para abarcar los énfasis moderno y tradicional en los programas de matemáticas, y se dispone de instrumentos que reflejan enfoques instruccionales más especializados desde el nivel de primaria hasta el de universidad. En general, las pruebas de matemáticas con referencia a normas del tipo de estudio requieren que los estudiantes demuestren cierta comprensión de conceptos y operaciones cuantitativas y la habilidad para aplicar esta comprensión a la resolución de problemas. Las pruebas de competencia en cursos generales y específicos de matemáticas (álgebra, cálculo, trigonometría) a nivel de secundaria se encuentran disponibles en el Programa de Exámenes de Nivel Universitario (CLEP). Pruebas de diagnóstico en matemáticas. Aunque se aplican menos que las pruebas de diagnóstico para la lectura, las pruebas de diagnóstico en matemáticas también representan intentos por descomponer una materia compleja que involucra una variedad de habilidades en los elementos que la constituyen. Los reactivos en las pruebas de diagnóstico de aritmética y matemáticas se basan en un análisis de habilidades y errores en la materia. Esas pruebas incluyen el conocimiento y las habilidades requeridos para aplicaciones que involucran numeración, fracciones, álgebra y geometría. Dos ejemplos de pruebas de diagnóstico en matemáticas son la Prueba de Stanford para el Diagnóstico en Matemáticas, cuarta edición (de Harcourt Brace) y la KeyMath, Revisada/NU: Un Inventario de Diagnóstico de Matemáticas Esenciales (de American Guidance Service). El primer instrumento es una prueba de grupo diseñada para diagnosticar las fortalezas y PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 125 debilidades específicas en conceptos y operaciones matemáticas básicas de niños de primero a doceavo grado. KeyMath es una prueba de administración individual diseñada para medir la comprensión y aplicación de los conceptos y habilidades matemáticas básicas desde el jardín de niños hasta el noveno grado. Pruebas de pronóstico en matemáticas. Se han diseñado varias pruebas para pronosticar el desempeño en cursos específicos de matemáticas, pero en comparación con las pruebas de pronóstico de la lectura (pruebas de preparación para la lectura), no son de uso común. Dos ejemplos son la Prueba de Pronóstico en Álgebra de Orleans-Hanna, tercera edición (de Harcourt Brace) y la Prueba de Aptitud para el Álgebra de Iowa, cuarta edición (de Riverside Publishing). Diseñada para identificar qué estudiantes tendrán éxito y cuáles enfrentarán dificultades al aprender álgebra, la Orleans-Hanna evalúa aptitud y aprovechamiento, así como el interés y la motivación para el álgebra, de estudiantes de secundaria y preparatoria. Se necesitan 40 minutos para resolver el cuestionario y los reactivos de la muestra de trabajo de la prueba. El rango percentilar y las normas del tipo estaninas se basan en tres grupos de estudiantes: los que terminaron matemáticas de séptimo grado, los que terminaron matemáticas de octavo grado y aquellos de los dos primeros grupos que terminaron un curso de un año en álgebra en el año siguiente. La Prueba de Aptitud para el Álgebra de Iowa fue diseñada para evaluar la preparación en Álgebra I de los estudiantes de séptimo y octavo grados. Sus cuatro subpruebas, cuya solución requiere un total de 50 minutos, miden las habilidades de pre-álgebra al interpretar gráficas e información matemática escrita, la traducción de problemas en palabras a un formato algebraico o de ecuaciones, la identificación de funciones y el uso de símbolos. Pruebas de lenguaje El lenguaje, tal como suele interpretarse el término, se refiere a cualquier forma de comunicación. Aunque las pruebas de lenguaje consisten principalmente en reactivos de tipo verbal, se han desarrollado medidas de comunicación no verbal para usar con personas que tienen problemas de audición e incluso con personas de audición normal. El lenguaje oral y el escrito se enseñan en todos los niveles y se dispone de pruebas apropiadas para todos los grados. El fracaso para entender ciertos conceptos puede actuar como barrera e impedir la comunicación entre los alumnos de preprimaria y primaria y los maestros, y en consecuencia afectar seriamente el aprendizaje de los niños. Como reconocimiento de este hecho, se diseñaron la Prueba Boehm de Conceptos Básicos, tercera edición (para grados K-2) y la Boehm-3 (para edades de tres a cinco años) para medir el dominio que tiene un niño pequeño de los conceptos básicos de espacio, cantidad y tiempo (vea la figura 6.2). A pesar de la disponibilidad de pruebas como la Boehm, la mayoría de las pruebas de aprovechamiento en la categoría de lenguaje se diseñó para estudiantes de secundaria y universidad. Esos instrumentos, que incluyen pruebas en inglés y lenguas extranjeras, con frecuencia se aplican en el bachillerato y en las universidades con el propósito de colocar a los estudiantes en cursos de inglés o de lenguas extranjeras de acuerdo con su nivel de competencia. Pruebas del idioma inglés. Algunas de las críticas más severas a las pruebas objetivas han venido de maestros de inglés, pero por lo general se reconoce que desempeñan un buen trabajo en la medición del conocimiento de gramática y vocabulario, y, en cierto grado, de las habilidades en la expresión oral y escrita. La evaluación de las habilidades en el idioma inglés forma parte de las baterías de pruebas de aprovechamiento, pero también existen otras muchas pruebas distintas para medir la competencia en inglés. 126 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Marque la ventana que está encima de la puerta. Marque la ardilla que está comenzando a trepar. Marque el vestido que está más lejos de los calcetines. Marque el dibujo que muestra parte del gato. Muestra de reactivos de la Prueba Boehm de Conceptos Básicos, tercera edición. El examinado marca con una ⫻ la opción seleccionada. (Copyright © 2001, 1986 por The Psychological Corporation, una compañía de evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados.) FIGURA 6.2 Como es evidente, escuchar, hablar y escribir forman parte del uso del inglés y se ha diseñado una serie de pruebas para medir esas habilidades. Ejemplo de una prueba de este tipo es la serie OWLS: Escala de Comprensión Auditiva, Escala de Expresión Oral y Escala de Expresión Escrita (de American Guidance Service). La resolución de cada una de esas pruebas, las cuales son apropiadas para niños y adultos jóvenes, se lleva menos de 25 minutos. La Escala de Comprensión Auditiva mide el lenguaje receptivo, la Escala de Expresión Oral mide el lenguaje expresivo y la Escala de Expresión Escrita proporciona una evaluación auténtica de las habilidades del lenguaje escrito. Las habilidades de hablar y escuchar en inglés o español pueden medirse PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 127 con las Escalas de Evaluación del Lenguaje Oral (LAS-O) y las Pre-LAS 2000 (de CTB/McGraw-Hill). Las escalas LAS-O se aplican de primero a duodécimo grados y las Pre-LAS a niños preescolares. Algunos ejemplos de pruebas de escritura son la Prueba de Lenguaje Escrito-3 (TOWL-3) (de pro.ed) y el Programa de Stanford de Evaluación de la Escritura, tercera edición (de Harcourt Brace). Diseñada para estudiantes de segundo a duodécimo grados, la TOWL-3 es una medida de muestra de trabajo de respuesta libre en la cual el examinado escribe historias acerca de cierto conjunto de imágenes (vea la figura 6.3). Las historias pueden calificarse en varias variables, incluyendo tema, vocabulario, sintaxis, ortografía y estilo. La Evaluación Stanford de Escritura implica la presentación de una serie de sugerencias escritas diseñadas para provocar determinada muestra de escritura en cada uno de cuatro modos descriptivos: descriptivo, narrativo, expositor y persuasivo. Una Lista de Verificación del Escritor proporciona recordatorios para elaborar un borrador, componerlo y editarlo. La escritura se califica en ideas y desarrollo, organización, unidad y coherencia; frases y párrafos; gramática y uso, y mecánica. Muchas otras pruebas de aprovechamiento como las Pruebas de Ubicación Avanzada CEEB y los Exámenes del Registro de Graduados también contienen un componente escrito Muestra de imágenes de la Prueba de Lenguaje Escrito-3. El examinado construye una historia acerca de cada una de las series de imágenes como estas dos. FIGURA 6.3 (Reproducidas con autorización de pro.ed, Inc.) 128 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas (ensayo). Los estudiantes de licenciatura y de posgrado cuya lengua nativa no es el inglés pueden presentar la Prueba de Inglés Escrito (TWE) y la Prueba de Inglés Hablado (TSE). La TWE, que es aplicada por el Servicio de Pruebas Educativas junto con el TOEFL (vea líneas abajo), requiere que los examinados escriban un ensayo de 30 minutos en inglés estándar en respuesta a una breve pregunta o tema de ensayo. La TSE, que fue diseñada para medir la habilidad de hablantes no nativos del inglés para comunicarse oralmente en ese idioma, requiere que los examinados respondan de manera oral bajo condiciones temporales a una variedad de estímulos impresos y auditivos. Los estudiantes de países extranjeros que solicitan admisión a colegios y universidades estadounidenses y cuya lengua materna no es el inglés, por lo general presentan la Prueba de Inglés como Lengua Extranjera (TOEFL). El TOEFL, un examen de opción múltiple de tres horas aplicado por el Servicio de Pruebas Educativas (ETS), consta de tres partes: Comprensión auditiva, que mide la habilidad para entender el inglés hablado; Estructura y Expresión Escrita, que mide la habilidad para reconocer el lenguaje inapropiado para el inglés estándar escrito, y Vocabulario y Lectura de Comprensión, que mide la habilidad para entender material de lectura técnico. Los estudiantes de secundaria cuya lengua materna no es el inglés, pero que desean cursar programas educativos de tiempo completo conducidos en inglés, también pueden presentar la Prueba de Dominio del Inglés de Nivel Secundaria (SLEP) (del Educational Testing Service). Otra prueba de competencia en el idioma inglés para personas cuya lengua materna no es el inglés es la Prueba de Inglés para la Comunicación Internacional (TOEIC). La prueba TOEIC, que al igual que la TOEFL y la SLEP es diseñada y administrada por el Servicio de Pruebas Educativas (ETS), es el estándar mundial para la evaluación del inglés usado en el lugar de trabajo global. Pruebas de idiomas extranjeros. Las pruebas de estudio de la competencia en un idioma extranjero, por lo regular constan de distintas formas para estudiantes que han completado diferentes grados de preparación en ese idioma. Ciertas pruebas reflejan el enfoque gramatical más tradicional a la enseñanza del idioma, mientras que otras enfatizan la comprensión de la comunicación hablada y escrita. Las pruebas de estudio más populares de la competencia en idiomas extranjeros son los exámenes de Ubicación Avanzada del Servicio de Pruebas Educativas, los Exámenes de Materia CLEP en francés, alemán y español, y las pruebas SAT II del Consejo Universitario en esas mismas materias. También se dispone de pruebas por separado en varios idiomas en la Praxis II: Evaluaciones de Materia para Profesores Principiantes. Aunque la mayoría de las pruebas de lenguas extranjeras está limitada a la lectura y la audición, el Centro de Lingüística Aplicada administra pruebas de la habilidad para hablar chino, hausa, hebreo, indonesio, portugués y otros idiomas. Pruebas de ciencias sociales Los temas en ciencias sociales, historia, economía y ciencia política generalmente se consideran en conexión con los programas de estudio de secundaria y universidad. Pero las ciencias sociales, en un sentido menos restrictivo, también se enseñan en la primaria. Entre las muchas pruebas de aprovechamiento en ciencias sociales a nivel de secundaria se encuentran los Exámenes de Colocación Avanzada del Consejo Universitario a nivel de secundaria en Economía, Gobierno y Política, Historia, Geografía Humana e Historia Mundial, y los Exámenes de Materia CLEP en Gobierno Estadounidense, Historia de Estados Unidos I y II, Principios de Macroeconomía, Principios de Microeconomía, Introducción a la psicología, Introducción a la Sociología y Civilización Occidental I y II. PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 129 Pruebas de ciencias La enseñanza de la ciencia, al igual que la de las matemáticas, cambió de manera notoria durante las pasadas tres décadas, lo cual volvió obsoletas o inapropiadas para los programas actuales de ciencias muchas pruebas antiguas. El Estudio del Currículo de Ciencias Biológicas (BSCS) y el Comité de Estudio de Ciencias Físicas (PSSC) dieron lugar al diseño de pruebas específicas en biología y física. Otros programas integrales de examinación en otras ciencias, como las Pruebas Cooperativas de Química de la Sociedad Estadounidense de Química, también reflejan enfoques contemporáneos a la educación en ciencias. Esos enfoques ponen de relieve la enseñanza del contenido de la ciencia de modo que pueda ser utilizable e importante como para incidir en la toma de decisiones de la vida cotidiana. Con esta meta en mente, las pruebas en ciencias desarrolladas más recientemente requieren que los estudiantes descubran patrones en conjuntos de datos e interpreten los significados de esos patrones en lugar de limitarse a recordarlos. Muchas pruebas antiguas también han sido revisadas en un intento por evaluar el desempeño en un programa moderno o tradicional de ciencias. Conforme los estudiantes progresan a través de la secundaria y la preparatoria, la instrucción en ciencia general, biología, química y física se vuelve más concentrada. Los Exámenes de Ubicación Avanzada del Consejo Universitario en biología, química, ciencia ambiental y física, los Exámenes de Materia CLEP en biología general, química general y crecimiento y desarrollo humano, y las Pruebas de Materia SAT II son útiles al evaluar el conocimiento y las habilidades de estudiantes de preparatoria en campos específicos de la ciencia. Otras pruebas de ciencias para estudiantes de preparatoria y universidad incluyen los Exámenes ACS y los Exámenes de Competencia ACT. Pruebas para la educación superior y las profesiones Muchas instituciones de educación superior permiten que los estudiantes ganen créditos por cursos universitarios al obtener calificaciones aceptables en pruebas estandarizadas de aprovechamiento como las aplicadas por el Programa de Ubicación Avanzada del Consejo Universitario (APP), el Programa de Exámenes de Nivel Universitario (CLEP) y el Programa de Exámenes de Competencia ACT. Además, colegios, universidades y escuelas profesionales utilizan las calificaciones en las pruebas estandarizadas de aprovechamiento como criterio para la selección de estudiantes. Esas pruebas, por lo general, son restringidas o seguras en el sentido de que sólo se venden o rentan a ciertas organizaciones para su aplicación relacionada con programas educativos específicos. Un conjunto de pruebas estandarizadas de aprovechamiento utilizadas en la selección de estudiantes para programas de posgrado lo constituyen las Pruebas de Materia de los Exámenes del Registro de Graduados (GRE). Esas pruebas, las cuales están disponibles en ocho áreas temáticas (bioquímica, biología celular y molecular; biología; química; ciencias de la computación; literatura en inglés; matemáticas; física, y psicología), pueden ser presentadas, junto con la Prueba General GRE, por estudiantes universitarios de último año que intenten solicitar admisión a la escuela de posgrado. Otros ejemplos de pruebas estandarizadas utilizadas con propósitos de admisión a escuelas de posgrado o profesionales son la Prueba de Admisión de Administración de Graduados (GMAT), la Prueba de Admisión a la Facultad de Leyes (LSAT), la Prueba de Admisión a la Facultad de Medicina (MCAT) y las Pruebas de Aprovechamiento en Enfermería NLN. La certificación o licencia como abogado, médico, contador público, enfermera registrada, profesor o profesional en algunos otros campos también depende de aprobar una serie de pruebas de aprovechamiento (exámenes de consejo, exámenes de la barra de abogados) en el campo particular. 130 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas En Estados Unidos, 70% de los estados utiliza la Serie Praxis: Evaluaciones Profesionales para los Maestros Principiantes, como parte de su proceso para otorgar licencias a los maestros principiantes. Consta de tres partes: Praxis I: Evaluación de Habilidades Académicas, para medir las habilidades de lectura, escritura y matemáticas que son vitales para todos los candidatos a ser maestros; Praxis II: Evaluación de Materia, para medir el conocimiento que tienen los candidatos a maestros de las materias que van a impartir, y Praxis III: Evaluaciones del Desempeño en el Salón de Clases, para evaluar el desempeño del maestro principiante en el aula. Praxis I se presenta al ingresar al programa de entrenamiento de maestros, Praxis II se presenta al graduarse de la universidad e ingresar en la profesión, y Praxis III se presenta en el primer año de enseñanza. Pruebas para administración y oficios La administración es una materia escolar en sí misma, y las pruebas de educación en administración están diseñadas para evaluar el conocimiento que una persona tiene de la materia. Además de evaluar el grado de logro en una materia escolar, las pruebas de aprovechamiento se utilizan en la administración y la industria con propósitos de selección, colocación y promoción. Es posible que las medidas más populares sean las pruebas de competencia en mecanografía, archivo, procesamiento de palabras, cómputo y otras habilidades de oficina. Algunos ejemplos de pruebas en esta categoría son las pruebas de Mecanografía 5 y las Pruebas de Habilidades de Oficina (de NCS London House) (vea la figura 6.4). Las pruebas de conocimiento y habilidad en un oficio (pruebas de oficio) se utilizan ampliamente con propósitos de selección de empleados, colocación y otorgamiento de licencia profesional. Una prueba de oficio puede consistir en una serie de preguntas que deben responderse de manera oral o escrita, o puede ser una tarea de muestra de trabajo que requiera la demostración de una habilidad en particular. Algunos ejemplos de pruebas de oficios, o de competencia ocupacional, son las proporcionadas por el programa de Desarrollo de Recursos Humanos del Servicio de Pruebas Educativas (Chauncey). Este programa ha sido responsable del desarrollo de docenas de pruebas ocupacionales o de oficios, incluyendo exámenes de competencia para certificación o licencia como inspector de código de construcción, administrador de bases de datos, planificador financiero, funcionario del servicio exterior, arquitecto paisajista, enfermera, asistente de enfermera, farmacéutico, ingeniero en plomería, podólogo, entrenador profesional de desarrollo y contador público. Por ejemplo, en la prueba para funcionario del servicio exterior, hay un “día de evaluación” en el cual se evalúa la habilidad del candidato para tomar acciones apropiadas en cada uno de un conjunto de informes y otras comunicaciones del tipo que suele encontrarse en la bandeja de un ejecutivo, así como la capacidad para manejar una entrevista de negociación de un grupo sin líder. Es obvio que esos tipos de tareas van más allá del dominio de las pruebas de habilidad y entran en el campo de la evaluación de las actitudes y la personalidad. RESUMEN Se administran más pruebas de aprovechamiento —al nivel de conocimiento, habilidad o logro en un área de esfuerzo— que todos los otros tipos de pruebas combinados. En el siglo pasado adquirieron cada vez más popularidad los exámenes escritos de aprovechamiento educativo, en especial los del tipo objetivo. Las pruebas objetivas pueden medir no sólo el conocimiento de hechos, sino también la comprensión y el pensamiento de orden superior. Sin embargo, se les ha criticado por alentar habilidades pobres en la composición escrita. 131 RESUMEN Reactivo muestra Mecanografía A la persona extraviada, Ramona Woodstock, 526 Vine, se le había dicho que regresara a casa, después de visitar a Mary Lyne, no después de las 23:00 horas. Se hizo contacto con la familia a las 02:00 y la persona extraviada no había regresado a casa. Reactivo muestra Llenado de formas A las 8:30 am del 15 de octubre de 1977, Today’s Sound Center reportó un robo en su local de 3907 Palm Ave., Wista, California. Teléfono 689-7734. Se reportó la pérdida de cuatro reproductores de cinta, dos amplificadores y dos cajas de cintas sin grabar. La puerta trasera fue forzada para poder entrar. Es posible que se haya intentado provocar un incendio en la tienda vecina para alejar la sospecha de robo. Denuncia número 789A3. CIUDAD DE WISTA DEPARTAMENTO DE POLICÍA DENUNCIA Núm. FECHA 789A3 15 DE OCTUBRE DE 1977 HORA 8:30 AM NOMBRE DE LA VÍCTIMA (RAZÓN SOCIAL SI ES UNA EMPRESA): TODAY’S SOUND CENTER LUGAR DE LOS HECHOS PÉRDIDAS Reactivo muestra 3907 PALM AVE., WISTA TELÉFONO 689-77-34 4 REPRODUCTORES DE CINTA, 2 AMPLIFICADORES, 2 CAJAS DE CINTAS SIN GRABAR. Archivo Busque el reactivo en la columna “Para archivar” y encuentre el número que debe tener este nuevo reactivo en la columna “Archivo existente”. Marque con una X ese número en el renglón de nú- Archivo existente meros que aparecen en un círculo y están a la derecha. Si no hay número para su elección, ponga una X en el círculo en blanco. Para archivar 1. Philip Jenkins 2. J. C. Kile 3. Thomas Morris Company 4. Paulson Company, Inc. 5. Sally White Reactivo Codificación En esta prueba se le darán listas de códigos similares a la siguiente: Debajo de las listas de códigos encontrará una lista de reactivos. Cada reactivo está seguido por círculos que contienen cinco códigos hombre posibles. Su tarea es encontrar la combinación de códigos correcta mujer para el reactivo y marcar con una X el círculo apropiado. Observe los adulto siguientes ejemplos. Se ha colocado una X en la respuesta para el adolescente ejemplo 1. ¿Qué marcaría usted para el ejemplo 2? niño Ejemplos: mujer adulta niño hombre FIGURA 6.4 34U 21Z 34M 34Z 86Z 34U 21M 21U 21U 34M Reactivos de muestra de la Prueba de Habilidades de Oficina. (Copyright © 1977 NCS Pearson, Inc. Todos los derechos reservados. Publicado y distribuido exclusivamente por NCS Pearson, Inc. Reproducido con autorización de NCS Pearson, Inc.) 132 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Las pruebas estandarizadas de aprovechamiento reflejan objetivos educativos generales, mientras que es más probable que las pruebas elaboradas por el maestro reflejen las metas de un maestro o un sistema escolar en particular. Los resultados de las pruebas estandarizadas de aprovechamiento se utilizan para evaluar a los estudiantes con los propósitos de asignación de calificaciones, promoción, ubicación, diagnóstico de dificultades de aprendizaje, determinación de la preparación para aprender y la evaluación de los programas de estudio y la efectividad de la enseñanza (responsabilidad). De manera tradicional, las pruebas educativas han sido sumatorias y con referencia a normas. El énfasis más reciente en la evaluación formativa, en la cual las pruebas son una parte integral del proceso instruccional, y en las pruebas con referencia a criterio es un indicador de los papeles cambiantes de las pruebas de aprovechamiento educativo. También es de importancia el uso de pruebas en la planeación y evaluación educativa a gran escala, como en la Evaluación Nacional del Progreso Educativo. Cuatro tipos de pruebas de aprovechamiento son: pruebas de estudio de una materia, baterías de pruebas de estudio, pruebas de diagnóstico y pruebas de pronóstico. Las pruebas de estudio proporcionan una valoración global del aprovechamiento en una materia, mientras que las de diagnóstico analizan las fortalezas y debilidades específicas de una persona en una materia particular. Las pruebas de preparación, aptitud y otras pruebas de pronóstico intentan alentar el aprovechamiento determinando la habilidad de una persona para aprender cierto material. Las fuentes de información relativas a las pruebas de aprovechamiento incluyen catálogos de los editores, reseñas en revistas profesionales, Tests in Print, The Mental Measurements Yearbooks, Tests y Test Critiques, grupos de muestras de pruebas y varios sitios Web (vea el apéndice C). La confiabilidad de la mayoría de las pruebas de aprovechamiento, determinada por procedimientos de test-retest y formas paralelas, por lo general es de .80 o .90. La evidencia de la validez de contenido suele ser de mayor interés que otros tipos de validez al evaluar las pruebas de aprovechamiento educativo. Se dispone comercialmente de varias baterías de pruebas de aprovechamiento de niveles múltiples. Esas baterías suelen aplicarse en las escuelas de primaria y secundaria. También se aplican ampliamente pruebas de una materia en lectura, matemáticas, ciencia, ciencias sociales, inglés, lenguas extranjeras y en otras áreas. Las pruebas de estudio de lectura por lo general miden el conocimiento del vocabulario, así como la velocidad y el nivel de comprensión. Las pruebas de diagnóstico, que están diseñadas para evaluar fortalezas y debilidades específicas en una materia particular, se encuentran en lectura, aritmética y ortografía. También se dispone de varias pruebas de pronóstico en lectura (pruebas de preparación para la lectura), matemáticas y lenguaje (pruebas de aptitud para el lenguaje). Se dispone de pruebas de aprovechamiento en ciencias sociales (historia, economía, ciencia política) y ciencias naturales (ciencia general, biología, química, física) para una amplia gama de grados y tipos diferentes de planes de estudio. También se usan de manera extensa pruebas de admisión a escuelas de enfermería (NTE), medicina (MCAT), leyes (LSAT), administración (GMAT), enseñanza (Praxis) y otros programas profesionales, y para determinar la competencia en varias ocupaciones de administración y oficios. P R E G U N TA S Y A C T I V I D A D E S 1. Compare las pruebas estandarizadas de aprovechamiento con las pruebas elaboradas por el maestro, mencionando los méritos y las desventajas de cada una. 133 RESUMEN 2. ¿Qué es responsabilidad en educación? ¿Cómo se relaciona la responsabilidad con el contrato de desempeño? Mencione argumentos que apoyen y otros que se opongan al contrato de desempeño en las escuelas. 3. ¿En qué difiere la evaluación formativa de la evaluación sumatoria? ¿Cómo se contraponen o se complementan entre sí los dos enfoques hacia la evaluación? ¿De qué manera se relaciona la evaluación formativa con la medición con referencia a criterio? 4. Distinga entre medición con referencia a normas y medición con referencia a criterio. ¿Cuáles son las ventajas y desventajas de cada una? 5. Compare los propósitos y el diseño de las pruebas de estudio, de diagnóstico y de pronóstico. 6. Compare las pruebas donde hay mucho en juego con las pruebas donde hay poco en juego, incluyendo los tipos de prueba y las decisiones tomadas con cada una. 7. ¿En qué niveles y para qué propósitos son más válidas y útiles las pruebas estandarizadas de aprovechamiento? 8. ¿Cuáles son las ventajas y las desventajas de aplicar una batería de pruebas de aprovechamiento en lugar de una serie de pruebas sencillas de materia? 9. La mayoría de los departamentos de psicología y educación mantienen en sus archivos muestras de pruebas estandarizadas de aprovechamiento, que incluyen los folletos de la prueba, hojas de respuestas, claves de calificación, manuales y posiblemente otros materiales interpretativos. Seleccione una de esas pruebas para revisión, utilizando un perfil como el que aparece líneas abajo. Siempre que sea posible, usted debe llenar este perfil con la información obtenida al leer el manual de la prueba y examinar ésta. Espere hasta que haya completado su propia revisión antes de consultar revisiones publicadas de la prueba en The Mental Measurements Yearbooks, Tests Critiques u otras fuentes. PERFIL DE REVISIÓN DE UNA PRUEBA Contenido. Mencione el título, autor(es), editor, fecha y lugar de la publicación, formas disponibles, tipo de prueba y costo. Haga una breve descripción de las secciones de la prueba, de los tipos de reactivos que la componen y de las operaciones mentales o características que supuestamente mide. Indique cómo se seleccionaron los reactivos de la prueba y si el procedimiento de elaboración y/o la teoría en que está basada se describen con claridad en el manual. Aplicación y calificación. Describa cualquier instrucción especial, si la prueba tiene límites de tiempo y, de ser así, cuáles son esos límites. Proporcione detalles concernientes a la calificación: como un todo, por secciones o partes y cosas similares. Indique si las instrucciones para la aplicación y la calificación son claras. Normas. Describa el grupo o grupos (características demográficas, tamaño y cosas similares) en el o los que se estandarizó la prueba y cómo se seleccionaron las muestras (sistemática, estratificada al azar, por grupos, o de otra manera). ¿Qué tipos de normas se presentan en el manual de la prueba o en los complementos técnicos? ¿Parece ser adecuada la estandarización para los usos recomendados de la prueba? Confiabilidad. Describa los tipos de información de confiabilidad presentados en el manual (consistencia interna, formas paralelas, test-retest, etcétera). ¿La naturaleza y los tamaños de las muestras de las que se reporta la información de confiabilidad son adecuados con respecto a los usos declarados de la prueba? 134 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Validez. Resuma la información disponible sobre la validez (de contenido, predictiva, concurrente, de constructo) de la prueba incluida en el manual. ¿Es satisfactoria la información sobre la validez en términos de los propósitos declarados de la prueba? Comentarios de resumen. Prepare un resumen del diseño y el contenido de la prueba y redacte un breve comentario sobre lo adecuado de ésta como medida de lo que fue diseñada para medir. ¿Proporciona el manual descripciones satisfactorias de diseño, contenido, normas, confiabilidad y validez de la prueba? ¿Qué otra información y/o datos se necesitan para mejorar la prueba y sus usos? CAPÍTULO SIETE TESTS DE INTELIGENCIA Durante los inicios del siglo XX, una gran cantidad de aspirantes a psicólogos descubrieron que aplicando pruebas de inteligencia podían ganarse la vida en su profesión con algo distinto a la docencia y la investigación. Por ello, las pruebas de inteligencia en ocasiones han sido llamadas “el pan y la mantequilla de la psicología”. En la actualidad las pruebas de Binet ya no son la única ocupación de los especialistas en psicología aplicada, pero la evaluación de aptitudes cognoscitivas todavía forma parte de las actividades de los psicólogos en los ámbitos clínicos, educativos y empresariales. HISTORIA, DEFINICIONES Y TEORÍAS El término inteligencia, común ahora en el vocabulario de la mayoría de las personas, era casi desconocido en el habla cotidiana de hace un siglo. Durante la última parte del siglo XIX, muchos académicos y científicos fueron atraídos por la teoría de Charles Darwin de que las diferencias entre las especies evolucionaban mediante selección natural. Dos de estos estudiosos, el filósofo Herbert Spencer y Francis Galton, el científico caballero primo de Charles Darwin, se interesaron por las diferencias dentro de las especies en cuanto a características mentales y comportamiento. Ambos, junto con sus seguidores, sostenían que entre los seres humanos existe un grado innato de habilidad mental general, a la que se refirieron como inteligencia. A diferencia de Spencer, Galton no se contentaba simplemente con especular y discutir sobre la naturaleza de la inteligencia. Intentando demostrar que la inteligencia tiene una base hereditaria, estudió árboles genealógicos y diseñó varias pruebas de discriminación sensorial y tiempo de reacción para medir sus componentes. Éstas y otras pruebas sensoriomotrices (velocidad de movimiento, fuerza muscular, sensibilidad al dolor, discriminación de peso y otras similares) fueron estudiadas ampliamente por el psicólogo estadounidense J. McKeen Cattell. Desafortunadamente, las pruebas resultaron relativamente inútiles para predecir el desempeño en tareas escolares y otras actividades que supuestamente requieren de inteligencia. El enfoque del psicólogo francés Alfred Binet fue radicalmente distinto al procedimiento analítico de tratar de medir los componentes de la inteligencia. Binet sostenía que la inteligencia se manifiesta en el desempeño en diversas tareas y que podía medirse mediante respuestas a una muestra de dichas tareas. Debido a que el trabajo de Binet al diseñar las primeras pruebas de inteligencia con éxito fue motivado por el problema de identificar niños con retraso mental en el sistema escolar de París, es natural que la muestra de pruebas seleccionada por él estuviera plagada de tareas de tipo escolar. En 1905 Binet y su socio, el doctor Théodore Simon, publicaron su primera serie de pruebas de inteligencia, 30 pruebas breves ordenadas desde la más sencilla hasta la más difícil. Al 135 136 CAPÍTULO SIETE Tests de inteligencia proseguir su trabajo, publicaron en 1908 una escala modificada Binet-Simon que consistía en 58 tareas dispuestas por niveles de edad de 3 a 13 años. Las tareas se agruparon por edad cronológica de acuerdo con lo que había indicado la investigación que podrían realizar los niños normales de una edad determinada. La edad mental (MA [EM]) de un niño se establecía por la cantidad de subpruebas aprobadas en cada nivel, y una edad mental notablemente inferior a la edad mental del niño se consideraba indicativa de retraso mental. En 1911 se publicó una última versión modificada de la escala (tabla 7.1), pero después de la muerte prematura de Binet en ese mismo año, la escena de los posteriores desarrollos en cuanto a pruebas de inteligencia se mudó a Estados Unidos y Gran Bretaña. Definición de la inteligencia Desde que Binet y Simon produjeron las primeras pruebas prácticas de inteligencia, los psicólogos han intentado formular una definición viable del concepto. La explicación de Binet destacaba el juicio, el entendimiento y el razonamiento. Otras definiciones describían la inteligencia como la habilidad de pensar en forma abstracta, la habilidad de aprender o la habilidad de adaptarse al medio ambiente. Sin embargo, todas estas definiciones fueron criticadas por una u otra razón. La habilidad obviamente es necesaria para la sobrevivencia, pero resulta una definición de la inteligencia demasiado amplia. Por otra parte, la definición de inteligencia de Lewis Terman como la habilidad de tener pensamiento abstracto es demasiado estrecha. La habilidad para el pensamiento abstracto es un aspecto importante de la inteligencia, pero ciertamente no es el único. Por último, la concepción popular de inteligencia como la habilidad de aprender es inadecuada si se aceptan las pruebas de inteligencia como medida de ésta. Los aciertos en tales pruebas no están correlacionados en alto grado con el ritmo o la velocidad de aprender cosas nuevas, aunque sí están más relacionados con el nivel o la cantidad de aprendizaje. Más que intentar formular una definición universalmente aceptable de la inteligencia, algunos psicólogos han sugerido que podría ser mejor abandonar el término por completo. Si se requiere un término alternativo, tal vez sería preferible utilizar habilidad mental general, o habilidad académica. Los dos últimos términos son un reconocimiento al hecho de que las pruebas de inteligencia tradicional son sobre todo predictores del éxito en el trabajo escolar. Sin importar lo intensa que pueda ser la oposición al término inteligencia, es ciertamente menos fuerte que la oposición al coeficiente intelectual (CI). Debido a la controversia existente sobre el CI y a la implicación de que es una medida fija de habilidad cognoscitiva, ciertos psicólogos que han dedicado gran parte de sus vidas profesionales al estudio de la inteligencia han expresado una disposición a abandonar por completo el término CI (Vernon, 1979). No todos los instrumentos examinados en este capítulo tienen la etiqueta específica de prueba de inteligencia; más bien se han propuesto como medidas de habilidad mental general. En este sentido, deben distinguirse de las medidas de habilidades especiales consideradas en el capítulo 10. Sin embargo, no está clara la distinción entre pruebas de habilidad mental general (inteligencia) y pruebas de habilidades especiales, y ciertas pruebas de habilidad académica analizadas en este capítulo podrían corresponder igualmente bien al capítulo 10. Teorías de la inteligencia Las teorías de la inteligencia, o más bien del comportamiento inteligente, se han basado en modelos psicométricos de desarrollo y procesamiento de información. Los primeros dos tipos de teorías son enfoques tradicionales, la tercera teoría es de origen más reciente. 137 HISTORIA, DEFINICIONES Y TEORÍAS TABLA 7.1 Las cincuenta y cuatro subpruebas de la Escala de Inteligencia Binet-Simon de 1911 3 años de edad Señala sus ojos, nariz y manos. Repite dos dígitos. Enumera objetos de una imagen. Dice su apellido. Repite una oración de seis sílabas. 9 años de edad Da cambio de 20 centavos. Define palabras familiares en términos superiores al uso. Reconoce todas las monedas (nueve). Nombra los meses del año en orden. Contesta o comprende “preguntas fáciles”. 4 años de edad Dice su sexo. Nombra llave, cuchillo, dinero. Repite tres dígitos. Compara dos líneas. 10 años de edad Ordena cinco bloques por peso. Copia dos dibujos de memoria. Critica afirmaciones absurdas. Contesta o comprende “preguntas difíciles”. Usa tres palabras dadas en no más de dos enunciados. 5 años de edad Compara dos pesos. Copia un cuadrado. Repite una oración de diez sílabas. Cuenta cuatro centavos. Une las mitades de un rectángulo dividido. 6 años de edad Distingue entre mañana y tarde. Define palabras familiares en términos de uso. Copia un rombo. Cuenta 13 monedas. Distingue dibujos de rostros feos y hermosos. 7 años de edad Muestra su mano derecha y su oreja izquierda. Describe un dibujo. Ejecuta tres órdenes dadas simultáneamente. Cuenta el valor de seis centavos, tres de los cuales son dobles. Nombra cuatro colores principales. 8 años de edad Compara dos objetos de memoria. Cuenta de 20 a cero. Señala omisiones en dibujos. Da el día y la fecha. Repite cinco dígitos. 12 años de edad Resiste sugerencias sobre la extensión de líneas. Compone una oración con tres palabras dadas. Menciona 60 palabras en 3 minutos. Define tres palabras abstractas. Descubre el sentido de una oración desordenada. 15 años de edad Repite siete dígitos. Encuentra tres rimas para una palabra dada en un minuto. Repite una oración de 26 sílabas. Interpreta imágenes. Interpreta hechos dados. Adulto Resuelve el test del papel cortado. Reacomoda un triángulo en la imaginación. Menciona diferencias entre pares de términos abstractos. Da tres diferencias entre un presidente y un rey. Encuentra la idea principal en un párrafo que ha leído. Teorías psicométricas. El método psicométrico, que ha dado origen a muchas pruebas de inteligencia y diversos métodos estadísticos para analizar las calificaciones de estas pruebas, se centra en las diferencias individuales en cuanto a habilidades cognoscitivas y en la búsqueda de las causas de estas diferencias. Entre las teorías o modelos de habilidades cognoscitivas basadas en el método psicométrico y originadas sobre todo de los resultados del análisis factorial (vea apéndice A), figuran la teoría bifactorial de Spearman (1927) (que consiste en un factor general 138 Tests de inteligencia CAPÍTULO SIETE más varios factores específicos para cada prueba), la teoría multifactorial de siete habilidades mentales básicas de Thurstone (Ekstrom, French y Harman, 1979), el modelo de estructura del intelecto de Guilford (1985) y el modelo jerárquico de Vernon (1960). El modelo de Vernon consiste en un factor general en el primer nivel, factores verbales-educacionales y práctico-mecánico-espaciales en el segundo nivel, y varios factores de un grupo menor en un tercer nivel (vea la figura 7.1). La teoría de Cattell (1963) de dos tipos de inteligencia, fluida y cristalizada, también se basa en los resultados del análisis factorial y se relaciona con la distinción de Hebb (1949) entre Inteligencia A e Inteligencia B. Teorías sobre el desarrollo. Las teorías sobre el desarrollo de las habilidades cognoscitivas que provienen de la investigación sobre psicología del desarrollo humano, subrayan la uniformidad o las similitudes interindividuales en la evolución cognoscitiva más que las diferencias individuales. Un ejemplo primordial es la idea de Piaget de que la cognición se desarrolla a partir de las acciones de asimilación y acomodamiento en el mundo exterior. La asimilación consiste en ajustar las nuevas experiencias en las estructuras cognoscitivas preexistentes (esquemas schemata); el acomodamiento es la modificación de estos schemata como resultado de la experiencia. Al interactuar con el ambiente, un niño en crecimiento crea schemata de modo que funcionen como mapas explicativos y guías para el comportamiento. De acuerdo con Piaget, por lo regular los niños se desarrollan intelectualmente a través de una serie de etapas progresivas: sensoriomotriz (del nacimiento a 2 años de edad), preoperativa (de 2 a 7 años de edad), operativa concreta (de 7 a 11 años de edad) y operativa formal (de 11 a 15 años de edad). Piaget pensaba que el aumento de la inteligencia se detenía a la edad aproximada de 15 años, pero varios investigadores han objetado esta afirmación. Teorías sobre el procesamiento de información. Las teorías sobre procesamiento de información, o modelos de resolución de problemas y razonamiento, se ocupan de identificar los procesos cognoscitivos u operacionales mediante los cuales el cerebro maneja la información. La investigación sobre atención y velocidad de procesamiento ha recibido un énfasis particular desde una perspectiva de procesamiento de información. Resultan ilustrativas de las teorías de procesamiento de información las teorías triárquicas o de proceso componencial de Sternberg General (g) Factores principales Verbal-educativos (v:ed) Factores Verbales Numéricos secundarios Prácticos (k:m) De información Espaciales Psicomotores mecánica Factores específicos FIGURA 7.1 Modelo jerárquico de Vernon de las habilidades intelectuales. (De acuerdo con Vernon, 1960, p. 22. Reproducida con autorización de la editorial Routledge.) HISTORIA, DEFINICIONES Y TEORÍAS 139 (1982), la teoría de inteligencias múltiples de Gardner (1983), y el modelo PASS de Das, Naglieri y Kirby (1994). En un principio, Sternberg (1982) formuló la hipótesis de que existen cinco clases de procesos componenciales mediante los cuales el cerebro opera sobre la información y resuelve problemas, a saber: metacomponentes, componentes de desempeño, componentes de adquisición, componentes de retención y componentes de transferencia. Entre los diversos componentes de estas cinco clases, la codificación y la comparación son especialmente críticas para lograr una resolución efectiva de los problemas. En una extensión de su teoría de procesos componenciales, Sternberg (1985, 1986) propuso una teoría triárquica que incluye tres subteorías: componencial, experiencial y contextual. La subteoría componencial consiste en metacomponentes, componentes de desempeño y componentes de adquisición de conocimiento. La subteoría experiencial se ocupa de la de formular nuevas ideas combinando factores o información aparentemente no relacionados. La subteoría contextual aborda la de adaptarse a condiciones ambientales cambiantes y conformar el entorno de tal modo que nuestras ventajas se incrementen y nuestras desventajas se compensen. En una modificación posterior de su teoría, Sternberg (1988) propuso el concepto de autocontrol mental, que representa un intento por combinar el concepto de inteligencia con el de personalidad. Las maneras en que los tres tipos de inteligencia delineados por la teoría triárquica —componencial, experiencial y contextual— se ponen en práctica en la resolución de los problemas cotidianos, se caracterizan como estilos intelectuales. La efectividad de un estilo intelectual en particular depende de la medida en que se ajuste a la capacidad intelectual de la persona, su estilo preferido y el problema inmediato por resolver. De acuerdo con la teoría de Gardner de inteligencias múltiples, la cognición y el procesamiento de información en los humanos implica el despliegue de varios sistemas simbólicos que son formas características de percepción, memoria y aprendizaje. Gardner propuso que hay siete formas de inteligencia: lingüística, lógico-matemática, espacial, musical, kinestésica corporal, y dos formas de inteligencia personal (intrapersonal e interpersonal). Sostuvo que sólo las primeras tres formas se miden mediante tests de inteligencia convencionales, y que la cultura occidental ha puesto demasiado énfasis en la primera de éstas, la lingüística. Sin embargo, Gardner advierte que las otras dos formas de inteligencia (lógico-matemática y espacial) son más valiosas en muchas sociedades y circunstancias. El modelo de inteligencia PASS (planeación, atención, procesamiento simultáneo, procesamiento sucesivo) se basa en la teoría de Aleksandr Luria de que el cerebro humano está funcionalmente dividido en tres unidades. La primera unidad funcional, que se asocia con el tallo cerebral superior y el sistema límbico, es responsable de la estimulación y la atención. La segunda unidad funcional está asociada con las regiones posteriores de los hemisferios cerebrales, incluyendo las áreas visual (occipital), auditiva (temporal) y sensorial general (parietal); es responsable de la recepción, el análisis y almacenamiento de la información mediante procesos de razonamiento simultáneos y sucesivos. La tercera unidad funcional está asociada con las partes anteriores del hemisferio cerebral, en particular con la región prefrontal; es responsable de planear, regular y verificar la actividad cognoscitiva. Para efectuar el procesamiento cognoscitivo de información, la base de conocimiento del individuo debe estar integrada con los procesos de planeación (tercera unidad funcional), atención (primera unidad funcional), y procesos simultáneos y sucesivos (segunda unidad funcional) como lo requiere una tarea en particular. El resultado de semejante proceso cognoscitivo incluye hablar, escribir u otras actividades motoras (Das, Naglieri y Kirby, 1994). A pesar de éstos y otros intentos interesantes y valerosos, ningún método teórico ha logrado proporcionar una explicación totalmente satisfactoria sobre cómo la inteligencia se desarro- 140 CAPÍTULO SIETE Tests de inteligencia lla y cambia, las causas de las diferencias individuales en la inteligencia, o los procesos cognoscitivos y fisiológicos específicos que son responsables de la actividad intelectual. Al parecer, todas las corrientes actuales son correctas en cierta medida, pero de seguro ninguna proporciona una explicación completa, empíricamente verificada, sobre la estructura y el funcionamiento cognoscitivo. Por el momento, parece que las teorías sobre procesamiento de información ofrecen la mejor oportunidad de lograr una concepción lógica y con base empírica de las habilidades cognoscitivas, pero la situación podría cambiar al avanzar las investigaciones. De cualquier modo, algo es cierto: surgirán otras teorías sobre la inteligencia, y su valor se determinará por su eficacia para predecir y explicar el aprendizaje y el pensamiento humanos. Aplicaciones de las evaluaciones de inteligencia En contraste con otras definiciones más teóricas, las definiciones operativas de la inteligencia se centran en su medición y en las aplicaciones relacionadas. Tal vez la más operativa de dichas definiciones fue la sugerida por E. G. Boring, quien propuso definir la inteligencia como “aquello que se mide por medio de un test de inteligencia”. Lo que sea que midan los tests de inteligencia, estas pruebas se han usado para varios fines prácticos, incluyendo (1) el diagnóstico de la habilidad mental alta y baja y la ubicación de los retrasados mentales o los superdotados en programas o clases especiales; (2) la selección (sondeo), colocación y clasificación de estudiantes en instituciones de educación superior, empleados en organizaciones de negocios o industriales y personal en dependencias militares y gubernamentales; (3) la determinación y el diagnóstico de discapacidades relacionadas con el trabajo por demandas de seguros; (4) la asesoría y rehabilitación vocacional y educativa; (5) el psicodiagnóstico de niños y adultos en contextos clínicos o psiquiátricos; (6) la evaluación de la efectividad de tratamientos psicológicos e intervenciones en el medio ambiente, y (7) los estudios sobre habilidades cognoscitivas y personalidad. Pruebas individuales colectivas A pesar del objetivo común de medir una habilidad unitaria, los formatos de todos los tests de inteligencia general no son idénticos. En algunos hay reactivos de distintos tipos mezclados o alternados, y aumenta su dificultad a lo largo de la prueba. Los reactivos de otros tests de inteligencia se agrupan como conjuntos de subpruebas programadas en forma separada. La forma más común de clasificar las pruebas de inteligencia es mediante la dicotomía individual versus colectiva o de en grupo. Los tests de inteligencia individual, que se aplican a una persona a la vez, tienen un enfoque algo distinto que los tests de inteligencia colectiva, los cuales pueden administrarse a muchas personas simultáneamente. El énfasis de las pruebas individuales es más global u holístico: su principal función es evaluar una habilidad cognoscitiva general. Por otra parte, el enfoque del test colectivo tiende a ser más reducido: a predecir el desempeño académico o laboral. Además, administrar un test de inteligencia individual suele ser más laborioso que administrar una prueba . Una ventaja de las pruebas individuales es que los examinadores pueden prestar más atención a los sujetos de examen. El enfoque del examinado a la prueba y otros comportamientos —angustia, confianza, estrategias para resolver problemas, frustraciones, distracción y aspectos similares— pueden observarse más de cerca cuando se examina a una persona a la vez, y el desempeño puede estimularse y recompensarse en forma más efectiva. Asimismo, las calificaciones de pruebas individuales no dependen tanto de la capacidad de lectura como las calificaciones de pruebas aplicadas colectivamente. TESTS DE INTELIGENCIA INDIVIDUALES 141 La mayor economía de administrar una prueba en grupo en ciertas situaciones ocasiona que se administren más pruebas en grupo que individuales. Además, a pesar de lo que en ocasiones han sostenido los defensores de las pruebas individuales, ciertas pruebas de inteligencia aplicadas en forma colectiva grupal pueden incluso tener mayores coeficientes de validez que sus contrapartes individuales. Los tests de inteligencia colectivos grupales se usan con mayor frecuencia para una selección inicial en situaciones educativas y laborales, que es seguida por una evaluación individual cuando el examinado obtiene una calificación deficiente en una prueba colectiva y/o se requiere más información sobre sus cualidades y fallas cognoscitivas. También es más probable que los tests de inteligencia individuales se usen en clínicas, hospitales y otros sitios donde se realizan diagnósticos clínicos. En dichos lugares las pruebas sirven no sólo como medidas de la habilidad mental general, sino también como medio de comprender más a fondo el funcionamiento de la personalidad y las discapacidades cognoscitivas específicas. TESTS DE INTELIGENCIA INDIVIDUALES Los instrumentos que provienen del trabajo de Lewis Terman y David Wechsler han sido las pruebas de inteligencia individuales más comunes. Con el paso del tiempo, estos tests se han usado para evaluar las habilidades intelectuales de niños y adultos en muchos contextos diferentes. Otras pruebas individuales, algunas de las cuales constituyen variantes o extensiones de los tests de Terman y de Wechsler, se han diseñado específicamente para evaluar las habilidades mentales de niños pequeños y personas con desventajas lingüísticas y/o físicas. Otras ediciones de la Escala de Stanford-Binet Hubo tres traducciones y adaptaciones de la escala Binet-Simon en Estados Unidos. Una fue preparada por H. H. Goddard de la Escuela de Capacitación Vineland, otra por Frederic Kuhlmann de la Universidad de Minnesota, y una tercera por Lewis Terman de la Universidad Stanford. La más popular de estas revisiones, la Escala de Inteligencia Stanford-Binet, fue publicada por Terman en 1916. La Escala de 1916. Al igual que las anteriores escalas de Binet-Simon, la Stanford-Binet de 1916 era una escala de edad donde las subpruebas se agrupaban en niveles de edad cronológica. Terman seleccionó reactivos de las escalas de Binet-Simon, así como reactivos totalmente nuevos que representaban una muestra amplia de las tareas que supuestamente requerían capacidades intelectuales aprovechadas. También se realizaron esfuerzos para incluir tareas que no eran tan dependientes de experiencias de aprendizaje escolares específicas. Un criterio para incluir un reactivo en la escala de Stanford-Binet era que un porcentaje creciente de niños en niveles de edad sucesivos deberían ser capaces de responder el reactivo en forma correcta. Por algunas razones estadísticas que tienen que ver con mantener una escala de cociente de inteligencia bastante estable a través de los niveles de edad, el porcentaje de aprobados requerido se estableció más bajo en reactivos incluidos en subpruebas en niveles de años superiores que en reactivos de niveles de años inferiores. De cualquier modo, el criterio del porcentaje de aprobados sirvió como un medio objetivo de asegurarse que cada reactivo de la prueba se ubicara en un nivel de edad adecuado. La edad mental (EM) y el cociente de inteligencia de un examinado en la escala StanfordBinet dependían de la cantidad de subpruebas aprobadas en los niveles de edad sucesivos. El cociente de inteligencia se determinaba dividiendo la edad mental del examinado (EM), la cantidad 142 Tests de inteligencia CAPÍTULO SIETE total de crédito de meses obtenida en la prueba, por su edad cronológica (EC) en meses y multiplicando el cociente resultante por 100. En símbolos, esta razón de CI se calculaba como: CI ⫽ 100 MA CS (7.1) Durante muchos años, la Escala de Inteligencia de Stanford-Binet funcionó como un estándar con respecto al cual se evaluaban otros tests de inteligencia. Sin embargo, tenía varias desventajas. Por ejemplo, la versión de 1916 sólo se estandarizó en 1,000 niños y 400 adultos. De acuerdo con las normas actuales, la muestra no se seleccionó con cuidado y no era representativa de la población estadounidense de la época. Otras dos desventajas fueron la inadecuación al evaluar adultos y niños muy pequeños, y la falta de una segunda forma para permitir la revaluación. Por lo tanto, en 1937, Terman y su socia, Maud Merrill, publicaron una versión revisada, actualizada y reestandarizada de la escala. La Escala de 1937. La versión de 1937 de la Escala de Inteligencia de Stanford-Binet tenía un límite inferior menor y uno superior mayor que la escala de 1916, dos formas paralelas (L y M) y una mejor estandarización. La escala de 1937 fue estandarizada de manera estratificada en 100 niños, con un intervalo por cada medio año de edad, desde el año y medio hasta los cinco y medio años; 200 niños con intervalos por cada año de edad desde los 6 hasta los 14 años, y 100 niños con intervalos por cada año de edad desde los 15 hasta los 18 años. Se administró la prueba a un número igual de niñas y niños en 17 comunidades de 11 estados, pero la muestra se limitó a individuos blancos nativos, quienes, como grupo, estaban en cierta medida por encima del promedio en cuanto a situación socioeconómica. En consecuencia, la muestra no era verdaderamente representativa de toda la población de Estados Unidos. Se usaron tres criterios para incluir un reactivo en la escala: (1) el reactivo se consideró como una medida de comportamiento inteligente; (2) el porcentaje de niños que pasaban el reactivo aumentaba con la edad cronológica, y (3) los niños que aprobaron el reactivo tenían una edad mental media superior que la de quienes fracasaron en el reactivo. Los reactivos se agruparon en intervalos de medio año (niveles) del Año II al Año V, y en intervalos de un año desde el Año VI hasta el Año XIV; también había nivel Promedio de Adultos y tres niveles Superiores de Adulto (Adulto Superior I, II y III). Cada una de las seis subpruebas por nivel desde el Año II hasta el Año V recibió un mes de crédito, y las seis subpruebas en niveles Superiores de Adulto I, II y III tuvieron 4-, 5- y 6- meses de crédito, respectivamente. Al evaluar a un niño con la Escala Stanford-Binet, el examinador primero determinaba la edad basal del niño. La edad basal era el nivel de años más alto en que el niño pasaba todas las subpruebas. La evaluación continuaba entonces hasta la edad tope, el nivel de años inferior en que el niño fallaba en todas las pruebas. La edad mental se calculaba añadiendo a la edad basal el número de meses de crédito recibido por pasar cada subprueba hasta la edad tope. Entonces de calculaba el CI mediante la fórmula 7.1. La Escala de 1960. La tercera edición de la Escala de Inteligencia de Stanford-Binet, publicada en 1960, consistía en una actualización de los mejores reactivos de las formas L y M. Al igual que sus predecesoras, la tercera edición se usaba para medir la inteligencia de individuos desde la edad de dos años hasta la adultez. El procedimiento para administrar la prueba era similar al de la escala de 1937, pero se introdujeron algunos cambios. Uno de éstos consistía en una subprueba alternativa en cada nivel de edad para usarla cuando alguna de las subpruebas no se TESTS DE INTELIGENCIA INDIVIDUALES 143 aplicaba o se aplicaba de modo incorrecto. El tiempo de la prueba también podía reducirse en ciertos casos administrando sólo cuatro subpruebas seleccionadas en lugar de seis en cada nivel de un año. Otro cambio fue la disposición para prevenir desviaciones del CI. La razón del CI, al igual que cualquier otra norma de edad, no satisfizo el requisito de igualdad de unidades de edad. Asimismo, no tenía sentido cuando se aplicaba a adultos, porque no había una respuesta satisfactoria a la pregunta sobre qué edad cronológica debía usarse como denominador de la relación MA /CA al evaluar adultos. Se han propuesto las edades de 14, 16 y 18 años como la edad en que el crecimiento mental se detiene y, por lo tanto, cualquiera de esas edades puede ser un denominador adecuado para calcular el CI. Debido a los problemas para determinar la razón del CI, se tomó la decisión de cambiar de un CI de razón a una calificación estándar escala de desviación CI, con una media de 100 y desviación estándar de 16. Ocasionalmente se siguió reportando la razón de CI antigua y se incluían tablas para calcularla en el manual de Stanford-Binet de 1960. La muestra de estandarización para la Forma 1960 L-M de la Escala Stanford-Binet consistió en 4,500 niños, de entre 21/2 y 18 años de edad, que habían tomado cualquiera de las formas L o M de la Escala de 1937 entre 1951 y 1954. Tomando en cuenta la necesidad de normas actualizadas, el editor hizo adaptaciones para la prueba al ser administrada en 1972 a una muestra nacional estratificada de 2,100 niños (100 niños por cada intervalo de medio año desde los 2 hasta los 51/2 años, y por cada intervalo de un año también 100 niños, éstos de 6 a 18 años). La muestra era más representativa que las anteriores muestras normativas de la población general de Estados Unidos. Con base en la estandarización de 1972, se publicó un manual revisado para la tercera edición (Terman y Merrill, 1973). El manual incluía coeficientes de confiabilidad de test-retest de más de .90 y, como en las dos primeras ediciones, correlaciones moderadas con grados escolares y calificaciones de pruebas de aprovechamiento (.40 a .75). Cuarta edición de la Escala Stanford-Binet La cuarta edición de la Escala de Inteligencia Stanford-Binet (SB-IV) (por Riverside Publishing) se elaboró considerando las necesidades de psicólogos clínicos, escolares y otros psicólogos que usan la información de los tests de inteligencia. SB-IV mantuvo la continuidad histórica con las versiones anteriores de la escala, pero representó una marcada separación de sus predecesoras en cuanto a sus bases teóricas y psicométricas, su contenido y el procedimiento de administración. Al igual que muchas pruebas modernas, SB-IV fue desarrollada usando procedimientos psicométricos complejos, tales como la teoría de respuesta al ítem (escala de Rasch) y análisis de sesgo étnico. Además estaba diseñada no sólo para ayudar a identificar individuos con retraso mental o superdotados, sino también a proporcionar información diagnóstica sobre discapacidades de aprendizaje específicas. Con respecto al sesgo por sexo y etnia, se omitieron los reactivos considerados injustos o que mostraban diferencias estadísticas atípicas entre sexos o grupos étnicos. Modelo teórico y pruebas. Como se diagrama en la figura 7.2, el modelo en que se basó la escala SB-IV consiste en una jerarquía de tres niveles con un factor de inteligencia general (g) en el primer nivel, tres factores amplios (habilidades cristalizadas, habilidades fluido-analíticas y memoria de corto plazo) en el segundo nivel, y tres factores (razonamientos verbal, cuantitativo y abstracto-visual) en el tercer nivel. Los factores de razonamiento cuantitativo y verbal comprenden el factor de habilidades cristalizadas en el segundo nivel, y el factor abstracto-visual en el tercer nivel comprende el factor de habilidades fluido-analíticas en el segundo nivel. 144 Tests de inteligencia CAPÍTULO SIETE Nivel 1 Inteligencia general (g) Nivel 2 Habilidades fluido-analíticas Habilidades cristalizadas Memoria de corto plazo Nivel 3 Razonamiento verbal Razonamiento cuantitativo Razonamiento abstracto-visual Vocabulario Comprensión Absurdos Relaciones verbales Cuantitativo Series de números Construcción de ecuaciones Análisis de patrones Copiado Matrices Doblar y cortar papel FIGURA 7.2 Memoria de cuentas Memoria para enunciados Memoria para dígitos Memoria para objetos Modelo teórico y pruebas para la escala Stanford-Binet IV. (Derechos Reservados 1986 por Riverside Publishing Company. Reproducido de The Stanford-Binet Intelligence Scale, cuarta edición, por Robert L. Thorndike, Elizabeth P. Hagen y Jerome M. Sattler, con autorización del editor.) Al igual que sus antecesoras, la escala SB-IV fue diseñada para medir la inteligencia desde los 2 años hasta la edad adulta. Hay 15 tests: tres o cuatro tests en cada una de las tres categorías más amplias del Nivel 3 (Razonamiento Verbal, Razonamiento Cuantitativo, Razonamiento Abstracto-Visual), además de cuatro tests de Memoria de Corto Plazo (vea la figura 7.2). Cada prueba se acomoda en una serie de niveles que consisten en dos reactivos cada uno. Casi todas las pruebas incluyen reactivos de muestra para familiarizar a los examinados con el carácter de la tarea específica. Aplicación. El tiempo de administración para toda la escala SB-IV es de aproximadamente 75 minutos, y varía de acuerdo con la edad del examinado y la cantidad de pruebas administradas. El carácter adaptativo, o de múltiples etapas, de la prueba exige administrar el Test de Ruta (Vocabulario) primero para determinar el nivel inicial en los demás tests. El nivel de entrada en el Test de Ruta se determina por la edad cronológica del examinado. La administración del Test de Ruta continúa mientras el examinado no falle en tres o cuatro reactivos en dos niveles consecutivos, el más alto de los cuales es el nivel crítico. El nivel inicial para las 14 pruebas restantes se establece a partir de la tabla mediante una combinación del nivel crítico del Test de Ruta y la edad cronológica del examinado (nivel basal) y hacia arriba hasta que falla en tres o cuatro reactivos en dos niveles consecutivos. El más alto de estos niveles es la edad tope del examinado para esa prueba. TESTS DE INTELIGENCIA INDIVIDUALES 145 Calificación. Las puntuaciones crudas en cada una de las 15 pruebas son iguales a la cantidad de reactivos aprobados. Estas puntuaciones se convierten, dentro de cada grupo de edad, en calificaciones normalizadas de escala de edad estándar (SAS) con una media de 50 y desviación estándar de 8. Las puntuaciones crudas en cada una de las cuatro áreas (Razonamiento Verbal, Razonamiento Abstracto-Visual, Razonamiento Cuantitativo, Memoria de Corto Plazo) son iguales a la suma de las puntuaciones crudas en las tres o cuatro pruebas que comprenden esa área. Estas puntuaciones de área se convierten en calificaciones de escala estándar (calificaciones de área SAS) con una media de 100 y desviación estándar de 16. Por último, una calificación compuesta que consiste en la suma de las cuatro puntuaciones de área se convierte a una escala de calificaciones estándar con una media de 100 y desviación estándar de 16. El rango de las calificaciones compuestas generales es de 36 a 164, que es el equivalente a un rango de calificaciones z de ⫺4 a ⫹4. Estandarización. En Estados Unidos, la escala SB-IV fue estandarizada en 5,013 individuos de entre 2 y 23 años 11 meses de edad en 47 estados y el Distrito de Columbia. La muestra de estandarización fue estratificada por género y raza-etnia, y los estudiantes también fueron estratificados de acuerdo con la posición relativa en su clase. A pesar de los esfuerzos por seleccionar una muestra de estandarización que fuese verdaderamente representativa de la población estadounidense, la muestra contenía cantidades desproporcionadas de individuos de los niveles socioeconómicos y educativos más altos. Se intentó corregir este error al calificar las pruebas, pero el esfuerzo no fue del todo exitoso. Otros problemas son que los factores medidos por la escala no son uniformes en todos los niveles de edad y la información de confiabilidad del manual es inadecuada. Sin embargo, los coeficientes de división por mitad y de test-retest, calculados en medidas obtenidas a lo largo de un intervalo de 2 a 8 meses indican que las confiabilidades de las 15 pruebas, las cuatro áreas, y el conjunto son satisfactorias. Las pruebas de Wechsle Aunque las subpruebas en el nivel adulto se han incluido en la escala Stanford-Binet desde la revisión de 1937, nunca ha habido una medida muy satisfactoria de la inteligencia en adultos. Por consiguiente, en 1939 David Wechsler, un psicólogo del Hospital Bellevue en Nueva York, publicó un test de inteligencia individual diseñado específicamente para adultos. Para esta prueba, la Forma I de la Escala de Inteligencia de Wechsler-Bellevue, Wechsler añadió una segunda forma en 1947, la Forma II de la Escala de Inteligencia de Wechsler-Bellevue. Una revisión completa y reestandarización de la Forma I se publicó en 1955 como la Escala de Inteligencia para Adultos de Wechsler (WAIS). La WAIS misma fue modificada, reestandarizada y reeditada por The Psychological Corporation en 1981 como la Escala de Inteligencia para Adultos de Wechsler Revisada para evaluar la inteligencia de adultos entre 16 y 74 años de edad. Escala de Inteligencia para Adultos de Wechsler, Revisada. Las seis subpruebas verbales (V) y cinco subpruebas de ejecución (E) de la Escala de Inteligencia para Adultos de Wechsler Revisada (WAIS-R), por orden de administración, se describen en la tabla 7.2. Las subpruebas Verbal y de Ejecución se administran alternadamente, y dentro de cada subprueba los reactivos se presentan en orden de dificultad creciente. Se requieren alrededor de 75 minutos para administrar las once subpruebas, y la administración en una subprueba en particular se descontinúa cuando el examinado falla en una cantidad específica de reactivos sucesivos. Calificación. Las puntuaciones crudas en las once subpruebas del WAIS-R se convierten a una escala de calificación normalizada con una media de 10 y desviación estándar de 3. Entonces, 146 CAPÍTULO SIETE TABLA 7.2 Tests de inteligencia Subpruebas de la Escala de Inteligencia para Adultos de Wechsler Revisada Información (V): 33 preguntas sobre información general que deben contestarse en pocas palabras o números. Completamiento de dibujos (E): 27 dibujos en tarjetas, cada uno con una parte faltante; el examinado tiene 20 segundos para indicar lo que hace falta en la imagen. Serie de dígitos (V): 7 series de dígitos que deben recitarse hacia adelante y 7 series para repetirse hacia atrás. Ordenamiento de dibujos (E): 10 series de tarjetas, cada una con una pequeña imagen; se pide al examinando que ordene los dibujos de cada serie de tarjetas para construir una historia coherente. Vocabulario (V): se presentan 37 palabras en orden de dificultad creciente que deben definirse. Diseño de cubos (E): 10 diseños geométricos en rojo y blanco en tarjetas y nueve bloques de los mismos colores; se solicita al examinado que copie cada uno de los diseños usando 4 o 9 bloques. Aritmética (V): se presentan 15 problemas aritméticos en orden de dificultad creciente. Ensamble de objetos (E): se presentan 4 rompecabezas de cartón al examinado en un formato preestablecido; se pide al examinado que una las piezas para armar algo. Comprensión (V): 18 preguntas que requieren respuestas detalladas se presentan en orden de dificultad creciente. Símbolos en dígitos (E): 93 casillas que deben llenarse con el símbolo codificado correcto correspondiente al número que aparece sobre la casilla. Semejanzas (V): 14 reactivos del tipo “¿En qué son similares A y B?” V, subprueba verbal; E, subprueba de ejecución. mediante la referencia a una tabla especial que viene dentro del manual de administración, la suma de las puntuaciones escaladas de la subpruebas en la Escala verbal puede convertirse en un CI Verbal, la suma de las puntuaciones escaladas de lad subpruebas en la Escala de Desempeño, en un CI de Desempeño, y la suma de las puntuaciones escaladas de las once subpruebas, en una Escala Completa de CI. Éstas son desviaciones CI, expresadas en números en una escala de calificaciones estándar con una media de 100 y una desviación estándar de 15. Estandarización. La escala WAIS-R se estandarizó en una muestra nacional, cuidadosamente seleccionada, de 1,880 adultos “normales” ubicados en nueve grupos de edad (16 a 17, 18 a 19, 20 a 24, 25 a 34, 35 a 44, 45 a 54, 55 a 64, 65 a 69 y 70 a 74) dentro del rango de 16 a 74 años. La muestra de cada categoría de edad se estratificó por sexo, región geográfica, blanco contra no blanco, educación y ocupación. Se controlaron otras características, tales como residencia urbana contra rural, pero no funcionaron como variables de estratificación. La estandarización de la WAIS-R difirió de la presentada originalmente por la de WAIS en 1955, sobre todo en cuanto a la estratificación de la muestra por grupo étnico y la provisión de muestras más representativas para adultos mayores. Significado diagnóstico de las calificaciones de Wechsler. Al diseñar la escala WAIS, Wechsler planeó obtener más de un cálculo de la habilidad mental general de una persona. Se consideró que una diferencia significativa entre los CI Verbal y de Ejecución de una persona y el patrón de calificaciones (dispersión) en las once subpruebas era característica de cierto tipo de trastornos mentales y, por lo tanto, potencialmente útil para el diagnóstico clínico. Desafortunadamente, la investigación proporciona poco apoyo para las hipótesis de Wechsler en cuanto a la importancia diagnóstica de la dispersión de la calificación escalada en las diversas subpruebas. TESTS DE INTELIGENCIA INDIVIDUALES 147 Un problema al tratar de analizar la dispersión de la calificación de las subpruebas en las Escalas de Wechsler es que dichas calificaciones no son muy confiables y algunas subpruebas tienen correlaciones considerables entre sí. En consecuencia, la diferencia entre las calificaciones escaladas de una persona en dos subpruebas dadas debe ser muy grande antes de que pueda considerarse significativa. Las diferencias pronunciadas entre las calificaciones escaladas de subpruebas y entre CI Verbales y de Ejecución tienen cierto valor en el diagnóstico de daño cerebral orgánico y psicopatología y en la diferenciación entre inteligencia y oportunidad. Un CI Verbal considerablemente inferior al CI de Ejecución, por ejemplo, puede ser resultado de una experiencia lingüística limitada o de carencia cultural. WAIS-III. Así como en otras pruebas de habilidades cognoscitivas, el contenido y las normas de los tests de inteligencia de algún modo pierden actualidad con los años. Por ello, una nueva edición de WAIS-R, la WAIS-III, se elaboró a mediados de la década de 1990 y fue publicada por The Psychological Corporation en 1997. Al elaborar la WAIS-III, se prestó particular atención a las subpruebas verbales, tales como Información, Vocabulario y Comprensión, las cuales, debido a que están más sujetas a cambios culturales, se vuelven obsoletas más pronto que otras subpruebas. Además de las revisiones de las once subpruebas de la WAIS-R, se incluyeron tres nuevas subpruebas en la WAIS-III: Razonamiento de Matriz, Búsqueda de Símbolos y Secuencias de Letras y Números. El Razonamiento de Matriz consiste en una serie de imágenes de cinco formas geométricas; se requiere que los examinados nombren o señalen la forma correcta. En esta subprueba se incluyen cuatro tipos de reactivos, Completar Patrones, Clasificación, Razonamiento por Analogía y Razonamiento Serial. La subprueba de Búsqueda de Símbolos comprende un conjunto de grupos pareados, en el que cada par consiste en un grupo meta y un grupo de búsqueda. Los examinados marcan la casilla adecuada para indicar si cada símbolo meta aparece en el grupo de búsqueda. La subprueba de Secuencias de Letras y Números es una serie de letras y números presentados oralmente en desorden. Los examinados reordenan y repiten la lista diciendo los números en orden ascendente y repitiendo luego las letras en orden alfabético. El tiempo de aplicación de la WAIS-III es menor que el de la WAIS-R, y el nivel inferior para la mayoría de las subpruebas se ha reducido con el propósito de lograr un mejor cálculo del funcionamiento cognoscitivo de los individuos con retraso mental. Además de los CI tradicionales, Verbal, de Ejecución y de Escala Completa, se obtienen cuatro calificaciones de índice de factores (Comprensión Verbal, Memoria de Trabajo, Organización Perceptual y Velocidad de Procesamiento). La WAIS-III se estandarizó en una muestra de 2,450 adultos de edades entre 16 y 89 años. La muestra fue estratificada por raza-etnia (blancos, afroamericanos, latinos, otros), sexo, nivel educativo y región geográfica en cada grupo de edad. Las correlaciones entre las calificaciones WAIS-III y las de otras pruebas de la familia Wechsler, así como la cuarta edición de la Escala Stanford-Binet y las Matrices Progresivas de Raven, se incluyen en el manual. También se proporcionan estadísticas basadas en diversos grupos clínicos. Las escalas de la WAIS-III se ajustaron a las normas de la tercera edición de la Escala de Memoria Wechsler (WMS-III), lo que permite efectuar un examen de la relación entre el funcionamiento intelectual de una persona y su memoria. Escala de Inteligencia para Niños de Wechsler, tercera edición. La Escala de Inteligencia para Niños de Wechsler (WISC), una extensión hacia abajo de la Forma I de la Escala de Wechsler-Bellevue, fue publicada por The Psychological Corporation en 1949. En 1974 se publicó una 148 Tests de inteligencia CAPÍTULO SIETE revisión de la WISC, la WISC-R, y en 1991 apareció publicada la Escala de Inteligencia para Niños de Wechsler, tercera edición (WISC-III). Esta prueba, diseñada para niños de entre 6 y 16 años 11 meses, consiste en las siguientes seis subpruebas Verbales y siete subpruebas de Ejecución: SUBPRUEBAS VERBALES SUBPRUEBAS DE EJECUCION Información Semejanzas Aritmética Vocabulario Comprensión Intervalo de dígitos (complementaria) Completamiento de dibujos e imágenes Codificación Acomodamiento de dibujos Diseño de cubos Ensamble de objetos Búsqueda de símbolos (complementaria) Laberintos (complementaria) Las diez subpruebas principales (no complementarias) pueden administrarse en un lapso de entre 50 y 70 minutos, y las subpruebas complementarias en otros 10 o 15 minutos adicionales. Así como en la WAIS-R, las subpruebas Verbales y de Ejecución de WISC-III se administran alternadamente. Los CI Verbal, de Ejecución y de Escala Completa, basados en la misma escala de calificaciones normalizadas que los de la WAIS-III, se determinan añadiendo la calificación escalada de las cinco subpruebas Verbales y las cinco de Ejecución que se aplican. El WISC-III también puede calificarse para cuatro factores: Comprensión Verbal, Organización Perceptual, Libertad y Distracción y Velocidad de Procesamiento. La WISC-III fue estandarizada en muestras representativas de estadounidenses de 100 niños y 100 niñas en cada uno de once grupos de edad de los 6 a los 16 años. Las muestras también se estratificaron por región geográfica, nivel educativo de los padres y raza. Se evaluaron otras muestras de niños con WISC-III y con la WAIS-R o la WPPSI-R, dependiendo de sus edades. Las confiabilidades de test-retest de la WISC-III, obtenidas al readministrar la escala después de 4 a 8 semanas, son satisfactorias. Asimismo, se han llevado a cabo diversos estudios de validación con varios grupos clínicos de niños. Escala de Inteligencia para Nivel Preescolar y Primaria de Wechsler Revisada. Una tercera prueba de Wechsler, la Escala de Inteligencia para Nivel Preescolar y Primaria de Wechsler (WPPSI), fue publicada por The Psychological Corporation en 1967 y una revisión, la WPPSI-R, en 1989. Las seis subpruebas Verbales (V) y las seis de Ejecución (E) de la WPPSI-R, en orden de aplicación, son: Ensamble de Objetos (E), Información (V), Diseño Geométrico (E), Comprensión (V), Diseño de Bloques (E), Aritmética (V), Laberintos (E), Vocabulario (V), Completar Imágenes (E), Semejanzas (V), Piezas con forma de animales (E), y Enunciados (V). Las últimas dos son subpruebas complementarias. Diseñada para niños de entre 3 y 7 años de edad, la WPPSI-R fue estandarizada a fines de la década de 1980 sobre una muestra nacional de niños estadounidenses de entre 3 y 7 años de edad. Estratificar la muestra por género, etnia y nivel educativo y ocupacional de los padres, la hizo más representativa de la población de Estados Unidos en este rango de edad. Del mismo modo que la WAIS-R y la WISC-III, la WPPSI-R produce CI Verbal, de Ejecución y de Escala Completa por separado, con base en una escala de calificación estándar con una media de 100 y desviación estándar de 15. Escala de Inteligencia de Wechsler Abreviada. En contextos clínicos y educativos, la necesidad de una medición confiable de la inteligencia que pudiera realizarse en forma más rápida que la WAIS-III y la WISC-III condujo a la creación de la Escala de Inteligencia de Wechsler TESTS DE INTELIGENCIA INDIVIDUALES 149 Abreviada (WASI). Las subpruebas de la WASI se construyeron independientemente de las correspondientes subpruebas de la WAIS-III y la WISC-III, pero en forma paralela. La forma de cuatro subpruebas de la WASI consiste en subpruebas de Vocabulario, Semejanzas, Diseño de Cubos y Razonamiento de Matriz. Las primeras dos constituyen la Escala Verbal y las últimas dos la Escala de Ejecución de la WASI. La forma de dos subpruebas de la WASI incluyen Vocabulario y Razonamiento de Matriz. La forma de cuatro subpruebas requiere de aproximadamente 30 minutos y la de dos subpruebas toma alrededor de 15 minutos en administrarse. Otras pruebas de inteligencia individuales de rango amplio Aunque son las pruebas de inteligencia individuales más populares en Estados Unidos, la Stanford-Binet y la de Wechsler de ningún modo son las únicas baterías de amplio rango para evaluar la habilidad mental general. Tampoco son las pruebas más populares de habilidad mental en otros países. De particular relevancia en el Reino Unido son las Escalas de Habilidad Británicas (BAS), que fueron revisadas por The Psychological Corporation y reestandarizadas en Estados Unidos como Escalas de Habilidad Diferencial (DAS). Escalas de habilidad diferencial. El objetivo de las Escalas de Habilidad Diferencial (DAS) (de The Psychological Corporation) es proporcionar perfiles de habilidad para analizar y diagnosticar problemas de aprendizaje en los niños, evaluar cambios en las habilidades con el tiempo e identificar, seleccionar y clasificar a los niños (de entre 21/2 y 17 años de edad) con problemas de aprendizaje. Las DAS consisten en 20 subpruebas, incluyendo 12 subpruebas principales, 5 subpruebas de diagnóstico y 3 subpruebas de aprovechamiento. Las tres subpruebas de aprovechamiento (Habilidades Numéricas, Ortografía, Lectura de Palabras) son útiles para evaluar habilidades académicas básicas, pero las subpruebas centrales y de diagnóstico proporcionan el principal medio de evaluar las cognoscitivas. A cada examinando se le aplican de cuatro a seis subpruebas centrales, de los 2 años 6 meses a los 17 años 11 meses. Se combinan las calificaciones de varias subpruebas centrales para obtener índices generales de Habilidad Verbal, Habilidad de Razonamiento No Verbal y Habilidad Conceptual General, en una escala con una media de 100 y desviación estándar de 15. Aunque las subpruebas de diagnóstico no se usan para calcular los índices de habilidad, proporcionan información útil para comprender las ventajas y deficiencias cognoscitivas del niño. Las normas de las DAS se basan en 3,475 niños estadounidenses; la muestra fue estratificada por edad, sexo, raza-etnia, educación de los padres, región geográfica e inscripción en educación preescolar. Los niños especiales (con trastornos de aprendizaje, dificultades de habla y lenguaje, retrasados mentales susceptibles de ser educados, superdotados, emocionalmente perturbados, con trastornos sensoriales o motrices) se incluyeron en la muestra. Prueba Detroit de Habilidad de Aprendizaje. Otra batería relevante es la Prueba Detroit de Habilidad de Aprendizaje (de pro.ed). La administración de la principal edición de esta batería (DTLA-P-2), que fue diseñada para niños de entre 3 y 9 años de edad, dura entre 15 y 20 minutos. Las subpruebas incluyen Articulación, Compaginación Conceptual, Reproducción de Diseños, Secuencia de Dígitos, Dibujar una Persona, Secuencias de Letras, Instrucciones Motoras, Secuencias de Objetos, Instrucciones Orales, Imágenes Fragmentadas, Identificación de Imágenes, Imitación de Enunciados y Relaciones Simbólicas. La cuarta edición de la Prueba Detroit de Habilidad de Aprendizaje (DTLA-4) fue diseñada para niños de 6 a 17 años y tarda de 50 a 90 minutos en administrarse. Las subpruebas de la DTLA-4 incluyen Palabras Opuestas, Secuencias de Diseño, Imitación de Enunciados, Letras Invertidas, Construcción de Historias, Reproducción de Diseños, Información Básica, Relaciones Simbó- 150 CAPÍTULO SIETE Tests de inteligencia licas, Secuencias de Palabras y Secuencias de Historias. Calificaciones normalizadas, rangos percentilares y equivalentes de edad pueden determinarse para las diez subpruebas y las pruebas compuestas (General, Nivel Óptimo, Dominio, Teórico). Las pruebas compuestas de Dominio son Verbal, No Verbal, Aumento de la Atención, Reducción de la Atención, Motricidad Aumentada, Motricidad Reducida. Las compuestas teóricas son de inteligencia Fluida y Cristalizada, de Asociación y Cognoscitiva, Simultánea y Sucesiva, Verbal y de Ejecución. La DTLA-4 es un mejoramiento sobre sus predecesoras con respecto a la claridad, facilidad de administración, estandarización, confiabilidad, validez y otras características estadísticas. Pruebas de inteligencia de Kaufman. La Batería de Kaufman de Evaluación para Niños (KABC) (del American Guidance Service) fue diseñada por A. S. Kaufman y N. L. Kaufman con el propósito de evaluar las habilidades de niños de entre 21/2 y 121/2 años de edad para resolver problemas que requieren de un procesamiento mental simultáneo y secuencial. La K-ABC también incluye una Escala de Aprovechamiento para medir habilidades adquiridas en lectura y aritmética. Basada en una extensa investigación sobre neuropsicología y psicología cognoscitiva, la K-ABC fue diseñada especialmente para niños de edad preescolar, menores de edad, y excepcionales. 13 de las 16 subpruebas tipo juego que comprende la K-ABC pueden administrarse en un lapso de 35 a 85 minutos. Las calificaciones se obtienen en cuatro áreas globales: Procesamiento Secuencial, Procesamiento Simultáneo, Compuesta de Procesamiento Mental (Secuencial más Simultánea) y Aprovechamiento. La muestra de estandarización para la K-ABC, basada en estadísticas registradas en el censo de Estados Unidos de 1980, se estratificó por raza (blanca, negra, latina, asiática, indígena estadounidense) e incluía un grupo representativo de niños excepcionales. Se establecieron normas de rangos percentilares separados por raza y nivel socioeconómico para niños blancos y negros. Los coeficientes de confiabilidad de división por mitades para las cuatro escalas globales en la K-ABC están en los rangos que van del.80 y el.90. En el manual también se da información sobre la validez de constructo, concurrente y predictiva de la prueba. Otras dos pruebas de inteligencia relevantes diseñadas por A. S. Kaufman y N. L. Kaufman, publicadas por el American Guidance Service, son la Prueba de Inteligencia de Kaufman para Adolescentes y adultos (KAIT) y la Prueba Breve de Inteligencia de Kaufman (K-BIT). Ambas pruebas se basan en la teoría de R. B. Cattell sobre la inteligencia fluida y cristalizada. La KAIT se diseñó para edades entre los 11 y 85+ y toma entre 60 y 90 minutos; la K-BIT está diseñada para edades de 4 a 90 años y dura de 15 a 20 minutos. Pruebas Woodcock-Johnson III de Habilidades Cognoscitivas. La Woodcock-Johnson III (WJ III) (de Riverside Publishing) consiste en dos baterías co-normalizadas para medir la habilidad intelectual general, habilidades cognoscitivas específicas y el aprovechamiento académico. Una batería, las Pruebas de Habilidades Cognoscitivas Woodcock-Johnson III (WJ III), se basa en la teoría de habilidades cognoscitivas de Cattell-Horn-Carroll (CHC) (vea Woodcock, 1998). Esta batería consiste en una Batería Estándar de diez pruebas y una Batería Ampliada de diez pruebas adicionales. Las pruebas tienen un rango amplio de edad y grado (de 2 a 90+ años; desde jardín de niños hasta la universidad) y una duración de evaluación relativamente breve (aproximadamente cinco minutos por prueba). Las calificaciones de seis grupos: Verbal-Estándar, de Pensamiento-Estándar, Eficiencia Cognoscitiva-Estándar, Percepción Fonémica, Memoria Funcional y Recuerdo Demorado, se determinan a partir de la Batería Estándar. Las calificaciones de catorce grupos adicionales se obtienen cuando se aplica la Batería Ampliada. Además de las calificaciones en los grupos separa- 151 TESTS DE INTELIGENCIA INDIVIDUALES dos, se calcula una calificación de Habilidad Intelectual General (GIA) al combinar las calificaciones de las primeras siete pruebas o una calificación GIA (Ampliada) administrando 14 pruebas cognoscitivas. Puede calcularse una calificación de Habilidad Intelectual Breve (BIA) combinando las calificaciones de las pruebas de Comprensión Verbal, Formación de Conceptos y Compaginación Visual. También pueden determinarse calificaciones en los siguientes factores CHC: Comprensión-Conocimiento (Gc), Recuerdo a Largo Plazo (Glr), Pensamiento VisualEspacial (Gv), Procesamiento Auditivo (Ga), Razonamiento Fluido (Gf), Velocidad de Procesamiento (Gs) y Memoria de Corto Plazo (Gsm). Sistema de Evaluación Cognoscitiva Das-Naglieri. Otra prueba de inteligencia reciente es el Sistema de Evaluación Cognoscitiva Das-Naglieri (CAS)(Naglieri y Das, 1997)(de Riverside Publishing). El CAS es similar a la Woodcock-Johnson III en cuanto a que está basado en una teoría cognoscitiva y lo publica la misma compañía (Riverside Publishing Co.). Al orientarse hacia niños en edad escolar y adolescentes, el rango de edad del CAS (de 5 años a 17 años 11 meses) es más estrecho que el de la WJ III. El CAS se diseñó “para proporcionar una medida del procesamiento cognoscitivo que sea justa para niños menores de edad, eficaz para un diagnóstico diferencial y relacionada con la intervención”. Se basa en la teoría PASS (Planeación, Atención, Simultánea, Sucesiva) de DasNaglieri sobre la cognición, descrita en los inicios de ese capítulo, y es adecuada para niños en edad escolar y adolescentes. El tiempo de evaluación es de 40 minutos para la Batería Básica y de 60 minutos para la Batería Estándar. Las subpruebas se agrupan en los cuatro procesos cognoscitivos del modelo PASS: PLANEACIÓN SIMULTÁNEA Números Correspondientes Códigos Planeados Conexiones Planeadas Matrices No Verbales Relaciones Verbal-Espaciales Recuerdo de Figuras ATENCIÓN SUCESIVA Atención Expresiva Detección de Números Atención Receptiva Series de Palabras Repetición de Enunciados Velocidad de Habla (de 5 a 7 años de edad) Preguntas de Enunciados (de 8 a 17 años de edad) La Batería Básica consiste en dos subpruebas, y la Batería Estándar en tres subpruebas, a partir de cada una de estas cuatro categorías. Además de las calificaciones en las pruebas separadas, las calificaciones normalizadas con una media de 100 y desviación estándar de 15 se obtienen al combinar las calificaciones de todas las escalas. Como la Woodcock-Johnson III, el CAS se estandarizó cuidadosamente y tiene confiabilidades aceptables. Las evidencias de investigación relativas a diversos tipos de validez (de constructo, concurrente, predictiva y discriminante) se registran en el manual de la prueba. Pruebas no verbales para los discapacitados Los instrumentos psicométricos que requieren de señalar, manipular objetos o de otra respuesta no verbal, antes que de hablar o escribir, se conocen como pruebas no verbales. El desempeño en algunas tareas de estas pruebas puede facilitarse con el lenguaje verbal, pero su uso es mínimo. El hecho de que las escalas Wechsler contengan medidas verbales y de ejecución separadas las hace más adecuadas que las versiones anteriores de Stanford-Binet para examinar perso- 152 CAPÍTULO SIETE Tests de inteligencia nas con diferencias físicas, lingüísticas y culturales. Las subpruebas de desempeño Wechsler tienden a ser medidas más precisas de la habilidad mental en niños con problemas de audición y culturalmente distintos, mientras que las subpruebas verbales son medidas más válidas para los ciegos y débiles visuales. Al evaluar a personas ciegas, en ocasiones se ha aplicado una serie de seis pruebas de desempeño especialmente diseñadas conocidas como la Escala de Inteligencia Haptic para Adultos Ciegos, en conjunto con la Escala Verbal del WAIS, como medida de la inteligencia de adultos ciegos y débiles visuales. Pruebas de una única tarea. Una de las pruebas no verbales más antiguas, el Tablero de Formas Seguin, se introdujo en 1866. Sin embargo, no fue sino hasta la primera parte del siglo XX cuando Knox, Kohs, Porteus y otros psicólogos realizaron serios esfuerzos por estandarizar dichas pruebas. Para medir las habilidades mentales, adicionalmente a muchos tipos de tableros de formas, se han utilizado tareas no verbales como rompecabezas de diversos tipos, el golpeteo secuencial de cubos, problemas de emparejamiento, diseños de cubos, laberintos, dibujo de personas y señalamiento de imágenes. Los laberintos se han usado en forma extensa tanto en laboratorios psicológicos y clínicas como en varias pruebas estandarizadas. Los Laberintos de Porteus, publicados inicialmente en 1914 y descritos por su diseñador como una medida de la capacidad de previsión y planeación, consisten en un conjunto de laberintos ordenados por dificultad creciente. En cada laberinto se instruye al examinado para que trace el camino más corto entre el punto de partida y el final, sin levantar el lápiz ni entrar en un callejón sin salida. Para quienes padecen algún trastorno verbal, los Laberintos de Porteus son particularmente adecuados como prueba breve (25 minutos), y se han empleado en varias investigaciones y estudios antropológicos sobre los efectos de las drogas y la neurocirugía. Otra prueba de ejecución no verbal para los discapacitados consiste en diseños de cubos tales como los de las escalas de Wechsler y las Escalas de Habilidad Diferencial. Una de las pruebas más antiguas de este tipo es el Diseño de Cubos de Kohs. Los materiales de la prueba de Kohs son 16 cubos de color y 17 tarjetas con diseños coloreados que el examinado debe copiar. El Diseño de Cubos se consideraba especialmente apropiado para niños con discapacidad de lenguaje y audición, pero ahora su aplicación es muy esporádica. La Escala de Madurez Mental de Columbia (CMMS) es otra prueba de una única tarea que sólo requiere de señalar. Esta prueba se diseñó originalmente para evaluar niños con parálisis cerebral, pero puede administrarse a otros niños con verbales y motrices disminuidas (discapacidades visuales, trastornos del habla, de la audición, retraso mental) así como a niños hiperactivos. Los materiales de prueba consisten en 92 reactivos (una serie de dibujos) impresos en tarjetas de 15 × 47.5 cm. Se pide al niño (de entre 31/2 y 10 años de edad) que seleccione, a partir de una serie de dibujos presentados en cada tarjeta, la imagen que no pertenece al grupo. Al seleccionar, el niño usa discriminación perceptiva y clasificatoria o habilidades de razonamiento general que incluyen color, forma, tamaño, uso, número, partes faltantes y material simbólico. Los 92 reactivos de la CMMS están dispuestos en ocho niveles traslapados, pero sólo entre 51 y 65 reactivos se aplican de hecho a un examinado determinado. La prueba dura entre 15 y 20 minutos, y las instrucciones se dan en inglés o en español. La ejecución se expresa en términos de calificaciones de desviación de edad desde 50 hasta 150, así como en rangos percentilares, estaninas e índices de madurez. Baterías de pruebas de ejecución. La primera batería de pruebas de ejecución estandarizadas que se distribuyó comercialmente fue la Escala Pintner-Paterson de Pruebas de Ejecución (1917). Igualmente conocida es la Escala Puntual Arthur de Pruebas de Ejecución, publicada inicialmente por Grace Arthur en 1925. Dos baterías de pruebas de ejecución que se han usado am- TESTS DE INTELIGENCIA INDIVIDUALES 153 pliamente en niños con discapacidades de habla y de audición, y que todavía están disponibles, son la Escala Leiter de Desempeño Internacional y las Pruebas Hiskey-Nebraska de Aprendizaje. También son interesantes algunas baterías recientemente publicadas, tales como la Prueba Comprensiva de Inteligencia No Verbal, la Prueba de Habilidad No Verbal de Naglieri y la Prueba Universal de Inteligencia No Verbal. Prueba Hiskey-Nebraska de Habilidad de Aprendizaje. Esta prueba se diseñó específicamente para evaluar las capacidades cognoscitivas de niños con discapacidad auditiva. Consiste en 12 subpruebas no verbales aplicadas mediante instrucciones en pantomima a niños sordos o con instrucciones verbales a niños normales. La prueba se aplica en forma no acelerada y proporciona la edad mental y un cociente de inteligencia. En el momento de escribir el presente libro, la prueba Hiskey-Nebraska se estaba reestructurando en cuanto a sus normas por Slosson Educational Publications, de modo que las características demográficas de la muestra de estandarización se ajustaran a las de la población actual de Estados Unidos. Leiter-R. La versión revisada de la Escala Leiter de Desempeño Internacional (Leiter-R) (de Stoelting) se promueve como una medida de las habilidades cognoscitivas que es justa para la cultura y adecuada para personas de varios contextos culturales. Tiene un rango de edad de 2 a 21 años y puede administrarse sin lenguaje verbal a niños con problemas de audición o con otros trastornos lingüísticos de expresión o de recepción y culturalmente diferentes, con discapacidades motrices, autistas e incluso a niños superdotados. Se solicita a los examinados que unan una serie de cartas de respuesta coloreadas con las ilustraciones correspondientes presentadas en un caballete. Las cuatro subpruebas de Razonamiento y las seis de Visualización de la batería de Visualización y Razonamiento requieren de un total de 40 minutos para administrar. Las ocho subpruebas de Memoria y las dos de Atención en la correspondiente batería toman 35 minutos. Evaluar el CI o LD/ADHD puede realizarse en 25 minutos administrando una batería incompleta; la Evaluación de Selección de Superdotados requiere de 35 minutos. La Leiter-R fue estandarizada en 1993 en 1,719 niños típicos y 692 atípicos de entre 2 y 12 años de edad. Las evidencias de confiabilidad y validez registradas en el manual indican que Leiter-R es un instrumento bastante seguro psicométricamente. Prueba Comprensiva de Inteligencia No Verbal. La Prueba Comprensiva de Inteligencia No Verbal (CTONI)(de pro.ed) tiene un rango de edad muy amplio (de 6-0 a 90-11) y puede administrarse en alrededor de una hora. Es particularmente apropiada para calcular la inteligencia de niños y adultos con problemas de lenguaje o de habilidades motoras finas. Pueden ser personas que hablen una lengua distinta al inglés, tengan desventajas socioeconómicas o sean sordos, o que sufran algún trastorno del lenguaje, una discapacidad motora o un problema neurológico. Las seis subpruebas de CTONI son Analogías Pictóricas, Categorías de Imágenes, Secuencias Pictóricas, Analogías Geométricas, Categorías Geométricas y Secuencias Geométricas. Estas subpruebas se diseñaron para medir el razonamiento analógico, las calificaciones categóricas y las habilidades de razonamiento secuencial, como lo revelan las respuestas a las imágenes de objetos familiares (animales, personas, juguetes y reactivos similares) y diseños geométricos (dibujos, esbozos inusuales, etc.). Así como en la prueba Leiter-R, en la CTONI los examinados indican sus respuestas señalando opciones alternativas. Las respuestas se califican entonces y las calificaciones se combinan para obtener tres cocientes compuestos: Cociente de Inteligencia No Verbal (CINV), Cociente de Inteligencia No Verbal Pictórica (CINVP)y Cociente de Inteligencia No Verbal Geométrica (CINVG). La CTONI se estandarizó en 25 estados de Estados Unidos, Canadá y Panamá. Aunque bastante pequeñas, las muestras se estratificaron por género, regiones geográficas, etnia, raza, residen- 154 CAPÍTULO SIETE Tests de inteligencia cia urbana-rural y discapacidad. Esta prueba reporta coeficientes de confiabilidad de .80 o mayores, y en el manual también se da cierta evidencia para la validez con referencia a criterios, de contenido y de constructo. De especial relevancia son los esfuerzos de los diseñadores de la CTONI para detectar y eliminar sesgos culturales, de género, raciales y lingüísticos en los reactivos. Prueba Universal de Inteligencia No Verbal (UNIT). A diferencia de muchas pruebas no verbales que se caracterizan por una modalidad no verbal ya sea en la administración o bien en los formatos de respuesta, a fin de garantizar la justicia sin importar la cultura, la etnia, el género o la habilidad auditiva, la UNIT se desarrolló con ambas modalidades simultáneamente. La administración de esta batería de prueba implica múltiples modos de respuesta, incluyendo el uso de herramientas de manipulación, lápiz y papel así como señalamiento. El examinador usa ocho gestos universales de manos y cuerpo para explicar las tareas de la prueba al examinado. Además de estos gestos, la aplicación de la prueba incluye demostraciones por parte del examinador, reactivos de muestra, respuestas correctoras, reactivos de transición en puntos de verificación y reactivos que no permiten la retroalimentación del examinador. La UNIT (de Riverside Publishing) es adecuada para individuos con impedimentos de habla, lenguaje o audición, así como para aquellos que no son comunicativos verbalmente o provienen de distintos contextos culturales o lingüísticos. Los materiales de la prueba se seleccionaron considerando que fueran relativamente independientes de las culturas particulares y de interés para niños con distintos ambientes culturales. Hay seis subpruebas en la Batería Ampliada de la UNIT: Memoria Simbólica, Memoria de Objeto, Memoria Espacial, Razonamiento Analógico, Diseño de Cubos y Laberintos. Las puntuaciones crudas de estas subpruebas se convierten en calificaciones escaladas con una media de 10 y desviación estándar de 3. También se definen cinco cocientes, Cociente de Inteligencia de Escala Completa (FSIQ), Cociente de Memoria (MQ), Cociente de Razonamiento (RQ), Cociente Simbólico (SQ) y Cociente No Simbólico (NSQ), a partir de la combinación de las calificaciones obtenidas en seis subpruebas de la Batería Ampliada o en cuatro subpruebas de la Batería Estándar. La Batería Ampliada toma 45 minutos en su administración, mientras que la Batería Estándar sólo 30 minutos. Una Batería Abreviada de dos subpruebas, que puede usarse para seleccionar, tarda de 10 a 15 minutos en completarse. La UNIT se estandarizó hacia mediados de la década de 1990 en una muestra nacional de 2100 niños y adolescentes (de entre 5 años y 17 años 11 meses de edad). Los datos de confiabilidad son satisfactorios, y la evidencia de investigación que corresponde a la validez concurrente, predictiva y discriminativa de este instrumento se proporciona en el manual. TESTS DE INTELIGENCIA COLECTIVOS Durante la segunda década del siglo XX, Lewis Terman impartía habitualmente un curso en la Universidad de Stanford sobre la Escala de Inteligencia de Stanford-Binet. Según se informó, en una sección de este curso un estudiante, Arthur Otis, tuvo la idea de adaptar tareas seleccionadas de la Stanford-Binet a un formato de lápiz y papel. Poco después, muchas de las tareas adaptadas por Otis y otros autores se combinaron como la primera prueba de inteligencia colectiva, el Examen Alfa del Ejército. Los exámenes Alfa y Beta del Ejército, una prueba no verbal lingüística para no angloparlantes y analfabetos, se administraron a casi dos millones de reclutas del ejército estadounidense durante y después de la Primera Guerra Mundial con propósitos de selección militar y clasificación de puestos. El Examen Alfa del ejército consistía en reactivos que incluían analogías, problemas aritméticos, completamiento de series de números, sinónimos y antónimos, análisis de cubos, símbolos en dígitos, información y juicio práctico. Esto propició la aparición de TESTS DE INTELIGENCIA COLECTIVOS 155 otras pruebas colectivas de inteligencia y de aptitudes académicas, y funcionó como su modelo después de la guerra. Arthur Otis y otros psicólogos empezaron a publicar sus propias pruebas de inteligencia colectivas, y hacia la década de 1930 había disponibles comercialmente muchos más instrumentos de este tipo. Una prueba colectiva grupal de inteligencia típica puede constar de un conjunto de preguntas de opción múltiple dispuestas en un formato en espiral-ómnibus o de una serie de subpruebas en momentos separados. En el formato colectivo en espiral se mezclan los diversos tipos de reactivos que comprende la prueba y se ordenan por dificultad creciente; los reactivos con el mismo grado de dificultad se agrupan juntos. Aplicación, calificación e informes Las pruebas de inteligencia colectivas pueden administrar a pequeñas cantidades de niños desde los 5 o 6 años de edad o a grupos más numerosos de adultos. Al evaluar niños pequeños, los examinadores deben tener particular cuidado en asegurarse de que los examinados comprendan las instrucciones, pasen a la página correcta, comiencen y terminen a tiempo, entre otros aspectos. Al calificar pruebas de inteligencia colectivas, las puntuaciones crudas, ya sea parciales o globales, pueden convertirse en rangos percentilares, calificaciones estándar y otras unidades numéricas. Incluso más que en pruebas individuales, las calificaciones de pruebas aplicadas de manera colectiva deben interpretarse con precaución, tomando en cuenta otros datos (grados escolares e información obtenida mediante entrevistas o la observación) sobre el examinado. El informe 7.1 que aparece en la página siguiente ilustra la manera en que los hallazgos de una prueba colectiva grupal de inteligencia pueden registrarse e interpretarse, junto con más información relevante sobre el examinado. Asimismo, pueden prepararse perfiles de calificaciones interpretativos a través de un servicio de calificación de pruebas. Los examinados con calificaciones muy bajas deben ser sometidos a otras pruebas, de preferencia individuales, antes de tomar decisiones sobre diagnóstico o colocación. Ejemplos de pruebas de inteligencia colectivas Tres de las pruebas de inteligencia colectivas más populares son la Prueba Otis-Lennon de Habilidad Escolar, la Prueba de Aptitudes Cognoscitivas y la Prueba de Personal Wonderlic. Prueba Otis-Lennon de Habilidad Escolar. Esta prueba (de Harcourt Brace) es una revisión de las Pruebas Autoadministrables de Otis de Habilidad Mental (OLSAT), la Prueba Otis-Lennon de Habilidad Mental y las Pruebas Otis de Habilidad Mental de Calificación Rápida. Igual que sus predecesoras, la séptima edición de la OLSAT consiste en diversos reactivos de imágenes, verbales, de figuras y cuantitativos, a fin de medir Comprensión Verbal, Razonamiento Verbal, Razonamiento de Imágenes, Razonamiento de Figuras y Razonamiento Cuantitativo, desde la etapa preescolar hasta el 12° grado. Hay dos formas y siete niveles de la OLSAT, cada una de las cuales puede administrarse en 60 o 75 minutos. Las normas, que se basan en una muestra nacional amplia, se expresan como rangos percentilares, calificaciones estaninas y NCE por grado. De igual manera pueden realizarse comparaciones entre la habilidad y el logro cuando se aplica la OLSAT con la Serie de Pruebas de Aprovechamiento de Stanford, en su novena edición. Prueba de Habilidades Cognoscitivas. La quinta edición de la Prueba de Habilidades Cognoscitivas (CogAT) (de Riverside Publishing) evalúa las habilidades de los niños para razonar y resolver problemas usando símbolos verbales, cuantitativos y espaciales (no verbales). La CogAT es una prueba de niveles múltiples, con los niveles 1 y 2 para los grados K-3 y niveles de la A a la H para los grados 3-12; su administración dura aproximadamente 90 minutos. Cada ni- 156 Tests de inteligencia CAPÍTULO SIETE REPORTE 7.1 Resultados de una prueba colectiva de inteligencia Nombre del examinado: Jane N. Brown Fecha de nacimiento: 11 de marzo de 1980 Dirección: 12449 Mount Olive Street Thousand Oaks, CA Prueba aplicada: Sexo: Edad: Femenino 21 años, 11 meses Escolaridad: Licenciatura universitaria Fecha de aplicación: 15 de abril de 2002 Prueba Otis-Lennon de Habilidad Escolar, Forma avanzada R Jane Brown, una joven de altura y peso promedios (1.65 m, 60 kg), se ofreció como voluntaria para someterse a la prueba de inteligencia debido a un interés personal en sus habilidades mentales y como un favor hacia el examinador. La prueba se administró como una tarea en Psicología 405 (Evaluación Psicológica) en Western College durante el semestre de primavera de 2002. En la época del examen, Jane estaba en su último semestre de la especialización de contabilidad. Informó que su promedio de graduación era de 3.2, y señaló que le gustaría ir a la escuela de posgrado en administración para obtener un grado de maestría, pero que inmediatamente después de su graduación planeaba trabajar de tiempo completo en una empresa de contabilidad en el área de Los Ángeles. El padre de Jane tiene un grado universitario, y su madre terminó dos años de educación universitaria. Ambos trabajan en el negocio familiar, una empresa de asesoría fiscal. Jane informa haber obtenido buenas calificaciones (B y A) en toda su educación escolar, pero confesó que “¡No soy ninguna académica!” Parece ser muy práctica en cuanto a sus intereses, como lo indica no sólo la licenciatura que eligió, sino también sus planes y otros comentarios que hizo al examinador. Jane mostró un interés moderado en las preguntas de la prueba y se mostró relajada pero involucrada durante el proceso de evaluación. Trabajó con atención y sin interrupciones durante todos los 40 minutos. Las condiciones de la prueba fueron buenas; no hubo interrupciones ni distracciones. Resultados e interpretación de la prueba Jane terminó todas las preguntas de la prueba durante el tiempo estipulado (40 minutos). Obtuvo las siguientes calificaciones en la prueba Otis-Lennon: Puntuación cruda = 65 Índice de habilidad escolar = 116 Rango percentilar (grupo de 18+ años de edad) = 84 Estanina = (grupo de 18+ años de edad) = 7 Estas calificaciones corresponden aproximadamente al promedio para los estudiantes que han completado la licenciatura universitaria, e indican una habilidad intelectual general en el rango del “Promedio superior” para la población general. Un breve análisis de los 16 reactivos que contestó Jane en forma incorrecta indica que en cierta medida tiene mayor dificultad con el razonamiento no verbal que con el verbal. Sin embargo, no hubo ningún patrón significativo en los errores que cometió; en general fueron bastante aleatorios. Conclusiones y recomendaciones En una entrevista posterior al examen, Jane señaló que había realizado su mejor esfuerzo en la prueba y que no tenía prisa por terminar a tiempo. Acabó la prueba en 35 minutos y dedicó los restantes 5 a verificar sus respuestas. Afirmó que el Índice de habilidad escolar, que el examinador le comunicó, se encontraba dentro del rango de 5 puntos de una calificación de CI que obtuvo en una prueba de inteligencia que había realizado en la preparatoria. No pudo recordar el nombre de dicha prueba. Tomando en cuenta las condiciones de la evaluación, el comportamiento que se observó en el examinando y sus afirmaciones después de la prueba, los resultados se consideran válidos en este momento. Los planes y aspiraciones profesionales de Jane parecen adecuados a su habilidad intelectual, aunque tal vez tendrá que esforzarse con diligencia para obtener una maestría en alguna institución de prestigio. Laura F . G reen Laura F. Green Pasante de la Licenciatura en Psicología Western College 157 TESTS DE INTELIGENCIA COLECTIVOS vel contiene una Batería Verbal, una Batería Cuantitativa y una Batería No Verbal que consisten en dos o tres subpruebas. Las calificaciones separadas obtenidas en las tres baterías y una calificación compuesta general pueden convertirse a diversos tipos de calificación normalizadas (calificaciones de edad estándar, rangos percentilares de grado y edad nacionales, calificaciones estaninas de grado y edad, y equivalentes de curva normal) con base en una estandarización nacional llevada a cabo en 1992. Prueba de Personal Wonderlic. La Prueba de Personal Wonderlic (de Wonderlic) es un instrumento breve (12 minutos) de 50 reactivos basada originalmente en la Prueba Autoaplicable de Otis de Habilidad Mental. Las preguntas de la Wonderlic, cuyos ejemplos se muestran en la figura 7.3, consisten en analogías, definiciones, problemas lógicos y aritméticos, relaciones espaciales, comparaciones entre palabras y ubicación de dirección. Esta prueba se ha usado ampliamente como herramienta de selección en situaciones laborales durante muchos años, y la Observe la lista de números que se presenta a continuación. ¿Qué número debe seguir? 8 4 2 1 1/2 1/4 ? Suponiendo que las dos primeras afirmaciones son ciertas, ¿la última de ellas es: (1) cierta, (2) falsa, (3) incierta? El niño juega béisbol. Todos los jugadores de béisbol usan sombrero. El niño usa sombrero. Una de las siguientes figuras numeradas es la que más se diferencia de las otras. ¿Qué número tiene dicha figura? 1 2 3 4 5 Un tren recorre 60 metros en 1/5 de segundo. A la misma velocidad, ¿qué distancia recorrerá en tres segundos? ¿Cuántos de los seis pares de cifras de la siguiente lista son duplicados exactos? 3421 21212 558956 10120210 612986896 356471201 1243 21212 558956 10120210 612986896 356571201 Las horas de luz diurna y de oscuridad en SEPTIEMBRE son más similares a las horas de luz diurna y oscuridad de: (1) Junio (2) Marzo (3) Mayo (4) Noviembre FIGURA 7.3 Muestra de reactivos de la Prueba de Personal Wonderlic. (Reproducida con autorización de Wonderlic Personnel Test, Inc., Libertyville, IL.) 158 CAPÍTULO SIETE Tests de inteligencia investigación indica que es un dispositivo justo y válido para la selección en un amplio rango de puestos. A pesar de la brevedad de la prueba Wonderlic, hay registros de que sus coeficientes de confiabilidad y sus correlaciones con calificaciones de otras medidas de inteligencia llegan a .90. Pruebas de inteligencia colectivas grupales no verbales y justas para las culturas Las pruebas de ejecución aplicables individualmente y diseñadas como medidas de las habilidades intelectuales de personas con desventajas lingüísticas o culturales ya se trataron en este capítulo. Ahora veamos cómo también se han elaborado instrumentos complementarios que pueden administrarse en forma colectiva para evaluar la inteligencia de individuos con desventajas físicas o culturales. El antecesor de estas pruebas no verbales fue el Examen Army Beta del Ejército aplicado a los reclutas estadounidenses de la Primera Guerra Mundial, el cual incluía tareas como análisis de cubos, símbolos en dígitos, construcciones geométricas, laberintos y completamiento de imágenes. Esta prueba también resultó útil para evaluar a trabajadores civiles no capacitados y fue actualizada, reestandarizada y reeditada, por The Psychological Corporation, en 1978 como Examen Beta Revisado, segunda edición, y de nuevo en 1999 como Beta III. Test de Dibujo de Goodenough-Harris. Otra prueba no verbal adecuada para su administración colectiva (o individual) es el Test de Dibujo Goodenough-Harris (de The Psychological Corporation). A diferencia de Beta III, que es una prueba de tareas múltiples, la GoodenoughHarris sólo requiere que el examinando realice dibujos de un hombre, una mujer y de sí mismo. Más que calificarse por su mérito artístico, los dibujos se evalúan comparándolos con los doce dibujos modelo y por la presencia de 73 características específicas (por ejemplo, detalles corporales y de vestimenta, proporcionalidad de cabeza y tronco). La prueba no tiene límite de tiempo, pero suele durar entre 10 y 15 minutos. Las normas para niños de entre 3 y 15 años de edad se registran como calificaciones y rangos percentilares, en forma separada por sexo. También es interesante un sistema de calificación cuantitativa, el Dibuja una Persona: QSS, desarrollado por J. A. Naglieri que hace más objetiva la calificación del dibujo de personas. Pruebas justas para las culturas. Durante muchos años, los diseñadores de pruebas de inteligencia han sido atacados por la crítica de que estos instrumentos están repletos de sesgos culturales de la sociedad occidental de clase media. Goodenough y Harris tenían la esperanza de que su prueba mediría la inteligencia básica relativamente al margen de influencias culturales, pero ha quedado claro que la tarea de dibujar una figura humana está considerablemente alterada por las experiencias socioculturales específicas. Ha habido varios intentos relevantes por elaborar una prueba de inteligencia independiente de la cultura, pero esos esfuerzos no han tenido éxito alguno. Por consiguiente, el objetivo se modificó después por el de desarrollar una prueba de inteligencia que resultara justa para las culturas. Al diseñar una prueba de inteligencia justa para las culturas, se intenta usar sólo reactivos relacionados con experiencias comunes a un amplio espectro de culturas. Se omiten reactivos que incluyan construcciones lingüísticas particulares y otras tareas embebidas de cultura, tales como la velocidad de respuesta. En este sentido, el test de Goodenough-Harris es culturalmente justo. Otras pruebas muy utilizadas que probablemente también están cerca de resultar justas para la cultura son las Matrices Progresivas de Raven y la prueba de Inteligencia Justa para la Cultura. Matrices Progresivas de Raven. Esta prueba, que puede administrarse ya sea en forma individual o colectiva, demanda al examinado indicar cuál de diversas figuras o diseños pertenece a TESTS DE INTELIGENCIA COLECTIVOS 159 una matriz dada. Desarrollada en Gran Bretaña como una medida del factor de inteligencia general de Spearman, la prueba de Raven está disponible en The Psychological Corporation en formas de matrices progresivas Estándar, Coloreada y Avanzada. La Forma Estándar, para edades de 6 a 80 años, incluye cinco conjuntos en blanco y negro de 12 problemas cada uno y se termina en un lapso de 20 a 45 minutos. La Forma Coloreada, para niños de 5 a 11 años, individuos de edad avanzada y personas mental y físicamente impedidas, toma de 15 a 30 minutos en terminarse. La Forma Avanzada tiene un rango de los 11 años a la edad adulta y dura entre 40 y 60 minutos. Las normas más recientes, basadas en muestras británicas y estadounidenses, están disponibles en la Forma Avanzada, pero las tres formas requieren de reestandarización. Una prueba similar, pero más reciente que las Matrices Progresivas de Raven, es la Prueba de Analogías de Matriz-Forma Ampliada. Consiste en reactivos de razonamiento no verbal en cuatro categorías: Completamiento de Patrones, Razonamiento por Analogía, Razonamiento en Serie y Visualización Espacial. Los examinados (de entre 5 y 17 años de edad) son evaluados en un lapso de 20 a 25 minutos con 64 diseños abstractos del tipo de la matriz progresiva estándar, con un diseño por página. Las normas están basadas en una muestra representativa numerosa de individuos de 5 a 17 años de edad, residentes en Estados Unidos. Las puntuaciones crudas se convierten en calificaciones estándar, rangos percentilares y estaninas por intervalos de medio año y en equivalentes de edad de los 5 años a los 17 años 11 meses. The Psychological Corporation también tiene disponible una Prueba de Analogías de Matriz-Forma Abreviada, que consiste en 34 reactivos. Pruebas de Inteligencia Justas para las Culturas. Estas pruebas (de IPAT) están compuestas por tres escalas: la Escala 1, para niños de 4 a 8 años de edad y adultos retrasados mentales; la Escala 2, para niños entre 8 y 14 años y adultos de inteligencia promedio, y la Escala 3 para estudiantes universitarios, ejecutivos y otras personas de inteligencia superior al promedio. Cada escala contiene cuatro subpruebas (Series, Clasificaciones, Matrices y Condiciones) para medir la habilidad para percibir relaciones. Además de estas cuatro subpruebas justas para las culturas, la Escala 1 contiene cuatro subpruebas para evaluar información cultural y comprensión verbal. La Escala 1 no tiene límite de tiempo, pero toma alrededor de 22 minutos resolverla; las escalas 2 y 3 se llevan 121/2 minutos cada una. Prueba Naglieri de Habilidad No Verbal. La Prueba Naglieri de Habilidad No Verbal-Forma Multinivel (NNAT) (The Psychological Corporation) es similar a la de Raven en cuanto a su diseño de matrices. En la figura 7.4 se presentan ejemplos de los reactivos de la NNAT. El objetivo de esta prueba, así como el de otras pruebas no verbales, es proporcionar una medida no sesgada de la habilidad mental general de individuos con habilidades limitadas para la lengua inglesa o con otros problemas de aprendizaje. La NNAT-Forma Multinivel es adecuada para alumnos desde preescolar hasta el 12° grado, y tarda aproximadamente 30 minutos en completarse. Se proporcionan las Calificaciones del Índice de Habilidad No Verbal y otras calificaciones establecidas basadas en una muestra de estandarización de más de cien mil alumnos. Instrumentos tales como las Matrices Progresivas de Raven, las Pruebas de Inteligencia Justas para las Culturas, la Prueba Naglieri de Habilidad No Verbal y la Prueba de Inteligencia No Verbal Universal, representan esfuerzos encomiables por elaborar pruebas en que los distintos grupos culturales obtengan calificaciones iguales. No obstante, ahora se reconoce que tal vez sea imposible construir una prueba que mida las habilidades cognoscitivas independientemente de la experiencia. En cualquier caso, los resultados de la investigación realizada en países en vías de desarrollo indica que las diferencias en cuanto a los índices generales de alfabetismo y escolaridad son más importantes que la lengua, el país, la raza o la etnia para determinar diferencias “culturales” en las calificaciones de pruebas de inteligencia (vea Frisby, 1999). 160 Tests de inteligencia CAPÍTULO SIETE ? ? 1 2 3 4 5 1 Completar el patrón 2 3 4 5 Razonamiento por analogía ? ? 1 2 3 4 5 1 Razonamiento en serie FIGURA 7.4 2 3 4 5 Visualización espacial Ejemplos de reactivos de la Prueba Naglieri de Habilidad No Verbal-Forma Multinivel. (Derechos Reservados © 1996 por Harcourt, Inc. Reproducido con autorización. Reservados todos los derechos, “Naglieri Nonverbal Ability Test” y “NNAT” son marcas registradas propiedad de The Psychological Corporation e inscritas en Estados Unidos de Norteamérica y otras jurisdicciones.) Como se observa en la Prueba de Inteligencia No Verbal Universal, continúan los esfuerzos por desarrollar pruebas de habilidades cognoscitivas que sean justas para personas de distintas culturas, pero ello no significa que muchas antiguas pruebas de inteligencia muy sesgadas culturalmente deban abandonarse. Es digno de mención que en otros países el mercado de pruebas de inteligencia tradicionales es mucho mayor que el de pruebas justas para las culturas (Oakland y Hu, 1993). ¡Aparentemente, las personas de países no occidentales se preocupan menos que los estadounidenses de clase media por lo justo para las culturas que resulten las pruebas tradicionales de inteligencia tipo Binet! Pruebas de aptitud académica y de admisión Muchas pruebas de inteligencia colectivas se han diseñado específicamente con el propósito de medir la aptitud para el trabajo académico y se conocen como pruebas de aptitud académica. Algunas pruebas de inteligencia en grupo tienen un enfoque más amplio que éste, pero aun así su contenido es similar al de las medidas de habilidad académica: tienen un gran contenido de reactivos verbales, numéricos y otros de tipo escolar. A lo largo del tiempo se han usado muchas pruebas distintas con propósitos de admisión a las universidades, incluyendo el Examen Psicológico del Consejo Estadounidense sobre Educación TESTS DE INTELIGENCIA COLECTIVOS 161 (ACE), las Pruebas de Habilidad Universitaria y Escolar (SCAT), la Prueba de Habilidad Académica del Consejo de Exámenes de Ingreso a la Universidad (ahora denominada Prueba de Evaluación Académica, o SAT), y la Evaluación del Programa de Pruebas Universitarias Estadounidenses (ACT). Debido a su extenso uso, se describirán con cierto detalle las últimas dos de estas baterías. Prueba de Evaluación Académica (SAT). Antes de 1994, la SAT, anteriormente denominada Prueba de Habilidad Académica, consistía en dos secciones que producían dos calificaciones: Verbal (SAT-V) y Matemática (SAT-M). La sección verbal estaba compuesta por reactivos de analogías verbales, antónimos, información, comprensión de lectura y completamiento de enunciados; la sección matemática consistía en reactivos de aritmética, álgebra, geometría, cuadros y gráficas y razonamiento lógico. Ambas secciones se calificaron en una escala estándar con una media de 500 y desviación estándar de 100, con las calificaciones en un rango de 200 a 800. Aunque cada año se desarrollaron versiones nuevas de la SAT, las calificaciones de cada nueva forma se escalaron hacia el grupo de estandarización de 1941. Este grupo estuvo constituido por diez mil alumnos del noreste de Estados Unidos, en su mayoría varones de raza blanca y con nivel de ingresos alto, los cuales estaban solicitando su admisión a las escuelas de la Ivy League. Como es comprensible, los estudiantes de preparatoria de principios de la década de 1990 obtuvieron calificaciones algo inferiores a la media de 500 lograda por este grupo. La versión actual de la SAT, que se administró primero a nivel nacional en marzo de 1994, está compuesta por dos partes, SAT I: Razonamiento, y SAT II: Pruebas de Materia. SAT I consiste en secciones de Razonamiento Verbal y Razonamiento Matemático con una duración de 75 minutos cada una. La sección de Razonamiento consta de 78 reactivos de opciones múltiples en Analogías, Completamiento de Enunciados y Lectura Crítica. La sección de Razonamiento Matemático está formada por 60 reactivos en Matemáticas Regulares, Comparaciones Cuantitativas y Respuestas Producidas por el Alumno. Se pide a los examinados que lleven al examen su propia calculadora de bolsillo, de modo que puedan calcular las respuestas de las subpruebas matemáticas. Así como en versiones anteriores de la SAT, las puntuaciones crudas de las Pruebas de Razonamiento se convierten a una escala de calificación estándar que tiene una media de 500 y una desviación estándar de 100. La calificación de la versión revisada de la SAT, la Prueba de Evaluación Académica, se basa en el desempeño de más de un millón de estudiantes que se sometieron a la prueba en 1994. Las calificaciones se recalcularon para reflejar la población estudiantil mayor y más diversa de la actualidad, lo que dio como resultado un aumento de la calificación promedio de Razonamiento Verbal de aproximadamente 80 puntos, y de la calificación promedio del Razonamiento Matemático en alrededor de 20 puntos. Además de las calificaciones estándar en las Pruebas de Razonamiento Verbal y Matemático, un informe de calificaciones de SAT da puntuaciones crudas y rangos percentilares para cada subprueba, rangos de calificaciones basadas en error estándar de medida de las pruebas y equivalentes de percentiles nacionales y estatales para estudiantes universitarios del último año. Los resultados de múltiples estudios indican que la SAT-I es un predictor válido para el desempeño en la universidad, específicamente de los promedios de grado durante el primer semestre universitario, pero también predice con eficacia los promedios posteriores y el desempeño en otros exámenes académicos. Las 20 Pruebas de Materia SAT pertenecen a cinco áreas generales: Inglés, Historia y Estudios Sociales, Matemáticas, Ciencias y Lenguas. Se obtiene una muestra directa de las de redacción del examinado, y también se administran preguntas de opción múltiple sobre inglés escrito, dicción y expresión lógica. Así como sucede con las calificaciones de la SAT-I, las calificaciones de la SAT-II se registran en una escala de calificación estándar con una media de 500 y desviación estándar de 100. 162 Tests de inteligencia CAPÍTULO SIETE Pruebas Universitarias Estadounidenses. El segundo examen de admisión a la universidad más usado es el constituido por las Pruebas Universitarias Estadounidenses (ACT), el cual se aplica cinco veces al año tanto en Estados Unidos como en otros países. Hay cuatro subpruebas en las ACT: Inglés, Matemáticas, Lectura y Razonamiento Científico. A quienes se someten a este examen se les entregan calificaciones de las cuatro subpruebas, así como una calificación compuesta (el promedio de las cuatro subpruebas redondeado al entero más cercano) y siete subcalificaciones. Las calificaciones compuestas y las de las subpruebas van de 1 a 36, con una media de 18; las siete subcalificaciones están entre 1 y 18, con una media de 9. Las confiabilidades de las cuatro subpruebas van desde .78 para Razonamiento Científico hasta .91 para Inglés, con coeficientes de consistencia interna algo más elevados que los coeficientes de formas paralelas. Como podría esperarse debido a su extensión más corta, las confiabilidades de las subcalificaciones son inferiores a las de las subpruebas, y están entre .67 para Geometría Plana/Trigonometría y .85 para Uso/Mecánica del Inglés. Exámenes del Registro de Graduados. La prueba más popular para admisión en una escuela de posgrado es el Examen del Registro de Graduados (GRE). Consiste en una Prueba General que mide la aptitud para el trabajo de posgrado y una serie de Pruebas de Materia que miden el aprovechamiento en una materia en particular. La Prueba General contiene tres secciones calificadas: una sección Verbal (V) de 30 minutos con 30 preguntas, una sección Cuantitativa de 45 minutos con 28 preguntas, y una sección Analítica (A) de 60 minutos con 35 preguntas. Los reactivos de la sección Verbal consisten en analogías, antónimos, completamiento de enunciados y comprensión de lectura. Los reactivos de la sección Cuantitativa incluyen comparación cuantitativa, cuantitativa discreta y problemas de interpretación de datos. Los reactivos de las pruebas analíticas constan de ejercicios de razonamiento analítico y de razonamiento lógico. La Prueba General produce calificaciones separadas: Verbal (GRE-V), Cuantitativa (GRE-Q), y Análisis (GRE-A), con la misma escala de calificación estándar que la SAT. Las Pruebas de Materia GRE son exámenes de tres horas sobre materias en particular (vea el capítulo 6). RESUMEN Las definiciones y teorías de inteligencia, un antiguo término latino reintroducido durante el siglo XIX, se dieron en abundancia en el siglo pasado. Entre las teorías más prominentes sobre la inteligencia figuran las relacionadas con el enfoque psicométrico (Spearman, Thurstone, Guilford, Vernon, Cattell), el enfoque del desarrollo (Piaget), y el enfoque del procesamiento de información (Sternberg, Gardner, Das y Naglieri). Varias pruebas sensoriomotrices se usaron en los primeros intentos por evaluar la inteligencia, pero la primera prueba práctica de inteligencia fue elaborada por Alfred Binet y Théodore Simon durante la primera década del siglo XX. La Escala Binet-Simon, una serie de tareas relacionadas con la escuela y ordenadas por dificultad creciente, proporciona una calificación de edad mental para cada examinando. Entre las múltiples traducciones y revisiones de la Escala Binet-Simon, la más popular fue la Escala de Inteligencia Stanford-Binet, que fue publicada por primera vez en 1916 y revisada en 1937 y 1960, y cuyo autor fue Lewis Terman. La prueba producía un valor llamado razón de CI, definida como CI ⫽ 100 MA 冢 CA 冣 aunque una desviación del CI podía también calcularse en la revisión de 1960. RESUMEN 163 La cuarta edición de la Escala Stanford-Binet representó un considerable alejamiento de las ediciones previas. La elaboración de la cuarta edición, que incluía una teoría y una metodología psicométrica más complejas, proporcionaba calificaciones separadas en 15 pruebas y cuatro áreas, así como una calificación compuesta. El énfasis al diseñar la cuarta edición residía no sólo en identificar el retraso mental, sino también en proporcionar información para diagnosticar causas específicas de problemas de aprendizaje. Durante muchos años, las primeras ediciones de la Escala Stanford-Binet funcionaron como un patrón contra el cual se comparaban otras pruebas de inteligencia. Sin embargo, en la segunda mitad del siglo pasado, las escalas de inteligencia de Wechsler se volvieron más populares. A diferencia de las subpruebas de la Stanford-Binet, que se agrupan de acuerdo con niveles de edad, las subpruebas de las escalas Wechsler se dividen en aproximadamente diez categorías de acuerdo con su contenido. Asimismo, las calificaciones de las escalas Wechsler proporcionan tres tipos de CI de desviación: Verbal, de Ejecución y de Escala Completa. Sumado a los tres CI, el patrón de calificaciones escaladas de las subpruebas en las pruebas de Wechsler puede proporcionar información clínica útil para el diagnóstico de ciertas características y trastornos de la personalidad. Entre otras pruebas de inteligencia de rango amplio se encuentran las Escalas de Habilidad Diferencial (DAS), la Prueba Detroit de Habilidad para el Aprendizaje (DTLA), la Batería de Evaluación para Niños de Kaufman (K-ABC), las Pruebas de Habilidades Cognoscitivas de Woodcock-Johnson III (WJ III) y el Sistema de Evaluación Cognoscitiva de Das-Naglieri (CAS). Las últimas tres merecen especial mención por sus bases en la teoría psicométrica y neuropsicológica. Como representantes de las múltiples pruebas de inteligencia con fines específicos que se aplican individualmente figuran las pruebas pictóricas como la Escala de Madurez Mental de Columbia y otras pruebas de tarea única como los Laberintos de Porteus y los Diseños de Cubos de Kohs. Las pruebas de inteligencia no verbales de aplicación individual, diseñadas para personas con desventajas lingüísticas o físicas incluyen las baterías de pruebas de ejecución como las Pruebas Hiskey-Nebraska de Habilidad de Aprendizaje, la Escala Leiter de Desempeño Internacional, la Prueba Comprensiva de Inteligencia No Verbal y la Prueba Universal de Inteligencia No Verbal. De uso más extenso que las pruebas de inteligencia individuales en escuelas y otras organizaciones, son las pruebas de inteligencia de aplicación colectiva. Estas pruebas provienen de los Exámenes Army Alfa y Army Beta del Ejército, que se basan en el trabajo pionero de Arthur Otis y otros psicólogos durante la Primera Guerra Mundial. Como ejemplos de las pruebas de inteligencia colectivas actuales están disponibles también la Prueba de Habilidad Escolar de OtisLennon, la Prueba de Habilidades Cognoscitivas y la Prueba de Personal Wonderlic, así como las pruebas en grupo supuestamente justas para las culturas, tales como la Prueba de Dibujo de Goodenough-Harris, las Matrices Progresivas de Raven, las Pruebas de Inteligencia Justas para las Culturas y la Prueba de Habilidad No Verbal de Naglieri. Algunas pruebas de habilidad académica, como la Prueba de Evaluación Académica (SAT), las Pruebas Universitarias Estadounidenses (ACT) y los Exámenes del Registro de Graduados (GRE), en particular, se usan ampliamente para el ingreso a universidades e instituciones profesionales. P R E G U N TA S Y A C T I V I D A D E S 1. Elija una de las teorías sobre la inteligencia examinadas en este capítulo para efectuar un análisis más profundo y escriba un breve ensayo sobre su investigación. 164 CAPÍTULO SIETE Tests de inteligencia 2. ¿Cuál es la razón CI para un niño de 8 años 9 meses si su calificación en la Escala de Inteligencia Stanford-Binet es igual a la edad mental de 6 años 5 meses? 3. ¿Por qué las calificaciones del CI de desviación se consideran psicométricamente superiores a las de la razón CI? 4. Explique el desarrollo de la Escala de Inteligencia de Stanford-Binet desde las primeras pruebas de Binet hasta la cuarta edición de la escala. 5. Enumere y describa las ediciones actuales de la serie de pruebas de inteligencia de Wechsler, incluyendo el rango de edad apropiado para cada una así como las subpruebas que abarcan. 6. Compare las escalas Wechsler con las ediciones anteriores y recientes de la escala Stanford-Binet en términos de rango de edad, tipos de habilidades medidas, justicia de las pruebas para las personas con desventajas físicas o culturales, y otras características relevantes. 7. ¿Qué pruebas de inteligencia recomendaría para administrar en cada uno de los siguientes individuos? (a) Un niño de 5 años de edad en quien se sospecha retraso mental; (b) un grupo de aborígenes de las Islas del Sur; (c) un niño de 10 años con parálisis cerebral; (d) un adulto normal angloparlante; (e) un niño de 7 años totalmente ciego; (f) un adulto esquizofrénico, y (g) un grupo de alumnos de la escuela elemental con desventajas culturales. 8. Elija una de las siguientes categorías de pruebas de inteligencia analizadas en este capítulo y un instrumento publicado que sea representativo de esa categoría: pruebas pictóricas individuales; escalas de desarrollo para niños pequeños; pruebas de inteligencia colectivas grupales de multinivel; pruebas de inteligencia colectivas grupales no verbales. Obtenga tanta información como le sea posible sobre dos pruebas de los libros de texto sobre evaluación The Mental Measurements Yearbooks, Tests, Test Critiques y otras fuentes (consulte The Psychological Abstracts y Education Index en particular). Escriba una reseña comparativa de esas pruebas centrándose en el diseño y el formato, los procedimientos de administración y calificación, las normas, la confiabilidad, la validez y la investigación relacionada (vea la pregunta 8 de la sección de Preguntas y Actividades en el capítulo 6). Deduzca conclusiones apropiadas en cuanto a los méritos relativos de las dos pruebas que haya seleccionado. 9. ¿Cuál es la diferencia entre una prueba independiente de la cultura y otra justa para las culturas? ¿Es posible desarrollar una prueba de alguno de estos dos tipos y, de ser así, para qué se usaría? CAPÍTULO OCHO DIFERENCIAS INDIVIDUALES Y DE GRUPO EN LAS HABILIDADES MENTALES Este capítulo hace una pausa en la descripción de la multiplicidad de instrumentos de evaluación cognoscitiva y se concentra más bien en tratar acerca de las diferencias individuales y de grupo detectadas en las habilidades mentales. La investigación y las aplicaciones que conciernen a las diferencias en las habilidades humanas caen en el terreno de la picología diferencial. El presente capítulo se limita a la descripción e interpretación de los hallazgos empíricos que conciernen a las diferencias en inteligencia y variables cognoscitivas relacionadas. Los lectores que estén interesados en un tratamiento más comprensivo de la psicología diferencial encontrarán un buen punto de partida en el libro del propio autor de la presente obra Human Differences (Aiken, 1999). RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD Los niños y los adultos que tienen habilidades muy altas o muy bajas son de particular interés para los psicólogos y educadores preocupados por identificar a individuos situados en todos los niveles de habilidad —y por diseñar programas para tratarlos, entrenarlos y educarlos. Por supuesto, las diferencias entre las habilidades de un solo individuo pueden ser tan grandes como las detectadas entre un grupo. Por ejemplo, los niños que obtienen puntuaciones muy altas o muy bajas en las pruebas de inteligencia no por fuerza califican alto o bajo en cada medida de una habilidad cognoscitiva específica. Una persona puede ser buena en una habilidad cognoscitiva, deficiente en otra y promedio en otras más. En cualquier caso, se ha dedicado mucha atención profesional y popular a los individuos que obtienen puntuaciones muy bajas o muy altas en las pruebas de habilidad mental general. Se trata de personas retrasadas mentales o superdotadas que, dependiendo de circunstancias particulares y del punto de vista, pueden ser una pesadilla o una bendición para la sociedad. Retraso mental La razón principal de Alfred Binet para elaborar la primera prueba práctica de inteligencia fue identificar a los niños que tenían poca oportunidad de lograr un progreso razonable en las clases 165 166 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales regulares de la escuela. Por ende, no es sorprendente que uno de los usos más populares de las pruebas de inteligencia general haya sido el diagnóstico del retraso mental. Diagnóstico y clasificación. La administración de una prueba de inteligencia no es obligatoria en el diagnóstico del retraso mental, pero, por lo general, al hacer el diagnóstico se tienen en cuenta las calificaciones obtenidas en la prueba de inteligencia junto con medidas de logro académico y vocacional, habilidades psicomotrices, madurez socioemocional y otras conductas adaptativas. Las conductas adaptativas pueden evaluarse mediante un análisis informal de la historia de la persona y su conducta presente, o mediante la administración de un instrumento estandarizado como las Escalas de Conducta Adaptativa de Vineland (del American Guidance Service) o las Escalas de Conducta Adaptativa AAMR (de pro.ed). El examinador llena las Escalas de Conducta Adaptativa de Vineland o AAMR con la información proporcionada por un padre, maestro u otra persona que esté familiarizada con la conducta del niño.1 Las etiquetas socialmente despectivas como tarado, imbécil e idiota, que se emplearon en los primeros años del siglo XX para designar a los grados alto, medio y bajo de la “debilidad mental” ya no son utilizadas por los psicólogos profesionales y educadores de Estados Unidos. Al inicio de la década de 1980, la Asociación Estadounidense de la Deficiencia Mental cambió su nombre por el de Asociación Estadounidense del Retraso Mental, y desde entonces se han hecho esfuerzos por reemplazar el término retraso mental con un término quizá menos estigmatizante como deterioro mental o discapacidad del desarrollo. En cualquier caso, se han recomendado varios sistemas para la clasificación del retraso mental que hacen uso de las calificaciones de CI. Entre éstos se encuentran los sistemas de clasificación de la Asociación Nacional para los Niños Retrasados (NARC) y la Asociación Psiquiátrica Estadounidense (APA). El sistema NARC consta de las siguientes categorías: marginalmente independiente (CI = 50 a 75), semidependiente (CI = 25 a 50) y dependiente (CI = 0 a 25). La Asociación Psiquiátrica Estadounidense (1994) menciona tres requisitos para diagnosticar el retraso mental: 1. Un funcionamiento intelectual significativamente inferior al promedio; un CI aproximado de 70 o menos en una prueba de CI administrada de manera individual (para los infantes, un juicio clínico de funcionamiento intelectual significativamente inferior al promedio). 2. Déficits o deterioros concurrentes en el comportamiento adaptativo presente (es decir, la efectividad de la persona para cumplir los estándares que su grupo cultural espera para su edad) al menos en dos de las siguientes áreas: comunicación, autocuidado, vida en el hogar, habilidades sociales/interpersonales, uso de recursos de la comunidad, autodirección, habilidades académicas funcionales, trabajo, tiempo libre, salud y seguridad. 3. El inicio es antes de los 18 años. (p. 50). Los cuatro niveles de severidad en el sistema de clasificación del retraso mental de la APA son retraso mental leve (nivel CI de 50-55 a aproximadamente 70); retraso mental moderado (nivel CI de 35-40 a 50-55); retraso mental severo (nivel CI de 20-25 a 35-40); retraso mental profundo (nivel CI por debajo de 20 o 25). Los individuos con retraso mental leve requieren apoyo intermitente, los de retraso moderado requieren apoyo limitado, los de retraso severo requieren 1El reconocimiento de la importancia de los logros académicos y vocacionales, las habilidades motrices, la madurez so- cioemocional y otros indicadores del funcionamiento independiente, y el mantenimiento y la habilidad para cumplir las demandas culturales en cuanto a la conducta personal y social, ha llevado a la inclusión de la conducta adaptativa en el diagnóstico y clasificación del retraso mental. RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 167 considerable apoyo, y los que presentan retraso profundo necesitan apoyo sólido en sus actividades constructivas y funcionamiento social. En las escuelas se usa en ocasiones otro sistema de clasificación que enfatiza la conducta adaptativa en lugar de la deficiencia mental: deterioro mental susceptible de recibir educación, para niños que tienen retraso leve; deterioro mental susceptible a recibir capacitación, para niños con retraso moderado; entrenable (dependiente), para niños con retraso severo, y custodial (apoyo para la vida), para los que tienen retraso profundo (Sattler, 1988). La definición del retraso mental propuesta por la Asociación Estadounidense para el Retraso Mental (1992) se basa menos en el concepto de CI. Esta definición describe el retraso mental en términos de limitaciones sustanciales en el funcionamiento manifiesto caracterizadas por un funcionamiento intelectual significativamente inferior al promedio, el cual se presenta antes de los 18 años, y que existe de manera concurrente con limitaciones relacionadas en dos o más de las siguientes áreas de habilidades adaptativas: comunicación, vida en el hogar, uso de la comunidad, salud y seguridad, tiempo libre, autocuidado, habilidades sociales, autodirección, funcionalidad académica y trabajo. Sin embargo, esta definición ha sido criticada por algunos profesionales (por ejemplo, Jacobson y Mullick, 1992) y no se ha usado de manera amplia. En la tabla 8.1 se presentan descripciones de las conductas características de los niños en las cuatro categorías designadas por la Asociación Psiquiátrica Estadounidense para tres periodos del desarrollo. Como se describe en esa tabla, las conductas esperadas varían con el grado de retraso y la edad cronológica del individuo. Por supuesto, esas conductas son normas o promedios, y el grado en que la conducta de un individuo en particular corresponda a las normas varía con sus antecedentes socioculturales, otras habilidades o características, y circunstancias adicionales. Incidencia y causas del retraso. Se estima que entre 2 y 21/2% de la población de Estados Unidos sufre retraso mental, con un porcentaje menor de mujeres que de hombres.2 El número de retrasados mentales es mayor entre los blancos que en todos los otros grupos étnicos, pero el porcentaje de escolares negros identificados como retrasados mentales es más alto que para cualquier otro grupo étnico, seguido de los indígenas estadounidenses, los blancos, los hispanos, y los asiáticos/isleños del Pacífico, en ese orden (U.S. Department of Education, 1997). Si bien tanto los factores genéticos como los ambientales participan en su etiología, en tres cuartas partes de los casos se desconoce la causa exacta del retraso mental (Zigler y Hodapp, 1986). En Estados Unidos el retraso mental leve está asociado con una serie de variables demográficas relacionadas con la baja posición socioeconómica: nivel educativo bajo, pertenencia a un grupo minoritario, desempleo o niveles bajos de empleo, mala nutrición, mala salud, y condiciones de vida que suelen estar por debajo del estándar. También contribuyen al grado de retraso mental el descuido, los bajos niveles de estimulación intelectual, la escasez de experiencias formales de aprendizaje, modelos inadecuados de lenguaje y los ambientes no estructurados e impredecibles en que viven muchos niños. El CI de los niños con retraso mental que al parecer están libres de patología orgánica, por lo común está mucho más cerca del CI promedio de la población general que el de quienes pa2Sin embargo, el porcentaje exacto varía con la calificación CI límite y las pruebas y normas específicas a partir de las cuales se determinó. Flynn (2000) afirma que, debido a que el criterio CI de 70 para un diagnóstico de retraso mental ha cambiado de las normas basadas sólo en los blancos a normas basadas en todos los estadounidenses, la proporción de individuos a quienes puede clasificarse como retrasados mentales ha fluctuado de una alta de 1 en 23 a una baja de 1 en 213 durante los pasados 50 años. 168 CAPÍTULO OCHO TABLA 8.1 Diferencias individuales y de grupo en las habilidades mentales Cambios conductuales relacionados con la edad en las personas con retraso mental RETRASO MENTAL LEVE (CI = 50-70) Edad preescolar (0-5): más lentos que el promedio para caminar, comer por sí mismos y hablar, pero el observador casual puede no advertir el retraso. Edad escolar (6-21): aprenden las habilidades perceptuales-motrices y cognoscitivas (lectura y aritmética) en niveles de tercero a sexto grado al final de la adolescencia; pueden aprender a adaptarse a la sociedad. Adulto (21 en adelante): por lo general alcanzan las habilidades sociales y vocacionales que necesitan para cuidar de sí mismos; requieren orientación y ayuda cuando se encuentran bajo estrés económico o social inusual. RETRASO MENTAL MODERADO (CI = 35-49) Edad preescolar (0-5): retraso perceptible en la mayor parte del desarrollo, sobre todo en el habla; pueden ser entrenados en una variedad de actividades de autoayuda. Edad escolar (6-21): aprenden a comunicarse y a encargarse de las necesidades elementales de salud y seguridad; aprenden habilidades manuales sencillas, pero logran poco o ningún progreso en lectura y aritmética. Adulto (21 en adelante): bajo condiciones de supervisión, realizan tareas sencillas que requieren poca o ninguna habilidad; participan en juegos sencillos y se trasladan solos en lugares familiares; son incapaces de lograr su propia manutención. RETRASO MENTAL SEVERO (CI = 20-34) Edad preescolar (0-5): demora pronunciada en el desarrollo motriz; no hablan o hablan poco; se benefician del entrenamiento en autoayuda (por ejemplo, a comer por sí mismos). Edad escolar (6-21): por lo general caminan a menos que esté presente una discapacidad psicomotriz; pueden entender y responden al habla; pueden beneficiarse del entrenamiento en hábitos de salud y otros hábitos aceptables. Adultos (21 en adelante): siguen rutinas diarias y contribuyen a su cuidado; necesitan dirección y supervisión cercanas en un ambiente controlado. RETRASO MENTAL PROFUNDO (CI INFERIOR A 20) Edad preescolar (0-5): retrasos extremos en todas las áreas; habilidades sensoriomotrices mínimas; requiere cuidado de una enfermera. Edad escolar (6-21): es obvio que están demorados en todas las áreas del desarrollo; responden con emociones básicas y pueden beneficiarse del entrenamiento del uso de las extremidades y la boca; requieren de supervisión cercana. Adulto (21 en adelante): pueden ser capaces de caminar y hablar de manera primitiva; se benefician de la actividad física regular; no pueden cuidarse por sí mismos y requieren del cuidado de una enfermera. decen trastornos orgánicos demostrables, es decir, en el rango del retraso leve. El retraso extremo de las personas que caen en las categorías severa y profunda, y en algunos casos en la categoría moderada, se debe a una variedad de trastornos que llevan al daño del sistema nervioso central: problemas genéticos importantes como galactosemia, gargolismo, fenilcetonuria y la enfermedad de Tay-Sachs; condiciones dependientes de la genética como cretinismo, hidrocefalia y microcefalia; anormalidades cromosómicas como el síndrome de Down y el síndrome de RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 169 Klinefelter; infecciones intrauterinas; trauma del nacimiento (lesiones en la cabeza, privación o exceso de oxígeno); y enfermedades contraídas durante la infancia (meningitis, encefalitis, envenenamiento con plomo, y otras). La causa genética más común del retraso mental es el síndrome de Down, y la segunda causa más común es el síndrome del X frágil. En muchos casos, los niños retrasados en los que se desconoce la base orgánica para su condición resultan tener el síndrome del X frágil (Dykens, Hodapp y Leckman, 1994). Es probable que la investigación futura revele otras causas genéticas del retraso mental. Los factores biológicos también pueden desempeñar un papel en las diferencias culturales en el retraso mental. Por ejemplo, las condiciones mencionadas en el párrafo anterior explican un porcentaje relativamente pequeño del número total de niños retrasados en los países más desarrollados, donde el cuidado adecuado de la salud de la madre y el infante es la regla. En los países menos desarrollados, donde la desnutrición es más común y el cuidado de la salud menos adecuado, los trastornos de desnutrición explican una alta proporción de los casos de retraso mental. Tratamiento del retraso mental. En ocasiones el retraso mental puede recibir tratamiento médico cuando la causa se identifica de manera oportuna. Sin embargo, en la mayoría de los casos la condición es incurable, y se prescriben entrenamiento y educación en lugar de tratamientos físicos o químicos. Las personas retrasadas que reciben apoyos educacionales y sociales apropiados a lo largo de un periodo sostenido por lo general mejoran. Ese cuidado se proporciona principalmente en el hogar, aunque también se dispone de instalaciones residenciales privadas y de instituciones operadas por el Estado. En Estados Unidos la educación especial para los retrasados mentales y otros niños discapacitados es un mandato legal (Acta de Educación para todos los Niños Discapacitados, P.L. 94-142) y está disponible en todo el país. Sin embargo, dicha educación no es verdaderamente “especial”, más bien consiste en procedimientos instruccionales estándar combinados con una mayor atención a las necesidades de los estudiantes. Proyectos de alcance nacional como el Proyecto Abecedarian (Campbell y Ramey, 1994; Ramey et al., 2000), el Proyecto Ypsilanti (Schweinhart y Weikart, 1997) y el Head Start se basaron en la idea de modificar y mejorar el desarrollo intelectual y social (Zigler, 1988). Dichos programas de intervención produjeron una eficiencia algo mayor en el aprendizaje y la adaptación social, pero las ganancias a largo plazo en las habilidades cognoscitivas fueron mínimas (Robinson, Zigler y Gallagher, 2000). Superdotados En el otro extremo del continuo de inteligencia del retraso mental se encuentran los superdotados. El estudio longitudinal más comprensivo de personas con CI elevado fue conducido por Lewis Terman y sus asociados (Terman y Oden, 1959). Varios cientos de niños que calificaron en el 1% superior de la distribución de CI en la Escala de Inteligencia de Stanford-Binet fueron seguidos a lo largo de sus vidas a intervalos de cinco años a partir de 1921. Después de la muerte de Terman en 1956, el estudio fue continuado por M. H. Oden (1968) y Robert Sears (1977). El propósito del estudio era obtener información sobre el éxito ocupacional, la salud física y mental, la adaptación social y otras variables asociadas con la inteligencia elevada. A partir de cuestionarios se obtuvieron detalles de la niñez, educación, personalidad, carrera(s), familia, salud física y mental, tensiones vitales de los participantes y sobre su adaptación a la vejez. 170 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Características de los niños de Terman. Los resultados del estudio de Terman parecen contradecir una serie de mitos populares concernientes a los superdotados: que los niños brillantes son enfermizos, que se acaban pronto (“maduran pronto, se pudren pronto”) y que el genio es cercano a la demencia. Esos niños mentalmente superdotados, o “termitas”, eran físicamente superiores a otros niños: pesaron más al nacer y siguieron pesando más que el promedio; caminaron y hablaron más pronto y maduraron a una edad más temprana que el promedio, y su salud general era mejor. Además, cuando adultos mantuvieron su superioridad mental y física. Los datos de seguimiento revelaron que, en comparación con los adultos promedio, los superdotados obtuvieron más grados, alcanzaron mayor éxito ocupacional y mayores salarios, tenían un personal y social equivalente o mejor, lograron mayor éxito matrimonial y disfrutaban de mayor salud física. Sin embargo, el mayor éxito ocupacional de las “termitas” pareció deberse a sus mayores logros educativos más que a su CI superior per se. Cuando se controlaba estadísticamente el nivel educativo, las CI obtenidas en la niñez no tenían relación con el logro ocupacional. Muchas de las “termitas” no lograron vivir de acuerdo con su potencial y cuando adultos expresaron pesar por no haberlo hecho (Gardner, 1997). Los hallazgos de Terman de una mejor adaptación y menor tasa de trastornos mentales entre los superdotados no dejaron de ser cuestionados. Hughes y Converse (1962) sugirieron que el hecho de que en principio los niños hubieran sido seleccionados sobre la base de las de los maestros, así como por el CI, puede haber sesgado la muestra a favor de los niños con buen comportamiento. Los niños superdotados de Terman también tendían a tener una posición socioeconómica por encima del promedio, lo cual también se asocia con una mejor adaptación personal. Personalidad de los superdotados. La investigación subsecuente ha planteado también preguntas concernientes a los ajustes de personalidad de los superdotados. Webb y Meckstroth (1982) caracterizaron a los niños superdotados como más inquisitivos, activos y llenos de energía, pero también percibidos por los otros como odiosos, indisciplinados, de fuerte voluntad, traviesos, difíciles de manejar y rebeldes. Esos investigadores advirtieron que los niños superdotados a menudo son problemáticos para sus padres y se sienten atribulados. Esto parece ser más el caso de los niños enormemente talentosos con CI por encima de 150 que de niños moderadamente talentosos con CI entre 130 y 150. Los niños sumamente talentosos, por lo general, pueden leer antes de la edad para ingresar al jardín de niños y son superiores en la resolución de problemas y en otros tipos de pensamiento abstracto. Muchos se fascinan con los patrones numéricos y musicales y con la creación de nuevos enfoques y soluciones (Jackson, 1992). Pueden memorizar una partitura musical entera, averiguar cómo identificar todos los números primos o descubrir por sí mismos las reglas algebraicas (Feldman y Goldsmith, 1991; Winner, 1996). Al igual que otros niños y adultos, los individuos superdotados son susceptibles a los trastornos psicológicos (Silverman, 1995). Al darse cuenta de que son diferentes a los otros niños, quienes son extremadamente superdotados pueden volverse independientes, inconformes, introvertidos y muy egocéntricos acerca de sus habilidades. Supuestamente conscientes de la envidia de sus compañeros de juegos y abrumados por las altas expectativas, tienden a tener una tasa más alta de problemas socioemocionales. Quienes son particularmente sensibles y están bajo gran presión para desempeñarse en público pueden deprimirse, usar drogas, no lograr desempeñarse al nivel de su habilidad y, en ocasiones, marginarse por completo de la sociedad (Janos y Robinson, 1985; Ochse, 1991). Niños superdotados para las matemáticas. Se han conducido muchas investigaciones de niños con habilidades especiales altamente desarrolladas. Por ejemplo, Julian Stanley y sus coinvestigadores (Keating, 1976; Stanley, Keating y Fox, 1974) condujeron una serie de estudios de RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 171 preadolescentes que obtuvieron calificaciones estándar de 700 y superiores en la Prueba de Aptitud Escolar-Matemáticas (SAT-M). Los niños fueron sometidos a varias pruebas psicológicas y supervisados mientras participaban en cursos universitarios de matemáticas. Como sucede con otros niños superdotados, los niños con talento para las matemáticas a menudo aprenden asuntos complejos sin que se les enseñen de manera explícita. Los investigadores encontraron que esos niños no sólo se benefician de la instrucción a nivel universitario en matemáticas, sino que, a pesar de las preocupaciones iniciales de que pudieran ser incapaces de adaptarse al ambiente universitario, la mayoría de ellos de hecho se adaptó bien. A diferencia de otros hallazgos que conciernen a las personas superdotadas y creativas, los adolescentes con talento para las matemáticas —en el estudio de Stanley— tendieron a mostrar buena adaptación personal y alta motivación (sobre todo en matemáticas). Educación de los niños superdotados y talentosos. Los maestros y el personal administrativo escolar utilizan el término “superdotados y talentosos” para designar a los niños con altas habilidades intelectuales u otras habilidades cognoscitivas. Por lo general, los niños en esta categoría tienen cocientes intelectuales aproximados de 130 y más altos, pero las clasificaciones y recomendaciones de los maestros, y otros criterios, también pueden contribuir a la designación de un niño como superdotado o talentoso. De acuerdo con la Ley Pública 95-561: Niños superdotados y talentosos significa niños, y siempre que sea aplicable, jóvenes, a quienes se identifica al nivel de preescolar, primaria o secundaria como poseedores de habilidades demostradas o potenciales que dan evidencia de una alta capacidad de desempeño en áreas como la intelectual, creativa, académica específica o de liderazgo, o en las artes visuales o interpretativas y quienes por esa razón requieren servicios o actividades que por lo general no son proporcionadas por la escuela.3 De acuerdo con los datos publicados por la Oficina para los Derechos Civiles del Departamento de Educación de Estados Unidos (1997), aproximadamente 6% de los escolares estadounidenses son superdotados o talentosos. Porcentajes algo más altos de mujeres que de hombres y porcentajes mayores de asiáticos/isleños del Pacífico y blancos que de indígenas americanos, hispanos y negros son clasificados como superdotados o talentosos. Algunos son excepcionales en matemáticas, otros en razonamiento verbal, otros en música o arte y otros más en liderazgo social. Las estrategias para educar a los niños superdotados y talentosos incluyen la admisión temprana a la escuela, aceleración y salto de grados, estudio avanzado, estudio independiente, uso de mentores, enriquecimiento, clases especiales, recintos con recursos especiales y escuelas especiales. En la actualidad casi todos los sistemas escolares en Estados Unidos tienen algún tipo de programa instruccional especial para los niños superdotados. Los estudiantes inscritos en esos programas pasan la mayor parte de su tiempo escolar en las aulas regulares, pero cada semana son sacados de clase para participar en actividades especiales para los superdotados. A lo largo de Estados Unidos también se han establecido centros regionales para los niños superdotados y talentosos, así como otras instituciones dedicadas a los estudiantes con habilidades superiores. En general, a los estudiantes superdotados les va bien en lo intelectual, social y emocional en esos programas. Sin embargo, los críticos a menudo caracterizan los programas especiales para los superdotados como elitistas o antidemocráticos y recomiendan que sean suspendidos. 3Congressional STAT.2143. Record, 10 de octubre de 1978. Enmiendas educativas de 1978, 20 USC 2701 (1978); 92 172 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Creatividad Las pruebas de inteligencia o de aptitud escolar administradas a los niños de edad escolar, por lo general, dan buenos resultados en la predicción del aprovechamiento escolar a corto plazo y criterios relacionados. Sin embargo, esas pruebas no fueron diseñadas para medir variables situacionales, determinación de toda la vida, motivación o talento no escolar del tipo que influye en el desempeño creativo. Llama la atención que pocos, si es que hubo alguno, de los individuos intelectualmente superdotados estudiados por Terman (Terman y Oden, 1959) alcanzaron la eminencia de un Winston Churchill, un Albert Einstein o un Ernest Hemingway. Ninguno de ellos se convirtió tampoco en un compositor, artista o poeta famoso. Características de la gente creativa. Thomas Alva Edison poseía 1093 patentes, Albert Einstein publicó 248 trabajos, Pablo Picasso promedió más de 200 obras de arte en un año, y Wolfgang Amadeus Mozart compuso más de 609 piezas musicales durante su corta vida; murió a los 35 años. Esos casos ilustran la elevada pulsión interna que poseen muchas personas creativas (Haney, 1985). Otros rasgos afectivos y cognoscitivos que se dice caracterizan a las personas creativas son la fluidez de ideas, la flexibilidad, la falta de convencionalismos, la sensibilidad social, no estar a la defensiva, una mayor voluntad para concederse fallos y vínculos cercanos con los padres (MacKinnon, 1962). De acuerdo con los resultados de las investigaciones de MacKinnon (1962) y Wallach y Kogan (1965), parecería que la creatividad, en especial cuando se acompaña por una inteligencia elevada, no es una mala característica desde el punto de vista de la salud mental. Sin embargo, en un estudio de artistas británicos destacados (novelistas, pintores, dramaturgos, poetas y escultores), Jamison (1989, 1993) encontró que esos individuos tenían una probabilidad mucho mayor que la gente menos creativa de haber sido tratados por trastornos del estado de ánimo (manía y depresión). Andreasen (1987) encontró resultados similares en un estudio de 30 miembros del cuerpo docente en un taller para escritores: 80% exhibió depresión o alguna otra forma de trastorno del estado de ánimo y a 43% se le diagnosticó como maniaco-depresivos. El significado de esos hallazgos no es del todo claro, pero al menos sugiere que los adultos creativos, como los niños superdotados, no desconocen la infelicidad y la mala adaptación (vea también Ludwig, 1995). Pruebas de creatividad. En ocasiones se afirma que la inteligencia por arriba del promedio es necesaria pero no suficiente para la productividad creativa. Más allá de un nivel mínimo de inteligencia, el desempeño creativo parece depender más de la motivación y las habilidades especiales que de la habilidad mental general (MacKinnon, 1962). Por consiguiente, las investigaciones de la creatividad conducidas durante los pasados 40 años se han concentrado en identificar otras características cognoscitivas y afectivas que distinguen a la gente creativa de la no creativa. Por ejemplo, se han hecho esfuerzos por desarrollar medidas de la habilidad de pensamiento divergente en oposición al convergente (Guilford, 1967). En las medidas de pensamiento convergente, como los problemas del tipo que se encuentra en las pruebas de inteligencia, hay una sola respuesta correcta. En contraste, en las pruebas de pensamiento divergente, a los sujetos se les presentan problemas flexibles que tienen varias soluciones posibles y se califica la originalidad de sus respuestas. Por desgracia, esta flexibilidad crea dificultades en la calificación y en la determinación de la confiabilidad y la validez de esas pruebas. Entre los procedimientos de calificación propuestos está la evaluación de acuerdo con el número de respuestas dadas por el examinado (fluidez) y su originalidad o singularidad (novedad). INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 173 Los siguientes son ejemplos de reactivos de pruebas de creatividad: Prueba de consecuencias. Imagine todas las cosas que podrían suceder si, de repente, se abolieran todas las leyes nacionales y regionales (Guilford, 1954). Prueba de asociaciones remotas. Encuentre una cuarta palabra que se asocie con cada una de estas tres palabras: (a) rata-azul-casita, (b) fuera-perro-gato, (c) rueda-eléctrico-alto, (d) sorpresa-línea-cumpleaños (Mednick, 1962). Prueba de usos poco comunes. Mencione tantos usos como pueda pensar para (a) un mondadientes, (b) un ladrillo y (c) un clip para papel (Guilford, 1954). Prueba de asociación de palabras. Escriba tantos significados como pueda para cada una de las siguientes palabras: (a) pato, (b) costal, (c) resina y (d) justo (Getzels y Jackson, 1962; copyright © 1962, John Wiley & Sons, Inc. Reproducido con autorización de John Wiley & Sons, Inc.). Las baterías de pruebas de creatividad, como las Pruebas de la Estructura del Intelecto (de Consulting Psychologists Press) y las Pruebas Torrance de Pensamiento Creativo (TTCT) (de Scholastic Testing Service), representan una combinación de medidas de creatividad. La TTCT consta de tres ejercicios basados en ilustraciones (TTCT Figurativo: Pensamiento Creativo con ilustración) y seis ejercicios basados en palabras (TTCT Verbal: Pensamiento Creativo con Palabras). Un ejemplo de los tipos de reactivos en la TTCT verbal es “Escriba todas las preguntas en las que pueda pensar” acerca de una determinada ilustración. En una parte de la TTCT figurativa se pide al examinado que elabore un guión a partir de una línea básica. La TTCT verbal, cuya solución se lleva 45 minutos, se califica en tres variables: fluidez, flexibilidad y originalidad. La TTCT figurativa, cuya terminación requiere 30 minutos, se califica en cinco variables: fluidez, originalidad, elaboración, abstracción de los títulos y resistencia al cierre prematuro. La TTCT se reestandarizó en 1980, y en el manual se proporcionan los rangos percentilares nacionales y las estándar desde el primer grado hasta los niveles universitario y adulto. Aunque una serie de investigaciones concluyó que la TTCT es un indicador no sesgado de la genialidad (por ejemplo, Esquivel y Lopez, 1988; Torrance, 1988), las confiabilidades de las pruebas varían mucho y los resultados de los estudios de validez no son concluyentes (Hattie, 1980). Evaluación de las pruebas de creatividad. Las pruebas que han sido diseñadas para evaluar la creatividad son fascinantes, pero es importante considerar las críticas hechas por McNemar (1964) y otros psicólogos. Las pruebas de creatividad con frecuencia tienen correlaciones significativas con las pruebas de CI, y al parecer las primeras no son más efectivas que las últimas para predecir el desempeño creativo. Considerando todas las cosas, una conclusión razonable es que todavía queda por demostrar si es posible construir medidas efectivas de la creatividad. Hasta que se diseñe una prueba que haga una predicción precisa del desempeño en un criterio de creatividad de aceptación general, sería conveniente seguir el consejo de McNemar (1964) de no deshacernos de nuestras pruebas de inteligencia general. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES Desde el momento de su aparición en la primera década del siglo XX, las pruebas de inteligencia han formado parte de numerosas investigaciones interesadas en las características, causas y efectos de las diferencias individuales en las habilidades cognoscitivas. Por desgracia, esas investigaciones, las cuales fueron iniciadas por Francis Galton en la última parte del siglo XIX, con 174 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales mucha frecuencia han sido asistemáticas y son reflejo de métodos correlacionales convenientes en lugar de un diseño de investigación sólido. Aunque los resultados de dichos estudios pueden ser difíciles de interpretar, provocan la reflexión y deben ser tomados en cuenta por cualquiera que decida teorizar acerca de la naturaleza y el desarrollo de la cognición humana. Diferencias de edad en las habilidades mentales Debido a que la confiabilidad de todas las pruebas de inteligencia es menos que perfecta, la calificación de una persona en una prueba particular cambiará algo de acuerdo con el momento y las condiciones de la examinación. No obstante, dada una situación de vida relativamente estable y condiciones óptimas de examinación, las calificaciones en las pruebas de inteligencia son bastante estables en los años escolares. Las calificaciones tienden a ser menos estables en la niñez temprana y media, pero son más consistentes durante la adolescencia. El CI de un niño en una prueba individual de inteligencia varía unos cinco puntos en promedio, y los cambios de 20 puntos o más son raros. Las fluctuaciones grandes en el CI, por lo general, pueden rastrearse hasta variaciones bastante considerables en la salud o las condiciones de vida, así como remitir a problemas y experiencias emocionales graves. La antigua definición del cociente de inteligencia como 100 veces la razón entre la edad mental y la edad cronológica implica que, para que el CI permanezca estable de un año a otro, la edad mental debe cambiar de manera proporcional a la edad cronológica. La misma suposición se aplica a las pruebas que no arrojan CI de razón: en las pruebas de inteligencia las puntuaciones crudas y la edad mental deben aumentar con la edad durante la niñez. La forma exacta de la función que relaciona las puntuaciones crudas de la prueba o edad mental con la edad cronológica depende, por supuesto, de la prueba específica y de los componentes intelectuales que ésta mide. Estudios transversales y longitudinales. Las conclusiones de los primeros estudios de los cambios con la edad en la inteligencia que por lo general están basados en datos transversales (Doppelt y Wallace, 1955; Jones y Conrad, 1933; Yerkes, 1921). En un análisis de las calificaciones en el Examen Army Alfa aplicado a soldados estadounidenses durante la Primera Guerra Mundial, Yerkes (1921) encontró que las calificaciones promedio en la prueba declinaban de manera estable de finales de la adolescencia hasta la sexta década de la vida. En otro estudio temprano, Jones y Conrad (1933) encontraron que las puntuaciones promedio del Examen Alfa del ejército aumentaban linealmente de los 10 a los 16 años, pero luego declinaban gradualmente hasta llegar al nivel de los 14 años a la edad de 55 años. Las normas de la Escala de Inteligencia para Adultos de Wechsler también indicaban que la inteligencia alcanza su punto máximo en la juventud, aunque a una edad algo mayor de lo que se encontró en los primeros estudios. Las puntuaciones promedio de la escala completa en la WAIS-R alcanzan su punto máximo al principio de los 20 años, permanecen bastante constantes desde ese punto hasta finales de los 20 o principios de los 30 años, y luego declinan de manera estable a lo largo de la vida posterior. En contraste con los estudios longitudinales, que comparan el desempeño del mismo grupo de personas en diferentes edades, los estudios transversales comparan el desempeño de grupos de personas (cortes) que crecieron bajo circunstancias ambientales diferentes. Las diferencias entre las cortes en factores como la oportunidad de educación, la cual mantiene una relación estrecha con las calificaciones en las pruebas de inteligencia, hacen difícil igualar a personas de diferentes edades. En consecuencia, es imposible comparar los niveles de inteligencia de personas de edades distintas sin confundir los efectos de la educación con los de otras experiencias relacionadas con la prueba. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 175 El aumento estable en los niveles educativo y socioeconómico promedio de los estadounidenses durante el siglo XX debe tomarse en consideración al interpretar la declinación aparente con la edad en las habilidades cognoscitivas. Debido a que las calificaciones en las pruebas de inteligencia tienen una relación positiva con el nivel educativo y la posición socioeconómica, los adultos mayores, quienes tuvieron menos educación formal y una posición socioeconómica por lo general más baja, tienden a obtener puntuaciones de prueba significativamente más bajas que los adultos más jóvenes. Dado que los estudios longitudinales de inteligencia han sido realizados más a menudo con graduados universitarios y otros grupos favorecidos en lo intelectual, puede argumentarse que los hallazgos no por fuerza se aplican a la población general (Bayley y Oden, 1955; Campbell, 1965; Nisbet, 1957; Owens, 1953, 1966). Sin embargo, las investigaciones longitudinales conducidas en personas de inteligencia promedio (Charles y James, 1964; Eisdorfer, 1963; Tuddenham, Blumenkrantz y Wilkin, 1968) y en adultos con retraso mental no institucionalizados (Baller, Charles y Miller, 1967; Bell y Zubek, 1960) han arrojado resultados similares. Las calificaciones promedio en las pruebas de inteligencia se incrementan en pequeñas cantidades durante la adultez temprana y se estabilizan entre los 25 y 30 años. La inteligencia de las personas que están por debajo del promedio o que no hacen un uso adecuado de sus habilidades declina un poco durante la adultez temprana. Por otro lado, los individuos de inteligencia por arriba del promedio pueden no mostrar declinación o incluso continuar mejorando bien avanzada la edad madura. Aunque los resultados de los estudios transversales y longitudinales revelan disminuciones sustanciales en las habilidades cognoscitivas durante la octava y la novena décadas, se ha encontrado que dichas habilidades pueden incrementarse incluso después de los 70 años (Baltes y Schaie, 1974; Busse y Maddox, 1985; Schaie y Hertzog, 1983). Se ha interpretado que esos estudios indican que la magnitud de la disminución intelectual con el envejecimiento varía tanto con la naturaleza de la tarea de la prueba como con el individuo. Habilidades específicas. Las pruebas de inteligencia general miden una combinación de varias habilidades cognoscitivas, y el patrón de cambio en el desempeño con la edad varía según la habilidad específica. Como se ve en el patrón relacionado con la edad de las calificaciones escaladas del subtest en el WAIS-R (Wechsler, 1981), las calificaciones en las pruebas de vocabulario e información por lo general no muestran cambios apreciables con el envejecimiento, pero las habilidades perceptual-integrativa y de comprensión de símbolos numéricos declinan con mayor rapidez. Tanto los métodos transversales como los longitudinales tienen desventajas y se requieren investigaciones que combinen los dos enfoques para alcanzar conclusiones válidas acerca del crecimiento intelectual con la edad. En los Estudios Longitudinales de Seattle, Schaie (1990, 1994) y sus colaboradores condujeron una serie de estudios transversales y longitudinales para analizar cambios con la edad en cinco habilidades medidas por las Pruebas de Habilidades Mentales SRA: significado verbal, orientación espacial, razonamiento inductivo, número, y fluidez de palabra. Los hallazgos demostraron que la naturaleza de la relación entre la calificación obtenida en la prueba y la edad cronológica variaba con la habilidad específica y la metodología de investigación. Sin embargo, los resultados globales demostraron que durante la madurez la tasa de declinación era mayor para orientación espacial y razonamiento inductivo y menor para fluidez de palabra, significado verbal y número. Durante la vejez la mayor caída fue en las calificaciones de significado verbal, una prueba ligeramente acelerada. Otros investigadores han encontrado una mayor declinación relacionada con la edad en la habilidad para razonar y resolver problemas que impliquen estímulos visuales y geométricos (inteligencia fluida) que en las habilidades verbales (inteligencia cristalizada) (Christensen et al., 1994; Horn, 1982; Horn y Hofer, 1992). 176 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Schaie y sus coinvestigadores (Baltes y Willis, 1982; Schaie y Willis, 1986; Willis, 1990) concluyeron que las habilidades cognoscitivas muestran cierto deterioro con el envejecimiento, pero enfatizaron que esas habilidades son plásticas y que el deterioro en las mismas puede ser detenido e incluso revertido. Sostienen que proporcionar oportunidades variadas para la estimulación intelectual y un estilo de vida flexible puede contribuir al mantenimiento de un nivel óptimo de funcionamiento cognoscitivo en la vejez. Como un programa de demostración, elaboraron un conjunto de procedimientos de entrenamiento para que los adultos mayores mejoraran sus calificaciones en las pruebas de inteligencia. Dicho entrenamiento implicaba no sólo instrucción en habilidades cognoscitivas específicas, sino también reducción de la ansiedad y motivación. También se alentó a los participantes en las sesiones de entrenamiento a compensar la disminución que percibieran en ciertas habilidades cognoscitivas concentrándose menos en esas habilidades y más en las que sus déficit cognoscitivos fueran menos pronunciados. En resumen, el hecho de que se observe con la edad una disminución, ningún cambio o incluso un incremento en las habilidades cognoscitivas depende no sólo de la metodología de investigación (longitudinal, transversal o de variaciones en esos métodos), sino también de la habilidad específica y de la persona probada. Las variaciones en las habilidades cognoscitivas durante la adultez también dependen en cierta medida de las experiencias de la persona relacionadas con la prueba. La gente que permanece activa en lo intelectual muestra a menudo menor deterioro en las calificaciones de pruebas de inteligencia que quienes no lo hacen. E incluso cuando los adultos mayores tienen un mal desempeño en las pruebas de inteligencia, pueden poseer conocimiento y habilidades muy especializadas en áreas no cubiertas por los instrumentos. Dichas habilidades pueden ayudar a los adultos mayores a ser hasta más competentes que los adultos jóvenes al tratar con los problemas de la vida cotidiana. Caída terminal. Una excepción aparente a la conclusión de que el deterioro en las habilidades cognoscitivas en la vejez es gradual y varía con la habilidad específica es un fenómeno conocido como caída terminal. Este concepto se refiere a un deterioro en el funcionamiento cognoscitivo (CI, memoria, organización cognoscitiva), el tiempo de reacción y en otras habilidades sensoriomotrices y características de personalidad como la asertividad durante los últimos meses o años de vida. Un impulso para la investigación sobre la caída terminal fue la afirmación hecha por una enfermera de un asilo en el sentido de que podía predecir qué pacientes iban a morir pronto por la simple observación de que “parecían actuar de manera diferente” (Lieberman, 1965, p. 181). Los hallazgos de la investigación subsecuente revelaron deterioros en varias áreas del funcionamiento cognoscitivo y sensoriomotriz y en la habilidad para afrontar las demandas ambientales en los pacientes que murieron en el curso de un año posterior a la prueba (Granick y Patterson, 1972; Lieberman y Coplan, 1969; Reimanis y Green, 1971, y Riegel y Riegel, 1972). Riegel y Riegel (1972) advirtieron que la caída terminal era evidente hasta cinco años antes de la muerte, pero los resultados de la investigación subsecuente indicaron que tal caída puede no comenzar hasta alrededor de dos años antes de la muerte y que sólo ocurre en ciertas habilidades (White y Cunningham, 1988). Los estudios de hombres viejos que participaron en un estudio longitudinal del envejecimiento conducido por investigadores de la Universidad de Duke no encontraron caída terminal en pruebas de funcionamiento físico, pero las calificaciones en las pruebas de inteligencia tendían a caer de manera pronunciada unos cuantos meses o años antes de la muerte (Palmore, 1982; Palmore y Cleveland, 1976; Siegler, McCarty y Logue, 1982). Era más probable que los deterioros ocurrieran en pruebas no aceleradas como las de vocabulario, el cual al parecer es poco afectado por la edad hasta tarde en la vida, que en pruebas aceleradas de naturaleza percep- INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 177 tual o de resolución de problemas. Por otro lado, los pacientes que no mostraron dichos deterioros en el funcionamiento cognoscitivo y la conducta no murieron sino hasta después de transcurrido un periodo significativamente más largo de haber sido probados. Efecto Flynn. Otro fenómeno que tiene que ver con los cambios en la inteligencia relacionados con la edad, pero en este caso cambios a lo largo de generaciones, es el efecto Flynn. A partir de un análisis sobre calificaciones CI en países desarrollados a lo largo de tres generaciones, el científico político James Flynn (1987) concluyó que el CI promedio de las personas comunes de 20 años en la década de 1980 era 15 puntos más alto que el de una persona comparable en 1940, y que continuaba creciendo en un estimado de .33 puntos de CI por año. Las diferencias generacionales en el CI promedio eran mayores en pruebas como la de Matrices Progresivas de Raven, una medida de habilidad visoespacial, que en las pruebas de Wechsler y de StanfordBinet, las cuales son medidas de vocabulario, información general, aritmética y otros conocimientos adquiridos, así como de habilidad visoespacial. Flynn concluyó que el incremento generacional observado en las calificaciones promedio de las pruebas de inteligencia se debe más a incidencias ambientales que a factores genéticos, pero que las calificaciones no podían atribuirse sólo a mejoras en la escolaridad formal. Otros factores que posiblemente contribuyen son los mayores logros educativos de los padres, la mayor atención de los padres a los niños, el progreso en la posición socioeconómica, la mejor nutrición, la disminución de las enfermedades en la niñez y una sociedad cada vez más compleja en lo tecnológico. De acuerdo con Greenfield (1998), buena parte del incremento en el CI informado por Flynn se debe a los efectos visuales especiales proporcionados por la televisión, las computadoras, los juegos de vídeo y otros instrumentos tecnológicos. También se ha notado que en las últimas décadas han disminuido de manera notable la desnutrición severa y las deficiencias en yodo, hierro y otros nutrientes asociados con menores CI, así como con menor estatura. Lynn (1998) y Sigman y Whaley (1998) encontraron que la evidencia que vincula a la inteligencia con la mejor nutrición es convincente, pero Martorell (1998) concluyó que la mejor nutrición probablemente no es responsable del efecto Flynn. Por último, debe advertirse que, si bien las puntuaciones crudas promedio en las pruebas de CI han estado aumentando por décadas, sigue siendo controvertida la cuestión de si la inteligencia de la población en realidad está aumentando (vea Howard, 2001). Otros correlatos de las habilidades mentales En cientos de estudios se ha examinado la relación de las calificaciones en las pruebas de inteligencia con una multitud de variables demográficas, incluyendo el tamaño de la familia, el orden de nacimiento, la ocupación, la posición socioeconómica, la educación, la nacionalidad y la cultura. La metodología y los hallazgos de esas investigaciones constituyen parte sustancial de los temas de cursos sobre psicología diferencial. Tamaño de la familia y orden de nacimiento. En muchos estudios se ha documentado la relación inversa entre tamaño de la familia e inteligencia (Lancer y Rim, 1984; Steelman y Doby, 1983; Wagner, Schubert y Schubert, 1985). La tendencia a que las personas mentalmente más torpes provengan de familias más grandes no se debe por completo a las diferencias socioeconómicas entre las familias grandes y pequeñas, ya que sigue siendo significativa incluso cuando se consideran dichas diferencias. La relación entre el tamaño de la familia y la inteligencia es ciertamente multicausal, pero no necesariamente bidireccional. Los padres con CI bajos tienden a tener un mayor número de hijos que el promedio, pero las familias grandes no por fuerza producen hijos con bajos CI. Aunque puede ser razonable suponer que en las familias más grandes se concede menos atención al desarrollo cognoscitivo de los hijos, esto no por fuerza es cierto en la sociedad estadounidense moderna (Rodgers, Cleveland, van den Oord y Rowe, 2000). 178 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Desde la época de Francis Galton se ha observado que los primogénitos tienen mayor probabilidad de alcanzar grandes logros que los hijos nacidos después. Resumiendo los resultados de estudios realizados hasta mediados de la década de 1960, Altus (1966) concluyó que los primogénitos constituyen un porcentaje mayor de la porción intelectualmente superior de la población que de la población como un todo. Los primogénitos también hablan antes y de manera más clara, aprenden a leer más pronto y son mejores en la resolución de problemas y tareas perceptuales que los nacidos más tarde. Una posible explicación de esas diferencias es que los padres por lo regular tratan a los primogénitos (en particular a los varones) de manera diferente a los niños que nacen después. Ambos padres tienden a prestar más atención y estimulación a sus hijos primogénitos, pasan más tiempo con ellos y los alientan y ayudan más para caminar, hablar, leer a la edad apropiada y en otras tareas del desarrollo (Altus, 1966; Lewis y Jaskir, 1983; MacPhee, Ramey y Yeates, 1984). El hallazgo de que la relación entre el tamaño de la familia, el orden de nacimiento y las habilidades intelectuales es más evidente en las medidas verbales que en las no verbales de habilidad es congruente con el énfasis de los padres en el desarrollo del lenguaje de esos niños (Lancer y Rim, 1984). También se ha pensado que las diferencias en el trato que dan los padres a los primogénitos y a los niños que nacen después son responsables de que los primogénitos sean más serios, responsables, estudiosos y competitivos, mientras que los nacidos más tarde son más sociables, relajados, imaginativos y atléticos. Posición ocupacional. En una sociedad abierta y competitiva como la nuestra, es razonable esperar que las personas más inteligentes ingresen en ocupaciones que requieren habilidades cognoscitivas más altas. Del mismo modo, las personas de menor inteligencia tienden a entrar en ocupaciones para las cuales se necesita de menor habilidad. Uno de los hallazgos más citados en las pruebas mentales se relaciona con este punto: las diferencias en las calificaciones promedio de la Prueba de Clasificación General del Ejército (AGCT) de reclutas militares de la Segunda Guerra Mundial que habían sido empleados en varias ocupaciones civiles (Harrell y Harrell, 1945). Las calificaciones promedio en la AGCT calculadas en más de 70 grupos ocupacionales demostraron que los contadores, abogados e ingenieros estaban en la parte superior. Los conductores de camiones, mineros y granjeros se encontraban en la parte inferior, y los otros grupos ocupacionales estaban arreglados en el medio de una jerarquía de acuerdo con sus calificaciones promedio en la AGCT. Como era de esperar, hubo un amplio rango de calificaciones dentro de cada ocupación. Por ejemplo, algunos conductores de camiones calificaron más alto que algunos maestros, lo que prueba que los primeros no por necesidad son lo opuesto de los “chicos sabios”. No obstante, los datos demuestran con claridad la importancia de la variable inteligencia en la predicción de la pertenencia a una ocupación. En general, las calificaciones de las pruebas de inteligencia hacen una predicción bastante buena del desempeño en una variedad de ocupaciones (Brody, 1992). El papel de la educación, la cual tiene una relación significativa tanto con la inteligencia como con el estatus ocupacional, no está del todo claro en la determinación de la relación entre las dos últimas variables. Cronin, Daniels, Hurley, Kroch y Webber (1975) sostenían que la correlación entre la inteligencia y el estatus ocupacional se debe al hecho de que ambas variables están correlacionadas con los antecedentes de clase social. Concluyeron que los hogares de clase media o superior tienen mayor probabilidad que los hogares de clase baja de preparar a los niños para hacer un buen papel en las pruebas de inteligencia y en el trabajo escolar, pavimentando así el camino para que ingresen en ocupaciones de estatus superior. La secuencia causa-efecto también puede ser la siguiente: calificar alto en una prueba de inteligencia o de aptitud escolar, por lo general, es un requisito para la admisión a un buen colegio, y la graduación de un buen colegio o universidad (y/o de alguna escuela profesional en algunos casos) es un requisito para ingresar a una ocupación de mayor prestigio. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 179 Posición socioeconómica. Uno de los hallazgos más consistentes sobre las diferencias individuales y de grupo en las características psicológicas es la correlación positiva entre el CI y la posición socioeconómica (PSE), donde la PSE se define en términos del ingreso, la educación y la ocupación de los padres. En esos estudios se han encontrado a menudo CI superiores al promedio entre los niños de las clases sociales más altas, una distinción que se mantiene tanto en las pruebas convencionales como en las pruebas justas para la cultura (Speath, 1976). Que las diferencias de clase social en la habilidad sean sobre todo el resultado de la herencia o del ambiente es tema de debate, pero generalmente se acepta que un ambiente familiar donde se brinde apoyo puede ejercer un efecto significativo sobre las habilidades cognoscitivas. Debido a la estrecha relación entre la posición socioeconómica y el nivel educativo, es difícil concluir si las diferencias observadas en los CI se deben a diferencias en la educación o a alguna otra variable asociada con la posición socioeconómica. Los niños que califican bajo en las pruebas de inteligencia no sólo tienden a tener menos educación formal, sino que también provienen de hogares enajenados por la cultura dominante y que están bajo mayor presión económica que el promedio. En esos hogares suele emplearse como medio principal de comunicación un idioma distinto al inglés estándar y los padres no enfatizan la importancia de las habilidades académicas ni saben cómo ayudar a sus hijos a adquirirlas. A pesar de la correlación positiva significativa entre las calificaciones en las pruebas de inteligencia y la posición socioeconómica, las dos variables están lejos de ser intercambiables. Considere, por ejemplo, los resultados de un estudio conducido por Thomas, Alexander y Eckland (1979) de las relaciones de esas variables con las notas escolares: se encontró que la correlación positiva entre CI y logro educativo seguía siendo significativa incluso cuando se controlaba de manera estadística la posición socioeconómica. Por otro lado, cuando el CI se controlaba de manera estadística, la correlación entre la posición socioeconómica y el logro educativo era ligeramente negativa. Esos hallazgos sugieren que la correlación entre el CI y las notas escolares no se debe, como creen algunos psicólogos, sobre todo a las diferencias en los antecedentes de clase social. Más bien, parece que la habilidad intelectual afecta tanto a la posición socioeconómica como al nivel educativo. Por ello, puede argumentarse que una razón por la cual los estudiantes de clase media tienen mayor probabilidad que los de posición socioeconómica baja de estar en la mitad superior de sus grupos escolares es porque poseen mayor habilidad intelectual (Thomas, Alexander y Eckland, 1979). Residencia urbana y rural. El lugar de residencia (urbano contra rural) se relaciona con la pertenencia ocupacional, la posición socioeconómica y las calificaciones en las pruebas de inteligencia. Estudios realizados en Estados Unidos en la primera mitad del siglo XX (vea McNemar, 1942) encontraron que los niños que vivían en áreas rurales tenían CI promedio significativamente menor al de quienes vivían en áreas urbanas. Aunque la diferencia urbana-rural en las calificaciones de las pruebas de inteligencia ha persistido, no es tan pronunciada como en las generaciones previas. Debido a la televisión, al mejor acceso a las escuelas, a otras fuentes de información y estimulación intelectual y a los avances en la tecnología agrícola, en la actualidad los niños del campo están expuestos a una gama más amplia de estímulos ambientales y tienen mayores oportunidades de aprender que sus padres y sus abuelos. La mayor exposición a la cultura más amplia ha mejorado el vocabulario, el nivel de conocimiento y la conciencia intelectual general de los niños del campo. Reynolds, Chastain, Kaufman y McLean (1987) estimaron que las mejoras en los servicios de comunicación y transporte produjeron una caída de la diferencia promedio entre los niños urbanos y rurales desde 6 puntos CI hace una generación hasta alrededor de 2 puntos en la década de 1980. Además, estudios conducidos entre los venda de Sudáfrica, los malayos y chinos de Malasia y los nigerianos apoyan la conclusión de que las diferencias de grupo en el desempeño en las pruebas de inteligencia reflejan diferencias en la clase social y 180 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales la educación más que del ambiente urbano contra el rural per se (Cronbach y Drenth, 1972; Scribner y Cole, 1973). Lo mismo puede decirse de las diferencias en las calificaciones obtenidas en las pruebas por niños que viven en diferentes secciones de las áreas metropolitanas. La dinámica del ambiente familiar va más allá de variables como el tamaño de la familia, el orden de nacimiento y la posición socioeconómica. El estilo de crianza, el proporcionar un ambiente familiar que ofrezca apoyo y otras medidas de tratamiento dentro del hogar son predictores todavía más importantes de las calificaciones obtenidas en las pruebas de inteligencia por los niños pequeños (Hunt, 1961; Molfese, DiLalla y Bunce, 1997). Sea como sea, no está del todo clara la magnitud de esos efectos en las calificaciones de los niños en las pruebas de inteligencia. Por ejemplo, los hallazgos de las investigaciones de Baumrind (1993), Jackson (1993) y Scarr (1992, 1993) indican que, si bien las características del hogar y de los padres tienen una relación significativa con las puntuaciones en las pruebas de inteligencia en la niñez temprana, para la adolescencia esos efectos se han vuelto muy pequeños. Expectativas del maestro. Las habilidades cognoscitivas influyen ciertamente en el logro educativo, pero la educación también influye en la habilidad . Los efectos de la educación sobre las habilidades cognoscitivas en ocasiones son indirectos, como lo revelan los estudios de las expectativas del profesor. El sociólogo C. H. Cooley (1922) propuso la teoría del espejo, por la cual afirma que las personas tienden a adaptar su conducta y la forma en que se perciben a la manera en que creen ser percibidas por los demás. Algunos años después, las investigaciones surgidas de la observación de que los hallazgos de los investigadores a menudo se relacionan con sus expectativas se extendieron a la situación del salón de clases. Esas investigaciones, que con frecuencia implicaban a niños con desventajas sociales, se interesaban en la influencia de las expectativas y actitudes de los maestros sobre los cambios observados en las calificaciones en las pruebas y las conductas de los estudiantes. Un famoso, aunque algo controvertido, experimento de este tipo fue conducido por Rosenthal y Jacobson (1968) en las escuelas primarias del distrito escolar sur de San Francisco. El propósito del experimento era determinar los efectos de decir a los maestros que ciertos alumnos mostrarían una “aceleración potencial” en su habilidad intelectual en el año escolar siguiente. En septiembre se obtuvieron calificaciones de CI verbal, de ejecución y total para todos los niños de la escuela al hacerlos presentar una prueba de inteligencia no verbal, las Pruebas de Habilidad General (TOGA). Luego, en un informe para los maestros, se etiquetó a 20% de los niños como “aceleradores potenciales”, supuestamente sobre la base de sus calificaciones en la TOGA, pero en realidad se hizo al azar. La TOGA volvió a administrarse a todos los niños un semestre, un año y dos años más tarde. Se hicieron entonces comparaciones entre las ganancias en el CI de los grupos experimentales (“aceleradores potenciales”) y las de los grupos control de niños que no fueron etiquetados como aceleradores potenciales. Las ganancias en el CI de los grupos experimentales de primero a tercer grado fueron significativamente mayores que las de los controles, pero las diferencias CI entre los grupos experimentales y los controles de cuarto a sexto grado no fueron significativas. Los niños de origen mexicano y los de habilidad media mostraron mayores ganancias iniciales en el CI total. Los varones mostraron ganancias promedio más grandes en el CI verbal y las niñas en el CI de razonamiento. Los niños experimentales también mostraron mayores ganancias en lectura y fueron calificados por sus maestros como más felices, intelectualmente más curiosos y menos necesitados de aprobación social que los controles. Rosenthal y Jacobson no pudieron identificar las conductas específicas del maestro que producían los cambios en el CI para los grupos experimentales, pero especularon que las mayores expectativas de los maestros para esos niños fueron comunicadas por medio de expresiones INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 181 faciales, posturas, tacto y otras señales no verbales. Los hallazgos de este experimento no fueron replicados completamente por otros investigadores, y se le criticó por una serie de defectos metodológicos. Además, un meta-análisis subsecuente de los estudios sobre el efecto de las expectativas dio firme apoyo a la hipótesis de que entre más familiarizados estén los maestros con sus alumnos menor es el efecto de las expectativas del maestro sobre las calificaciones CI de los niños (Raudenbush, 1984). Nacionalidad. De acuerdo con el dogma popular, ciertas nacionalidades y grupos étnicos poseen características específicas de conducta y personalidad que los distinguen de otros grupos de personas. Aunque esos estereotipos contienen un elemento de verdad, por lo regular son generalizaciones excesivas que pueden servir como justificaciones para el tratamiento diferencial o incluso para el maltrato de grupos nacionales y étnicos particulares. No obstante, los científicos sociales han mostrado un interés considerable en las relaciones de las variables cognoscitivas con la nacionalidad, el grupo étnico y la cultura. Varias investigaciones tempranas interesadas en las diferencias de grupo que probablemente inciden en la inteligencia se concentraron en la nacionalidad. Un estudio influyente realizado en la década de 1920 concluyó que los inmigrantes judíos, escandinavos y alemanes (junto con los estadounidenses nativos) obtenían en las pruebas de inteligencia calificaciones promedio superiores a las de otros grupos de inmigrantes en Estados Unidos (Hirsch, 1926). Esos resultados, los cuales sugerían que los inmigrantes de países del norte y el occidente de Europa eran más inteligentes que los de otros países, causaron tal impresión en el psicólogo H. H. Goddard que cabildeó a favor de leyes de inmigración que restringieran la admisión a Estados Unidos de todos los inmigrantes a excepción de los del norte y el occidente de Europa (Gould, 1981). Más tarde se interpretó que los hallazgos de Hirsch (1926), combinados con los de Yerkes (1921), Brigham (1923) y otros, se debían a la migración selectiva; no se encontraron diferencias significativas de nacionalidad cuando se probó a las personas en sus países nativos y en su lengua materna. En particular, Brigham (1930) repudió sus afirmaciones concernientes a las diferencias de nacionalidad en el Examen Army Alfa, y concluyó que los métodos utilizados fueron erróneos y que las pruebas medían la familiaridad con el lenguaje y la cultura estadounidenses más que la inteligencia innata. En otros estudios de inmigrantes se encontró que las calificaciones en las pruebas estadounidenses de inteligencia variaban con la semejanza entre la cultura nativa de los examinados y la cultura estadounidense dominante. Ciertos rasgos de las pruebas de inteligencia pueden contribuir a las calificaciones más bajas de diferentes nacionalidades y culturas. Por ejemplo, las sociedades analfabetas no siempre comparten el énfasis de las sociedades occidentales en cuanto a la velocidad, el resolver un problema con el menor número de pasos, la superioridad de las manipulaciones mentales en comparación con las físicas, o que la originalidad es mejor que la conformidad (Gill y Keats, 1980). A diferencia de la orientación más centrada en el tiempo y en sí mismas de las culturas occidentales, es más probable que las personas de sociedades muy tradicionales asocien la inteligencia con la gradualidad y la paciencia y que enfaticen la cooperación, la sociabilidad y el honor (Wober, 1974). Entre otras diferencias culturales que pueden tener cierto efecto sobre las calificaciones de las pruebas se encuentra la perspectiva confuciana de la cultura china tradicional, la cual ve a la inteligencia como benevolencia y hacer lo correcto, y la perspectiva taoísta de la inteligencia que incluye la humildad, la libertad de estándares convencionales de juicio, y el conocimiento de uno mismo y de las condiciones externas (Yang y Sternberg, 1997). Los materiales de las pruebas de inteligencia también pueden ser percibidos de manera diferente por culturas distintas. Por ejemplo, Ortar (1963) encontró que cuando se les mostraba una ilustración de una cabe- 182 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales za sin boca los niños inmigrantes orientales en Israel tenían mayor probabilidad que los niños nativos de Israel de decir que faltaba el cuerpo. Y cuando se pidió a la gente de las tierras altas de Nueva Guinea que usaran un conjunto de cubos para copiar un diseño de dos dimensiones, muchos intentaron usar tanto la parte superior como los lados de los cubos. Raza y grupo étnico. Uno de los temas más controvertidos en la medición de las habilidades cognoscitivas atañe a las diferencias raciales en el CI. Un hallazgo general de la investigación en este tema es que, aunque por lo regular se ha encontrado que el CI de los asiáticoamericanos es igual o mayor que el de los caucásicos, los CI promedio de los nativos americanos, los hispanoamericanos y los afroamericanos son significativamente menores. Entre las varias comparaciones de grupo, la atención se ha concentrado en las diferencias entre blancos y negros, una cuestión que se relaciona con la controversia herencia-ambiente. Diferencias entre negros y blancos. Muchos científicos sociales (Klineberg, 1963; Lee, 1951) han atribuido los resultados de la investigación sobre las diferencias raciales en las habilidades cognoscitivas a las diferencias en los ambientes culturales de los niños negros y blancos; otros creen que las diferencias tienen una base genética (Eysenck, 1971; Jensen, 1969). Después de analizar los hallazgos de la investigación sobre las diferencias entre negros y blancos en la inteligencia, Jensen (1969) concluyó que la frecuencia de los genes que portan mayor inteligencia es menor en la población negra como un todo que en la blanca. La consecuencia, sostenía, era que los negros, aunque iguales a los blancos en la habilidad para la memorización, son más pobres en el razonamiento abstracto y la resolución de problemas. Un conjunto de hallazgos empíricos citados por Jensen (1981) para refutar una explicación ambientalista estricta de las diferencias raciales en la inteligencia es que los niños hispanoamericanos e indios americanos que viven en condiciones ambientales aún peores que los negros tienen calificaciones promedio más altas en las pruebas de inteligencia no verbal. Además, a pesar de que sus padres y abuelos fueron sometidos a una severa discriminación en los siglos XIX y XX, las personas de origen chino y japonés en Estados Unidos superaban a los caucásicos en las calificaciones promedio de las pruebas no verbales de inteligencia, así como en los logros educativos y ocupacionales, y los igualaban en las calificaciones en pruebas de inteligencia verbal. Por último, los judíos, para quienes la discriminación social no es desconocida, de manera consistente han calificado más alto que otros grupos en medidas de inteligencia verbal (Vernon, 1985). Sin embargo, en muchos de esos grupos las tradiciones culturales y las características familiares alientan el alto rendimiento incluso cuando el legado nativo no sea necesariamente superior. A pesar de los argumentos de Jensen (1980, 1981), Herrnstein y Murray (1994) y otros, la cuestión de las diferencias raciales en la inteligencia está lejos de ser resuelta. Los hallazgos de la investigación indican que los blancos superan a los negros en alrededor de una desviación estándar tanto en la WAIS-R (Reynolds et al., 1987) como en la Stanford-Binet: cuarta edición (Thorndike, Hagen y Sattler, 1986). Sin embargo, existe un traslape considerable entre las distribuciones de CI de los dos grupos étnicos: se estima que 15% de los negros obtiene CI más altos que los de los blancos promedio, y 15% de los blancos califica más bajo que la persona negra promedio (Vernon, 1985). Esas diferencias raciales en las calificaciones en las pruebas de inteligencia son atribuibles a una combinación interactiva de factores, incluyendo las deficiencias de las pruebas, diferencias en los entornos y diferencias genéticas, pero no se ha determinado la importancia relativa de cada una de esas tres fuentes de variabilidad. Es de notar que la diferencia promedio entre las calificaciones de los blancos y los negros en las pruebas de inteligencia y aprovechamiento académico disminuyó casi la mitad de 1970 a FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 183 1990. Las explicaciones posibles para el estrechamiento de la brecha racial son los incrementos en el gasto en educación y la mayor educación de los padres, sobre todo entre los negros en los años recientes (Williams y Ceci, 1997). Diferencias entre japoneses y estadounidenses. También relevante para la cuestión de las diferencias de nacionalidad y grupo étnico en la inteligencia es el hallazgo de CI promedio más altos en los niños japoneses que en los estadounidenses (Lynn, 1982). Durante muchos años se ha sabido que los hijos de inmigrantes asiáticos a Estados Unidos tienden a calificar al menos tan alto como los niños caucásicos en este país. Lynn (1982) informó que la diferencia en el CI promedio entre estadounidenses y japoneses criados en sus propios países era de alrededor de 11 puntos a favor del último grupo. De hecho, se ha estimado que al menos 10% de la población japonesa, en comparación con sólo 2% de los estadounidenses y europeos, tiene CI de 130 o mayores. Se han ofrecido varias explicaciones posibles para tratar de comprender la diferencia en los CI promedio de niños japoneses y estadounidenses, una diferencia que se ha informado aumenta de manera gradual desde la Segunda Guerra Mundial. Suponiendo que las muestras de niños japoneses y estadounidenses a los que se examinó fueran igualmente representativas de las poblaciones específicas y que las pruebas fueran apropiadas por igual, la explicación más obvia tiene que ver con las diferencias entre las dos culturas en cuanto a las prácticas de crianza y educación formal de los niños. Una explicación biológica del aumento en el CI entre los japoneses es que, debido a las mejoras en salud y nutrición, los niños japoneses de la actualidad están mejor física y mentalmente que sus contrapartes en los días previos a la Segunda Guerra Mundial. Otra sugerencia es que los incrementos en el CI han sido causados por la heterosis (vigor híbrido) resultante de cierta disminución en los matrimonios consanguíneos (de parentesco) a medida que después de la Segunda Guerra Mundial grandes cantidades de japoneses se mudaron de pequeñas aldeas a grandes ciudades. Por último, Lynn (1987) propuso que las diferencias en inteligencia entre los caucásicos y las personas con antecedentes asiáticos se deben a diferencias genéticas en el funcionamiento del cerebro. Sostenía que en las personas de antecedentes asiáticos el hemisferio cerebral izquierdo evolucionó a estructuras capaces de procesar información visoespacial. El resultado de esta evolución, de acuerdo con Lynn, es que en los asiáticos una proporción mayor del tejido cortical se dedica al procesamiento de la información espacial y una proporción más pequeña está disponible para la información verbal. En consecuencia, la comunicación lingüística, como en la lectura y escritura de kanji, involucra habilidades espaciales que de manera normal dependen del hemisferio cerebral derecho. Por muy razonable que pueda parecer esta explicación de las mayores calificaciones obtenidas en las pruebas por los niños japoneses, Brody (1992) concluyó que la evidencia a favor de la teoría de Lynn no es convincente. FACTORES BIOLÓGICOS Y HABILIDADES MENTALES Los científicos modernos reconocen que el cerebro es el órgano de la actividad mental, pero los esfuerzos por identificar estructuras o áreas cerebrales específicas que son responsables de las habilidades cognoscitivas no han tenido mucho éxito. Con respecto al tamaño global del cerebro, algunos de los cerebros más pequeños de los que se tiene registro han sido de genios reconocidos (por ejemplo, Walt Whitman y Anatole France), y algunos de los cerebros más grandes han pertenecido a individuos con retraso severo. Aun así, varias revisiones de investigaciones han concluido que el tamaño global del cerebro tiene una pequeña correlación positiva con la habilidad intelectual (Broman, Nichols, Shaughnessy y Kennedy, 1987; Jensen y Sinha, 1991; Stott, 1983; Willerman, Schultz, Rutledge y Bigler, 1989). En un estudio de 139 infantes que tuvieron 184 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales bajo peso al nacer (menos de 1.5 kilogramos) se encontró que la circunferencia de la cabeza era un predictor importante del CI en la escala Stanford-Binet a los tres años de edad (Hack y Breslau, 1985). Esto siguió siendo cierto aun cuando se controlaron de manera estadística variables médicas y sociodemográficas, las cuales tenían relaciones significativas pero menores que la circunferencia de la cabeza con el CI posterior. Aunque el crecimiento compensatorio del cerebro durante los primeros ocho meses después del nacimiento compensó la disminución de los CI posteriores en algunos infantes, después de los ocho meses se observó poco crecimiento del cerebro. De este modo parecería que, al menos en los infantes, el tamaño de la cabeza puede anticipar la condición intelectual posterior (vea Wilson, 1985). Localización cerebral de las funciones cognoscitivas Podríamos desear que fuera posible hacer mejoras significativas en la inteligencia empleando técnicas quirúrgicas o químicas, pero en el presente eso es sólo ciencia ficción. Una hipótesis popular, que los procesos mentales de orden superior tienen lugar en los lóbulos frontales del cerebro, ha recibido cierto apoyo de los datos de los exámenes PET (tomografía por emisión de positrones) (Haier, 1991). El hallazgo temprano de que los pacientes sometidos a lobotomías prefrontales mostraban cierto deterioro postoperatorio en habilidades intelectuales específicas es congruente con dicha hipótesis (DeMille, 1962). Los cambios en habilidades cognoscitivos específicas también están asociados con lesiones en otras áreas del cerebro. Por ejemplo, el daño del lóbulo temporal izquierdo —el hemisferio dominante en la mayoría de la gente— deteriora el desempeño verbal-simbólico más que el perceptual-espacial. Sin embargo, el daño del lóbulo temporal derecho afecta el desempeño perceptual-espacial más que el verbal-simbólico. Al evaluar los efectos del daño cerebral también debe considerarse la edad del paciente. El desarrollo intelectual de un niño pequeño puede resultar mucho más afectado por el mismo tipo de lesión cerebral que no tiene efecto mensurable en las habilidades intelectuales de una persona mayor. Diferencias sexuales En ocasiones se encuentran diferencias entre las calificaciones promedio de las pruebas de inteligencia de hombres y mujeres, pero por lo regular son intrascendentes. Sin embargo, los resultados de la investigación indican que hay diferencias sexuales en habilidades cognoscitivas y perceptual-motrices específicas. Halpern (1997) concluyó que a las mujeres les va mejor que a los hombres en tareas que requieren acceso y uso rápido de información fonológica, semántica y de otro tipo en la memoria a largo plazo. También destacan en tareas que requieren destreza motriz fina, velocidad perceptual y decodificación de información no verbal; tienen mejor articulación del habla y menores umbrales perceptuales para el tacto, el sabor y el olor. Por otro lado, los hombres se desempeñan mejor que las mujeres en tareas que involucran el razonamiento fluido, transformaciones en la memoria de trabajo visual o mover objetos, y en tareas motrices que requieren puntería. En lo que respecta a lo académico, las mujeres obtienen mayores calificaciones en la escuela, en particular en literatura y lenguas extranjeras. Los hombres se desempeñan mejor que las mujeres en pruebas de conocimiento en general y en geografía, matemáticas y ciencia. Esos hallazgos son, al menos en parte, función de las diferencias en la forma que nuestra sociedad trata a los niños y a las niñas. Por ejemplo, por lo regular se espera que las niñas tengan más logros en habilidades sociales y lingüísticas, mientras se supone que los niños deben desempeñarse mejor en matemáticas, mecánica y tareas con problemas relacionados. FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 185 Se ha encontrado que no sólo el sexo (género) sino también las hormonas sexuales están relacionadas con las habilidades cognoscitivas. Por ejemplo, Hier y Crowley (1982) encontraron una correlación positiva entre la habilidad espacial y las hormonas sexuales masculinas durante la pubertad. Los hallazgos de la investigación también sugieren que la testosterona vuelve más lento el desarrollo del hemisferio izquierdo y facilita el desarrollo del hemisferio derecho del cerebro, el cual está asociado con los tipos de habilidades de razonamiento que se necesitan para resolver problemas matemáticos (Christiansen y Knussmann, 1987). También es de interés el hallazgo de que las mujeres tienen un mejor desempeño en las pruebas de coordinación motriz y destreza verbal, pero un desempeño más pobre en las pruebas de razonamiento espacial, durante los momentos del mes en que los niveles de estrógeno en la sangre se encuentran en su punto máximo (Hampson, 1990; Kimura y Hampson, 1993). Las calificaciones de los hombres en las habilidades espaciales también fluctúan con sus niveles de testosterona: son más altas en la mañana que en el transcurso del día, y más altas en otoño que en primavera (Kimura y Hampson, 1994; Moffat y Hampson, 1996). Se han ofrecido varias explicaciones neuropsicológicas para las diferencias sexuales en habilidades cognoscitivas específicas. Un conjunto de tales explicaciones apunta hacia el dimorfismo sexual en las estructuras nerviosas del hipotálamo, la amígdala y la corteza cerebral. Las mujeres tienen áreas de lenguaje que en proporción son más grandes que las de los hombres (Harasty, Double, Halliday, Kril y McRitchie, 1997), y se reporta que la densidad de las neuronas en las áreas de lenguaje de las mujeres es mayor que en los hombres (Witelson, Glezer y Kigar, 1995). Los cerebros de las mujeres también están organizados de una manera más bilateral que en los hombres, ya que en las mujeres las funciones cognoscitivas son menos específicas a un hemisferio cerebral particular. Además, el cuerpo calloso es más grueso en las mujeres que en los hombres, lo que permite una mejor conductividad entre los dos hemisferios cerebrales (Innocenti, 1994; Jancke y Steinmetz, 1994; Johnson, Pinkston, Bigler y Blatter, 1996). Por último, los datos de exámenes de tomografía por emisión de positrones (PET) indican que las áreas del cerebro en las que tiene lugar la mayor actividad mientras el individuo realiza funciones cognoscitivas específicas son diferentes en las mujeres y los hombres (Shaywitz et al., 1995). Dieta y sustancias químicas Desnutrición. La suposición de que la desnutrición fetal e infantil tiene efectos persistentes en la inteligencia es apoyada por numerosas investigaciones (por ejemplo, Lucas, Morley, Cole, Lister y Leeson-Payne, 1992; Zeskind y Ramey, 1981). Los intentos por revertir los déficit en la inteligencia relacionados con la desnutrición complementando las dietas de los niños desnutridos y exponiéndolos a un ambiente que les ofrezca cuidados no han tenido éxito del todo, aunque dicha intervención puede ayudar a detener esos déficit (Barba, 1981; Zeskind y Ramey, 1981). Trastornos genéticos y dieta. La inteligencia muy baja se encuentra en individuos que padecen ciertos trastornos genéticos raros que son afectados por la dieta. En la fenilcetonuria (PKU), un trastorno genético causado por la falta de un gen que dirige la producción de una enzima responsable de oxidar la fenilalanina, la fenilalanina se acumula en la sangre y da lugar a una disminución drástica de las habilidades intelectuales. La PKU puede detectarse al momento del nacimiento con una prueba médica sencilla y, en consecuencia, el deterioro de la inteligencia puede ser prevenido cuando se coloca al niño en una dieta libre de fenilalanina. La PKU y otros trastornos genéticos caracterizados por baja inteligencia, por ejemplo la enfermedad de Tay-Sachs y la galactosemia, se transmiten por genes recesivos. La enfermedad 186 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales de Tay-Sachs se asocia con una acumulación de una sustancia grasosa en el sistema nervioso central, mientras que la galactosemia se asocia con una acumulación de galactosa en la sangre. Al igual que la PKU, la galactosemia puede tratarse colocando al paciente en una dieta especial libre de galactosa. Alcohol. Existen muchos teratógenos diferentes, drogas que pueden cruzar la barrera placentaria en una mujer embarazada y afectar el crecimiento y funcionamiento del cerebro del feto. El alcohol es una de esas drogas que, incluso cuando es consumido por una mujer embarazada en cantidades relativamente moderadas, puede contribuir a generar problemas de atención y tiempo de respuesta en los niños pequeños. Los efectos de la exposición prenatal a grandes cantidades de alcohol son todavía más graves, y dan por resultado una condición conocida como síndrome fetal de alcohol (SFA). Además del retraso en el crecimiento, apariencia facial distorsionada y malformaciones del cerebro y el cráneo, se presenta retraso mental en un gran porcentaje de los casos de SFA. De hecho, una de las causas más importantes de retraso mental en el mundo occidental es la exposición prenatal al alcohol. Por esta razón, se considera aconsejable que las mujeres embarazadas se abstengan por completo de beber alcohol (vea Spohr y Steinhausen, 1996; Streissguth, Bookstein y Barr, 1996). Plomo. Otra sustancia que se ha demostrado tiene un efecto deteriorante en la inteligencia de los niños pequeños es el plomo, el cual existe en las viviendas, la comida, la tierra y el aire (Needleman, Gunnoe, Leviton y Perie, 1978; Needleman, Schell, Bellinger, Leviton y Allred, 1990; Thatcher, Lester, McAlaster, Horst e Ignasias, 1983). Needleman et al. (1990) demostraron la persistencia del defecto mental relacionado con el plomo en la adultez al reexaminar a 132 de 270 jóvenes adultos que habían sido examinados inicialmente cuando estaban en la escuela primaria. Se encontró que los individuos con mayores niveles de plomo con más frecuencia no habían logrado graduarse de secundaria y presentaban un ausentismo elevado; también tenían una incidencia más alta de problemas con la lectura y bajas calificaciones en las pruebas que miden vocabulario, razonamiento gramatical, habilidades motrices finas y coordinación ojo-mano. Esos hallazgos, combinados con los de otros investigadores (por ejemplo, Fulton et al., 1987; McMichael et al., 1988) apoyan la hipótesis de que la exposición a niveles elevados de plomo durante la niñez temprana tiene un efecto adverso sobre el desarrollo intelectual. La buena noticia es que los niveles de plomo en sangre de niños de uno a cinco años disminuyeron de manera considerable en las dos o tres décadas pasadas, una disminución atribuible en gran medida a la legislación que prohíbe el uso de plomo en las pinturas y tuberías y a la retirada progresiva del plomo en la gasolina (America’s Children, 1998). Herencia La creencia en la determinación genética de la inteligencia se remonta al menos hasta la época de Francis Galton a finales del siglo XIX. Alfred Binet no rechazaba la idea de que la inteligencia estuviera genéticamente determinada, pero estaba más interesado en la posibilidad de modificar las habilidades intelectuales por medio de la educación, el entrenamiento y la intervención ambiental (Eysenck, 1984). Uno de los defensores más francos de la noción de que la inteligencia es determinada en gran medida por la herencia fue el psicólogo H. H. Goddard, quien defendía la reconstrucción de la sociedad a lo largo de las líneas del CI (Goddard, 1920). La mayoría de los psicólogos, especialistas en el desarrollo infantil e investigadores educativos, probablemente estarían de acuerdo en que la inteligencia general, o al menos una predisposición al desarrollo cognoscitivo, es hasta cierto punto heredada (Snyderman y Rothman, FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 187 1987). Algunos investigadores genetistas consideran a la inteligencia como una característica poligénica, es decir, que es determinada por la interacción de muchos genes menores en lugar de un solo gen importante. Quizá el método menos ambiguo de obtener información concerniente a los efectos ambientales sobre las habilidades cognoscitivas sea el de conducir un experimento con pares de gemelos monocigóticos (idénticos), quienes tienen herencias idénticas. Algunos pares de gemelos serían separados al nacer asignándolos a ambientes diferentes, mientras que otros pares se mantendrían juntos en el mismo ambiente. El hallazgo de mayores diferencias en las habilidades medidas entre los pares de gemelos criados en ambientes diferentes que entre los criados en el mismo ambiente sería un apoyo para la hipótesis de que el ambiente influye en las habilidades cognoscitivas. Debido a que la sociedad no permitiría que científicos incluso bien intencionados movieran a los niños como piezas de ajedrez, se han diseñado métodos no experimentales para evaluar los efectos relativos de la herencia y el ambiente. Un enfoque consiste en comparar, en diversas edades cronológicas, los CI de gemelos monocigóticos que han sido criados por separado. De esta manera, la herencia se mantiene efectivamente constante mientras que el ambiente varía, aunque de una manera asistemática y no controlada. Además, pueden compararse los CI de individuos que tienen diferentes herencias pero que viven en ambientes similares, como los hermanos no idénticos o niños no relacionados a los que se cría juntos. También pueden hacerse comparaciones entre los CI de personas que tienen diferentes relaciones hereditarias y a quienes se cría en ambientes diferentes, como los hermanos no idénticos e individuos no relacionados criados aparte. A pesar de la dificultad para localizar pares de gemelos monocigóticos que hayan sido criados por separado, se dispone de resultados de una serie de investigaciones de este tipo (encontrará resúmenes en Bouchard, Lykken, McGue, Segal y Tellegen, 1990; Bouchard y McGue, 1981; Plomin y Foch, 1980). En general, se ha encontrado que las correlaciones entre los CI de gemelos monocigóticos criados juntos son casi siempre más altas que las de gemelos monocigóticos criados por separado. Por ejemplo, Bouchard et al. (1990) informaron de correlaciones entre los CI obtenidos en la Escala de Inteligencia para Adultos de Wechsler (WAIS) por gemelos monocigóticos de .88 para la escala verbal, .79 para la escala de desempeño y .88 para la escala completa; los valores correspondientes para los gemelos monocigóticos criados aparte fueron de .64, .71 y .69. Además, entre más cercana fuera la relación genética entre los individuos, más altas eran las correlaciones entre sus calificaciones en las pruebas de inteligencia. Bouchard y McGue (1981) mencionaron las correlaciones medianas entre los CI de personas con diferentes grados de parentesco que vivían juntas, siendo de .86 para gemelos monocigóticos, .60 para gemelos dicigóticos, .47 para hermanos, .42 para padres e hijos, .33 para cónyuges y .29 para hermanos adoptados/naturales. En lo que se supone es un reflejo de la influencia del ambiente en el CI, las correlaciones fueron más bajas para pares correspondientes de gemelos a los que se crió por separado. Los genetistas poblacionales a menudo expresan los resultados de los estudios de las diferencias hereditarias en términos de un índice de heredabilidad (h2), definido como la razón de la varianza de la calificación en la prueba debida a la herencia con la varianza de la calificación en la prueba debida a una combinación de herencia y ambiente. Aunque se ha informado de estimados de heredabilidad de hasta .72 (Plomin, 1990), los estimados promedio de h2 para la inteligencia en la población general son de alrededor de .50. Esto significa que un estimado de 50% de la varianza en las calificaciones CI puede atribuirse a factores genéticos. Sin embargo, debe advertirse que esos números no dicen nada acerca de la importancia relativa de la herencia o el ambiente en la determinación de la inteligencia de un individuo específico; los coeficientes de heredabilidad sólo se aplican a las poblaciones. 188 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Incluso el más ávido defensor de una base genética de la inteligencia por un lado, o el más acérrimo ambientalista por el otro, reconocen que tanto la herencia como el ambiente son importantes en la formación de las habilidades cognoscitivas. En este contexto el ambiente no sólo se refiere al ambiente psicosocial o de experiencia de la persona, sino también al ambiente biológico prenatal y posnatal (nutrición, accidentes y cosas similares). Una interpretación de los datos de investigación que tienen que ver con esta materia es que la herencia establece una especie de límite superior a la inteligencia, un límite que sólo puede alcanzarse en las condiciones ambientales óptimas (Weinberg, 1989). Un corolario de esta proposición es que entre más alto sea el límite superior determinado por la herencia para la inteligencia de una persona, mayores serán los efectos potenciales del ambiente. Otra manera de evaluar los efectos diferenciales de la herencia y el ambiente en las habilidades cognoscitivas está representada por la investigación de la adopción, como puede apreciarse en los Estudios de Adopción de Minnesota (Scarr y Weinberg, 1983) y el Proyecto de Adopción de Texas (Horn, 1983). En esas investigaciones se compararon los CI de grandes muestras de niños adoptados con los de sus hermanos no adoptados y los de sus padres adoptivos y biológicos. Los hallazgos de Horn (1983) son típicos en que los CI de los niños adoptados (de tres a diez años de edad) a los que estudió estaban mucho más cercanos a los de sus madres biológicas, de quienes habían sido separados casi desde el nacimiento, que de los CI de sus padres adoptivos. Los CI de los adolescentes en el estudio de Scarr y Weinberg (1983) también mostraron una correlación más alta con los CI de sus madres biológicas que con los de sus madres adoptivas. Otro hallazgo interesante es que los efectos de la herencia sobre la inteligencia tienden a aumentar con la edad, mientras que los efectos del ambiente, y en particular del ambiente compartido, tienden a disminuir con la edad (McGue, Bouchard, Iacono y Lykken, 1993). Un factor que contribuye a ello es que, a medida que los niños y los adultos envejecen, la parte del ambiente que tuvo más influencia al principio de la vida es reemplazada por otras experiencias no compartidas en la escuela, en las interacciones sociales con los compañeros, en el trabajo y en otras situaciones. El hecho de que las influencias genéticas se vuelven incluso más significativas con la edad fue subrayado por los resultados del Estudio de Gemelos de Louisville (Wilson, 1983). En esta investigación de 500 pares de gemelos, los CI de gemelos monocigóticos se hicieron más similares, pero los de gemelos dicigóticos se hicieron menos similares, de la infancia a la adolescencia. Los resultados de los Estudios de Adopción de Minnesota (Scarr y Weinberg, 1983) son congruentes con los del Estudio de Gemelos de Louisville en el descubrimiento de que el ambiente familiar tiene cierto impacto en el CI, en particular durante la niñez temprana, pero que los efectos del ambiente familiar son sustancialmente menores que los de la herencia. Otro hallazgo, aquel de un coeficiente estimado de heredabilidad de .80 para las calificaciones en pruebas de inteligencia en una muestra de adultos con una edad promedio de 66 años (Pedersen, Plomin, Nesselroade y McClearn, 1992), indica que la herencia continúa ejerciendo una influencia profunda en las calificaciones CI obtenidas tarde en la vida. RESUMEN A los individuos con calificaciones en los extremos bajo y alto de la distribución de inteligencia se les conoce, respectivamente, como retrasados mentales o superdotados. Tanto las calificaciones en las pruebas de inteligencia como la conducta adaptativa son importantes en el diagnóstico del retraso mental. El retraso mental se clasifica, de acuerdo con su gravedad, en tres o cuatro RESUMEN 189 categorías. Tanto la genética como la experiencia son factores determinantes en el retraso mental, pero en la mayoría de los casos se desconoce la causa exacta. El estereotipo tradicional de que los niños superdotados son físicamente débiles, poco sanos, con probabilidades de consumirse pronto e inestables en lo emocional es incorrecto para la mayoría de esos niños, sobre todo para los que son moderadamente superdotados. Sin embargo, se ha informado que los niños extremadamente superdotados presentan mayor probabilidad que el promedio de tener problemas sociales y emocionales. La aceleración, el uso de mentores, el enriquecimiento, las clases especiales y las escuelas especiales se encuentran entre los procedimientos empleados en la educación de los niños superdotados. El desempeño creativo no es sólo una función de una inteligencia relativamente alta, sino también de la elevada motivación, el entrenamiento especial y quizá de otras capacidades psicológicas. Un problema importante en el desarrollo de medidas útiles de la creatividad es la definición de criterios adecuados para inducir el desempeño creativo. Las baterías de pruebas como las Pruebas de la Estructura del Intelecto de Guilford y las Pruebas Torrance de Pensamiento Creativo son ejemplos notables de instrumentos diseñados para evaluar la creatividad. Los resultados de la investigación reciente sugieren que ciertas clases de desempeño creativo están asociadas con trastornos del estado de ánimo, como la psicosis maniaco-depresiva. Dado un ambiente familiar relativamente estable, nutrición adecuada y experiencias educativas apropiadas, las calificaciones de CI permanecen bastante estables después de la niñez temprana. Los resultados de estudios transversales describen que la inteligencia aumenta en la juventud y luego declina de manera gradual en la vejez; los estudios longitudinales encuentran menos declinación con la edad. La tasa de deterioro, o incluso de aumento en algunos casos, es una función de los tipos de actividades a los que se dedica la gente a lo largo de su vida: quienes continúan comprometidos en actividades intelectuales muestran menor declinación intelectual que quienes manifiestan menos interés en el aprendizaje continuo. La cuestión de si la inteligencia disminuye de manera abrupta en las últimas semanas o meses antes de la muerte en la vejez, la caída terminal, no se ha resuelto de manera concluyente. Un tamaño grande de la familia se asocia con menores CI promedio, y los primogénitos tienden a ser superiores en lo intelectual a los que nacen después. El estatus ocupacional y la posición socioeconómica tienen una correlación positiva entre sí y con la inteligencia, pero no queda claro si las ventajas de pertenecer a una clase social más alta den por resultado niños con CI más elevados o si los CI más altos y la posición social elevada son consecuencias de factores genéticos. Otras variables demográficas asociadas con las calificaciones CI son la residencia urbana contra la rural, el nivel educativo, la nacionalidad y el grupo étnico. En lo que respecta a la educación, las actitudes o expectativas de los maestros concernientes a qué niños son capaces de tener logros también pueden jugar cierto papel en si los niños alcanzan su potencial. No se ha encontrado un área específica del cerebro que se considere el asiento de la inteligencia. Sin embargo, la investigación sobre la localización cerebral de las funciones cognoscitivas ha encontrado que ciertas estructuras desempeñan papeles importantes en los procesos mentales de orden superior. Los estudios no han revelado diferencias de género consistentes en la habilidad mental general, aunque cada sexo tiende a ser superior al otro en ciertas habilidades específicas. Las niñas son mejores en memorización, tareas lingüísticas, velocidad perceptual y precisión y cálculos numéricos. Los varones destacan en razonamiento matemático, capacidad visoespacial, habilidad mecánica y velocidad y coordinación de los movimientos corporales grandes. Las bases fisiológicas de esas diferencias no se entienden bien, pero parecen estar relacionadas con diferencias en el desarrollo y funcionamiento de los hemisferios izquierdo y derecho del cerebro. Las dife- 190 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales rencias en otras estructuras cerebrales y en el nivel de testosterona también parecen estar relacionadas con las diferencias de género en las habilidades cognoscitivas. Se ha encontrado que varias hormonas y drogas están relacionadas con las habilidades mentales. En particular, llaman la atención los estudios del síndrome fetal de alcohol y los efectos de los altos niveles de plomo en la inteligencia de los niños. La desnutrición, en especial durante el último periodo prenatal o el periodo posnatal temprano, puede producir un menor CI. Además, ciertos trastornos con base genética (por ejemplo, PKU, enfermedad de Tay-Sachs y la galactosemia) asociados con bajos CI pueden ser tratados con dietas especiales si se detectan con la oportunidad suficiente. Entre los varios problemas y controversias que rodearon a las pruebas de inteligencia durante buena parte del siglo XX, la cuestión más debatida ha sido la de las contribuciones relativas de la herencia y el ambiente al moldeamiento de las habilidades cognoscitivas. La evidencia de docenas de investigaciones destaca la relación de la herencia con la habilidad mental general, aunque no niega que la herencia y el ambiente son importantes e interactivos en sus efectos sobre la conducta inteligente. Este tema ha resultado particularmente controvertido por su asociación con la problemática de las diferencias raciales en la inteligencia. Aunque los hallazgos de numerosas investigaciones han llevado a concluir que en una población con apareamiento clasificado el coeficiente de heredabilidad (la proporción de varianza en las calificaciones de las pruebas de inteligencia de la población general explicada por la herencia) es hasta de .70, también está claro que los ambientes biológico y psicosocial tienen influencias importantes en la inteligencia. P R E G U N TA S Y A C T I V I D A D E S 1. Describa los sistemas de clasificación para el retraso mental propuestos por la Asociación Estadounidense del Retraso Mental, La Asociación Nacional para los Niños Retrasados y la Asociación Psiquiátrica Estadounidense. 2. Dado que en Estados Unidos el método para diagnosticar el retraso mental, incluyendo el CI límite, varía de un estado a otro, ¿es posible que un niño sea retrasado mental en un estado y “limítrofe” o de “bajo promedio” en otro? ¿Qué consecuencias podría tener esto? 3. Se invierten más fondos del gobierno en la educación de los retrasados mentales que en la de los superdotados. ¿Está esto justificado? ¿Por qué sí o por qué no? 4. Para “probar” su habilidad creativa, trate de resolver los siguientes ejercicios: a. ¿Cuántos usos puede imaginar para un clip, una pelota de goma, un ladrillo, una percha de alambre, una regla de un pie de longitud o un mondadientes? b. Trate de imaginar cómo cambiarían las cosas si: Todos tuvieran tres brazos. Todos tuvieran seis dedos y no tuvieran pulgar en cada mano. Lloviera de manera constante durante seis meses al año y no lloviera los seis meses restantes. Compare sus respuestas con las de sus amigos y condiscípulos. 5. ¿Qué variables demográficas están relacionadas con las calificaciones obtenidas en las pruebas de inteligencia? ¿Cuáles de esas variables parecen ser más importantes? ¿Cuáles tienen una relación causal con la inteligencia? 191 RESUMEN 6. ¿Qué factores biológicos se ha demostrado que afectan la inteligencia? ¿Cuáles de esos factores son los más importantes? 7. Diseñe un estudio para probar la hipótesis de que la diferencia entre los CI promedio de negros y blancos no es significativa. No se preocupe demasiado con la posibilidad real de efectuar su estudio, pero asegúrese de controlar las variables extrañas (de confusión). 8. En un resumen de las correlaciones promedio entre los CI de personas que tienen diferentes grados de parentesco, Bouchard y McGue (1981) mencionaron que la correlación mediana entre los CI de gemelos fraternos del mismo sexo criados juntos era de .60, y que la correlación mediana entre los CI de gemelos idénticos criados juntos era de .86. Una fórmula sugerida para calcular el índice de heredabilidad es: h2 = ri – rf l – rf , donde ri es la correlación entre los CI de gemelos idénticos (monocigóticos), y rf es la correlación entre los CI de gemelos fraternos (dicigóticos) del mismo sexo criados juntos. Utilice esta fórmula para calcular h2 e interprete el resultado. CAPÍTULO NUEVE EVALUACIÓN DEL DESARROLLO Y NEUROPSICOLÓGICA Durante casi 100 años, las pruebas de inteligencia se han usado con el propósito de identificar las habilidades que niños y adultos poseen para entender y realizar tareas educacionales y ocupacionales, entre otras. Estas pruebas resultaron bastante efectivas con niños de edad escolar, pero han probado ser menos útiles para evaluar las habilidades de infantes y preescolares. Además, las pruebas de inteligencia general no fueron diseñadas para medir más que habilidades motrices, sensorial-perceptuales, lingüísticas y otras habilidades específicas o para proporcionar otra cosa que índices crudos de habilidades cognoscitivas específicas como memoria, atenciónconcentración y pensamiento abstracto. Las dificultades y demoras en el aprendizaje pueden deberse a una baja habilidad mental, a impedimentos sensoriales y motrices o a trastornos neurológicos de varios tipos. En consecuencia, además de las medidas de habilidad mental general, a menudo se aplican pruebas especiales de memoria, percepción, habilidades psicomotrices y otras habilidades para proporcionar una imagen diagnóstica más detallada de los individuos que no presentan un funcionamiento efectivo en la escuela, el trabajo o en otros lugares. La mayoría de los instrumentos expuestos en este capítulo no se aplican tan a menudo como las pruebas estándar de inteligencia, pero proporcionan fuentes adicionales de información para entender a niños y adultos y planear programas y tratamientos especiales dirigidos a quienes experimentan dificultades para adaptarse a las demandas de la vida cotidiana. Este capítulo y el siguiente se interesan en los instrumentos psicométricos que se aplican con frecuencia para obtener información más detallada sobre las habilidades humanas que la proporcionada por las pruebas de inteligencia general. Las pruebas descritas en este capítulo se usan más a menudo en contextos clínicos, educativos y de investigación, mientras que los instrumentos analizados en el capítulo 10 se aplican sobre todo en los contextos de negocios e industrias. EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS Los estudios sistemáticos del desarrollo humano, iniciados hacia finales del siglo XIX, fueron impulsados gracias a la preocupación expresada por escritores y reformadores sociales acerca del bienestar de los niños, en particular por lo concerniente a su salud y educación, y sobre todo 192 EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 193 por la explotación a que eran sometidos en los lugares de trabajo y en otras partes. Esta preocupación dio lugar a un movimiento por el bienestar infantil y a una legislación y programas públicos dirigidos a proporcionar un trato más humano a los niños. Asociadas con el movimiento por el bienestar infantil estaban la nueva ciencia de la psicología del desarrollo y la investigación sobre las características físicas, cognoscitivas, emocionales y sociales de los niños. Para contribuir a esta investigación se diseñaron instrumentos y procedimientos con los cuales medir el desarrollo cognoscitivo, motriz, perceptual, emocional y social. Problemas en la examinación de infantes y niños pequeños Examinar a infantes (0 a 11/2 años) y a preescolares (11/2 a 5 años) puede ser difícil debido a que mantienen la atención por periodos cortos y tienen mayor susceptibilidad a la fatiga. Los niños pequeños también pueden carecer de la motivación necesaria para seguir las tareas de una prueba, las cuales con frecuencia evalúan características que son más bien inestables durante la niñez temprana. Por esas razones, la confiabilidad y la validez de las pruebas aplicadas a preescolares tienden a ser menores que las resultantes de pruebas diseñadas para escolares. Las pruebas de inteligencia infantil también tienden a presentar bajas correlaciones con las calificaciones obtenidas en pruebas de inteligencia aplicadas a los mismos niños años después, y no proporcionan una predicción muy precisa del desarrollo intelectual posterior. Una razón de la baja correlación que se da entre las calificaciones en las pruebas de inteligencia infantil y las calificaciones en pruebas como la Escala de Inteligencia de Stanford-Binet aplicadas a una mayor edad estriba en las diferencias existentes en los tipos de tareas que se realizan en las dos clases de pruebas. Las pruebas de inteligencia infantil son, sobre todo, medidas del desarrollo sensoriomotriz, como la habilidad para levantar y voltear la cabeza, seguir con la mirada un objeto en movimiento y alcanzar o agarrar un objeto. En contraste, los reactivos de las pruebas de inteligencia del tipo Binet son de naturaleza más lingüística o verbal. Los niños preescolares, que tienen un repertorio conductual mayor que el de los infantes, pueden caminar y sentarse en una mesa mientras manipulan los materiales de la prueba, y se comunican mejor con el examinador. Las pruebas de inteligencia infantil no sólo tienen una validez predictiva relativamente baja, sino que su confiabilidad también es menor que la de las pruebas aplicadas más tarde durante el periodo preescolar. Aunque la mayor tendencia a la distracción de los infantes en situación de prueba contribuye a la baja confiabilidad de los instrumentos que se les aplican, de buena fe se afirma que al parecer también ocurren cambios en las habilidades cognoscitivas de los niños pequeños. Los niños no sólo se muestran más atentos y motivados que los infantes en las situaciones de prueba, sino que sus habilidades cognoscitivas parecen ser de una calidad diferente. Por ejemplo, los preescolares se interesan mucho más en las palabras y las interacciones sociales que los infantes. A pesar de sus bajas correlaciones con los resultados de pruebas posteriores, las pruebas aplicadas durante la infancia son útiles para diagnosticar el retraso mental y los trastornos cerebrales orgánicos, y en la detección de las discapacidades del desarrollo. Los hallazgos de la investigación han revelado que las calificaciones obtenidas en las pruebas durante la infancia proporcionan una predicción significativa de la condición intelectual posterior de niños con retraso mental y con daño neurológico (Ames, 1967; McCall, 1979). Aunque los resultados de dichos estudios indican que el desempeño en las pruebas infantiles puede contribuir a la comprensión del desarrollo del niño y a tomar decisiones prácticas acerca de este grupo de edad, los datos de prueba deben combinarse e interpretarse a la luz de otra información acerca del examinado y teniendo conciencia de las limitaciones de las pruebas. 194 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica Programas de Desarrollo de Gesell La investigación iniciada por Arnold Gesell en la Clínica Yale de Desarrollo Infantil durante la década de 1920 dio lugar a una serie exhaustiva de investigaciones sobre la infancia y la niñez temprana que continuaron durante 40 años. Una suposición que guiaba esos estudios era que las funciones motrices gruesas y finas, de lenguaje, personal-sociales y de conducta adaptativa de los niños seguían una secuencia ordenada de maduración. Se obtuvieron datos normativos sobre el desarrollo de las habilidades motrices, lingüísticas y personal-sociales, así como de la conducta adaptativa desde el nacimiento hasta los seis años. Se obtuvo información detallada de cada niño siguiendo diversos métodos: registros en el hogar, historia médica, registros diarios, mediciones antropométricas, observaciones materiales, informes del comportamiento del niño en la clínica, examinación normativa y calificaciones del desarrollo. El siguiente extracto es característico de las descripciones conductuales normativas proporcionadas por Gesell y sus colaboradores (Gesell y Amatruda, 1941, p. 41): El bebé puede alcanzar con sus ojos antes de poder alcanzar con su mano; a las 28 semanas un bebé mira un cubo; lo agarra, siente la superficie y el borde conforme lo empuña, lo lleva a su boca, donde siente sus cualidades de nuevo, lo aparta, lo mira al alejarlo, lo hace girar mientras mira, mira mientras lo hace girar, lo regresa a su boca, lo retira de nuevo para inspeccionarlo, lo regresa una vez más a la boca, lo cambia a la otra mano, lo golpea, lo toca con la mano libre, lo cambia, lo lleva de nuevo a la boca, lo deja caer, lo recupera, lo lleva otra vez a la boca, repitiendo el ciclo con variaciones —todo en el tiempo que se lleva leer esta frase. Las calificaciones en los Programas de Desarrollo de Gesell, determinadas por la presencia o ausencia de conductas específicas características de los niños a ciertas edades, se resumieron en términos de la edad de desarrollo (ED). La ED podía ser convertida luego a un cociente de desarrollo (CD) mediante la fórmula CD = 100 (ED/EC). Sin embargo, Gesell no consideró que el CD fuera equivalente a un CI. Es probable que los Programas de Desarrollo de Gesell fueran más usados por los pediatras que por los psicólogos de la década de 1920 hasta la de 1940. Los psicólogos, en particular los que tenían una orientación psicométrica fuerte, criticaban la subjetividad y la mala estandarización de los programas de Gesell. Sin embargo, una versión posterior de las escalas incluía procedimientos observacionales más objetivos. Knobloch (Knobloch y Pasamanick, 1974; Knobloch, Stevens y Malone, 1987) proporcionó instrucciones detalladas para efectuar observaciones e interpretarlas en la revisión de los Programas de Desarrollo de Gesell. También se publicaron normas para preescolares (21/2 a 6 años) con intervalos de medio año, pero no para infantes (Ames, Gillespie, Haines e Ilg, 1979). Los Programas de Desarrollo de Gesell fueron populares, sobre todo entre los pediatras, y todavía están en uso revisiones de los programas originales (Ireton, 1992, 1998). Sin embargo, los psicólogos del desarrollo perseveraron para elaborar instrumentos con mejores características psicométricas que las de los programas de Gesell. Algunos ejemplos son la Escala Mental de California para el Primer Año, la Prueba de Inteligencia Northwestern, la Escala Griffith del Desarrollo Mental, la Escala Merrill-Palmer y la Escala Cattell de Inteligencia Infantil. Sólo las dos últimas siguen imprimiéndose, y en su mayor parte el contenido ha sido reemplazado. Un derivado más reciente de los Programas de Desarrollo de Gesell es el programa Denver-II, (de W. K. Frankenburg et al.; Denver Developmental Materials). El Denver-II fue diseñado para evaluar las habilidades personales, sociales, motrices finas y gruesas, de lenguaje y EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 195 adaptativas de los niños desde el nacimiento hasta los seis años, y funciona como instrumento de detección de las demoras del desarrollo. Los 125 reactivos del Denver-II se administran de manera individual en 20 a 25 minutos, o en 10 a 15 minutos en la versión abreviada. Se califica en cuatro áreas: personal-social, motriz fina-adaptativa, lenguaje y motriz gruesa. También se obtienen calificaciones en cinco conductas: típica, docilidad, interés en los alrededores, timidez y lapso de atención. El Denver-II es fácil de administrar y de calificar, pero se le ha criticado por la poca representatividad de su muestra de estandarización (Hughes, 1995). Escala Brazelton de Evaluación Conductual Neonatal A lo largo de su vida, la gente es evaluada de muchas maneras, formales e informales, y en ocasiones incluso antes de nacer. Por ejemplo, la Escala Obstétrica Rochester consta de una escala prenatal, una escala para el parto y una escala infantil. Otra medida, la calificación Apgar, se deriva de mediciones del ritmo cardiaco, la respiración, el tono muscular, los reflejos y el color obtenidas al minuto y a los cinco minutos del nacimiento (Chinn, Drew y Logan, 1975). Sin embargo, es posible que la prueba neonatal más popular sea la Escala Brazelton de Evaluación Conductual Neonatal (NBAS) (Brazelton, 1973, 1984). La NBAS, que tiene un rango de edad de tres días a cuatro semanas, se califica en 26 reactivos conductuales y 20 respuestas provocadas, incluyendo medidas del funcionamiento neurológico, conductual y social. Los reactivos miden la coordinación mano-boca, la habituación a los estímulos sensoriales, las respuestas de sobresalto, reflejos, respuestas a la tensión, madurez motriz y caricias . A pesar de ciertos defectos, por ejemplo, pocos datos normativos o de validez y coeficientes de confiabilidad bastante bajos, la NBAS sigue siendo usada por los pediatras y los psicólogos infantiles en la práctica y la investigación. Escalas de Bayley del Desarrollo Infantil Las Escalas de Bayley del Desarrollo Infantil, segunda edición (BSID-II) (The Psychological Corporation), están basadas en el Estudio de Crecimiento de Berkeley, un programa de investigación dirigido por Nancy Bayley. La BSID-II fue diseñada para niños de entre uno y 42 meses de quienes se sospeche que están en riesgo de presentar discapacidades cognoscitivas y consta de tres partes: una Escala Mental que arroja un Índice de Desarrollo Mental, una Escala Motriz que produce un Índice de Desarrollo Psicomotriz y una Escala de Calificación de la Conducta que complementa la información de las escalas mental y motriz. La Escala Mental mide las habilidades sensorial-perceptuales, discriminaciones y la habilidad de responder a ellas; la adquisición de constancia del objeto; memoria, aprendizaje y resolución de problemas; vocalización, inicio de la comunicación verbal, evidencia temprana de la base del pensamiento abstracto, habituación, mapeo mental, lenguaje complejo y formación de conceptos matemáticos. La Escala Motriz mide el grado de control corporal, coordinación de los músculos grandes, habilidades manipulatorias finas de las manos y los dedos, movimiento dinámico, práctica dinámica, imitación postural y estereognosis. La Escala de Calificación de la Conducta mide atención-activación, orientación-compromiso, regulación emocional y calidad motriz. La prueba entera puede administrarse en 25 a 35 minutos a niños menores de 15 meses y en un máximo de 60 minutos a niños mayores de esa edad. (Vea la figura 9.1.) La BSID-II fue estandarizada a principios de la década de 1990 en 850 niños y 850 niñas, de 1 a 42 meses de edad, seleccionados de manera aleatoria estratificada de cuatro regiones geo- 196 Evaluación del desarrollo y neuropsicológica CAPÍTULO NUEVE FIGURA 9.1 Reactivos para las Escalas de Bayley de Desarrollo Infantil, segunda edición. (Copyright © 1993 por The Psychological Corporation, una Harcourt Assessment Company. Reproducido con autorización. Todos los derechos reservados. “Escalas de Bayley de Desarrollo Infantil” es una marca registrada de Psychological Corporation inscrita en Estados Unidos y otras jurisdicciones.) gráficas y por edad, género, grupo étnico y educación de los padres. El manual de la BSID-II proporciona datos sobre niños que nacieron de manera prematura, en quienes la prueba de VIH resultó positiva, que fueron expuestos a drogas durante el periodo prenatal, que fueron asfixiados al nacer, que presentan demoras en el desarrollo o tienen infecciones frecuentes del oído medio, que son autistas o tienen síndrome de Down. Un instrumento acompañante, el Examen de Bayley de Neurodesarrollo Infantil (BINS), fue diseñado para evaluar las funciones neurológicas básicas, las funciones receptivas auditivas y visuales, y los procesos sociales y cognoscitivos en niños de 3 a 24 meses. La MSCA y la MST Las Escalas McCarthy de las Habilidades de los Niños (MSCA) (The Psychological Corporation), que comienzan donde terminan las escalas de Bayley, fueron diseñadas para niños de 21/2 a 81/2 años de edad. Estas escalas producen seis medidas de desarrollo intelectual y motriz: verbal, perceptual-desempeño, cuantitativo, cognoscitivo general, memoria y motriz. La MSCA fue estandarizada en muestras de alrededor de 100 niños en cada uno de diez grupos de edad, estratificados por raza, región, posición socioeconómica y residencia urbana-rural. Los datos sobre la validez de la MSCA, publicados después de la muerte de la autora, siguen siendo escasos. La Prueba de Detección de McCarthy (MST), publicada años después de la MSCA, proporciona un medio para identificar a niños (de 4 a 81/2 años) que pueden estar en riesgo de presentar problemas de aprendizaje. Las seis escalas componentes de la MST se inspiraron en las de la MSCA. EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 197 FirstSTEP y el ESP Las pruebas psicológicas usadas para detectar demoras en el desarrollo en grandes cantidades de niños y la subsecuente examinación diagnóstica a profundidad deberán cumplir con los criterios mencionados en el Acta para la Educación de Individuos con Discapacidades (IDEA) (Ley pública 101-476). Aunque la MSCA cumple los criterios de la IDEA, dos instrumentos diseñados específicamente con esas consideraciones en mente son la Prueba de Detección FirstSTEP para la Evaluación de Preescolares (The Psychological Corporation) y los Perfiles de Detección Temprana AGS (ESP) (American Guidance Service). Las características psicométricas de FirstSTEP y del ESP son aceptables para los instrumentos de detección del desarrollo, pero ningún instrumento ha sido usado de manera extensiva con fines de investigación. FirstSTEP es una prueba rápida (15 minutos) para detectar demoras en el desarrollo en niños de 2.9 a 6.2 años de edad. Las 12 subpruebas, que fueron diseñadas para crear una atmósfera de “juego” en el examen, se clasifican en tres de los cinco dominios de la IDEA: cognición, comunicación y motriz. El desempeño del niño en las 12 subpruebas del FirstSTEP se expresa como una calificación compuesta interpretada en términos de tres categorías de clasificación; “dentro de límites aceptables”, “precaución” (demoras en el desarrollo de leves a moderadas), o “en riesgo” (de sufrir demoras en el desarrollo). Las Escalas de Calificación Social-Emocional y Padres/Maestro son opcionales y se utilizan para evaluar el cuarto dominio de la IDEA (niveles de atención/actividad, interacciones sociales, rasgos personales, y problemas de conducta serios), y una Lista de Verificación de Conducta Adaptativa, también opcional, evalúa el quinto dominio de la IDEA (actividades de la vida cotidiana, autocontrol, relaciones e interacciones, y funcionamiento en la comunidad). Los Perfiles de Detección Temprana AGS (ESP) son un inventario breve para determinar demoras en el desarrollo de los preescolares (de 2 años a 6 años 7 meses). Consta de tres componentes básicos (perfiles) y cuatro estudios complementarios. La aplicación de los perfiles se lleva menos de 30 minutos y los estudios necesitan de 15 a 20 minutos. El Perfil Cognoscitivo/ Lenguaje consta de tareas para evaluar habilidades de razonamiento, organización visual y discriminación, vocabulario receptivo y expresivo, y destrezas escolares básicas. El Perfil Motriz evalúa habilidades motrices gruesas y finas (por ejemplo, caminar por una línea recta, imitar movimientos de brazo y pierna, trazar laberintos, dibujar formas). El Perfil de Autoayuda/Social, un cuestionario que es llenado por uno de los padres o por otro cuidador del niño, se interesa en el desempeño típico del niño en la comunicación, habilidades de la vida cotidiana, socialización y habilidades motrices. Los cuatro estudios del ESP son el Estudio de Articulación (el niño pronuncia 20 palabras), el Estudio del Hogar (los padres responden a preguntas acerca del ambiente familiar del niño), la Historia de Salud (los padres verifican los problemas de salud que ha tenido el niño) y el Estudio de Conducta (el examinador califica el lapso de atención, la tolerancia a la frustración, el estilo de respuesta y otras conductas del niño durante la aplicación de los perfiles Cognoscitivo-Lenguaje y Motriz). Las calificaciones en el ESP se convierten a índices de detección al nivel I o a calificaciones estándar, rangos percentilares y equivalentes de edad al nivel II, indicando si el niño requiere evaluación posterior. Otras pruebas del desarrollo Se dispone de otras baterías y pruebas específicas, nuevas o revisadas, para evaluar el desarrollo motriz, perceptual, cognoscitivo, emocional y social durante la infancia y la niñez temprana. Algunos de estos instrumentos son simples formas en las que un padre, tutor u otra persona familiarizada con el niño efectúa y registra observaciones de su conducta y sus características 198 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica cotidianas. Otros instrumentos implican la presentación de materiales al niño, a quien por lo general se le pide que haga algo con los materiales; las respuestas del niño se anotan y evalúan. Ciertos instrumentos psicométricos, como las Escalas de Desarrollo Motriz de Peabody, la Prueba del Desarrollo del Lenguaje-Primario, tercera edición, y la Prueba del Desarrollo de la Percepción Visual, segunda edición, todos los cuales pueden encontrarse en pro.ed, fueron diseñados para evaluar el desarrollo en dominios específicos. Otros instrumentos, como los que se describen a continuación, son baterías de pruebas para evaluar el desarrollo de un niño en varios dominios. Evaluación del Desarrollo de Niños Pequeños (DAYC). La DAYC (pro.ed) identifica posibles demoras en el desarrollo cognoscitivo, comunicativo, social-emocional, físico y de conducta adaptativa durante los primeros seis años de vida. Esos cinco dominios reflejan áreas en las que el Acta para la Educación de Individuos con Discapacidades (IDEA) de 1990 ordena la evaluación e intervención. A cada uno de los cinco dominios corresponde una subprueba que, dependiendo de la edad del niño, puede aplicarse en 10 a 20 minutos. Las calificaciones de los cinco dominios proporcionan información sobre fortalezas y debilidades específicas, y distingue entre los niños que se desarrollan de manera normal y quienes presentan un desarrollo significativamente por debajo del normal. Las calificaciones también pueden usarse para documentar el progreso en las habilidades del desarrollo como resultado de programas específicos de intervención. Los datos de confiabilidad y validez para los cinco dominios de la DAYC y las calificaciones compuestas dadas en el manual (Voress y Maddox, 1998) son muy alentadoras con respecto a la DAYC como medida del desarrollo. Evaluación del Desarrollo de Infantes y Niños Pequeños. La Evaluación del Desarrollo de Infantes y Niños Pequeños (IDA) (Riverside Publishing) es otro enfoque centrado en el dominio para la identificación de niños, desde el nacimiento hasta los 36 meses, que están en riesgo. Más que ser una batería de pruebas per se, IDA es un procedimiento comprensivo, multidisciplinario, centrado en la familia, que involucra a un equipo de profesionales para obtener, revisar e integrar datos de múltiples fuentes. El proceso de evaluación consta de seis fases, cada una de las cuales se desarrolla a partir de la precedente y es completada luego de ser analizada y revisada por el equipo. La fase 4 de los procedimientos de IDA, Fase de Observación y Evaluación del Desarrollo, hace uso del Perfil Provence de Desarrollo desde el Nacimiento hasta los Tres. La evaluación estandarizada del desarrollo proporcionada por el Perfil Provence emplea la observación naturalista e incorpora informes de los padres sobre el desarrollo del niño en ocho dominios: motriz gruesa, motriz fina, relación con objetos inanimados (cognoscitiva), lenguaje/comunicación, autoayuda, relación con personas, emociones y estados de ánimo (afectos), y afrontamiento. Los coeficientes de confiabilidad para las calificaciones en esos dominios fluctúan de la parte superior de .70 a la parte media de .90, dependiendo de la edad del niño. También se han presentado varios tipos de evidencia a favor de la validez de IDA (vea Erikson, 1995; Meisels y Fenichel, 1996). DISCAPACIDADES DE APRENDIZAJE Las dificultades para aprender a leer, escribir, deletrear o realizar operaciones aritméticas y otras habilidades académicas, de manera tradicional habían sido atribuidas a retraso mental, impedimentos físicos, problemas emocionales graves o falta de motivación. Pero incluso cuando se eliminan esas fuentes como posibles explicaciones, sigue existiendo un grupo considerable de niños que experimentan problemas en el aprovechamiento escolar. Se dice que esos niños tienen una discapacidad específica de aprendizaje o simplemente una discapacidad de aprendizaje DISCAPACIDADES DE APRENDIZAJE 199 (DA). Las discapacidades de aprendizaje pueden ocurrir en individuos de cualquier nivel de inteligencia, pero, en contraste con el retraso mental, los logros de los niños con DA están significativamente por debajo de su capacidad cognoscitiva general. Demografía y definiciones Las discapacidades de aprendizaje constituyen la mayor condición de impedimento entre los niños de todo el mundo (Stanford y Oakland, 2000). A mediados de la década de 1990, un estimado de cinco millones o más de escolares y jóvenes estadounidenses tenían una o más discapacidades. A la mitad de esos estudiantes se les diagnosticó una discapacidad de aprendizaje. Entre los que tienen discapacidades de aprendizaje, los varones superan a las mujeres por dos a uno. Dentro de los grupos raciales-étnicos, el porcentaje de niños con discapacidades de aprendizaje es mayor para los indios americanos y más bajo para los asiáticos/isleños del Pacífico (U. S. Department of Education, 1997). La estadounidense Ley Pública 101-476, Acta para la Educación de Individuos con Discapacidades (IDEA), de 1990, define las discapacidades de aprendizaje como: El término “niños con discapacidades específicas de aprendizaje” se refiere a aquellos niños que tienen un trastorno en uno o más de los procesos psicológicos básicos involucrados en la comprensión o en el uso del lenguaje, hablado o escrito, trastorno que puede manifestarse en una habilidad imperfecta para escuchar, pensar, hablar, leer, escribir, deletrear o para hacer cálculos matemáticos. Dichos trastornos incluyen condiciones como impedimentos perceptuales, lesión cerebral, disfunción cerebral mínima, dislexia y afasia del desarrollo. Dicho término no incluye a niños con problemas de aprendizaje que resultan sobre todo de impedimentos visuales, auditivos o motrices, de retraso mental, de perturbación emocional o de desventaja ambiental, cultural o económica. El tipo más común de discapacidad para el aprendizaje es la dislexia, en la cual la persona tiene dificultades para leer en silencio o en voz alta. Cuando se le pide que lea en voz alta, un niño disléxico lo hace de manera lenta, vacilante y laboriosa. Los niños disléxicos experimentan dificultades en la lectura debido a problemas con la codificación fonológica (es decir, decodificar las letras impresas en sonidos mezclados). La dislexia, que es de tres a cuatro veces más común entre los varones que entre las mujeres, puede deberse a una incapacidad para procesar los sonidos (dislexia auditiva), a la dificultad para procesar la información que ha sido vista (dislexia visual) o a trastornos de comprensión o problemas con la producción escrita. Instrumentos como la Prueba de Detección de Dislexia y las Pruebas de Detección Temprana de Dislexia (de R. Nicholson y A. Fawcett; The Psychological Corporation) son útiles para identificar a escolares y preescolares disléxicos. Los problemas de aprendizaje no verbal en matemáticas (discalculia), escritura (disgrafia) y cognición espacial son menos comunes que los problemas de aprendizaje verbal (Rourke, 1989). La dificultad en el aprendizaje de la aritmética puede estar relacionada con problemas de lenguaje o de lectura, así como con perturbaciones en el pensamiento cuantitativo, la visualización o escritura de números, y el recuerdo de instrucciones (Johnson y Myklebust, 1967). Sólo alrededor de 1 a 10% de las personas con discapacidades de aprendizaje presentan dichos problemas, en comparación con .1 a 1% de la población general. Los niños con DA verbales, por lo general, tienen un mejor desempeño en las pruebas de ejecución, las cuales requieren destrezas visoespaciales y visomotrices, que en las pruebas verbales, las cuales miden las habilidades de lenguaje. Sucede lo opuesto en niños con DA no verbales: se desempeñan mejor en las pruebas verbales que en las de ejecución. 200 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica Causas de las discapacidades de aprendizaje Existe un debate considerable acerca de si las DA son causadas por factores neurológicos, del desarrollo, de la experiencia o de una combinación de estos. Las condiciones neurológicas asociadas con las DA pueden atribuirse a influencias prenatales como los virus, el alcohol, a fumar cigarrillos o a drogas como la cocaína, a la radiación y a otros teratógenos que pueden cruzar la barrera placentaria y dañar al embrión o feto. El nacimiento prematuro, el bajo peso al nacer y el uso de fórceps también pueden participar en las discapacidades de aprendizaje (Bender, 1995). Los factores posnatales que han sido investigados como causas posibles de las DA son las convulsiones inducidas por fiebres altas o la inhalación de contaminantes con plomo (Needleman, Schell, Bellinger, Leviton y Allred, 1990); la diabetes, la meningitis, las lesiones en la cabeza y la desnutrición también han sido implicadas en ciertos casos (Hallahan, Kauffman y Lloyd, 1996). Existe evidencia de una base genética para ciertas DA (por ejemplo, Oliver, Cole y Hollingsworth, 1991). Una línea relacionada de investigación neuropsicológica se ha centrado en déficit en el lóbulo temporal izquierdo del cerebro de la gente con discapacidades de aprendizaje verbal. Una estructura cerebral de interés es el plano temporal, un área en ambos lados del cerebro que se conoce por participar en el desarrollo del lenguaje. En los no disléxicos el plano temporal del lado izquierdo del cerebro es notablemente más grande que el del lado derecho, pero en los disléxicos no hay diferencia en el tamaño de los planos temporales en los dos lados del cerebro (Leonard et al., 1996). Diagnóstico y tratamiento En las aulas, los maestros pueden identificar las discapacidades de aprendizaje en los niños mediante la observación cuidadosa. También pueden aplicar pruebas colectivas de inteligencia y/o instrumentos más especializados como el Procedimiento de Calificación de la Discapacidad de Aprendizaje (Academic Therapy Publications), la Escala de Evaluación de Discapacidades de Aprendizaje (Hawthorne Educational Services), la Prueba de Detección de McCarthy y las Pruebas de Detección Slingerland para la Identificación de Niños con Discapacidad Específica de Lenguaje (Educators Publishing Service). Sin embargo, la administración de una batería de pruebas psicológicas requiere los servicios de un psicólogo escolar o un psicólogo clínico. El diagnóstico efectivo y la planeación del remedio en las discapacidades de aprendizaje son una empresa multidisciplinaria que incluye al maestro regular del niño, a especialistas que tienen conocimientos relacionados con el impedimento sospechado y a personas experimentadas en el uso de instrumentos psicométricos para hacer evaluaciones diagnósticas. De acuerdo con las directrices proporcionadas por la Ley pública estadounidense 94-142, Acta de Educación para Todos los Niños con Impedimentos, de 1975, sólo se hace un diagnóstico de una discapacidad de aprendizaje específica cuando se encuentra una diferencia significativa entre la habilidad y el aprovechamiento en una o más de las siguientes áreas: expresión oral, comprensión auditiva, expresión escrita, habilidad básica de lectura, lectura de comprensión, cálculos matemáticos o razonamiento matemático. Una vez que se cuenta con diagnóstico de una discapacidad de aprendizaje, debe prepararse un plan de educación individualizada (PEI) que consta de objetivos a corto y largo plazos y procedimientos para alcanzarlos. Además de un plan para remediar los déficit relacionados con la escuela, un PEI efectivo incluye medidas para tratar los problemas conductuales acompañantes. En Estados Unidos, los criterios de elegibilidad para proporcionar servicios a los niños con discapacidades de aprendizaje varían de un estado a otro, pero, en general, el diagnóstico de una discapacidad de aprendizaje sólo queda justificado cuando la calificación global de un niño TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 201 en una prueba estandarizada de aprovechamiento está al menos una desviación estándar por debajo de su calificación en una prueba de inteligencia co-normada. Las pruebas individuales de inteligencia, como SB-IV, WPPSI-R, WISC-III y K-ABC, y las pruebas estandarizadas de aprovechamiento como la Prueba Peabody de Aprovechamiento Individual, revisada, el test Kaufman de Rendimiento Educativo y la Prueba Wechsler-II de Aprovechamiento Individual son apropiadas. Es factible que para este propósito se haya aplicado de manera más amplia la prueba Woodcock-Johnson III, la cual incluye una batería de pruebas de inteligencia (pruebas WJ-R de habilidad cognoscitiva) y una batería co-normada de pruebas de aprovechamiento (pruebas WJ-R de aprovechamiento). En los capítulos 6 y 7 se proporcionan descripciones de esas pruebas. Además de las baterías de pruebas de inteligencia y aprovechamiento, en ciertos casos es conveniente aplicar pruebas más especializadas de desarrollo neuropsicológico, mental e incluso pruebas de personalidad. Se ha utilizado una variedad de procedimientos de instrucción en los niños con DA, incluyendo el análisis conductual e intervención, el aprendizaje cooperativo, la tutoría de pares y agresiva, y la asesoría en habilidades de razonamiento (Bender, 1995; Kirk, Gallagher y Anastasiow, 1997; Sullivan, Mastroipieri y Scruggs, 1995). Los resultados de esas y otras estrategias de intervención (por ejemplo, biorretroalimentación, entrenamiento de relajación, instrucción multisensorial, dietas especiales) han sido mixtos. TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN En tiempos antiguos el oráculo de Delfos recomendaba a quienes buscaban su consejo que empezaran por conocerse a sí mismos, pero a pesar de la búsqueda e investigación continuas por casi dos siglos, esta tarea ha demostrado no ser sencilla. El funcionamiento del casi kilo y medio de tejido esponjoso que compone el cerebro humano en ocasiones parece ser casi tan complejo como el universo mismo. Con todo, ahora sabemos bastante acerca del funcionamiento de los cuatro lóbulos de la corteza cerebral (frontal, parietal, occipital, temporal) y las estructuras subcorticales del cerebro. Si bien el pensamiento y la acción por lo regular involucran muchas áreas diferentes del cerebro, existe cierto grado de especificidad o localización en su funcionamiento. Por ejemplo, sabemos que en la mayoría de las personas un área del lóbulo frontal izquierdo (área de Broca) desempeña un papel importante en la producción del lenguaje gramatical, y que un área del lóbulo temporal izquierdo (área de Wernicke) le da significado al lenguaje. También sabemos que el lóbulo parietal izquierdo es importante en la orientación visoespacial, que los lóbulos frontales desempeñan un papel importante en el pensamiento abstracto y la resolución de problemas, y que el hipocampo participa en el almacenamiento de los recuerdos. Sin embargo, dependiendo de la edad del individuo y de otros factores, cuando un área particular del cerebro es lesionada, otras áreas pueden asumir el control de las funciones del área lesionada o compensar su pérdida. Modelo Reitan-Wolfson La figura 9.2 es un esbozo del marco de referencia conceptual del funcionamiento neuropsicológico propuesto por Reitan y Wolfson (1993) para la organización de los correlatos conductuales del funcionamiento cerebral y la descripción de medidas de esas funciones. El proceso comienza con la entrada de la información sensorial al cerebro. Esto es seguido por el primer paso 202 Evaluación del desarrollo y neuropsicológica CAPÍTULO NUEVE Salida Formación de conceptos Razonamiento Análisis lógico Habilidades de lenguaje Habilidades visoespaciales Atención, concentración, memoria Entrada FIGURA 9.2 Modelo ReitanWolfson del funcionamiento neuropsicológico Vea la explicación en el texto. (Reproducido con autorización de R. M. Reitan.) en el procesamiento central, la fase de registro, la cual consiste en la alerta, atención, observación continua y detección de la información que llega contra el telón de fondo de la experiencia previa. El proceso de detección involucra a las memorias inmediata, intermedia y de largo plazo. El registro de la información sensorial que llega es seguido por el procesamiento de la información verbal en el hemisferio izquierdo y de la información visual-espacial en el hemisferio derecho. El siguiente nivel superior en el procesamiento central consiste en la formación de conceptos, razonamiento y análisis lógico, funciones que generalmente tienen lugar por toda la corteza cerebral. La etapa final del modelo de Reitan-Wolfson es la salida —acciones motrices verbales y no verbales que resultan del procesamiento cognoscitivo de la entrada sensorial. Etiología y sintomatología Los trastornos neuropsicológicos pueden ser causados por anomalías genéticas, de desarrollo, envejecimiento o por trauma, tumores, abuso crónico del alcohol, dieta, drogas, microorganismos u otras condiciones físicas o químicas que afectan el funcionamiento del cerebro. Esos trastornos pueden afectar la atención, las habilidades motrices, habilidades visoespaciales, la memoria a corto y a largo plazos, el lenguaje y habilidades de pensamiento abstracto. También causan que el individuo se vuelva hiperactivo, impulsivo, fácil de distraer y emocionalmente inestable. TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 203 Cuando las áreas cerebrales del lenguaje están afectadas, pueden presentarse dificultades para entender el lenguaje hablado o escrito (afasia), así como deterioros en la habilidad para la lectura (alexia) y la escritura (agrafia). La agnosia, dificultad para reconocer objetos, puede ocurrir cuando se afectan las áreas sensoriales del cerebro. Y cuando se lesionan áreas motoras puede presentarse apraxia, la incapacidad para realizar movimientos propositivos, falta de coordinación e incluso parálisis. Trastornos en los niños. Aunque existen múltiples causas de daño cerebral en todas las edades, los problemas que se derivan de la exposición prenatal al alcohol, las drogas y otros teratógenos, complicaciones durante el embarazo y el parto, y otros problemas del desarrollo temprano son causas comunes de daño cerebral en los niños pequeños. Rara vez resulta sencillo determinar las causas precisas de trastornos neuropsicológicos particulares en los niños debido a que ellos pasan por muchos otros cambios en esta época de la vida, y a que intentan adaptarse a muchas experiencias y acontecimientos nuevos. Además, los niños suelen ser menos cooperativos que los adultos durante los exámenes, y sus síntomas a menudo son más variables que los de los adultos. Trastornos en los adultos mayores. Dos de los trastornos neuropsicológicos más relevantes en los adultos mayores son la demencia vascular y la enfermedad de Alzheimer. Los síntomas de esos trastornos incluyen confusión mental, pérdida de memoria, habla incoherente, mala orientación en el ambiente y, en algunos casos, falta de coordinación motriz, agitación, depresión y delirio. Los síntomas se vuelven más evidentes después de los 65 años, su frecuencia alcanza un punto máximo alrededor de los 70 años y después declina un poco. Los síntomas están asociados con degeneración neuronal, lo cual conduce a la atrofia (encogimiento) y a cambios degenerativos relacionados en el cerebro. El encogimiento ocurre sobre todo en la corteza frontal, la corteza temporal y la materia blanca asociada y puede reducir el cerebro de 15 a 30% de su peso previo. En los años recientes se ha incrementado el uso de pruebas neuropsicológicas con el propósito de hacer diagnósticos diferenciales de pérdidas de memoria causadas por demencia, delirio y depresión. Los psicólogos que se especializan en el diagnóstico y tratamiento de los adultos mayores y en la investigación sobre este grupo de edad emplean muchas pruebas de este tipo. Por ejemplo, las pruebas de memoria, capacidades perceptuales y razonamiento abstracto se utilizan para diferenciar entre la demencia y la pseudodemencia de la depresión. Pruebas neuropsicológicas En años recientes, los avances tecnológicos en la imagenología cerebral (exámenes CT, MRI y PET) y otras técnicas de diagnóstico cerebal han sido impresionantes, pero el lugar, la extensión y los efectos del daño cerebral rara vez se identifican por completo sólo con procedimientos no psicológicos. Específicamente con propósitos de detección neuropsicológica, diagnóstico clínico detallado y planeación de intervención profesional, es que se han diseñado pruebas neuropsicológicas de sensación, velocidad y fuerza motriz, percepción e integración perceptual-motriz, lenguaje, atención, capacidad de abstracción, orientación y memoria. En la tabla 9.1 se presentan ejemplos de pruebas específicas que se aplican para evaluar funciones cognoscitivas y conductuales específicas que pueden ser afectadas por los trastornos neurológicos. Además de proporcionar una base para el tratamiento o la intervención profesional, los resultados obtenidos al aplicar pruebas neuropsicológicas contribuyen a la determinación de discapacidad en reclamaciones por accidentes ocupacionales, adjudicación de pensiones y otras circunstancias que implican compensación financiera. Las pruebas neuropsicológicas también se aplican en evaluaciones del 204 CAPÍTULO NUEVE TABLA 9.1 Ejemplos de pruebas para evaluar déficit en ciertas funciones neuropsicológicas Atención WAIS-III Subprueba de retención de dígitos WMS-III Retención espacial Funciones ejecutivas: habilidad de abstracción Prueba de categorías WAIS-III Subprueba de semejanzas Prueba Wisconsin de Clasificación de Tarjetas Lenguaje Evaluación Boston de Afasia Severa Examen Boston de Diagnóstico de Afasia WAIS-III Subprueba de vocabulario Funciones de aprendizaje y memoria Test Benton de Retención Visual Escala de Memoria para Niños Prueba Rey de Aprendizaje Verbal Auditivo Escala de Memoria de Wechsler III Evaluación de Rango Amplio de la Memoria y el Aprendizaje Habilidades Visoespaciales WAIS III Subprueba de diseño con cubos Prueba de Figura Compleja y Reconocimiento Evaluación del desarrollo y neuropsicológica Funcionamiento intelectual global Escala de Inteligencia para Adultos de Wechsler III Escala de Inteligencia para Niños de Wechsler III Woodcock-Johnson III Instrumentos de detección Prueba Rápida de Detección Neurológica II Prueba de Detección para la Batería Neuropsicológica de Luria-Nebraska Prueba Stroop de Detección Neuropsicológica Funciones emocional-conductuales Inventario Beck de Depresión Lista de Verificación de la Conducta Infantil Escala Hamilton de Depresión Inventario Multifásico de Personalidad de Minnesota II Inventario de Personalidad para Niños Aprovechamiento académico Prueba de Aprovechamiento Individual de Wechsler, segunda edición Prueba de Aprovechamiento de Rango Amplio 3 Adaptado en parte de la Tabla 1 (p. 425) de Delis y Jacobson, 2000. estado mental que contribuyen a tomar decisiones relacionadas con asuntos como la determinación de competencia, responsabilidad, demencia y otros asuntos legales. La adquisición de competencia en la aplicación de las pruebas apropiadas y en el diagnóstico y tratamiento de los déficit en las capacidades neuropsicológicas requiere un largo programa de entrenamiento y experiencia intensiva. Incluso entonces, el diagnóstico y la intervención en materia neuropsicológica tienen tanto de arte como de ciencia y son procesos sujetos a numerosos escollos. Para un diagnóstico comprensivo, la información obtenida de la aplicación de pruebas neuropsicológicas debe ser complementada con una historia de caso detallada, observaciones cuidadosas, calificaciones de la conducta del paciente y varias pruebas médicas. Para evaluar los efectos del trauma o de otras causas de lesión al cerebro es importante obtener un estimado del funcionamiento cognoscitivo premórbido del sujeto. Esto puede lograrse de varias maneras, quizá con mayor precisión de las calificaciones obtenidas en pruebas estandarizadas de inteligencia o aprovechamiento aplicadas antes de que ocurriera la lesión. Otros indicadores del funcionamiento premórbido, aunque menos precisos, son el nivel educativo y la posición socioeconómica. Además, debe tenerse en mente que las funciones en diferentes áreas del cerebro varían no sólo con su localización, sino también con la edad cronológica, el género y otros factores demográficos. La WCST y otras pruebas de detección. Dado que un examen neuropsicológico completo es un proceso que consume tiempo, se ha elaborado una serie de pruebas de detección cortas como preliminares a la aplicación de una batería más extensa. Algunos ejemplos son: Examen Cog- TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 205 noscitivo Neuropsicológico Breve, Prueba Rápida de Detección Neurológica, Detector Bayley del Neurodesarrollo Infantil, Prueba de Detección para la Batería Neuropsicológica Luria-Nebraska, Prueba Stroop de Detección Neuropsicológica y Prueba Wisconsin de Clasificación de Tarjetas. La última es quizá la que se aplica con mayor frecuencia y la más investigada de todos los instrumentos de detección neuropsicológica. La Prueba Wisconsin de Clasificación de Tarjetas (WCST) (de PAR) evalúa la perseveración y el pensamiento abstracto. Es sensible en particular a la disfunción del lóbulo frontal y útil para diferenciar entre lesiones frontales y no frontales. No se cronometra (20 a 30 minutos) y es apropiada para un rango amplio de edad (de 6.5 a 80 años). La WCST consta de cuatro tarjetas de estímulo y un paquete de 64 tarjetas de respuesta. Cada tarjeta de respuesta contiene uno de cuatro símbolos (triángulo, estrella, cruz o círculo) en uno de cuatro colores (rojo, verde, amarillo o azul). Se indica al examinado que clasifique las tarjetas de respuesta por debajo de las cuatro tarjetas de estímulo de acuerdo con cierto principio (color, forma o número). No se informa al examinado del principio de clasificación, sino sólo si sus respuestas son correctas o equivocadas. Después de que se han dado diez respuestas correctas consecutivas, el examinador cambia el principio de clasificación sin advertencia (digamos de “color” a “forma”). La calificación suele hacerse en términos del número de ensayos necesarios para dar un cierto número de respuestas correctas consecutivas usando cada principio de clasificación. Tanto las 64 tarjetas como versiones para computadora de la WCST se encuentran disponibles en Psychological Assessment Resources. El manual revisado proporciona información normativa, de confiabilidad y de validez de la prueba, que está basada en muestras de niños y adolescentes. Sin embargo, Egeland (1985) recomendó cautela al usar esta prueba con propósitos clínicos, y Mountain y Snow (1993) cuestionaron su sensibilidad diferencial al daño del lóbulo frontal. WAIS-R y WAIS-III como pruebas neuropsicológicas. Los cambios en la habilidad mental general que resultan de trastornos neuropsicológicos pueden ser detectados mediante la aplicación de pruebas de inteligencia como la WAIS-R, la WAIS-III y la WISC-III. Diferencias significativas (de 10 puntos o más) observadas en esas pruebas entre las calificaciones en los CI verbal y de desempeño, además de una dispersión pronunciada de la calificación escalada de subprueba, pueden ser indicadores de trastorno cerebral traumático e incluso proporcionar indicios sobre la localización del daño nervioso. Un CI verbal significativamente menor al CI de desempeño sugiere un daño bien definido en el hemisferio izquierdo, mientras que un CI de desempeño significativamente menor que el CI verbal sugiere un daño bien definido en el hemisferio derecho. Sin embargo, un desempeño significativamente inferior al CI verbal también se asocia con daño difuso del cerebro. La necesidad de obtener una definición más clara de los efectos del daño cerebral orgánico en el funcionamiento cognoscitivo y conductual llevó al desarrollo de una modificación de la WAIS-R denominada WAIS-R como Instrumento Neuropsicológico (WAIS-R NI). A excepción de algunas modificaciones, como en los rompecabezas del Ensamble de Objetos, las subpruebas de la WAIS-R fueron conservadas en la WAIS-R NI. Además, se proporcionaron las siguientes subpruebas: Información Opción Múltiple, Vocabulario Opción Múltiple, Aritmética Lápiz y Papel, Semejanzas Opción Múltiple, Ordenamiento de Frases, Retención Espacial y Copia de Símbolos. Es posible obtener una mejor evaluación de las funciones cognoscitivas deterioradas y no deterioradas comparando los resultados obtenidos del foco en la memoria de recuerdo de las subpruebas convencionales con el foco en la memoria de reconocimiento de las nuevas subpruebas y los procedimientos convencionales de aplicación de las viejas subpruebas con los procedimientos alternativos de aplicación de las nuevas subpruebas. Además de las comparaciones 206 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica de calificaciones, un análisis de los errores y las estrategias empleadas por los examinados arroja información útil para el diagnóstico y la rehabilitación. Pruebas perceptivas-memoria. La observación de que en el caso de daño cerebral ocurren distorsiones en la percepción y la memoria llevó al desarrollo de pruebas especiales de diagnóstico como el Test Gestáltico Visomotor de Bender (WPA) y el Test de Benton de Retención Visual (The Psychological Corporation). Esas dos pruebas se administran con frecuencia como complemento a pruebas individuales de inteligencia y a otros exámenes psicológicos. El Test Gestáltico Visomotor de Bender consta de 9 diseños geométricos en tarjetas blancas, de 4 × 6 pulgadas, las cuales se muestran una a la vez al examinado y se le pide que las copie. Las distorsiones significativas en el copiado de los diseños se interpretan como déficit en la percepción. Los niños de ocho años y mayores de inteligencia promedio o superior al promedio, por lo general, no cometen más de dos errores en la prueba Bender. Los errores que se consideran indicadores de daño cerebral orgánico incluyen distorsiones de forma; rotación del diseño; problemas para integrar el diseño; dibujos desproporcionados, traslapados o fragmentados; y perseveraciones (Lacks, 1984). El Test de Benton de Retención Visual consiste en diez diseños presentados de manera individual al examinado. A diferencia del Bender, en el cual el examinado hace un dibujo mientras mira la tarjeta correspondiente, en el Benton se muestra al examinado cada diseño y luego él trata de copiarlo de memoria. Las formas pequeñas incluidas en la periferia de la mayoría de los dibujos se consideran importantes para determinar la habilidad del examinado para mantener la integridad del campo visual. El Benton se califica, al igual que el Bender, de acuerdo con el número y tipo de errores. La investigación con el test de Benton ha proporcionado apoyo a su sensibilidad al daño cerebral traumático, al trastorno por déficit de atención y a varios tipos de demencia. Déficit de memoria y pruebas. Los problemas con la memoria de corto y largo plazos no sólo son indicadores de retraso mental, sino de discapacidades específicas de aprendizaje, trauma cerebral, trastornos neurológicos, trastorno por déficit de atención con hiperactividad (TDAH), envejecimiento e incluso trastornos emocionales. Las deficiencias en la memoria de recuerdo, y en particular el recuerdo libre, son más pronunciadas que los deterioros en la memoria de reconocimiento en las personas con daño cerebral. Por lo regular, los pacientes muestran menos déficit en las pruebas de reconocimiento o memoria de identificación que en las de memoria de recuerdo, menos déficit en la memoria implícita que en la explícita, y menos déficit en la memoria de habilidades que en la de acontecimientos. Debido a que las pruebas individuales de inteligencia como las de la serie Wechsler generalmente enfatizan el recuerdo libre, los pacientes con lesiones cerebrales pueden estar en mayor desventaja y aparecer más dañados en esas pruebas. Dado que la memoria y el aprendizaje no son habilidades unitarias, a menudo se necesita una batería de pruebas para identificar la presencia de déficit específicos. Dichas baterías no pueden tomar el lugar de las pruebas de inteligencia, las cuales evalúan un rango más amplio de funciones cognoscitivas, pero pueden proporcionar datos complementarios e indicios para el diagnóstico. Cuatro baterías populares para la evaluación de la memoria son la Escala de Memoria de Wechsler, tercera edición (WMS-III), la Prueba de Memoria y Aprendizaje (TOMAL), la Evaluación de Rango Amplio de la Memoria y el Aprendizaje (WRAML) y las Escalas de Evaluación de la Memoria (MAS). La WMS-III mide la memoria para estímulos auditivo-verbales y visuales-no verbales, material significativo y abstracto, para modos de recuerdo inmediato y TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 207 demorado, en individuos de 16 a 89 años. La TOMAL (pro.ed), la WRAML (Wide Range) y la MAS (The Psychological Corporation) miden funciones de memoria verbal y no verbal (visual). Las dos primeras pruebas están diseñadas para niños y adolescentes y la última para adultos. Las tres baterías son medidas de alta confiabilidad para las funciones de memoria y aprendizaje. El manual de la MAS proporciona perfiles de calificaciones para pacientes con trastornos neurológicos como la demencia, daño interno de la cabeza, y lesiones de los hemisferios izquierdo y derecho. Baterías de pruebas neuropsicológicas. Aunque las pruebas convencionales de inteligencia, como las de la serie Wechsler, son útiles para identificar déficit neuropsicológicos, por tradición se ha aplicado una batería de pruebas, como las que componen la Batería Halstead-Reitan de Pruebas Neuropsicológicas y la Batería Neuropsicológica de Luria-Nebraska, para medir las habilidades adaptativas de base neuropsicológica que no son evaluadas por las pruebas de inteligencia. Las respuestas a los materiales de esas baterías proporcionan información útil a los psicólogos a quienes se pide evaluar relaciones cerebro-conducta, proporcionar opiniones sobre la presencia de enfermedad o daño cerebral, planear programas de rehabilitación y dar testimonio legal concerniente a sus evaluaciones neuropsicológicas. Batería Halstead-Reitan de Pruebas Neuropsicológicas. En la tabla 9.2 se describen los materiales que constituyen la Batería Compuesta de la Batería Halstead-Reitan de Pruebas Neuropsicológicas (Reitan Neuropsychology Laboratory). Diferentes formas de esas pruebas se incluyen en la Batería para Adultos (para edades de 15 años en adelante), la Batería para Niños Mayores (edades de 9 a 14 años) y la Batería para Niños Pequeños (edades de 5 a 8 años). Las pruebas y los procedimientos tocan una serie de habilidades sensoriales, velocidad y destreza perceptualmotriz, funciones de lenguaje expresivo y receptivo, memoria, formación de conceptos y razonamiento abstracto. Cualquiera de esas habilidades puede ser afectada por daño o disfunción del sistema nervioso central o de los receptores sensoriales y los músculos. Entre las pruebas más complejas de la Halstead-Reitan se encuentran la Prueba de Categorías y la Prueba de Trazo de Pistas. En la Prueba de Categorías el examinado deduce principios generales a partir de la información presentada en diapositivas. En la Prueba de Trazo de Pistas dibuja líneas que conectan círculos con números y letras (de 1 a A, de 2 a B, etc., alternando números y letras). Batería Neuropsicológica de Luria-Nebraska. Esta batería de pruebas (de WPS) fue diseñada para evaluar: dominancia cerebral; funciones táctiles, visuales y motrices; percepción y reproducción de tonos y ritmo; habla receptiva y expresiva; lectura, escritura y aritmética; memoria; formación de conceptos y otros procesos intelectuales. Ambas formas (I y II) de la batería pueden calificarse por computadora, pero la Forma I también puede calificarse a mano. Al igual que la Halstead-Reitan, la Luria-Nebraska se administra para efectuar una detección neuropsicológica más pormenorizada del daño cerebral. La administración de la Luria-Nebraska sólo se lleva una tercera parte del tiempo requerido por la Halstead-Reitan, pero se le ha criticado por confiar demasiado en las habilidades de lenguaje y por no hacer una detección adecuada de la afasia y otros trastornos neuropsicológicos. Evaluación neuropsicológica basada en la computadora. Los avances en la neurofisiología y la psicología cognoscitiva, junto con progresos en la tecnología de las computadoras y la metodología psicométrica durante las tres décadas pasadas, han conducido a un mayor uso de las 208 CAPÍTULO NUEVE TABLA 9.2 Evaluación del desarrollo y neuropsicológica Pruebas y procedimientos para la Batería Halstead-Reitan de Pruebas Neuropsicológicas Prueba de categorías. Mide el razonamiento abstracto y la formación de conceptos; requiere que el examinado encuentre una regla para categorizar las ilustraciones de formas geométricas. Prueba de desempeño táctil. Mide la habilidad cinestésica y sensoriomotriz; requiere que el examinado, con los ojos vendados, coloque cubos en lugares apropiados sobre un tablero vertical con la mano dominante, luego con la mano no dominante, después con ambas manos; también mide la memoria incidental de cubos. Prueba de percepción de los sonidos del lenguaje. Mide la atención y la síntesis auditiva-visual; requiere que el examinado elija de entre cuatro opciones la versión escrita de palabras grabadas sin sentido. Prueba del ritmo de Seashore. Mide la atención y la percepción auditiva; requiere que el examinado indique si ritmos musicales pareados son iguales o diferentes. Prueba de golpes dactilares. Mide la velocidad motriz; requiere que el examinado golpee una palanca similar a la del telégrafo con tanta rapidez como sea posible por 10 segundos. Fuerza de agarre. Mide la fuerza del agarre con un dinamómetro; requiere que el examinado apriete tan fuerte como sea posible; se hacen intentos separados con cada mano. Trazo de pistas, partes A y B. Mide la habilidad para rastrear, la flexibilidad mental y la rapidez; requiere que el examinado, bajo presión de tiempo, conecte números (parte A) o números y letras en orden alternado (parte B) mediante una línea a lápiz. Reconocimiento táctil de formas. Mide la habilidad sensorial-perceptual; requiere que el examinado reconozca formas simples (por ejemplo, triángulos) colocadas en la palma de la mano. Examen sensorial-perceptual. Mide la habilidad sensorial-perceptual; requiere que el examinado responda a tareas sensoriales bilaterales simples, por ejemplo, detectar qué dedo ha sido tocado, qué oído ha recibido un sonido breve; evalúa los campos visuales. Prueba de detección de afasia. Mide las habilidades de lenguaje expresivo y receptivo; las tareas incluyen nombrar un reactivo ilustrado (por ejemplo, un tenedor); repetir frases cortas. La tarea de copiado (que no es una medida de la afasia) se incluye aquí por razones históricas. Complementarias. WAIS-III, WRAT-3, MMPI-2, pruebas de memoria como la Escala de Memoria Wechsler-III, o la Prueba Rey de Aprendizaje Verbal Auditivo. Adaptado de Robert J. Gregory, Psychological testing: History, principles, and applications (tercera edición). Copyright © 2000 por Allyn & Bacon. computadoras para administrar, calificar e interpretar las pruebas neuropsicológicas. Como resultado, la examinación neuropsicológica se ha vuelto más rápida, más flexible y más centrada; por medio de la evaluación basada en computadoras es posible determinar no sólo la exactitud de las respuestas, sino también su rapidez e incluso su intensidad. Entre las muchas pruebas neuropsicológicas con versiones basadas en la computadora se encuentran la Prueba de Categorías y la Prueba Wisconsin de Clasificación de Tarjetas. También se dispone de software de computadora para los componentes de la Batería Neuropsicológica Halstead-Reitan y la Batería Neuropsicológica de Luria-Nebraska. Además de las pruebas sen- RESUMEN 209 cillas y de las baterías de pruebas que pueden aplicarse por un examinador en persona o por una computadora existen instrumentos que sólo son aplicados por medio de la computadora. Un ejemplo es MicroCog: Evaluación del Funcionamiento Cognoscitivo (The Psychological Corporation). Diseñado para evaluar el funcionamiento cognoscitivo en adultos de 18 a 80 años, MicroCog viene en una forma estándar que requiere de 50 a 60 minutos y en una forma breve para administrarse en 30 minutos. Las 18 pruebas de la forma normal fueron estandarizadas en 810 adultos de quienes se dijo eran representativos de la población nacional estadounidense, con normas separadas para nueve grupos de edad así como con normas ajustadas para el nivel educativo. Se proporcionan calificaciones resumidas para nueve áreas de funcionamiento: Atención/Control Mental, Memoria, Razonamiento/Cálculo, Procesamiento Espacial, Tiempo de Reacción, Precisión del Procesamiento de Información, Velocidad del Procesamiento de Información, Funcionamiento Cognoscitivo y Competencia Cognoscitiva. En el manual se proporcionan datos de validez para varios grupos clínicos (depresión mayor, demencia, esquizofrenia, alcoholismo, epilepsia, psiquiátrico mixto, lupus y otros) y correlaciones con otras pruebas neuropsicológicas. RESUMEN Los estudios de desarrollo humano en la infancia y la niñez temprana, entre los cuales destacan los conducidos por Arnold Gesell y sus colegas en la Universidad de Yale durante las décadas de 1920 y 1930, proporcionaron normas del desarrollo y pruebas que han servido como directrices y métodos para la práctica y la investigación con niños. Los Programas de Desarrollo de Gesell, las Escalas de Bayley de Desarrollo Infantil (BSID-II), la Prueba Denver de Detección del Desarrollo (Denver II) y otras medidas de habilidades en infantes y niños pequeños han contribuido al conocimiento científico del desarrollo y los trastornos de la niñez. Por desgracia, las pruebas de inteligencia infantil no tienen alta confiabilidad ni proporcionan una buena predicción del desarrollo y el desempeño cognoscitivo posterior. Las tareas sensoriomotrices en las pruebas infantiles, combinadas con la falta de atención y la baja motivación de los jóvenes examinados, contribuyen a las bajas correlaciones entre las calificaciones en las pruebas presentadas durante los dos o tres primeros años de vida y las calificaciones obtenidas por los mismos niños en la edad escolar. La mayoría de las pruebas diseñadas para evaluar y seguir las demoras en el desarrollo de los niños pequeños siguen en la actualidad los criterios especificados en el Acta para la Educación de Individuos con Discapacidades (IDEA) estadounidense. Dos ejemplos de pruebas diseñadas de manera específica de acuerdo con los cinco dominios de la IDEA son la Prueba de Detección FirstSTEP para la Evaluación de Preescolares y los Perfiles de Detección Temprana AGS. Una prueba antigua, pero todavía de gran uso que se adhiere de manera cercana a los criterios de la IDEA son las Escalas McCarthy de las Habilidades de los Niños. Los trastornos específicos de aprendizaje son las discapacidades en la lectura, escritura, ortografía, aritmética u otras habilidades académicas que no pueden ser explicadas por el retraso mental, impedimentos sensorial-motrices específicos, trastornos emocionales o desventajas ambientales. La ley federal estadounidense ordena que los niños con discapacidades deben ser diagnosticados de manera profesional y que debe prepararse un plan individualizado de educación para cada niño. En la mayoría de los estados un indicador psicodiagnóstico importante de una discapacidad de aprendizaje es cuando la calificación de un niño en una prueba estandariza- 210 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica da de aprovechamiento es significativamente inferior a su calificación en una prueba co-normada de inteligencia. Entre las diversas pruebas de inteligencia y aprovechamiento que han sido empleadas en la determinación de discapacidades específicas de aprendizaje están la WISC-III y las Pruebas Wechsler de Aprovechamiento Individual, la K-ABC y la Prueba Kaufman de Aprovechamiento Educativo, así como las pruebas de habilidades cognoscitivas y de aprovechamiento en la Woodcock-Johnson III. Los médicos y los psicólogos emplean varias técnicas y procedimientos en un intento por entender las causas y consecuencias de los trastornos cerebrales, y para hacer recomendaciones sobre el tratamiento apropiado. Las observaciones conductuales, entrevistas con el paciente y con otras personas, pruebas neurológicas, procedimientos de imagenología cerebral y pruebas psicológicas pueden contribuir a lograr el diagnóstico, la planeación del tratamiento y el pronóstico de los trastornos neuropsicológicos. Las diferencias entre las calificaciones escaladas en las diversas subpruebas de la Escala de Inteligencia para Adultos de Wechsler-III (WAIS-III) y las Escalas de Inteligencia para Niños de Wechsler-III (WISC-III), así como las diferencias entre los CI verbal y de EJECUCIÓN de esos instrumentos, pueden proporcionar información sobre la localización y gravedad del trastorno neuropsicológico. También están disponibles muchas pruebas especializadas de funcionamiento neuropsicológico. Entre esas pruebas se incluyen medidas perceptuales-memoria como el Test Gestáltico Visomotor de Bender y el Test de Benton de Retención Visual, pruebas breves de detección como la Prueba Wisconsin de Clasificación de Tarjetas, pruebas de memoria a corto y largo plazos como la Escala de Memoria Wechsler, la Prueba de Memoria y Aprendizaje, la Evaluación de Rango Amplio de la Memoria y el Aprendizaje y las Escalas de Evaluación de la Memoria. Para un análisis y un diagnóstico más comprensivos de un trastorno neuropsicológico se recomienda la aplicación de una batería completa de pruebas (por ejemplo, la Batería de Pruebas Neuropsicológicas Halstead-Reitan, la Batería Neuropsicológica de Luria-Nebraska). Muchas pruebas neuropsicológicas contemporáneas pueden ser aplicadas por un examinador en persona o por una computadora. MicroCog, un instrumento de detección para adultos con deterioro cognoscitivo de leve a moderado, se aplica exclusivamente por computadora. P R E G U N TA S Y A C T I V I D A D E S 1. Defina cada uno de los siguientes términos: TDAH dislexia agnosia IDEA trastorno de Alzheimer PEI afasia prueba de inteligencia infantil apraxia discapacidad de aprendizaje niños en riesgo trastorno neuropsicológico ataxia prueba neuropsicológica área de Broca plano temporal edad de desarrollo (ED) modelo Reitan-Wolfson cociente de desarrollo (CD) prueba de detección discalculia área de Wernicke 2. ¿Qué tan grandes son las correlaciones entre las calificaciones en pruebas aplicadas a infantes y niños muy pequeños y las calificaciones obtenidas por los mismos niños en pruebas de inteligencia RESUMEN 211 presentadas a una edad posterior? ¿Cómo son influidas las magnitudes de esas correlaciones por las confiabilidades de las pruebas de inteligencia para infantes y niños pequeños, por el hecho de que las pruebas miden factores diferentes que las pruebas de inteligencia aplicadas más tarde en la niñez, y las diferencias en los procedimientos para aplicar pruebas a los infantes y niños pequeños y las pruebas aplicadas a los niños mayores? 3. Obtenga tanta información como pueda sobre las previsiones de varias leyes concernientes a la identificación, el diagnóstico y los programas de intervención con niños que están médica y/o ambientalmente en riesgo. Concéntrese en las leyes públicas estadounidenses PL 94-142, PL 99-457, PL 101-476 (IDEA), PL 101-336 (ADA) y PL 102-119. 4. ¿Qué características y habilidades piensa que contribuyen a ser un examinador psicológico efectivo de infantes y niños pequeños? ¿En qué se asemejan y en qué se distinguen esas características y habilidades con las requeridas para probar a niños mayores y adultos? 5. Compare FirstSTEP con los Perfiles de Detección Temprana AGS, y compare DAYC con la Evaluación del Desarrollo de Infantes y Niños Pequeños en términos de sus propósitos, composición y calificación. 6. Mencione y describa varias causas y tipos de discapacidades de aprendizaje y los tipos de procedimientos de intervención que puede esperarse mejoren esas condiciones. 7. Debido a que en Estados Unidos los criterios con los que se diagnostican las discapacidades de aprendizaje, incluyendo el procedimiento estadístico para determinar la discrepancia entre habilidad y aprovechamiento, varían de un estado a otro, ¿sería posible que un niño tuviera una discapacidad de aprendizaje en un estado y no en otro? ¿Qué consecuencias puede tener esto para el niño, para los gobiernos y para la población de los estados? 8. Mencione una o dos pruebas de memoria y una o dos pruebas de habilidades perceptivo-motrices y los propósitos para los cuales podrían utilizarse. 9. Mencione las conductas y los síntomas cognoscitivos de varios trastornos neuropsicológicos descritos en libros sobre neuropsicología, psicología fisiológica y psicología anormal. ¿Qué contribuciones pueden hacer los psicólogos para el diagnóstico y tratamiento de dichos trastornos? CAPÍTULO DIEZ EVALUACIÓN DE HABILIDADES ESPECIALES El término aptitud se ha definido tradicionalmente como la habilidad de aprovechar la educación o capacitación obtenida en un campo determinado, mientras que aprovechamiento se refiere al grado de habilidad ya obtenida. La medida de la aptitud se centra en el futuro, la del aprovechamiento en el pasado. Así, las pruebas de aptitud se han diseñado sobre todo para evaluar el aprovechamiento potencial o para predecir el desempeño futuro en algún campo o intento. Las habilidades de una persona se evalúan con fines de asesoría y colocación académica y laboral. Con información sobre una prueba de aptitud en mano, los asesores o jefes de personal pueden mejorar su trabajo al aconsejar a las personas o ubicarlas en los programas apropiados de educación y capacitación o en puestos de trabajo adecuados. CONCEPTOS Y CARACTERÍSTICAS DE LAS HABILIDADES ESPECIALES En cierto sentido, el término aptitud no es acertado si se pretende interpretar como una característica innata, inmutable por medirse. Los primeros evaluadores de la mente aspiraban a medir características hereditarias, pues suponían que todas las personas que examinaban tenían las mismas oportunidades para aprovechar las experiencias en que se basaban los materiales de prueba. No obstante, esta suposición era incorrecta: las experiencias, y por ende las oportunidades para aprender, nunca son exactamente iguales para personas distintas, sobre todo si las personas provienen de clases sociales o culturas diferentes. En la actualidad, generalmente se reconoce que las pruebas de aptitud son medidas de aprovechamiento, un producto complejo de la interacción entre influencias hereditarias y ambientales. A la inversa, si las pruebas de aptitud son instrumentos psicométricos que pueden predecir el logro futuro, entonces las pruebas de aprovechamiento que prefiguran las notas escolares y otros criterios también califican como medidas de habilidad. Debido a la confusión sobre la diferencia entre aptitud y logro, se ha recomendado que ambos términos se reemplacen con el término único de habilidad. Entonces, dependiendo del propósito para el que se utilice —evaluar el conocimiento y la comprensión presentes o pronosticar el desempeño futuro—, una prueba de habilidad puede ser tanto una medida de aprovechamiento como de aptitud. Pero podría ser un error suponer que la distinción entre aptitud y aprovechamiento carece de consecuencias. Como ejemplo de la diferencia funcional entre medidas de estas dos variables, considérense los resultados de un estudio realizado por Carroll (1973). Se descubrió que el desempeño en un curso de lengua extranjera para estudiantes cuyas calificaciones anteriores al curso en una prueba de aprovechamiento de lengua fueron de cero, podría predecirse a partir de las calificaciones en una prueba de aptitud para aprender lenguas 212 CONCEPTOS Y CARACTERÍSTICAS DE LAS HABILIDADES ESPECIALES 213 extranjeras. Al final del curso ambas pruebas se aplicaron de nuevo. Como podría esperarse, si la capacitación había mejorado el aprovechamiento sin alterar la aptitud, las calificaciones de la prueba de aprovechamiento aumentaron considerablemente, pero las calificaciones en las pruebas de aptitud permanecieron sin modificaciones en lo esencial. Habilidades generales y específicas Las pruebas de inteligencia analizadas en los capítulos 7, 8 y 9 son medidas de aptitud general, en cuanto a que las calificaciones en esas pruebas representan un compuesto de habilidades cognoscitivas que puede usarse para predecir el aprovechamiento y otros comportamientos en un amplio espectro de situaciones. De hecho, las calificaciones en las pruebas de inteligencia general a menudo son mejores para predecir el éxito en situaciones educativas y laborales que las calificaciones combinadas en medidas de habilidades especiales. Pero el que las pruebas de inteligencia general midan una mezcolanza de aptitudes o habilidades específicas es una espada de dos filos. En este hecho radican tanto las ventajas como las deficiencias de estos tipos de pruebas. Debido a que las pruebas de inteligencia miden una combinación de habilidades, tienen lo que Cronbach (1970) llamaba una extensa amplitud de banda. Una ventaja de su amplio contenido es que las pruebas de inteligencia son moderadamente eficaces para pronosticar un amplio espectro de criterios de desempeño. Una prueba más extensa de sólo una de las habilidades especiales medidas por una prueba de inteligencia, es decir, un instrumento con una amplitud de banda más angosta, al parecer tiene una mayor fidelidad. En otras palabras, se esperaría que midiera una variable específica con mayor precisión y predijera mejor un espectro menor de criterios. Al observar las correlaciones positivas significativas entre las medidas de habilidades, Vernon (1960) concluyó que la inteligencia general es más importante que las habilidades especiales para determinar el éxito laboral (vea también Hunter y Schmidt, 1996). En la medida en que esto sea cierto, probablemente se deba a que los criterios del éxito laboral, como las calificaciones de las pruebas de inteligencia, son productos complejos de múltiples variables. En otras palabras, los criterios laborales tienen una amplitud de banda extensa y, por lo tanto, mayor probabilidad de predecirse con más precisión a partir de una combinación de medidas, más que por calificaciones de una única prueba de habilidades especiales. Orígenes de la evaluación vocacional Un acontecimiento que impulsó el desarrollo de pruebas de habilidades especiales durante las décadas de 1920 y 1930 fue el crecimiento de la administración científica. Quienes promovían la administración científica en los negocios y la industria consideraban que tanto los empleados como los jefes se beneficiarían con el diseño de pruebas psicológicas que pudieran contribuir a conjuntar personas y puestos de trabajo. Sostenían que el uso de pruebas daría como resultado que se eligieran empleados para, y se ubicaran en, los empleos que pudieran desempeñar con mayor eficiencia. Seleccionar empleados más competentes y asignarles puestos para los que fuesen más aptos, incrementando la productividad, beneficiaría tanto a empleados como a empleadores, y a la organización en su totalidad. Durante los años de la Gran Depresión en la década de 1930, cuando los asuntos relacionados con el empleo eran de particular interés para el gobierno, los programas de investigación y desarrollo en la Universidad de Minnesota, y en otros sitios, dieron origen a la construcción de una serie de pruebas de habilidades especiales para usarse en consejería vocacional y selección y colocación de empleados. A partir de estos programas y de subsecuentes esfuerzos se crearon no sólo numerosas medidas de habilidades individuales, sino también varias baterías de pruebas. 214 Evaluación de habilidades especiales CAPÍTULO DIEZ Validez de las pruebas de habilidades especiales Debido a que las pruebas de aptitudes o de habilidades especiales se diseñan teniendo en mente una predicción diferencial, es razonable preguntarse qué tanto lograrán predecir quién tendrá éxito y quién fracasará en ocupaciones o programas de capacitación particulares. Es decir, ¿exactamente qué tan válidas son las pruebas de aptitud vocacional? La respuesta es que, en general, la validez de estas pruebas no es muy elevada. Como se muestra en la tabla 10.1, los coeficientes de validez promedio de diferentes tipos de pruebas de aptitud para predecir el desempeño en varias categorías de empleos suelen encontrarse en los .20 y casi nunca por encima de los .30 (Ghiselli, 1973). Estos coeficientes tan modestos dan puntuaciones más bajas a las limitaciones de estos tipos de pruebas para predecir el desempeño en el trabajo. Además de las características de las pruebas mismas, la validez resulta alterada por problemas en los criterios para especificar y medir el éxito en el trabajo. Los acontecimientos incidentales o fortuitos que no se previeron, tales como los cambios económicos y sociales que influyen en la situación del empleo, pueden afectar la validez predictiva de las pruebas en contextos institucionales o industriales. A pesar de sus limitaciones, tales pruebas todavía pueden colaborar en la determinación de la ocupación o el programa de capacitación más adecuado para una persona dada. Ciertamente, las pruebas son limitadas cuando se usan solas, pero su valor aumenta cuando se combinan las calificaciones con otro tipo de información (intereses, motivación, actitudes y cuestiones similares) sobre las personas. Ni siquiera los coeficientes de validez relativamente modestos de la mayoría de las pruebas de habilidades especiales están establecidos: varían con el carácter del criterio, la situación y las personas examinadas. Por ejemplo, es probable que un coeficiente de validez sea más alto cuando en un programa de capacitación se valida una prueba contra los grados alcanzados que cuando se valida contra las tasas del desempeño real en el trabajo (vea la tabla 10.1). Un coeficiente de validez también tiende a ser más alto cuando la prueba se administra y los datos del criterio se unifican en un lapso bastante breve que cuando hay una gran demora entre la aplicación de la prueba y la unificación de los datos de criterio. TABLA 10.1 Correlaciones entre pruebas de habilidad y criterios ocupacionales HABILIDAD INTELECTUAL CATEGORÍA OCUPACIONAL Empleados Gerentes Protección Ventas Servicios Comercio y artesanías Op. de vehículos ESPACIAL Y MECÁNICA PRECISIÓN PERCEPTUAL MOTRIZ Capacit.* Dest. Capacit. Dest. Capacit. Dest. Capacit. Dest. .47 .30 .42 .28 .27 .22 .19 .27 .25 .16 .34 .28 .35 .17 .22 .18 .18 .13 .23 .20 .40 .23 .30 .29 .25 .21 .04 .10 .24 .17 .14 .02 .16 .14 .14 .12 .15 .19 .25 .42 .41 .18 .31 .41 .31 *Capacit., criterios de capacitación; Dest., criterios de destreza. Fuente: Con base en datos de Ghiselli, 1973. .25 .35 .09 .21 .20 .31 CONCEPTOS Y CARACTERÍSTICAS DE LAS HABILIDADES ESPECIALES 215 Se advierte variabilidad situacional en el coeficiente de validez cuando la correlación entre calificaciones en una prueba de habilidad y las tasas del desempeño son menores en una organización que en otra. Sin embargo, la investigación ha demostrado que muchas pruebas de selección de empleos tienen una gran cantidad de generalización de validez; es decir, son válidas a través de una amplia gama de situaciones (vea, por ejemplo Hunter y Schmidt, 1990; Schmidt et al., 1993; Schmidt, Ones y Hunter, 1992). Sin embargo, la validez de una prueba varía en cierto grado según la situación y las características de las personas que se examinan. Puede variar de acuerdo con el sexo, la etnia y la condición socioeconómica de los examinados, así como con sus intereses vocacionales, motivación y característica de personalidad. Tales diferencias individuales y por grupo, que influyen o moderan la correlación entre una prueba y una medida de criterio, se denominan variables moderadoras. Las instituciones son como las personas en cuanto a que sienten la motivación no sólo de sobrevivir, sino de crecer; de hecho, en nuestra dinámica sociedad las instituciones deben expandirse o, a largo plazo, fracasarán. En consecuencia, desde la perspectiva de la institución, un factor importante al decidir usar una prueba específica para seleccionar, ubicar o promover al personal es determinar si la prueba contribuye al bienestar económico de la organización. El costo de aplicar la prueba debe sopesarse contra los beneficios que se obtendrán al usarla, y los estudios sobre la validez de la prueba pueden ayudar a medir estos beneficios. Una prueba no sólo debe ser un pronosticador eficiente y válido del desempeño en el trabajo, también deberá ser un pronosticador independientemente válido. ¿Por qué usar la prueba si hay disponibles métodos más baratos de identificar buenos trabajadores y de prever cómo se desempeñarán? El beneficio económico para la institución no es, desde luego, la única razón que lleva a determinar la validez de una prueba para un fin específico en una situación determinada. Una razón legal importante que justifica llevar a cabo estudios de validez en las empresas y la industria se concentra en el problema del sesgo o la justicia. Por ejemplo, puede ser que la correlación entre prueba y criterio sea considerablemente más alta con un grupo étnico o de género que con otro. De ser así, es injusto usar la misma ecuación de predicción con ambos grupos. La justicia, o relativa carencia de sesgo, de la prueba tiene que demostrarse si se planea usarla con propósitos de selección o de clasificación. El desempeño y las pruebas de lápiz y papel Las primeras pruebas de habilidades especiales eran pruebas de desempeño que demandaban a los examinados construir algo o manipular objetos físicos de una forma determinada. Tales pruebas de aparatos con frecuencia son más interesantes que las pruebas de lápiz y papel, en especial para los examinados con problemas de lectura. Pero las confiabilidades de las pruebas de desempeño de velocidad suelen ser menores que las de las pruebas comparables de lápiz y papel, y las pruebas requieren de mucho tiempo y son costosas de aplicar. Asimismo, las correlaciones entre calificaciones en las pruebas de desempeño y las medidas de lápiz y papel para la misma habilidad están lejos de ser perfectas. A pesar de las desventajas de las pruebas de desempeño, las pruebas de muestras de trabajo (o pruebas de réplica del empleo), que demandan a los examinados realizar una muestra de tareas similares a las que comprende determinado trabajo, se encuentran entre las medidas de habilidad más útiles en contextos ocupacionales específicos. Técnica de charola de pendientes y centros de evaluación Un ejemplo interesante de una prueba de muestras de trabajo es la técnica de charola de pendientes. Este procedimiento se diseñó originalmente para evaluar al personal administrativo de 216 CAPÍTULO DIEZ Evaluación de habilidades especiales las escuelas, pero posteriormente se usó con otro tipo de administradores o ejecutivos. En una prueba de charola de pendientes, los candidatos a un puesto administrativo reciben una muestra de problemas del tipo que suele encontrarse en la lista de pendientes de un administrador (cartas, memorandos, notas, lineamientos, informes, mensajes telefónicos, correos electrónicos, faxes) y requieren de algún tipo de acción. A dichos candidatos se les solicita indicar qué medida debe tomarse en cada uno de los casos, y sus respuestas se evalúan de acuerdo con juicios de expertos sobre lo apropiado de las soluciones. El método denominado centros de evaluación, introducido por la Compañía de Teléfonos y Telégrafos de Estados Unidos en la década de 1950, combina la técnica de charola de pendientes con otras tareas de simulación, tales como juegos de administración y ejercicios de resolución de problemas en grupo (como en la Prueba de Discusión en Grupo sin Líder). En este método también se utilizan entrevistas, pruebas psicológicas y otros procedimientos de evaluación. El centro de evaluación se ha empleado menos como una técnica de selección que como una forma de evaluar el personal de nivel gerencial para promoción y clasificación. Se instalan entre seis y doce candidatos en una ubicación específica, donde son observados y evaluados por otros ejecutivos entre sí durante varios días. Los principales criterios de examen son el grado de participación activa, las habilidades de organización y la habilidad para tomar decisiones. Debido a que la técnica de charola de pendientes y otras tareas de simulación son realistas, podría parecer que resultan sumamente válidas. No obstante, los candidatos están conscientes de encontrarse “en un escenario” y pueden desempeñar cierto papel o comportarse de manera diferente a como lo harían en una situación administrativa real. Los gastos y las limitaciones de tiempo también impiden usar dichas técnicas de simulación para fines distintos a la evaluación de personal de gerencia de nivel bastante alto. HABILIDADES SENSORIO-PERCEPTIVAS Y PSICOMOTRICES Es importante, y en muchos casos está estipulado por el gobierno y otras organizaciones, que se evalúen periódicamente las habilidades sensorio-perceptivas y psicomotrices tanto de niños como de adultos. Excepto en casos de grandes deficiencias, no siempre es patente la presencia de un defecto en el funcionamiento físico. Dependiendo de que la desventaja pueda corregirse o compensarse y del grado en que afecte el desempeño en el trabajo, un aspirante a una institución educativa o empleo puede o no ser admitido o contratado. Sin embargo, la práctica actual, apoyada por el Acta de Estadounidenses con Discapacidad (ADA), favorece la contratación o admisión de personas con discapacidades y la adopción de medidas para reducir al mínimo los efectos debilitantes de sus desventajas. Pruebas de visión y audición1 La agudeza tanto visual como auditiva puede verificarse mediante distintos tipos de pruebas, algunas de las cuales (tabla de Snellen, prueba de observación) son muy sencillas y otras (oftalmoscopio, audiómetro) mucho más complejas. Usualmente, un maestro o un asistente de 1En las páginas 61-75 de Fleishman y Reilly (1995) se encuentran ejemplos detallados de 12 pruebas de habilidades sensorio-perceptuales (visión cercana, visión lejana, discriminación visual del color, visión nocturna, visión periférica, percepción de profundidad, sensibilidad al brillo, sensibilidad auditiva, atención auditiva, ubicación del sonido, reconocimiento del habla, claridad del habla). HABILIDADES SENSORIO-PERCEPTIVAS Y PSICOMOTRICES 217 personal pueden aplicar pruebas sencillas de la vista y la audición, pero un examen más a fondo requiere los servicios de un optometrista, oftalmólogo o audiólogo profesional. Un examen de la vista completo incluye pruebas de agudeza cercana y lejana para cada ojo y para ambos ojos juntos, el equilibrio muscular de los ojos a distancias cercanas y lejanas, percepción de profundidad y visión del color. Instrumentos tales como la Prueba de Visión B y L (de Bausch y Lomb) se han usado para revisiones de la vista en contextos industriales. Los resultados de la evaluación con estos instrumentos se evalúan en términos de diversas familias de trabajos visuales, dependiendo de qué habilidades visuales son esenciales para cada ocupación en particular. Una prueba de visión del color común consiste en una serie de cartas seudo isocromáticas que contienen un número o diseño formado por puntos coloreados contra un fondo de puntos contrastantes. La Prueba Dvorine de Visión del Color (The Psychological Corporation) es una prueba de este tipo de amplio uso. Igual que una buena visión, un buen oído es importante en muchas ocupaciones, en particular en empleos como el de operador de sonares. La agudeza auditiva puede determinarse a grandes rasgos mediante una prueba de reloj,2 pero una prueba profesional de audición implica el uso de un audiómetro. Los resultados de una prueba audiométrica se trazan en forma de gráfica (audiograma) donde se muestra la sensibilidad de cada oído a los tonos puros, los cuales cubren el rango de frecuencia de la audición humana. También puede determinarse la habilidad del individuo para ubicar la dirección de donde provienen los sonidos. Otra característica importante de la audición es la habilidad de discriminar entre estímulos de diferente tono o volumen. Pruebas de habilidades psicomotrices Las pruebas de habilidades psicomotrices figuraron entre las primeras medidas de habilidades especiales que se elaboraron. Muchas de las pruebas disponibles de este tipo se introdujeron en las décadas de 1920 y 1930 para predecir el desempeño en ciertos empleos u oficios calificados. Posteriormente, el Centro de Investigación de Capacitación y Personal de la Fuerza Aérea estadounidense realizó un amplio estudio de las habilidades psicomotrices que incluye el desempeño como piloto. De particular importancia en estos análisis era el desempeño en simuladores de vuelo como el Capacitador de Vínculo y la Prueba de Coordinación Compleja. En esta última el examinando usa un timón y tres controles similares a un bastón para ajustarse a un patrón de luces de estímulo que aparecen sobre un panel vertical para simular los movimientos de un aeroplano en vuelo.3 La velocidad, la fuerza y la agilidad, en conjunto, contribuyen al desempeño motriz efectivo. Las mediciones de estas características se usan ampliamente para seleccionar trabajadores en varios tipos de empleos y son pronosticadores válidos del desempeño en el trabajo físicamente demandante (vea Blakley, Quinones, Crawford y Jago, 1994; Hogan y Quigley, 1994). Además de las medidas de fuerza isométrica, están disponibles pruebas de precisión y estabilidad que implican varias manipulaciones con dedos, manos, brazos y piernas. Algunas de estas pruebas requieren de movimientos musculares pequeños, otras de movimientos grandes y otras más exigen tanto movimientos pequeños como grandes. 2En esta prueba, dependiendo de lo silenciosa que se encuentre la habitación del examen, una persona con oído normal debería ser capaz de oír el tic tac de un “reloj tamaño dólar” a una distancia de entre 75 cm y 1 m del oído. 3En las páginas 38-50 de Fleishman y Reilly (1995) se presentan ejemplos de pruebas de diez habilidades psicomotrices (precisión de control, coordinación multi-extremidades, orientación de la respuesta, control de tasas, tiempo de reacción, estabilidad brazo-mano, destreza manual, destreza de los dedos, velocidad muñeca-dedo, movimiento de velocidad de extremidades). En las páginas 51-60 de la misma fuente se incluyen ejemplos de pruebas de nueve habilidades físicas (fuerza estática, fuerza explosiva, fuerza dinámica, fuerza del tronco, flexibilidad de extensión, flexibilidad dinámica, coordinación corporal gruesa, equilibrio corporal grueso, vigor). 218 Evaluación de habilidades especiales CAPÍTULO DIEZ Para ilustrar las pruebas psicomotrices disponibles, a continuación se describirán algunas medidas seleccionadas de movimientos gruesos, finos o de una combinación de ambos tipos. La mayoría de estos instrumentos son apropiados tanto para adolescentes como para adultos, y se califican en términos de la cantidad de unidades de tarea terminadas en un tiempo específico o el lapso requerido para completar toda la tarea. Movimientos manuales gruesos. Dos antiguas pruebas diseñadas para medir velocidad y precisión en los movimientos gruesos de dedos, manos y brazos son la Prueba Stromberg de Destreza (The Psychological Corporation) y la Prueba Minnesota de Índice de Manipulación (American Guidance Services). En la Prueba Stromberg de Destreza, se solicita al examinando colocar 54 discos de colores (rojo, amarillo, azul) del tamaño de una galleta en una secuencia preestablecida tan rápidamente como pueda (figura 10.1). Esta prueba se ha usado como medida de destreza manual en trabajadores de lavanderías, operadores de prensas cortadoras, moldeadores de máquinas, ensambladores y soldadores. La Prueba Minnesota de Índice de Manipulación consiste en un tablero de 60 orificios con bloques que son rojos por un lado y amarillos por el otro. La prueba se divide en cinco subpruebas, en las cuales los bloques se giran, mueven y colocan de ciertas maneras. En la parte de la Prueba de Colocación, por ejemplo, se colocan los bloques en los orificios del tablero; en la parte de Prueba de Giro, los bloques se giran y reemplazan en el tablero. Movimientos manuales finos. Como representativas de las pruebas que requieren de manipulación de partes pequeñas figuran la prueba del Tablero de Clavijas Purdue (NCS London House) y la Prueba Crawford de Destreza con Partes Pequeñas (The Psychological Corporation). Se ha descubierto que las calificaciones de estas pruebas tienen correlaciones significativas con el desempeño en ocupaciones como mecánico de instrumentos, grabador, aguafuertista, ensamblador de electrónica de precisión y reparador de relojes. El Tablero de Clavijas Purdue consiste en cinco tareas (mano derecha, mano izquierda, ambas manos, ensamblado de mano derecha más izquierda más ambas manos) para medir la destreza de mano-dedo-brazo requerida para ciertos tipos de trabajo manual. En la primera parte de la prueba, el examinando introduce alfileres en orificios, primero con la mano derecha, después con la izquierda, y al final con ambas manos. En la segunda parte, el examinando introduce FIGURA 10.1 Prueba Stromberg de Destreza. (Derechos reservados 1945, 1951, 1981 por The Psychological Corporation, una compañía de Harcourt Assessment Company. Reproducido con autorización. Todos los derechos reservados.) HABILIDADES SENSORIO-PERCEPTIVAS Y PSICOMOTRICES 219 un alfiler en un orificio, coloca una arandela y un aro sobre el alfiler, coloca otro alfiler en un orificio, y así sucesivamente (figura 10.2). La Prueba Crawford de Destreza con Partes Pequeñas, que es una medida de la coordinación ojo-mano y de la destreza motriz fina, consta de dos partes. En la primera parte, el examinando utiliza pinzas para insertar alfileres en orificios y colocar aros sobre ellos. En la segunda parte coloca tornillos en orificios de rosca y los atornilla con un destornillador (figura 10.3). Movimientos manuales gruesos y finos. La Prueba Bennett de Destreza Mano-Herramienta (The Psychological Corporation) es una prueba de habilidades psicomotrices que combina la destreza de los dedos con movimientos gruesos de los brazos. En esta prueba se solicita al examinando que primero saque 12 tuercas de 12 tornillos de tres tamaños diferentes montados sobre el lado izquierdo de un marco, y que después atornille de nuevo las tuercas y tornillos en el lado derecho del marco (figura 10.4). Las calificaciones consisten en el tiempo necesario para completar la tarea. En el manual se presentan las normas para administrar esta prueba a diversos grupos de aspirantes industriales. Confiabilidad y validez de las pruebas de psicomotricidad La confiabilidad de las pruebas de habilidades psicomotrices es inferior en promedio (.70 y .80) a la de otras pruebas de habilidades especiales. Una de las razones para que los coeficientes de confiabilidad resulten relativamente bajos en las pruebas de habilidades psicomotrices es que las calificaciones son sumamente susceptibles a la práctica (Fleishman, 1972). En general, las pruebas de habilidades psicomotrices no han resultado muy útiles en la conserjería vocacional. Su validez suele ser inferior a la que tienen las pruebas de habilidades mecánicas y de trabajos de oficina. Las medidas de habilidades psicomotrices han sido más útiles para predecir el desempeño en programas de capacitación que para pronosticar la destreza en el empleo. También tienen mayor validez para prever el desempeño en trabajos repetitivos, tales como el ensamblado de rutina y la operación de máquinas, que en empleos complejos donde se involucran habilidades cognoscitivas y perceptuales de mayor nivel (Ghiselli, 1973). FIGURA 10.2 Tablero de Clavijas Purdue (Cortesía de Lafayette Instrument Company.) 220 CAPÍTULO DIEZ Evaluación de habilidades especiales FIGURA 10.3 Prueba Crawford de Destreza con Partes Pequeñas, parte II. (Derechos reservados 1946, 1956, 1981 por The Psychological Corporation, una Compañía de Evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados.) FIGURA 10.4 Prueba Bennett de Destreza Mano-Herramienta. (Derechos reservados 1969 por The Psychological Corporation, una Compañía de Evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados.) HABILIDAD MECÁNICA Se requiere un cierto nivel mínimo de habilidad psicomotriz para casi cualquier ocupación que involucre la operación de maquinaria; pero, más allá de ese nivel, la percepción espacial, el conocimiento mecánico y otras habilidades cognoscitivas son determinantes más importantes del desempeño. Uno de los primeros y más frecuentes tipos de habilidad especial que se mide es la habilidad mecánica. Hay algunas evidencias de un factor general débil de habilidad mecánica, pero las pruebas que se han diseñado para medirlo incluyen diversas habilidades perceptivo-motrices y cognoscitivas. Se trata de pruebas de habilidades psicomotrices, tales como la coordina- HABILIDAD MECÁNICA 221 ción muscular y de velocidad, la percepción de relaciones espaciales y la comprensión de relaciones mecánicas. Los componentes psicomotrices de diversas pruebas de habilidad mecánica, como las pruebas psicomotrices en general, tienen correlaciones bajas entre sí. Sin embargo, las correlaciones entre las calificaciones totales en diversas pruebas de habilidad mecánica a menudo son bastante considerables. Un hallazgo interesante, aunque no es de sorprender, es la presencia de diferencias de género en las calificaciones de pruebas de habilidad mecánica. Es común que los varones obtengan calificaciones más elevadas en mediciones de comprensión espacial y mecánica, mientras que las mujeres logran calificaciones más altas en destreza manual fina y en ciertos aspectos de discriminación perceptual. Estas diferencias se tornan más pronunciadas en el bachillerato, y sin duda los factores sociales intervienen en su determinación. Pruebas de relaciones espaciales Un análisis intensivo de la habilidad mecánica, realizado por D. G. Paterson y sus colaboradores en la Universidad de Minnesota hacia finales de la década de 1920, condujo a la elaboración de tres pruebas: la Prueba Minnesota de Ensamblaje Mecánico, la Prueba Minnesota de Relaciones Espaciales, y el Tablero Minnesota de Formas de Papel (Paterson, Elliott, Anderson, Tooks y Heidbreder, 1930). La primera, una prueba de muestras de trabajo, requería que los examinados ensamblaran de nuevo un conjunto de objetos mecánicos desarmados. La tarea exigía destreza manual y percepción espacial, así como comprensión mecánica. El segundo y tercer instrumentos de esta serie eran pruebas de percepción espacial, habilidad considerada factor importante en los trabajos que involucraban tareas mecánicas. Como su nombre lo indica, la percepción espacial es la habilidad para visualizar objetos en tres dimensiones y manipularlos para producir una configuración particular. Una descendiente de las pruebas anteriores fue la Prueba Minnesota de Relaciones Espaciales, edición revisada (American Guidance Service). Esta prueba, diseñada para edades de 16 años en adelante, evalúa la visualización espacial y la manipulación tridimensional de objetos. Consiste en cuatro tableros de formas (A, B, C, D) y dos series de bloques de formas geométricas. Una serie de bloques se ajusta en los huecos de los tableros A y B, y la segunda serie se ajusta a los huecos de los tableros C y D. La prueba empieza con los bloques dispersos fuera de los huecos, y se indica al examinando que tome los bloques y los coloque en los huecos correctos del tablero tan rápidamente como sea posible. Otra descendiente de la Prueba Minnesota de Ensamblaje Mecánico es la Prueba Minnesota del Tablero de Formas de Papel, revisada (The Psychological Corporation). Esta adaptación a lápiz y papel de la Prueba Minnesota de Relaciones Espaciales fue diseñada para aplicarse desde el 9° hasta el 16° grados y en adultos. Consiste en 64 reactivos de opción múltiple, cada uno con un marco que muestra una figura geométrica dividida en varias partes y cinco marcos de respuestas que contienen una forma armada (figura 10.5). La tarea del examinando es seleccionar el marco de respuesta de los cinco que muestran cómo quedaría la figura al unir las partes entre sí. El Tablero Minnesota de Formas de Papel ha resultado útil para predecir grados en cursos de taller e ingeniería, así como para efectuar evaluaciones de supervisores y registros de producción en inspección, empaque, operación de máquinas y otras ocupaciones industriales. Las calificaciones de la prueba también se relacionan con el aprovechamiento en odontología y arte. Aunque se pretendía que la Prueba Minnesota del Tablero de Formas de Papel fuera una versión aplicada en forma más eficiente de la Prueba Minnesota de Relaciones Espaciales, la correlación entre calificaciones en las dos pruebas es considerablemente menor que el coeficiente de confiabilidad de pruebas paralelas del instrumento anterior. Hay dos o más partes en la esquina superior izquierda para cada uno de los problemas presentados abajo. Elija entre las cinco figuras con las letras A, B, C, D, E, la que muestra cómo quedarían las partes de la esquina superior izquierda si se unieran entre sí. La respuesta correcta se muestra en el Problema 1. FIGURA 10.5 Muestra de reactivos de la Prueba Minnesota del Tablero de Formas de Papel, revisada. (Derechos reservados © 1941, 1969 por The Psychological Corporation, una Compañía de Evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados. “RMPFBT” es una marca registrada propiedad de The Psychological Corporation e inscrita en Estados Unidos de Norteamérica y/u otras jurisdicciones.) 222 223 HABILIDAD MECÁNICA Otras medidas de habilidad mecánica en lápiz y papel Ni la habilidad espacial ni la mecánica constan de un único factor. Por ejemplo, Carroll (1993) identificó cinco factores en pruebas de habilidad espacial: visualización, rotación acelerada, velocidad de cierre, flexibilidad de cierre y velocidad perceptiva. Los resultados del análisis factorial también indican que el desempeño en las pruebas de habilidad mecánica es una función de la habilidad espacial, la habilidad de razonamiento general, y la experiencia y conocimiento mecánicos (Alderton, 1994). Todos estos factores contribuyen a las calificaciones en pruebas de comprensión mecánica, las cuales se diseñan para evaluar la comprensión de los principios mecánicos involucrados en una gama de situaciones prácticas. Dos ejemplos de pruebas de este tipo son la Prueba de Conceptos Mecánicos (NCS London House) y la Prueba de Comprensión Mecánica Bennett (The Psychological Corporation). Las dos formas (S y T) de la Prueba de Comprensión Mecánica consisten en dibujos y preguntas sobre la operación de relaciones mecánicas y leyes físicas en situaciones prácticas (figura 10.6). La calificación y confiabilidad promedios de la prueba Bennett son menores para mujeres que para hombres, y se proporcionan normas separadas para cada sexo. Se encuentra evidencia de la validez de la prueba en sus modestas correlaciones con el desempeño en diversos trabajos mecánicos, técnicos y de manufactura. Observe el Ejemplo X de esta página. Aparecen dos hombres llevando un objeto pesado que pende de una tabla, y se pregunta: “¿Cuál de los hombres carga más peso?” Debido a que el objeto está más cerca del hombre “B” que del “A”, el hombre “B” está llevando un peso mayor sobre el hombro; entonces rellene el círculo que se encuentra bajo la letra “B” en su hoja de respuestas. Ahora observe el Ejemplo Y y conteste usted mismo. Rellene el círculo ¿Cuál de los hombres carga más peso? (De ser igual, marque C.) EJEMPLOS ¿Qué letra señala el asiento donde un pasajero podría viajar con menos movimiento? FIGURA 10.6 Ejemplo de reactivos de la Prueba de Comprensión Mecánica Bennett. (Derechos reservados 1942, 1967-1970, 1980 por The Psychological Corporation, una Compañía de Evaluación de Harcourt. Todos los derechos reservados. “Bennett Mechanical Test” y “BMCT” son marcas registradas propiedad de The Psychological Corporation e inscritas en Estados Unidos y/u otras jurisdicciones.) 224 CAPÍTULO DIEZ Evaluación de habilidades especiales HABILIDADES PARA TRABAJOS DE OFICINA Y LAS RELACIONADAS CON LA COMPUTACIÓN Al igual que muchas otras categorías de habilidad, la habilidad para desempeñar el trabajo de oficina no es un factor unitario distinto de la inteligencia general. La destreza manual y la velocidad para percibir semejanzas y diferencias son necesarias en el trabajo de oficina, pero las habilidades verbales y cuantitativas también son importantes. Por consiguiente, muchas pruebas de habilidades para el trabajo de oficina contienen reactivos similares a los que se encuentran en las pruebas de inteligencia general, así como reactivos para medir la velocidad y la precisión perceptual. Además de las pruebas más generales de habilidad para el trabajo de oficina, se han diseñado algunos instrumentos para medir solamente la aptitud estenográfica. También hay disponibles pruebas sobre la capacidad para aprender las complejas tareas de oficina y de resolución de problemas de la programación y la operación de computadoras. Pruebas representativas de la habilidad para el trabajo de oficina general Las pruebas de habilidad para el trabajo de oficina que se distribuyen comercialmente varían en contenido, comprenden desde las tareas simples de marcar números y nombres en la Prueba Minnesota de Trabajo de Oficina, hasta las tareas combinadas perceptual-motrices y de inteligencia general de la reciente Batería de Habilidades para Trabajo de Oficina. La Prueba Minnesota de Trabajo de Oficina (The Psychological Corporation) fue diseñada para usarse al seleccionar empleados, inspectores y otros especialistas en ocupaciones que incluyen velocidad para percibir y manipular símbolos. Consiste en dos partes, Comparación de Números (ocho minutos) y Comparación de Nombres (siete minutos), en las que el examinando revisa 200 pares de números y 200 pares de nombres buscando errores y marca los pares idénticos (figura 10.7). Ambas partes se califican mediante la fórmula “aciertos menos errores”. Las confiabilidades test-retest de las calificaciones están entre los .70 y 80. Las normas de rangos percentilares para estudiantes, por sexo y grado (7 a 12), y para grupos de trabajadores de oficina y solicitantes de empleo aparecen en el manual. Las calificaciones están moderadamente correlacionadas con las notas de maestros y supervisores sobre el trabajo de oficina. En contraste con la Prueba Minnesota de Trabajo de Oficina, que sólo mide la velocidad y precisión de percepción, la Batería de Habilidades para Trabajo de Oficina (The Psychological Corporation) se compone de siete pruebas diseñadas para medir diversas habilidades del trabajo de oficina: Llenado (cinco minutos), Copiar información (cinco minutos), Comparación de información (cinco minutos), Uso de tablas (cinco minutos), Lectura de pruebas (cinco minutos), Habilidades matemáticas básicas (15 minutos) y Razonamiento numérico (20 minutos). Las normas de rangos percentilares basadas en varias poblaciones de empleados bien definidas están disponibles en las formas A y B de la prueba. Habilidades relacionadas con la computadora El rápido crecimiento de la industria de la computación durante las últimas décadas ha provocado cambios en la mayoría de los empleos de oficina y demanda de los programas de cómputo relacionados, es decir, la serie de enunciados lógicos que le dicen a la computadora qué hacer para lograr objetivos específicos. Aprender a programar computadoras y a usar los complejos programas que ya se han diseñado requiere de una combinación de las habilidades para el trabajo de oficina y para resolver problemas. Por lo tanto, es importante identificar a los individuos que poseen las aptitudes y habilidades necesarias para aprender cómo programar y manejar computadoras. Respondiendo a esta necesidad, los especialistas en mediciones han elaborado pruebas de 225 HABILIDADES ARTÍSTICAS Y MUSICALES Si los dos nombres, o los dos números del par son exactamente iguales, ponga una marca (✓) en la línea de en medio; si son diferentes, deje el espacio sin marcar. Muestra de pares de Números resuelta correctamente 79542 5794367 ✓ 79524 5794367 Muestra de pares de Números resuelta correctamente John C. Linder Investors Syndicate ✓ John C. Lender Investors Syndicate Ahora intente resolver las siguientes muestras. (1) New York World (2) Cargill Grain Co. (3) 66273894 (4) 527384578 FIGURA 10.7 New York World Cargil Grain Co. 66273984 527384578 Muestra de reactivos de la Prueba Minnesota de Trabajo de Oficina. (Derechos reservados 1933. Renovados en 1961 por The Psychological Corporation, una Compañía de Evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados.) aptitud para programar computadoras, uno de cuyos ejemplos es la Batería de Aptitud para Programador de Computadoras (CPAB) (NCS London House). Esta batería de prueba, que se diseñó para evaluar y seleccionar aspirantes a cursos de programación de computadoras, consiste en subpruebas de Significado Verbal, Razonamiento, Series de Letras, Habilidad para los Números, y Diagramación. El tiempo de evaluación es de 79 minutos para la versión Normal y de 55 minutos para la versión abreviada. Las pruebas se basaron en principiantes y programadores experimentados, y en analistas de sistemas, para desarrollar los reactivos, y en el manual se presentan las normas por rangos percentilares en las calificaciones totales y en las subpruebas. Los estudios sobre validación han demostrado que la CPAB puede predecir el éxito relevante en el trabajo para diversas compañías de producción y servicios. También están disponibles pruebas que evalúan la capacidad para manejar computadoras. Un ejemplo es la Batería de Aptitud para Operador de Computadoras (COAB). Las tres subpruebas de esta batería de 45 minutos son: Reconocimiento de Secuencias (“habilidad para reconocer secuencias en forma rápida”), Marcar Formatos (“habilidad para percibir la adecuación de números y letras a un determinado formato”) y Pensamiento Lógico (“habilidad de analizar problemas y visualizar soluciones de manera lógica”). El manual presenta normas de rangos percentilares, obtenidos en muestras relativamente pequeñas de operadores de computadoras con experiencia y aspirantes o aprendices sin experiencia, por subpruebas y por calificación total. HABILIDADES ARTÍSTICAS Y MUSICALES Las habilidades medidas por las pruebas de aptitud espaciales, mecánicas y de trabajo de oficina son importantes en ingeniería, mecánica, trabajo de oficina, odontología, y en cierta medida 226 CAPÍTULO DIEZ Evaluación de habilidades especiales en arte y música. Las pruebas de habilidades artísticas y musicales han sido objeto de décadas de investigación, y algunas de ellas tienen al menos una validez modesta. No obstante, la investigación dedicada a la evaluación de estas habilidades ya no se lleva a cabo con la energía con que alguna vez se realizó (Carson, 1998). Pruebas de aptitud artística Como dice la frase: “la belleza está en los ojos de quien la contempla”, el juez último sobre el mérito artístico es el observador. Debido a que el gusto en el arte varía mucho de una persona a otra, de una cultura a otra y de generación a generación, no es sorprendente que los criterios sobre la habilidad artística resulten difíciles de especificar. Sin importar los múltiples problemas que se presentan al tratar de definir criterios confiables y elaborar instrumentos para predecirlos, se han publicado varias pruebas de habilidad para el arte visual y la aptitud musical. Sin embargo, muchas de estas pruebas son obsoletas y ya no están disponibles comercialmente. Hace algunos años los investigadores de la Universidad de Minnesota encontraron una correlación positiva entre las calificaciones en pruebas de percepción espacial, tales como la Prueba Minnesota del Tablero de Formas de Papel, y la aptitud artística (Paterson et al., 1930). Desde luego que la habilidad espacial no es el único factor que cuenta en la aptitud artística; el juicio, la destreza manual, la imaginación creativa y otros factores también intervienen. Asimismo, una persona que puede reconocer el buen arte no necesariamente es capaz de producirlo. Por ello, es importante distinguir entre medidas de apreciación estética (juicio y percepción) y medidas de muestras de trabajo de habilidad productiva en arte. Como ejemplo de pruebas de juicio y percepción del arte están la Prueba Meier de Juicio Artístico, la Prueba Meier de Percepción Estética (Meier, 1942), y la Prueba Graves de Juicio de Diseño (Graves, 1948). A diferencia de la Prueba Meier de Juicio Artístico, que utiliza obras de arte famosas como material de prueba, la de Graves emplea obras abstractas de dos y tres dimensiones para revelar los juicios artísticos. Ejemplo de una prueba de desempeño en arte es el Inventario Horn de Aptitudes Artísticas (Horn y Smith, 1945), donde se requiere que el examinando esboce objetos comunes y figuras geométricas y trace conjuntos de líneas básicas en marcos rectangulares. Pruebas de aptitud musical No está clara la importancia relativa de la habilidad innata, la motivación, la instrucción y la práctica para la determinación del talento musical. Hay ciertas muestras de que existe un factor general débil de la aptitud musical, pero la mayoría de las investigaciones han demostrado que son varias las habilidades que contribuyen al logro musical. Uno de dichos factores es la habilidad de discriminar entre diferentes tonos, el tono perfecto que supuestamente ha caracterizado a muchos músicos famosos. Como lo revela la investigación que ha usado técnicas de sondeo cerebral, los factores neuropsicológicos son importantes para determinar el tono perfecto. Por ejemplo, Schlaug, Jaencke, Huang y Steinmetz (1995) descubrieron que los músicos con tono perfecto tenían una marcada asimetría del plano temporal izquierdo que los no músicos o los músicos sin tono perfecto. En una investigación relacionada, Schlaug et al (1995) encontró que la mitad anterior del cuerpo calloso era significativamente mayor en los músicos profesionales que en los no músicos. La prueba de aptitud musical más antigua, denominada Medidas Seashore de los Talentos Musicales, fue producto de la investigación pionera de Carl Seashore y sus colegas en la Universidad de Iowa durante las décadas de 1920 y 1930 (Seashore, 1939). En contraste con las pruebas de aptitud musical que se desarrollaron más tarde, los materiales de estímulo de las pruebas BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 227 de Seashore consistían en un conjunto de tonos o notas musicales, más que en selecciones musicales significativas. Este método analítico, atomista de medir la aptitud musical fue seriamente criticado y, en consecuencia, se desarrollaron varias pruebas con un contenido más complejo. Entre éstas están las medidas colectivas como la Prueba Drake de Aptitud Musical (Drake, 1954) y el Perfil de Aptitud Musical (por E. E. Gordon, de GIA Publications). El Perfil de Aptitud Musical (MAP) es una prueba grabada consistente en 250 selecciones breves originales para violín y violonchelo tocadas por músicos profesionales. No se requiere de ningún conocimiento previo sobre hechos musicales o históricos. El MAP consta de tres pruebas que miden siete componentes: Imaginación Tonal (melodía y armonía), Imaginación Rítmica (ritmo y métrica), y Sensibilidad Musical (fraseo, equilibrio y estilo). Según su revisión en 1995, la prueba toma aproximadamente tres horas y media en aplicarse y puede calificarse manualmente. Otras pruebas de música diseñadas por E. E. Gordon y publicadas por GIA Publications incluyen: Medidas Avanzadas de Audición de Música. Prueba de aptitud musical para estudiantes universitarios, dura 20 minutos y proporciona calificaciones sobre tono, ritmo y compuestas. Prueba de Preferencia de Timbre de Instrumento. Ayuda a los estudiantes a partir de los nueve años de edad a seleccionar un instrumento de aliento apropiado, de metal o de madera, para aprender a tocar. Registro de Prontitud para la Improvisación Armónica y Registro de Prontitud para la Improvisación. Diseñada para funcionar como una ayuda objetiva para maestros (desde el tercer grado hasta escuelas de especialización musical) y ayudar a los alumnos a improvisar música. Prueba Iowa de Alfabetismo Musical. Una prueba de aprovechamiento musical estandarizada nacionalmente, para grados del cuarto al duodécimo, diseñada para evaluar el progreso, diagnosticar cualidades y deficiencias, y comparar la posición relativa de los alumnos en el aprovechamiento musical. BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES En la conserjería vocacional, así como en la clasificación y colocación de empleos, a menudo resulta útil evaluar las habilidades y el conocimiento en varias áreas. Un consejero puede decidir aplicar una serie de pruebas individuales de habilidades, pero éste puede no ser el procedimiento más eficaz. Además, es probable que un conjunto de pruebas separadas se haya estandarizado en tantos grupos de personas distintos como pruebas existan. Debido a que los grupos de norma pueden variar en forma significativa, es difícil establecer una comparación relevante entre la calificación de una persona en una prueba y sus calificaciones en otras pruebas. Las pruebas separadas de capacidades especiales ciertamente tienen un lugar, sobre todo en la selección y el sondeo de personal, pero son menos útiles en la asesoría y el diagnóstico vocacional. El énfasis en los procedimientos de selección de personal ha cambiado un poco durante las últimas décadas de seleccionar sólo la “crema y nata” a clasificar y colocar a los trabajadores en los empleos más adecuados a sus habilidades y necesidades. Por consiguiente, la aplicación de las pruebas comprendidas en una batería de múltiples habilidades, la cual está diseñada 228 CAPÍTULO DIEZ Evaluación de habilidades especiales para asignar a las personas con patrones de habilidades particulares a empleos específicos, se considera más eficaz que aplicar una serie de pruebas no relacionadas diseñadas para seleccionar sólo a los mejores y descartar a todos los demás. A diferencia de las pruebas únicas de habilidades especiales, que pueden ser del tipo de lápiz y papel o de ejecución, una batería de habilidades múltiples típica no requiere más dispositivos que lápiz y papel y puede administrarse simultáneamente a un grupo grande de estudiantes, aspirantes a un empleo, reclutas militares y otros grupos. Debido a que las habilidades cognoscitivas son menos específicas durante los años de la escuela elemental, en general, antes de cursar la secundaria no se recomienda aplicar una batería cara, que tome mucho tiempo, de habilidades múltiples. Durante la secundaria, al ir diferenciándose sus habilidades cognoscitivas con la madurez y la experiencia, los alumnos empiezan a investigar y hacer planes sobre sus futuras carreras, así como a decidir los cursos académicos que tomarán. Para ayudarlos en estos esfuerzos, muchos sistemas escolares aplican una batería de habilidades múltiples en el octavo o noveno grado de bachillerato. La información proporcionada por la batería de pruebas puede aumentar la conciencia de los alumnos sobre sus cualidades y deficiencias y, por lo tanto, guiarlos para tomar decisiones laborales y educativas. Más que aplicar una larga serie de pruebas de habilidades especiales o una batería de habilidades múltiples, un consejero vocacional puede decidir usar una prueba de inteligencia general y una o más pruebas de habilidades especiales. Ciertamente, nada tiene de malo esta estrategia, porque las habilidades verbales y cuantitativas medidas por las pruebas de inteligencia son importantes en un amplio espectro de posiciones académicas y vocacionales. Además de evaluar varias habilidades especiales, muchas baterías de habilidades contienen una prueba de inteligencia general. Esto proporciona las ventajas combinadas de una aplicación más eficiente y de normas comparables en todas las pruebas. Diferencias de calificaciones e interpretación de perfiles Los procedimientos estadísticos del análisis factorial (vea apéndice A) se han usado en la elaboración de varias baterías de pruebas de habilidades. Incluso en baterías no desarrolladas por métodos de análisis factorial, los resultados de estudios que emplean estos métodos usualmente se han considerado para elaborar los reactivos y definir las variables que habrán de medirse. Los reactivos de las Pruebas de Aptitudes Diferenciales, una de las más populares baterías de pruebas usadas en la asesoría académica en el nivel de bachillerato, se seleccionaron para que tuvieran correlaciones elevadas con otros reactivos en la misma subprueba, pero correlaciones bajas con reactivos de otras subpruebas. El resultado final fue un conjunto de subpruebas internamente consistentes con bajas correlaciones entre sí. Era importante que las correlaciones entre subpruebas fueran bajas; de lo contrario, el traslape entre las habilidades medidas por distintas subpruebas sería demasiado grande como para obtener una interpretación diferencial de las calificaciones de la subprueba. Confiabilidad y error estándar de las diferencias entre calificaciones. Las magnitudes de las correlaciones entre distintas subpruebas en la misma batería a menudo son notables, y el hecho de que las subpruebas son bastante breves ocasiona que su confiabilidad sea muy baja. No sólo la confiabilidad de las diferencias entre calificaciones en dos pruebas varía directamente con la confiabilidad de las pruebas, también varía inversamente con la correlación entre las pruebas. La correlación considerable entre dos subpruebas dadas, combinada con su baja confiabilidad, origina que la confiabilidad de las diferencias entre calificaciones de las subpruebas sea baja. BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 229 La siguiente es una fórmula de la confiabilidad de las diferencias (rdd) entre las calificaciones de las mismas personas en dos pruebas o subpruebas con iguales varianzas: rdd = r11 + r22 – 2r12 , 2(1 – r12) (10.1) donde r11 es la confiabilidad del primer conjunto de calificaciones, r22 la confiabilidad del segundo conjunto de calificaciones, y r12 la correlación entre estos dos conjuntos. Por ejemplo, supóngase que la confiabilidad de calificaciones anteriores a la prueba es r11 = .90, la confiabilidad de las calificaciones posteriores a la prueba es de r22 = .80, y la correlación entre calificaciones anteriores y posteriores a la prueba es r12 = .70. Entonces, la confiabilidad de la diferencia entre calificaciones anteriores y posteriores a la prueba es [.90 ⫹ .80 ⫺ 2(.70)]/[2(1 ⫺.70)]= .50. Cuando la confiabilidad de las diferencias entre calificaciones en dos subpruebas es baja, la diferencia entre las calificaciones de una persona en la subpruebas debe ser bastante grande para que pueda resultar significativa. Con el propósito de ilustrar este principio, supongamos que la confiabilidad de las calificaciones T en la prueba de relaciones espaciales de una batería de habilidades es .85, y la confiabilidad de las calificaciones T en la prueba de aptitud mecánica de la misma batería es .90. Un valor aproximado del error estándar de las diferencias (sed) entre calificaciones en dos pruebas con desviaciones estándar iguales puede calcularse mediante: sed = s22 ⫺ r11 ⫺ r22, (10.2) donde r11 y r22 representan la mejor confiabilidad de test-retest de las dos pruebas, y s es la desviación estándar de las calificaciones de cada prueba. Recordando que la desviación estándar de las calificaciones T es igual a 10, cuando las calificaciones de ambas pruebas se expresan como calificaciones T, la fórmula 10.2 se convierte en: sed = 10 22 ⫺ .85 ⫺ .90 ⫽ 5. En consecuencia, para estar bastante seguros (digamos con una probabilidad de .95) de que la diferencia entre las calificaciones de una persona en estas dos pruebas no se debe al azar, tal diferencia debe ser de al menos 1.96 × 5 = 9.8 unidades de calificaciones T. Perfil de calificaciones. El proceso de interpretar la calificación de una persona en una batería de aptitudes múltiples constituida por varias pruebas estandarizadas en los mismos grupos de norma o en grupos equivalentes empieza con la construcción de un perfil de calificación. Un perfil de calificación, que es una gráfica de líneas o de barras de las calificaciones obtenidas en distintas pruebas, proporciona una imagen de las ventajas y deficiencias de una persona en varias áreas de aptitud. A partir de las normas es posible construir un perfil de las calificaciones de la persona en diversas pruebas para su uso en asesoría académica o vocacional. Más que trazar las calificaciones de una persona como puntos específicos en una gráfica, éstas pueden representarse como una serie de barras horizontales o verticales que van de uno o dos errores de medición estándar a cada lado de la calificación (vea la figura 5.2, en la página 92). Entonces, si las barras verticales de las dos pruebas no se traslapan, la diferencia entre las calificaciones de la persona en estas dos pruebas puede interpretarse como significativa. Con el fin de apoyar la conserjería vocacional y la selección y colocación ocupacional, puede ser útil comparar el perfil de las calificaciones de una persona en una batería de habilidades múltiples con el perfil de las calificaciones promedio de la gente ubicada en ocupaciones seleccionadas para tal efecto. Aunque los trabajadores de una misma ocupación difieren en cierta 230 CAPÍTULO DIEZ Evaluación de habilidades especiales medida en cuanto a sus patrones de habilidad, ciertas familias de empleos parecen requerir un conjunto particular de habilidades. Los perfiles similares en una batería de aptitudes múltiples indican patrones similares de habilidades. Pruebas de aptitud diferencial Cierto número de baterías de pruebas de aptitud han sido diseñadas para, y estandarizadas principalmente en, situaciones escolares y se han usado para pronosticar el aprovechamiento académico. Una importante batería de este tipo se conoce como Pruebas de Aptitud Diferencial (DAT) (The Psychological Corporation). Las DAT se han usado sobre todo para consejería educativa y vocacional en estudiantes de bachillerato, pero también se ha empleado en educación básica para adultos, programas universitarios, vocacional-técnicos y correccionales. Hay dos niveles de la última (quinta) edición de las DAT: el Nivel 1 para grados del 7° al 9°, y el Nivel 2 para grados del 10° al 12°. Las DAT comprenden ocho pruebas: Razonamiento Verbal, Razonamiento Numérico, Razonamiento Abstracto, Velocidad y Exactitud Perceptual, Razonamiento Mecánico, Relaciones Espaciales, Ortografía y Uso del Lenguaje. El tiempo para resolver toda la batería es de 156 minutos, pero una Batería Parcial de las DAT consistente en Razonamiento Verbal y Razonamiento Numérico requiere sólo de 90 minutos de trabajo. Además, se ha adaptado una edición computarizada de toda la batería que sólo toma 90 minutos en promedio para resolverse. Usando la teoría de respuesta al item, la versión adaptada presenta un subconjunto de reactivos de prueba que son los más adecuados para la persona que se somete a la prueba. La quinta edición de las DAT fue estandarizada sobre una muestra nacional representativa de los estudiantes estadounidenses de bachillerato, se estratificó de acuerdo con el tamaño del distrito escolar, la región geográfica, el estatus socioeconómico de la comunidad y el tipo de escuela (pública o privada). Hay considerables diferencias de género en las calificaciones de las DAT: las mujeres tienen calificaciones más elevadas en Uso del Lenguaje y en Velocidad y Exactitud Perceptual, mientras que los hombres obtienen mayores puntuaciones en Razonamiento Mecánico y Relaciones Espaciales. Debido a estas diferencias de género, las normas por rango percentilar, estanina, y de la calificación escalada se presentan por separado para hombres y mujeres, así como para ambos sexos combinados. Los datos estadísticos en la quinta edición del manual para el DAT, así como para la prueba misma, son bastante añejos, lo que debe tomarse en cuenta al usar esta batería de pruebas. Los coeficientes de la consistencia interna de las ocho pruebas varían de .82 a .95, y los coeficientes de formas paralelas están entre .73 y .90. Las correlaciones entre las pruebas van desde casi cero entre la Velocidad y Exactitud Perceptual y otras pruebas de la batería, hasta .70 entre las pruebas de Razonamiento y Uso del Lenguaje. Los extensos datos presentados en el manual indican que las escalas de las DAT, y especialmente el Razonamiento Verbal más el Razonamiento Numérico en conjunto, son válidas para pronosticar los grados de bachillerato y universitario. La batería de las DAT es útil para predecir el nivel del empleo dentro de las ocupaciones, pero las normas para varias ocupaciones son limitadas. En consecuencia, como pronóstico diferencial del éxito vocacional, las escalas de las DAT deben usarse con precaución. Batería Multidimensional de Aptitudes, II La Batería Multidimensional de Aptitudes, II (MAB-II) es una adaptación administrada de manera colectiva de la Escala de Inteligencia para Adultos de Wechsler, revisada. Como la WAISR, la MAB-II consiste en dos escalas (Verbal y de Desempeño) con cinco subpruebas cada una. Las cinco subpruebas Verbales son: Información, Comprensión, Aritmética, Semejanzas y Vo- 231 BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES cabulario. Las cinco subpruebas de Desempeño son: Símbolos en Dígitos, Completamiento de Dibujos, Espacial, Acomodamiento de Imágenes y Ensamblado de Objetos. El tiempo límite para cada subprueba es de siete minutos, de modo que toda la batería puede terminarse en menos de hora y media. Es posible obtener calificaciones estándar y CI a partir de las baterías Verbal, de Ejecución y de Escala Completa, así como calificaciones escaladas de subpruebas, y un informe detallado de las calificaciones y su interpretación, a través del servicio de calificaciones por computadora de los Sistemas de Asesoría Sigma. En la figura 10.8 se muestra un ejemplo de perfil de calificaciones de la MAB-II. El manual MAB-II (Jackson, 1998) registra la confiabilidad test-retest durante un periodo de 45 días como de .95 para la calificación Verbal, de .96 para la de Ejecución , y de .97 para la de Escala Completa. En un estudio con 500 personas de entre 16 y 20 años de edad, los coeficientes de consistencia interna para los CI Verbal, de Ejecución y de Escala Completa estaban entre los altos niveles de .90. Las correlaciones entre las calificaciones MAB y los CI de la WAIS-R en una muestra de 145 adultos fueron de .94 para la prueba Verbal, de .79 en Ejecución y de .91 para la Escala Completa de calificaciones WAIS-R . Los resultados de los análisis factoriales de las calificaciones de las subpruebas indican que, al igual que la Wais-R, la batería MAB-II mide un factor de inteligencia general así como factores de ejecución y verbal por separado. Batería de Pruebas de Aptitud General Se han diseñado varias baterías de pruebas de habilidades múltiples específicamente para la selección y colocación de personal en el medio empresarial e industrial. Entre éstas se encuentra Puntuaciones Edad Califs. Escalas Corregidas Escalas Crudas CE CE 0 Información 40 83 80 Comprensión 24 62 59 Aritmética 17 67 64 Semejanzas 24 56 53 Vocabulario 25 54 53 Símbolos en dígitos Completamiento de 24 56 52 24 58 54 Espacial 35 62 59 Acomodo de dibujos Ensamblado de objetos 7 8 42 47 37 44 10 20 30 40 50 60 70 80 90 100 dibujos Las puntuaciones crudas para cada prueba indican la cantidad de preguntas que el examinado respondió en forma correcta. El primer conjunto de Calificaciones Escaladas (CE) no está basado en la edad y se usa para calcular las calificaciones de CI Verbal, de Ejecución y de Escala Completa. Las Calificaciones Escaladas (CE) corregidas por edad y la barra gráfica correspondiente comparan los resultados de los examinados con los de las personas del mismo grupo de edad. Escalas Verbal De Ejecución Escala Completa FIGURA 10.8 Califs. Suma CI Cociente de Inteligencia (CI) 70 85 100 115 130 145 322 120 265 100 587 112 Perfil de Calificaciones en la Batería Multidimensional de Aptitudes, II. (Reproducida con autorización de Sigma Assessment Systems, Inc., P.O. Box 610984, Port Huron, MI 48061-0984. Tel. (800) 265-1285.) 232 CAPÍTULO DIEZ Evaluación de habilidades especiales la Batería de Pruebas de Aptitud General, las Pruebas Flanagan de Clasificación de Aptitud, las Pruebas Industriales Flanagan y el Estudio de Habilidades para Empleados. Una de las más antiguas baterías de prueba orientadas hacia la industria fue diseñada en la década de 1930 por el personal del Instituto de Investigación para la Estabilización del Empleo de Minnesota (MESRI). La batería MESRI contenía pruebas de inteligencia general, así como para medir la habilidad numérica, perceptual, mecánica y psicomotriz. Los perfiles de las calificaciones promedio de estas pruebas obtenidas por empleados de oficina, trabajadores mecánicos, vendedores y muchos otros grupos ocupacionales, se establecieron como un conjunto de patrones de habilidad ocupacional (OAP) con los cuales podía compararse el desempeño individual. El enfoque OAP de la batería MESRI se conservó al desarrollarse la Batería de Pruebas de Aptitud General (GATB) del Servicio de Empleo de Estados Unidos. La GATB, diseñada con base en el análisis del empleo y en un análisis factorial de 59 pruebas, se compone de ocho pruebas de lápiz y papel y cuatro pruebas con aparatos. Estas 12 pruebas en conjunto producen calificaciones sobre nueve habilidades principales requeridas para el éxito laboral: Habilidad de Aprendizaje General (G), Habilidad Verbal (V), Habilidad Numérica (N), Habilidad espacial (S), Percepción de Formas (P), Percepción del Trabajo de Oficina (Q), Coordinación Motriz (K), Destreza de Dedos (F) y Destreza Manual (M). Las puntuaciones crudas en estas nueve variables se convierten a rangos percentilares o calificaciones estándar con una media de 100 y una desviación estándar de 20. Estas tres calificaciones compuestas se obtienen de combinaciones apropiadas de las puntuaciones alcanzadas en los nueve factores: Cognoscitivo = G + V + N, Perceptual = S + P + Q y Psicomotriz = K + F + M. Las calificaciones estándar de una persona en las variables GATB pueden compararse con las de los aproximadamente 36 patrones de habilidad ocupacional (OAP) determinados a partir de un análisis de las calificaciones de personas en más de 800 empleos. Un OAP consiste en un conjunto de calificaciones de GATB mínimas consideradas esenciales para el desempeño eficaz en determinada ocupación. Toda la batería GATB tarda 21/2 horas en administrarse y es adecuada para los últimos grados de bachillerato (en general, el 12° grado) y adultos. Los coeficientes de confiabilidad testretest y de formas paralelas para las pruebas separadas van de .80 a .90, con un error estándar de medición de aproximadamente 7 puntos para las calificaciones estándar. La validez de las nueve pruebas de habilidad y los 36 OAP para predecir los criterios de éxito ocupacional y académico está entre .00 y .90. La GATB ha sido una de las herramientas más usadas en consejería vocacional y colocación laboral para estudiantes de los grados 9° al 12° y adultos, y probablemente es la batería de pruebas más adecuada para tal propósito. Debido a la supuesta injusticia de la GATB para grupos minoritarios, en 1981 se aplicó un sistema de normas por raza para las calificaciones como parte del programa de acción afirmativa del Departamento del Trabajo de Estados Unidos. Esta medida consistía en usar normas de rangos percentilares separadas para blancos, negros y latinos, y en registrar sólo los rangos percentilares de candidatos dentro del grupo. Sin embargo, los críticos consideraron esta práctica como discriminación invertida y en 1990 el uso de la GATB fue suspendido por el Departamento de Justicia mientras podían arreglarse los problemas concernientes a la justicia y la discriminación invertida. El Congreso de Estados Unidos también incluyó al lenguaje en el Acta de Derechos Civiles de 1991 para efectos de que ya no se aplicaran normas y ajustes a las calificaciones para diferenciar grupos.4 Posteriormente el Servicio de Em4Al parecer está en desacuerdo con la disposición del Acta de Derechos Civiles de 1991, que evitaba los ajustes de cali- ficaciones para las diferencias de grupos, el requisito del Acta de Estadounidenses con Discapacidad, de 1990, de que los jefes proporcionen colocación en la evaluación para individuos con discapacidades sensoriales, manuales o del habla. Sin embargo, como lo señala Tenopyr (1996), eso es un desacuerdo sobre una medida de política pública más que un conflicto científico o psicométrico. BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 233 pleo de Estados Unidos reanudó el uso de la GATB, pero los informes para los empleadores ya no están regulados por la raza. Más bien, las puntuaciones crudas para varias de las pruebas que conforman la batería se convierten a calificaciones estándar con base en normas combinadas para todos los grupos raciales. Batería de Aptitud Vocacional de las Fuerzas Armadas A partir de los Exámenes Army Alfa y Army Beta en la Primera Guerra Mundial, a lo largo de los años se han utilizado diversas pruebas para seleccionar y clasificar al personal de las Fuerzas Armadas de Estados Unidos. La Prueba de Clasificación General del Ejército (AGCT) y la Prueba de Clasificación General de la Marina (NGCT) se aplicaron a millones de reclutas militares durante y después de la Segunda Guerra Mundial para clasificarlos en trabajos capacitados y no capacitados, para seleccionar a quienes podrían beneficiarse de una mayor capacitación y rechazar a aquellos que, por una habilidad mental baja, se consideraran inadecuados para el servicio militar (vea Harrell, 1992). Algunos años después de la Segunda Guerra Mundial, la Prueba de Capacitación de las Fuerzas Armadas (AFQT) reemplazó a la AGCT y a la NGCT. Durante la década de 1970, la Batería de Aptitud Vocacional de las Fuerzas Armadas se convirtió en la prueba uniforme de selección y clasificación de los servicios armados en conjunto. La forma actual de esta batería (ASVAB, 18/19), que es la prueba de habilidades múltiples más aplicada en Estados Unidos, consiste en diez pruebas: Ciencia General (GS): 25 reactivos que miden el conocimiento en ciencias físicas y biológicas. Razonamiento Aritmético (AR): 30 reactivos que miden la capacidad de resolver problemas verbales de aritmética. Conocimiento de Palabras (WK): 35 reactivos para medir la habilidad de seleccionar el significado correcto de las palabras presentadas en contexto e identificar el mejor sinónimo de una palabra determinada. Comprensión de Párrafos (PC): 15 reactivos que miden la habilidad para obtener información a partir de textos escritos. Operaciones Numéricas (NO): 50 reactivos que miden la habilidad de realizar cálculos aritméticos. Velocidad de Codificación (CS): 84 reactivos que miden la habilidad para usar una clave y asignar códigos de números a palabras. Información sobre Autos y Talleres (AS): 25 reactivos que miden el conocimiento sobre automóviles, herramientas y terminología y prácticas de talleres. Conocimiento Matemático (MK): 25 reactivos que miden el conocimiento de principios matemáticos a nivel de bachillerato. Comprensión Mecánica (MC): 25 reactivos que miden el conocimiento de principios mecánicos y físicos y la habilidad para visualizar cómo funcionan las herramientas de trabajo ilustradas. Información sobre Electrónica (EI): 20 reactivos para medir el conocimiento sobre electricidad y electrónica. El tiempo de administración para las pruebas de ASVAB varía desde 3 minutos para las Operaciones Numéricas hasta 36 minutos para el Razonamiento Aritmético, con un total de 144 234 Evaluación de habilidades especiales CAPÍTULO DIEZ minutos para completar las diez pruebas. Se registran calificaciones T estándar y bandas de calificaciones de rangos percentilares para cada una de las pruebas y tres calificaciones compuestas: Habilidad Verbal (VA) = WK + PC, Habilidad Matemática (MA) = AR + MK, y Habilidad Académica (AA) = VA + MA. Las calificaciones de cuatro combinaciones ocupacionales también pueden calcularse como combinaciones adecuadas de calificaciones en las diez pruebas básicas: Mecánica y Oficios (MC); Negocios y Trabajo de Oficina (BC); Electrónica y Electricidad (EE), Salud, Social y Tecnología (HST). Como se ilustra en la figura 10.9, el desempeño de una persona en la ASVAB puede representarse mediante una serie de bandas de calificaciones de rangos percentilares que indican los rangos dentro de los cuales es probable que caigan las verdaderas calificaciones de las pruebas de una persona. Además de trazar las bandas de calificaciones de rangos percentilares de mismo grado-mismo sexo, pueden trazarse las calificaciones T de mismo grado-mismo sexo y mismo grado-sexo opuesto. Dos datos adicionales que se incluyen en la hoja del perfil son los códigos primario y secundario de la ASVAB de la persona y la Calificación de las Carreras Militares. Los códigos se interpretan mediante un OCCU-FIND especial en un cuaderno diseñado para ayudar a los examinados a identificar las ocupaciones militares con las que concuerdan más sus calificaciones. La Calificación de las Carreras Militares, la cual se usa en conjunto con las gráficas de un folleto de Carreras Militares que se proporciona al examinado, colabora en el proceso de evaMILLER JAMES GRADO 11 SSN 123-45-6789 FECHA DE APLICACIÓN 20-9-95 BACHILLERATO DE LA CIUDAD NUEVA YORK SEXO M NY ASVAB BATERÍA DE APTITUD VOCACIONAL DE LAS FUERZAS ARMADAS Calificaciones de percentiles Calificaciones ASVAB Mismo grado/ Mismo sexo Habilidad Académica (AA= VA + MA) 53 Habilidad Verbal (VA = WK + PC) 51 Habilidad Matemática (MA = AR + MK) 56 Conocimiento de Palabras (WK) Comprensión de Párrafos (PC) Razonamiento Matemático (AR) Conocimiento de Matemáticas (MK) Ciencia General (GS) Información sobre Autos y Talleres (AS) Comprensión Mecánica (MC) Información sobre Electrónica (EI) Operaciones Numéricas (NO) Velocidad de Codificación (CS) 51 52 58 50 43 40 55 25 85 80 Bandas de calificación de rangos percentilares para Mismo grado/Mismo sexo Mismo grado/ Sexo opuesto Códigos ASVAB 3, 4 Calificación en Carreras Militares 194 (VEA EXPLICACIÓN AL REVERSO DE LA HOJA) FIGURA 10.9 Perfil de Calificaciones en la Batería de Aptitud Vocacional de las Fuerzas Armadas. (Reproducida con autorización del Departamento de Defensa de Estados Unidos a partir de ASVAB 18/19 Counselor Manual.) BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 235 luar sus posibilidades como candidato a las ocupaciones militares incluidas (vea Departamento de Defensa de Estados Unidos, septiembre de 1995). Los coeficientes de confiabilidad por consistencia interna van desde los bajos .70 hasta los bajos .90 para las diez pruebas de ASVAB, y desde los bajos hasta los intermedios .90 para las tres calificaciones compuestas. Los coeficientes de confiabilidad de las formas opcionales están en su mayoría en los .70 y .80 para las diez pruebas, y en .90 para las calificaciones compuestas. En el Manual Técnico para la ASVAB 18/19 (Departamento de Defensa de Estados Unidos, diciembre de 1999) se presenta gran cantidad de datos sobre la validez de la ASVAB para empleos tanto militares como civiles. Al igual que con la batería de las DAT, debido a que pueden aparecer las mismas pruebas en distintas combinaciones de ASVAB, estas combinaciones están positivamente correlacionadas. Así, la información proporcionada por diversas pruebas a menudo es redundante y refleja más la habilidad cognoscitiva que habilidades diferenciales específicas. Además de una versión estándar en lápiz y papel, está disponible una versión de la ASVAB administrada por computadora (la CAT-ASVAB) que emplea una metodología de evaluación adaptativa. La CAT-ASVAB tiene las ventajas de un tiempo de administración menor, mayor seguridad, más precisión en la medición en los extremos de la habilidad, retroalimentación inmediata para los examinados sobre su desempeño, y tiempos de inicio flexibles (vea Segall y Moreno, 1999). Evaluación diagnóstica y claves de trabajo Desde su inicio en la década de 1920, la elaboración y el uso de pruebas de aptitudes múltiples se han basado en la suposición razonable de que distintos programas educativos y laborales requieren de distintas habilidades humanas. Idealmente, cuando se usan con propósitos de asesoría y colocación, dichos instrumentos de calificación múltiple cumplen la función diagnóstica de determinar los tipos de programas o empleos para los que la gente es más apta. En el futuro, sin duda, estas evaluaciones diagnósticas serán más adaptativas e individualizadas, y se aplicarán ya sea en una situación de interrelación entre personas o por computadora. Un posible escenario consiste en que el proceso de evaluación diagnóstica comience con una breve prueba de reto, se siga con pruebas para identificar las habilidades constitutivas en un área en que el examinado tenga problemas, luego de lo cual podrá iniciarse la construcción de un perfil de las aptitudes y deficiencias del examinando, y finalizar con la presentación de la instrucción o la capacitación necesarias como remedio. Las pruebas diagnósticas se propondrán, sobre todo, ayudar a los estudiantes y a los solicitantes de empleo a aprender y tener éxito, más que a simplemente proporcionar calificaciones para la toma de decisiones institucionales u organizacionales, y servirán como guía para la instrucción y capacitación en forma continua, más que sólo para comparar el desempeño de los examinados. Durante muchos años las baterías de pruebas de aptitudes, tales como las DAT, la GATB y la ASVAB, se han administrado en contextos escolares y laborales para ayudar a los individuos a tomar decisiones educativas y vocacionales. Hay un procedimiento similar, pero más complejo y coordinado, el cual fue desarrollado por el American College Testing Program y pareciera de mayor utilidad. Este procedimiento, conocido como Sistema de Claves de Trabajo, consta de tres componentes o etapas: (1) un análisis de empleo o proceso de elaboración de perfiles con el cual determinar los niveles de habilidad requerida para un desempeño competente en trabajos específicos; (2) la evaluación de las habilidades de las personas en el lugar de trabajo, (3) la instrucción de apoyo para ayudar a los educadores a enseñar las habilidades requeridas. Durante la etapa 1, grupos intensivos concentrados y compuestos por trabajadores que realmente desempeñan un trabajo determinado son dirigidos por personas dedicadas a elaborar perfiles de trabajo para identificar la habilidad o habilidades requeridas en un empleo en particular. El resultado es 236 CAPÍTULO DIEZ Evaluación de habilidades especiales un perfil de trabajo que proporciona a empleadores, estudiantes, aspirantes a un empleo y a escuelas, un marco de referencia único para comprender cuáles son las habilidades que se necesitan para competir por determinado empleo. En la etapa 2, los alumnos o aspirantes que solicitan determinado empleo se someten a pruebas de dominio en cada una de las distintas áreas relevantes para el puesto: matemáticas aplicadas, tecnología aplicada, escuchar, ubicación de información, observación, lectura, trabajo en equipo y escritura. A continuación, las calificaciones individuales de estas evaluaciones se comparan con el perfil del trabajo en particular para revelar cualquier laguna en las habilidades. En la etapa 3, la información resultante obtenida en la etapa 2 se usa no sólo para proporcionar retroalimentación a quienes han realizado las pruebas, sino también para capacitarlos en las habilidades necesarias para el trabajo de que se trate. La capacitación necesaria para reducir las lagunas diagnosticadas en las habilidades consiste en instrucción basada en la computadora y de aula ajustada hacia metas específicas de Claves de Trabajo. Además de funcionar como una base para la instrucción de reparación de lagunas, comparar las calificaciones de los estudiantes con los perfiles del trabajo también puede ayudar a los educadores a identificar los programas escolares que deben mejorarse. Asimismo, ejecutivos corporativos y administradores gubernamentales de desarrollo de la fuerza de trabajo pueden usar la información sobre las discrepancias entre calificaciones de evaluación de los empleados y los perfiles de trabajo para modificar sus programas de capacitación y contratación, y encauzar los fondos necesarios hacia las modificaciones requeridas (Doebele, 1999). RESUMEN Las pruebas de aptitudes o de habilidades especiales se centran en el futuro, es decir, en medir la habilidad para aprovechar de la capacitación adicional o de la experiencia en determinada área. Las pruebas de habilidades especiales también tienen amplitudes de banda más estrechas que las pruebas de inteligencia convencionales, en cuanto a que predicen logros más específicos. Aunque ciertas pruebas de habilidades especiales son del tipo de muestra de trabajo o de desempeño, se aplican con mayor frecuencia las pruebas de lápiz y papel. Las pruebas que comprenden una batería de aptitudes múltiples se han estandarizado en la misma muestra de personas y, por ende, permiten comparar las diferencias existentes entre calificaciones individuales y calificaciones de varias personas. Las diferencias entre las calificaciones de una persona en una batería de aptitudes deberán interpretarse con precaución, y considerarse significativas sólo si son mayores que una o dos veces el error estándar de la medición de las diferencias entre calificaciones. Debido a que en una batería de aptitudes múltiples las pruebas, en general, son más cortas que las pruebas de capacidades específicas, las primeras suelen tener confiabilidades menores y, por lo tanto, errores estándar de medición mayores que las segundas. La validez predictiva de las pruebas de habilidad es bastante baja en general, pero las calificaciones de tales pruebas pueden contribuir a predecir diversos criterios de desempeño cuando se usan en combinación con otras medidas de habilidad, así como con calificaciones previas sobre medidas de intereses, motivación y desempeño. Existen algunas pruebas que tienen la finalidad de medir las agudezas visual y auditiva, la visión del color y otros aspectos relacionados con la sensación y la percepción. Además, se encuentran disponibles otros instrumentos de propósitos múltiples para la medición visual y de las habilidades perceptoras y motrices. RESUMEN 237 Las habilidades psicomotrices parecen ser altamente específicas y las calificaciones de pruebas de estas habilidads a menudo tienen menor confiabilidad que otras pruebas de habilidad. Las calificaciones de habilidades psicomotrices también son muy susceptibles a los efectos de la práctica. Como ejemplos de pruebas psicomotrices figuran la Prueba Minnesota de Índice de Manipulación para medir movimientos manuales gruesos, la Prueba Crawford de Destreza con Partes Pequeñas para medir movimientos manuales finos, y la Prueba Bennett de Destreza Mano-Herramienta para medir movimientos manuales tanto gruesos como finos. Las pruebas de habilidades mecánicas y para el trabajo de oficina fueron de las primeras medidas estandarizadas de habilidades especiales en diseñarse. Sin embargo, ni la habilidad mecánica ni la habilidad para el trabajo de oficina constituyen una dimensión psicológica unitaria. Las pruebas de habilidad mecánica pueden incluir habilidades psicomotrices, además de la percepción y la comprensión mecánica. Entre los ejemplos de pruebas de habilidad mecánica se encuentran la Prueba de Comprensión Mecánica Bennett y la Prueba de Conceptos Mecánicos. Las pruebas de habilidad para el trabajo de oficina pueden medir la velocidad y precisión perceptuales, así como la habilidad verbal y numérica. Las pruebas representativas de la capacidad para el trabajo de oficina incluyen la Prueba Minnesota de Trabajo de Oficina y la Batería de Capacidades para Trabajo de Oficina. Se han diseñado varias pruebas con el propósito de medir las habilidades para la programación y operación de computadoras, incluyendo la Batería de Aptitud para Programador de Computadoras y la Batería de Aptitud para Operador de Computadoras. Entre otras habilidades especiales para las que se han diseñado pruebas de habilidad se encuentra la de aptitud artística y musical. Sin embargo, la mayoría de las pruebas más antiguas de aptitud artística y musical ya no están disponibles comercialmente. Algunas de estas pruebas miden la apreciación artística (juicio y percepción), mientras que otras evalúan el desempeño artístico o el conocimiento sobre arte. Dos de las más populares han sido las Pruebas Meier de Percepción Estética y Juicio Estético, y la Prueba Graves de Juicio de Diseño. Las Medidas Seashore de los Talentos Musicales, la prueba de habilidad musical más antigua publicada, ponen énfasis en la discriminación, el juicio y la memoria para las notas o combinaciones de notas. Otras pruebas de habilidad musical, por ejemplo el Perfil de Aptitud Musical, incluyen el juicio y la discriminación de música significativa. No obstante, el éxito ya sea en música o en arte depende de muchos factores adicionales al talento. Las baterías de aptitudes múltiples se diseñan para medir las aptitudes y deficiencias en diversas áreas de habilidad. Las baterías de pruebas de aptitud, que por lo común no se aplican antes de los primeros años de bachillerato, son herramientas útiles en la asesoría, selección y colocación académicas y vocacionales. Ciertas baterías de habilidades múltiples, por ejemplo el Estudio de Habilidades Guilford-Zimmerman y la Batería de Pruebas de Aptitud General, se basan en los resultados del análisis factorial; no así otras como las Pruebas de Aptitud Diferencial y el Estudio de Aptitud del Empleado. Las Pruebas de Aptitud Diferencial han sido una de las baterías más útiles para la asesoría académica, mientras que la Batería de Pruebas de Aptitud General se ha empleado más extensamente en consejería vocacional. La Batería de Aptitud Vocacional de las Fuerzas Armadas (ASVAB), la que más se ha aplicado de todas las baterías de aptitudes múltiples, se emplea para propósitos de colocación y selección ocupacional en el ejército estadounidense, y para asesoría de estudiantes de bachillerato que se interesan por carreras militares. Las calificaciones de una batería de aptitudes, por sí solas, son inadecuadas para lograr una asesoría académica o vocacional efectiva. También deben tomarse en cuenta el desempeño pasado, los intereses y la motivación, las características de personalidad y todos los factores relacionados con la situación. 238 CAPÍTULO DIEZ Evaluación de habilidades especiales P R E G U N TA S Y A C T I V I D A D E S 1. El apoyo empírico para distinguir entre aptitud y aprovechamiento se obtuvo en una investigación de corte transversal realizada por Burket (1973). Se encontró que las calificaciones de aprovechamiento se elevaban al aumentar el nivel de grado cuando las calificaciones de habilidad se mantenían constantes, pero las calificaciones de habilidad disminuían con el aumento del nivel de grado cuando las calificaciones de aprovechamiento se mantenían constantes. Estos hallazgos, combinados con los de otros investigadores (por ejemplo Carroll, 1973), pueden interpretarse en términos de la siguiente ecuación descriptiva: Aprovechamiento = Aptitud × Experiencia. Explique esto. 2. Identifique por lo menos dos pruebas en cada una de las siguientes categorías de habilidad: psicomotriz, espacial, mecánica, para el trabajo de oficina, artística, musical. 3. ¿Cuáles son las ventajas y desventajas de aplicar una batería de pruebas de aptitud en lugar de varias pruebas individuales de habilidades especiales? 4. ¿Cómo difieren los objetivos de la selección y el sondeo de personal de los de clasificación y colocación? ¿Qué tipos de pruebas son más adecuados para ayudar en el proceso de toma de decisiones para la selección y/o el sondeo? ¿En la clasificación y ubicación? 5. Escriba una reseña crítica sobre cualquiera de las pruebas individuales de habilidades especiales descritas en este capítulo; siga el lineamiento dado en el ejercicio 9 de la sección de Preguntas y Actividades del capítulo 6. 6. Haga una cita con un optometrista u oftalmólogo de su localidad y pídale que describa los procedimientos e instrumentos empleados para probar la visión de una persona. ¿Cuáles aspectos de la visión se miden de rutina y cuáles se miden sólo en circunstancias especiales? Prepare un informe sobre sus hallazgos. 7. Planee una visita a las oficinas administrativas de la escuela de su distrito y entreviste al psicólogo del plantel o al director de educación especial sobre las pruebas psicológicas aplicadas por ellos. Por ejemplo, ¿qué pruebas se usan para evaluar las habilidades o discapacidades especiales de los alumnos? ¿Con qué frecuencia se prueba o revisa la visión de los estudiantes para detectar problemas? Elabore un informe sobre sus hallazgos. 8. Juan obtiene una calificación T de 65 en la prueba de comprensión verbal y otra T de 75 en la prueba de razonamiento numérico de una batería de pruebas de aptitud múltiple. Si la confiabilidad de las dos pruebas es de .90 y .85, respectivamente, ¿puede el examinador estar 95% seguro de que Juan tiene más deficiencias en comprensión verbal que en habilidad numérica? Apoye su respuesta en cálculos adecuados. 9. ¿Cuáles son algunas de las diferencias de género en aptitudes o habilidades especiales que ha observado? ¿A qué factores atribuye estas diferencias? CAPÍTULO ONCE APLICACIONES Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD La principal razón de que se apliquen pruebas de habilidades en escuelas, universidades y otras instituciones educativas es determinar la medida en que los estudiantes han acumulado conocimientos y habilidades específicos, ya sea dentro o fuera de ambientes académicos formales. El conocimiento debe incluir no sólo la simple repetición de hechos memorizados, sino también cierto grado de comprensión y capacidad para aplicar lo que se ha aprendido en varias situaciones y circunstancias. Del mismo modo, las habilidades aprendidas —cognoscitiva, psicomotriz y social— deben poder generalizarse o transferirse a otras áreas de la vida. La medición de estas habilidades involucra tanto a individuos (estudiantes, maestros, personal administrativo, etc.) como a grupos de personas (clases, escuelas, distritos escolares, muestras representativas de los residentes de estados y países) y los programas o procedimientos de intervención mediante los cuales se llevan a cabo cambios en conocimientos y habilidades. Este último capítulo sobre la evaluación de habilidades empieza por considerar tres áreas en las cuales se ha concentrado la evaluación educativa en años recientes: la competencia de los estudiantes, la competencia de los maestros y programas de intervención. Un análisis de los esfuerzos concentrados en estas tres áreas debe proporcionar un panorama útil para conocer la manera en que se han administrado los instrumentos de evaluación psicológica con propósitos de evaluación y selección en escuelas, universidades y otras organizaciones. Desde luego, la administración de pruebas de habilidad tanto en ambientes educativos como en diversas instituciones no ha estado libre de críticas y controversias. Más que enterrar la cabeza en la arena y suponer arrogantemente que los críticos de las evaluaciones psicológicas y educativas sólo intentan llevar agua a su molino, es sabio científica, humanística y políticamente que los diseñadores y usuarios de pruebas presten atención, evalúen y escuchen bien estas críticas. Sólo así pueden esperar mejorar sus productos y servicios, y que resulten de mayor valor para la sociedad en su conjunto. LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO Evaluación de la aptitud escolar Apenas es de sorprender que los críticos de las escuelas públicas estadounidenses proclamen que las escuelas y los estudiantes de Estados Unidos están en problemas. Aunque más de tres cuartos de los adultos de ese país son graduados de bachillerato, los resultados de un cuarto de siglo de evaluaciones de la Evaluación Nacional del Progreso Educativo (NAEP) del conoci- 239 240 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad miento y las habilidades de los jóvenes revelan deficiencias persistentes en lectura, escritura, ciencia, matemáticas, historia, civismo y otras materias. Como se discutió en el capítulo 6, la medición periódica en los estudiantes de los niveles de habilidad en lectura, matemáticas, ciencia, escritura, historia, geografía y otras áreas académicas ha sido designada como La Tarjeta de Informe de la Nación. Los resultados de 20 años que se resumen en la tabla 11.1 indican que el aprovechamiento académico es bajo entre los alumnos blancos, negros y latinos por igual, en particular en los últimos dos grupos. Desde la década de 1970, los estudiantes negros y latinos de Estados Unidos han mejorado en lectura, matemáticas y ciencia, pero su desempeño sigue siendo considerablemente inferior al de los blancos. Evaluación de la competencia académica de los estudiantes. La preocupación nacional sobre las bajas calificaciones en las pruebas de los graduados de bachillerato en Estados Unidos ha llevado a que en muchos estados se solicite que los estudiantes se sometan a una prueba de alfabetismo funcional, o de competencia mínima, antes de recibir un diploma de bachillerato. A pesar de los acuerdos y esfuerzos por volverla más aceptable, la evaluación de aptitud mínima o alfabetismo funcional ha sido objeto de continuos debates. Debido a que porcentajes considerablemente más altos de estudiantes negros que de blancos han fracasado en los exámenes estatales para estudiantes de bachillerato, a menudo se ha acusado a varias de estas pruebas de discriminar a las minorías (por ejemplo, Debra P. contra Turlington, 1984). También hay críticos que consideran el aprobar una prueba de octavo grado como un estándar inadecuado para la graduación de bachillerato, y que se corre el riesgo de convertir el desempeño mínimo en la norma. Dos peligros más de la evaluación de mínimo desempeño son que los maestros pueden terminar enseñando para la prueba y que quienes imponen la disposición seguirán siendo acosados por los indignados padres cuyos hijos fracasen en la prueba. A pesar de estos problemas, en Estados Unidos el uso de pruebas para evaluar la competencia en habilidades básicas y la exigencia de calificaciones mínimas específicas para la graduación de bachillerato parece haber llegado para quedarse. En muchos estados, la representatividad meTABLA 11.1 Resultados más destacados en 20 años de NAEP • Los estudiantes pueden leer a nivel superficial, obteniendo la esencia del material, pero no leen en forma analítica ni se desempeñan bien al realizar tareas de lectura con metas. • Pequeñas proporciones de alumnos escriben lo bastante bien como para cumplir los propósitos de distintas tareas de escritura, pero la mayoría no se comunica en forma eficaz. • Sólo reducidas proporciones de estudiantes desarrollan un conocimiento especializado necesario para abordar problemas basados en la ciencia, y el patrón de quedar rezagados se inicia en la escuela elemental. • La adquisición de las cuatro operaciones aritméticas y del inicio de la resolución de problemas está lejos de ser universal entre los alumnos de la escuela elemental; para cuando se acercan a la graduación de bachillerato, la mitad no puede manejar material matemático de moderada dificultad, incluyendo cálculos con decimales, fracciones y porcentajes. • Los alumnos tienen una comprensión básica de los acontecimientos históricos de Estados Unidos, pero parecen no entender su importancia y conexiones. • De manera similar, los estudiantes demuestran una comprensión desigual de la Constitución del gobierno y la política estadounidenses; su conocimiento sobre el Acta de Derechos es limitado. Reproducido con autorización de National Assessment of Educational Progress. LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO 241 diante la evaluación del desempeño de los estudiantes es un acontecimiento anual que da como resultado una lista publicada en los periódicos locales de los porcentajes de calificaciones de la prueba por escuela y grado. Los esfuerzos (estadounidenses) por volver más útiles tales evaluaciones para la toma de decisiones escolares y la distribución de ingresos se manifiestan en las convocatorias para registrar calificaciones en las pruebas de NAEP por estado y localidad, más que por simples promedios de todo el país. Evaluación de valor agregado. En Estados Unidos, el concepto de educación de valor agregado y el proceso asociado de la evaluación de valor agregado están relacionados con la representatividad y la evaluación de la competencia. En la evaluación de valor agregado, el aprovechamiento de los estudiantes en materias académicas y habilidades de la vida, tales como analizar una columna de periódico, una tabla matemática o un aviso publicitario televisivo se evalúan antes y después de cierto periodo de educación y estudio formal. La diferencia entre calificaciones de pruebas antes y después de cursos es una medida del valor agregado por la experiencia educativa. Por ejemplo, es posible pedir a los estudiantes de nuevo ingreso a la universidad que analicen publicidad, artículos y disertaciones de un periódico para demostrar su dominio de habilidades de la vida. Volver a aplicar la prueba al final del segundo año, cuando a los estudiantes aún les queda suficiente tiempo para compensar las deficiencias, revela cuánto han aprendido en el programa educativo general. La evaluación de valor agregado se exige por ley y la controlan consejos coordinadores de ciertos estados, e instituciones individuales en varios estados más han incorporado la evaluación de valor agregado en sus procedimientos académicos. Maestros y evaluación La evaluación en las escuelas se lleva a cabo por psicólogos, asesores y directores de educación especial, pero con mayor frecuencia por los propios maestros de aula. Desde su primer día en el salón de clases, los maestros se involucran en la evaluación formal e informal de los estudiantes. Tales evaluaciones implican no sólo observaciones, trabajo en clase, tareas en casa y pruebas elaboradas por maestros, sino también pruebas estandarizadas. Sin embargo, el amplio uso de las pruebas estandarizadas en las escuelas conduce, con frecuencia, a errores de administración, calificación e interpretación. Muchos de estos errores pueden atribuirse a falta de capacitación, de interés, o de ambos aspectos por parte de los usuarios de las pruebas. En consecuencia, es un asunto de cierta importancia que los maestros, los asesores y quienes tengan responsabilidades de evaluación en las escuelas estén adecuadamente capacitados e informados. Capacitación de los maestros en evaluación. La mayoría de los prospectos de maestro tiene cierto contacto con evaluaciones psicológicas y educativas durante los cursos universitarios, pero en gran parte de los casos es bastante superficial. Muchos maestros no comprenden lo que miden las pruebas que están administrando; tampoco saben el significado de las calificaciones estándar que se inscriben en el registro permanente de los estudiantes. A menudo extraen conclusiones apresuradas con base en una única calificación de una prueba y no toman en cuenta la historia del desarrollo del niño, la competencia social o el ambiente familiar. Por lo tanto, es esencial que se preste más atención a este aspecto de la capacitación de los maestros. Por ejemplo, deben darse cuenta de que las calificaciones de las pruebas de inteligencia y habilidades especiales deberían interpretarse en términos de las probabilidades de que el examinando tendrá éxito en una vocación o programa de estudios en particular. Con demasiada frecuencia las calificaciones de pruebas se consideran medidas fijas de la situación mental, por una parte, o carentes de todo sentido, por la otra. 242 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad Evaluación de los maestros. El aumento del interés público sobre la calidad de la educación en Estados Unidos ha llevado a otra forma de involucramiento de los maestros en la evaluación. Casi todos los 50 estados han implantado algún tipo de sistema de evaluación de maestros. La prueba más usada para observar a los candidatos a maestros de nivel universitario y principiantes, y para certificar a los graduados en cuanto a conocimientos generales, habilidades profesionales y conocimiento de materias, es la Serie de Praxis descrita en el capítulo 6. De particular interés en el contexto actual es el desempeño de un candidato en Praxis III: Evaluaciones de Desempeño en el Aula, que consiste en un marco de capacitación y evaluación para las pruebas de aula. La mayoría de los estados requiere una calificación aprobatoria en una prueba específica, como Praxis I, para que los alumnos ingresen a programas de capacitación para maestros, y casi todos los estados usan pruebas para la certificación de maestros. También se aplican pruebas con fines de recertificación y de asignación del pago justo. Además de la Serie Praxis y de otras pruebas, varios estados han instituido sistemas de observación formales para los maestros principiantes. En estos estados, los maestros inexpertos reciben colaboración en la enseñanza durante un periodo de prueba, al término del cual una recomendación propuesta a los funcionarios estatales determina si el candidato habrá de recibir la certificación formal. Por desgracia, un gran porcentaje de posibles maestros no se desempeña bien en estas pruebas. Por ejemplo, en muchos estados un tercio o más de los individuos que se someten a la Praxis I no alcanzan la calificación eliminatoria establecida para maestros principiantes. Asimismo, como grupo, los estudiantes que afirman se graduarán en pedagogía obtienen calificaciones menores que el promedio en pruebas de admisión a la universidad como la SAT y la ACT. Las bajas calificaciones en candidatos y maestros practicantes se atribuyen, al menos en parte, al hecho de que la enseñanza se ha vuelto menos atractiva para mujeres competentes y minorías en comparación con otras vocaciones más lucrativas y prestigiosas. Los resultados de encuestas de opinión nacionales indican que la mayoría del público general está en favor de usar pruebas de competencia para la certificación y autorización de maestros (Gallup, 1991). Además, las dos mayores organizaciones de maestros del país, la Asociación de Educación Nacional y la Federación Americana de Maestros, apoyan la evaluación de maestros principiantes para garantizar que cumplan con un estándar de aptitud razonable. Los partidarios de una prueba nacional para candidatos a maestros sostienen que sería un indicador de la calidad de los maestros y volvería profesional al gremio. Al mejorar la calidad de los maestros, dicha prueba también apoyaría los aumentos salariales para ellos, así como mejoras generales en la calidad de las escuelas. Las pruebas de aptitud para maestros no han carecido de retos y en varios estados se han librado batallas legales concernientes a dichas pruebas. Un problema constante se refiere al estándar aprobatorio: si se establece en un nivel razonablemente alto, entonces una gran cantidad de candidatos minoritarios probablemente fracasarán; si el nivel determinado es muy bajo, individuos con baja habilidad ingresarán a la profesión de maestros. Asimismo, ciertos educadores profesionales han expresado su desacuerdo con el carácter de los exámenes. Algunas autoridades consideran que una mezcla de pruebas con el uso de tecnología de computación, observaciones directas del desempeño en el aula, un portafolio con documentación sobre desempeño pedagógico y otros requisitos, así como pruebas estandarizadas de lápiz y papel, deberían emplearse para evaluar tanto a los futuros maestros para su contratación, como a los maestros con experiencia para recertificación, promoción, cargos y pago justo. Evaluación de programas Además de evaluar la aptitud de alumnos y maestros, suelen usarse pruebas, escalas de evaluación y cuestionarios para medir la eficacia de los programas educativos y otras intervenciones. LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO 243 La evaluación psicológica y educativa desempeña un papel importante al juzgar la instrucción y determinar la efectividad de los tratamientos psicológicos y otros procedimientos diseñados para modificar comportamientos, cognición y actitudes. Tales programas no deberían diseñarse unilateralmente por especialistas en psicometría e investigación, sino en colaboración con educadores, personal de servicios humanos, personal de salud, funcionarios públicos y otros profesionales del área de intervención. Sin embargo, las contribuciones de especialistas en medición resultan ser las más importantes para recomendar y/o diseñar instrumentos con qué evaluar los resultados de programas. Las dificultades para medir el cambio y otros problemas técnicos de evaluar la efectividad de las intervenciones sobre el comportamiento han conducido a la creación de un nuevo tipo de especialidad: la evaluación de programas. Según la definen Posavec y Carey (1997), la evaluación de programas es una colección de métodos, habilidades y sensibilidades para determinar si un servicio humano es necesario y si es factible usarlo, si es lo bastante intenso como para cumplir con la necesidad identificada no resuelta, si el servicio se ofrece como se planeó y si efectivamente ayuda a las personas que lo necesitan sin efectos secundarios indeseables (p. 1). El objetivo de la evaluación de programas es emitir juicios relativos a la utilidad o el valor de programas educativos, psicosociales y otros programas de intervención social. Se han propuesto diversas guías o modelos de evaluación de programas, incluyendo el modelo CIPP (contexto, entrada, proceso, producto), la evaluación de discrepancia y la evaluación adversaria. Se han escrito muchos libros y artículos sobre el tema de la evaluación de programas, pero aquí sólo se presentará una breve descripción de los métodos. Posavec y Carey (1997) describen la filosofía y los objetivos de la evaluación de programas en términos de necesidades, proceso, resultado y eficiencia. Primero se evalúan las necesidades de las personas para quienes una organización podría proporcionar un servicio. A continuación, se establece un programa diseñado para cubrir dichas necesidades, y se vigila el proceso mediante el cual se aplicará para determinar si se requieren ajustes. Después que el programa ha estado funcionando por un tiempo, se revisan los resultados (el grado en que el programa ha sido efectivo para cumplir sus metas). Además de estimar la eficacia del programa, se evalúa su eficiencia, es decir, el costo monetario en relación con los resultados. En este punto se toma la decisión de continuar, descontinuar o modificar el programa y/o sus objetivos de alguna manera. Rossi y Freeman (1993) propusieron un modelo inclusivo similar para la evaluación de programas. Este modelo caracteriza el proceso general de evaluación de programas en términos de cuatro etapas sucesivas: planeación, monitoreo, evaluación de efectos y evaluación de la eficiencia económica. Durante la primera etapa, o de planeación del programa, se identifican el alcance del problema (por ejemplo, tráfico y uso de drogas en las escuelas), los objetivos y la población meta del programa. Después de haber especificado los objetivos y la población meta, se toma una decisión en cuanto a si el programa puede aplicarse de manera apropiada. Una vez que se ha decidido continuar, comienza la etapa de monitoreo del programa. Entonces, la aplicación o el funcionamiento del programa se vigilan en forma continua en cuanto a si proporciona los recursos y servicios designados a la población meta. En la tercera etapa, o de evaluación de efectos, los resultados reales se evalúan para comprobar que se hayan satisfecho los objetivos del programa. Se emplean diversos procedimientos estadísticos y no estadísticos para determinar si los resultados son significativos y si se encuentran en la dirección pronosticada. Por ejemplo, los criterios de efectividad de un programa de tratamiento 244 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad psicológico pueden incluir evaluaciones de la importancia de los cambios, la proporción de individuos que mejoran, el alcance de los cambios y la durabilidad de la mejoría (Kazdin, 1998). En la etapa de evaluación de efectos se miden también otros resultados no planeados o inesperados, pero incluso cuando sean estadísticamente significativos, pueden no tener la suficiente importancia práctica como para garantizar la aplicación del programa. Por consiguiente, el propósito de la cuarta etapa, evaluación de la eficiencia económica, es determinar si los resultados de un programa valen los costos generados. Al evaluar la eficiencia de un programa de tratamiento, por ejemplo, deben considerarse factores tales como la duración del tratamiento, su difusión y sus costos monetarios (Kazdin, 1998). La evaluación de la eficiencia económica es un asunto de análisis de costo-beneficio, en el cual los gastos del programa se comparan con sus beneficios potenciales para el individuo y la sociedad. Incluso si el programa funciona, es posible que los recursos monetarios y de otro tipo necesarios para ponerlo en práctica se usen de manera más efectiva en otros fines. Cuando los resultados de un análisis de costo-beneficio favorecen el programa, es una señal para seguir adelante y ponerlo en funcionamiento. Pero antes de tomar la decisión final de extender el programa por más tiempo y a otros contextos, es sensato definir su aceptabilidad para quienes, directa o indirectamente, resultan afectados por él. Un programa educativo y social puede tener ramificaciones tanto políticas como personales y sociales con respecto a su aceptabilidad para una porción más amplia de la sociedad, y no sólo para quienes estuvo explícitamente diseñado. Incluso después de iniciado el programa, su eficacia debería evaluarse y revisarse periódicamente. Aunque varios modelos de la evaluación de programas difieren en los detalles, todos intentan determinar los objetivos, recursos, procedimientos y administración del programa con el fin de juzgar su mérito. Como indicio del nivel de interés en estos esfuerzos, y del apoyo público hacia ellos, están los centros de investigación y desarrollo en evaluación educativa y otros tipos de evaluaciones de programas en destacadas universidades estadounidenses. Los hallazgos de los estudios realizados en estos centros contribuyen a proporcionar una base más racional para responder las preguntas sobre los procesos y resultados de diversos tipos de programas sociales. CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD Como lo muestran la cantidad y diversidad de instrumentos descritos en los cinco capítulos precedentes, la evaluación de capacidades cognoscitivas, perceptuales y psicomotrices se expandió rápidamente durante el siglo XX. La extensa aplicación de pruebas colectivas de aprovechamiento, inteligencia y habilidades especiales en educación, los negocios y el gobierno ha contribuido al desarrollo de la evaluación psicológica de empleados. No obstante, la mano de obra organizada, sosteniendo que la selección y la promoción laboral deberían basarse en la experiencia y la antigüedad antes que en calificaciones de pruebas, en general no ha apoyado las evaluaciones psicológicas. También se ha declarado una abierta oposición a las pruebas estandarizadas en contextos educativos, en particular al uso de exámenes de admisión a la universidad y a las pruebas de inteligencia aplicadas en las escuelas. Encuesta Phi Delta Kappa Los estudios anuales sobre las actitudes de los estadounidenses frente a la evaluación en las escuelas han revelado una controversia cada vez mayor con respecto al uso de pruebas estandarizadas en decisiones arriesgadas que conciernen a los alumnos. Por ejemplo, en la XXXIII CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD 245 Encuesta Anual Phi Delta Kappa/Gallup (Rose y Gallup, 2001), 31% de los encuestados respondieron que había demasiado énfasis en la evaluación del aprovechamiento en las escuelas. Porcentajes todavía más elevados se opusieron al uso de una sola prueba estandarizada para determinar si un estudiante debía ser promovido de un grado a otro (45%) y para decidir si un alumno debería recibir un diploma de bachillerato (42%). Se opusieron a estos usos de pruebas estandarizadas porcentajes más altos de encuestados de 18 a 29 años de edad que mayores de 65 años, porcentajes más elevados de negros que de blancos, y mayores porcentajes de demócratas que de republicanos. Aproximadamente dos tercios de todos los encuestados consideraron que las pruebas deberían usarse principalmente para establecer el tipo de instrucción requerida más que para determinar cuánto habían aprendido los alumnos, y que el trabajo en el aula y en casa eran mejores parámetros del aprovechamiento académico que las calificaciones de pruebas. Carácter y consecuencias de las críticas La mayoría de las críticas a la evaluación psicológica y educativa durante las últimas décadas se ha ocupado ya sea del contenido y los usos de las pruebas o bien de las consecuencias sociales de confiar en calificaciones de pruebas para tomar decisiones sobre la gente. Se ha atacado a las evaluaciones en general, por una parte, por invadir el derecho del individuo a la intimidad y, por otra parte, por su secreto o confidencialidad. Las pruebas de habilidad, en particular, se han visto acusadas de tener limitaciones y sesgos en lo que intentan medir. Con respecto a sus usos, se ha argumentado que, más que propiciar la igualdad de oportunidades, las pruebas han provocado la conservación del estado de cosas y la legitimación de prácticas antidemocráticas por parte de instituciones educativas, organizaciones empresariales y el propio gobierno. De manera más específica, se ha sostenido que las pruebas a menudo resultan inútiles para predecir el comportamiento, son injustas con los grupos minoritarios, suelen malinterpretarse y sus resultados se utilizan de modo inadecuado, promueven una clasificación de las personas estrecha y rígida de acuerdo con características supuestamente estáticas. Las críticas a la evaluación psicológica y educativa con frecuencia sólo han provocado ruido y poco esclarecimiento, pero algunas de las preocupaciones han propiciado que se reconsideren las prácticas de evaluación. Ciertas críticas han originado cambios de carácter técnico, mientras que otras han impulsado un nuevo examen de la ética de las evaluaciones, así como el esbozo de propuestas de un código de ética que sería válido para editores, distribuidores y usuarios de las pruebas. Los problemas legales y éticos relacionados con la aplicación de pruebas psicológicas y el uso de resultados de pruebas se discutieron brevemente en el capítulo 1. Como se señaló ahí, de acuerdo con el Acta Familiar de los Derechos Educativos y de Privacía (1974), las calificaciones de pruebas y sus interpretaciones que conservan las instituciones educativas pueden estar disponibles para otras personas sólo con el consentimiento informado del alumno o de un adulto legalmente responsable del mismo. Pero, incluso cuando se ha otorgado consentimiento informado, los datos de pruebas pueden ser privilegiados en cuanto a que sólo ciertas personas (padres, abogado personal, médico, psicólogo y otros especialistas) tienen derecho de acceso a ellos. El concepto de comunicación privilegiada también se aplica a la información de pruebas y de otro tipo. Sin embargo, la información privilegiada es un asunto de todo o nada: un psicólogo que esté autorizado por el cliente para revelar información específica relativa a un caso, debe revelar toda la información disponible que sea relevante para el caso cuando así se lo ordene una corte. Asimismo, siempre que un psicólogo piense que un cliente representa un peligro claro y real para sí mismo o para otros, puede entregar la información privilegiada a personas res- 246 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad ponsables sin el consentimiento del cliente. De hecho, debido a que el bienestar de la sociedad en su conjunto se antepone al derecho de un individuo a la intimidad y a la comunicación privilegiada, los psicólogos pueden estar legalmente obligados a revelar la información (Tarasoff versus Regents of University of California, 1983). Se ha discutido ampliamente si la aplicación de pruebas psicológicas representa una invasión grave a la intimidad. Puede argumentarse que si las respuestas a las preguntas de la prueba tienen suficiente valor social, entonces el individuo tendrá que soportar cierta invasión a su intimidad. Por importante que pueda ser el respeto a los derechos individuales con respecto a la confidencialidad de las calificaciones de pruebas y la invasión a la intimidad, estos derechos deben ponerse en equilibrio frente a la necesidad de la sociedad de contar con información de evaluación de alta calidad. De manera ideal, los resultados de las evaluaciones psicológicas se manejan conscientemente y tomando en cuenta las limitaciones del instrumento y las necesidades y derechos de los examinados. Desafortunadamente, los estándares éticos de los examinadores no son siempre tan elevados como deberían. La conciencia de este problema condujo a la Asociación Psicológica Estadounidense y a otras organizaciones profesionales a adoptar códigos de ética relativos a las evaluaciones, y a imponer sanciones en contra de la violación de estos códigos (American Psychological Association, 1981, 1992; American Educational Research Association et al., 1999). Esto representa un paso adelante en la evaluación psicológica y la práctica de la psicología en general. Exámenes de admisión a la universidad Los programas de evaluación a gran escala, en donde se aplican pruebas a miles de estudiantes cada año, han sido objeto especial de crítica durante las últimas décadas. Por ejemplo, se ha sostenido que se dedica demasiado tiempo escolar a administrar pruebas que sólo miden algunas variables pertinentes para el aprovechamiento académico y otros logros. De todos los programas de evaluación a gran escala, los de mayor influencia y que se atacan más a menudo son los que incluyen exámenes de admisión universitarios. La Prueba de Evaluación Académica (SAT), las Pruebas Universitarias Estadounidenses (ACT), y varios otros instrumentos caen en esta categoría, pero la SAT ha sido objeto de las críticas más implacables. Es probable que la mayoría de los funcionarios de la admisión universitaria asignen más peso a los grados de bachillerato y las calificaciones de la SAT que a indicadores del desempeño tales como entrevistas orales, cartas de recomendación, actividades extracurriculares y revisión de trabajos. Esto es comprensible cuando consideramos la baja objetividad y escasa confiabilidad de muchas de estas medidas de “cualidades personales” y desempeño. Por ejemplo, debido a la falta de confiabilidad o a la preocupación al respecto y un intenso interés por parte de quien escribe la carta de que se acepte al candidato, las cartas de recomendación casi siempre son laudatorias. Por esta razón, se ha afirmado que “una llamada telefónica vale una docena de cartas de recomendación”. El mismo error de indulgencia, además de la variabilidad en cuanto a los estándares de los grados de una escuela a otra, afectan la precisión de los grados de bachillerato para pronosticar el desempeño en la universidad. Las entrevistas personales siguen teniendo cierto valor para las admisiones, pero también están limitadas por los prejuicios del entrevistador y la habilidad de los solicitantes para presentarse a sí mismos en forma efectiva. A pesar de que pocas universidades requieren se anexen calificaciones de la SAT a las solicitudes, la gran mayoría de estas instituciones ha conservado ya sea la SAT o las ACT con propósitos de admisión y colocación. Las calificaciones de estas pruebas también pueden funcionar como un sistema de advertencia primario y como guías de diagnóstico para el trabajo de actualización. La SAT es una de las pruebas más cuidadosamente diseñadas de todas las que se encuentran disponibles, y tiene una elevada confiabilidad y considerable validez para predecir CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD 247 grados universitarios. Sin embargo, estos rasgos no la han protegido de la ola de críticas a que ha estado sometida desde la década de 1950. La SAT, así como otras medidas psicométricas de la esperanza académica y el progreso, a menudo han funcionado como chivo expiatorio para ocultar las desventajas del sistema educativo en su conjunto. Pruebas de opción múltiple Durante la década de 1960, los críticos de los exámenes de admisión a la universidad y de otras pruebas educativas administradas en todo Estados Unidos (por ejemplo, Black, 1962; Hoffman, 1962) estuvieron especialmente activos. De estos críticos, el más estridente y de mayor influencia fue Banesh Hoffman, quien argumentó que las pruebas de opción múltiple (1) propician lectores astutos, ingeniosos y rápidos; (2) penalizan a las personas sutiles, creativas y más profundas; (3) se interesan sólo por la respuesta y no por la calidad de la reflexión en que se basa o la habilidad con que se expresa, y (4) en general tienen un mal efecto en la educación y el reconocimiento del mérito. Sin embargo, estas acusaciones sólo se basaban en ejemplos hipotéticos y argumentos cargados emocionalmente más que en pruebas sólidas. Las críticas de Hoffman y de los demás autores no quedaron sin respuesta. Tras examinar los supuestos básicos de varios críticos de la evaluación educativa, Dunnette (1963) concluyó que la mayoría de dichos supuestos eran erróneos y falaces debido a una falta de información o al rechazo a reconocer que las pruebas son las medias disponibles más precisas para identificar el mérito. Otras autoridades (por ejemplo, Chauncey y Dobbin, 1963) admitieron que las pruebas tienen limitaciones pero que, cuando se usan en forma apropiada, pueden ayudar a mejorar la enseñanza. Los ataques a las pruebas estandarizadas no desaparecieron con la década de 1960, ni tampoco se limitaron a no psicólogos. Por ejemplo, el prominente investigador en psicología David McCleland (1973) argumentaba en favor de que se descontinuara el uso de todas las pruebas de opción múltiple. Sostenía que era preferible desarrollar otras mediciones, tales como las que evalúan la habilidad de aprender rápidamente, más que continuar usando medidas de lo que una persona ya sabe como forma de demostrar sus habilidades. Una crítica de las pruebas de opción múltiple que es difícil de probar o refutar, pero que tiene amplias implicaciones educativas y sociales, sostiene que tales pruebas no sólo son medidas deficientes de la habilidad y el aprovechamiento, sino que también fomentan una enseñanza inferior y hábitos de estudio inadecuados. Ya sea que esta crítica esté o no justificada, se recomienda a los maestros cuidarse de no confiar demasiado en las pruebas objetivas, y que no pasen por alto los exámenes tradicionales de ensayo donde se exige a los alumnos que expliquen y apoyen sus respuestas (vea Courts y McInerney, 1993; Gifford y O’Connor, 1992). El uso efectivo de reactivos de ensayo requiere que quienes califican evalúen no sólo el contenido de las respuestas, sino también el estilo o la habilidad con que se expresan. Escribir la respuesta a una pregunta no mejora la habilidad para expresarse por medio de la escritura a menos que se proporcione una retroalimentación constructiva sobre la forma y el contenido de la respuesta. La crítica de que las pruebas de opción múltiple brindan tan sólo un vistazo del conocimiento del estudiante a un nivel superficial y no logran revelar lo que puede hacer el alumno con ese conocimiento ha impulsado un movimiento hacia la evaluación basada en el desempeño, o evaluación auténtica, en las escuelas públicas. Consistentes en preguntas abiertas y resolución de problemas prácticos en ciencia matemática y en algunas otras materias, las pruebas basadas en el desempeño someten a esfuerzo al razonamiento, el análisis y la escritura. En dichas pruebas, los estudiante obtienen créditos no sólo por dar la respuesta correcta sino por demostrar cómo llegaron a ella. También puede solicitarse a los estudiantes que trabajen en grupos pequeños, realicen experimentos y compartan sus interpretaciones de los resultados, o que produzcan algo mediante el esfuerzo colec- 248 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad tivo. También puede evaluarse un conjunto de habilidades o productos de los estudiantes durante un periodo determinado, un proceso conocido como evaluación de portafolio. A pesar del entusiasmo de contar con nuevas pruebas, quedan por resolverse los problemas de validez, justicia, relación costo-beneficio y confiabilidad de las calificaciones con respecto a las evaluaciones basadas en el desempeño (Baker, O’Neil y Linn, 1993; Educational Testing Service, 1992). Nuevos ataques contra el Servicio de Evaluación Educativa Durante la década de 1980, la campaña más publicitada contra las pruebas estandarizadas y los exámenes de admisión a la universidad en particular, fue dirigida por el defensor de consumidores Ralph Nader y sus “soldados”. En discursos e informes escritos, Nader criticaba las pruebas SAT, GRE y LSAT y otras pruebas de habilidad estandarizadas por no medir la imaginación, el idealismo, la determinación y otros atributos humanos que consideraba importantes para el progreso de la civilización. Nader sostenía que el uso de estas pruebas había provocado la restricción de las opciones de carrera de los estudiantes y el desperdicio de una gran cantidad de talento profesional. Allan Nairn (Nairn y Asociados, 1980), un socio de Nader, sostenía que las calificaciones de la SAT y otras pruebas del Servicio de Evaluación Educativa (ETS) clasifican a las personas por clase social más que por habilidad, un hecho del que Nairn acusó a ETS de tratar de suprimir. El resultado, alegaba Nairn, es la negación de oportunidades educativas a estudiantes de nivel socioeconómico inferior y, por lo tanto, la conservación del estado de cosas en la educación superior. Nairn también concluyó que la prueba SAT resulta deficiente para predecir los grados universitarios y que debería abandonarse en favor de varias medidas diagnósticas de habilidad y competencia. Solicitó que se revelaran totalmente las preguntas y respuestas de la SAT y se admitiera que la prueba no mide ningún concepto tan general como la “habilidad académica”. El ETS respondió extensamente al ataque de Nader y Nairn (Educational Testing Service, 1980a, 1980b) concluyendo que las pruebas no niegan oportunidades a niños de familias pobres o de clase trabajadora, y que la SAT en particular no es deficiente para predecir el desempeño académico. Los funcionarios del ETS admitieron que ninguna prueba es capaz de pronosticar en forma perfecta el éxito ni académico ni en la vida, y que tampoco es una medida del valor o mérito de una persona. La SAT y otras pruebas de habilidad académica nunca tuvieron la intención de medir la habilidad innata, buscaron más bien evaluar las habilidades aprendidas en una amplia gama de actividades de tipo escolar. El ataque de Nader y Nairn contra el ETS fue ampliado por el Centro Nacional para la Evaluación Justa y Abierta (FairTest). FairTest mantuvo el argumento de que los reactivos de la prueba SAT a menudo están sesgados y son injustos para grupos minoritarios y mujeres y que, consecuentemente, las pruebas privan a estos grupos de oportunidades educacionales equitativas. Otra preocupación que expresaba FairTest era que no resultaba ético pedir a los alumnos resolver secciones experimentales de la SAT, la GRE y otras pruebas del ETS consistentes en reactivos que no se califican pero se usan con propósitos de ensayo. FairTest demandó al ETS obtener el consentimiento de los examinados antes de hacerlos resolver secciones experimentales de la SAT. El Acta de Derechos de FairTest también destaca que los examinados tienen derecho a recibir información segura sobre la resolución de las pruebas y consejos acerca de estrategias; pruebas cronometradas con precisión y aplicadas en condiciones tranquilas; confidencialidad de las calificaciones y otros datos personales; el proceso debido para cualquier reto de la prueba, y acceso a los datos sobre la precisión de ésta (Weiss, Beckwith y Schaeffer, 1989). Los estudiantes y sus padres tienen el derecho legal a la información concerniente al desempeño del estudiante en pruebas educativas o psicológicas, pero esto no necesariamente significa que las calificaciones reales deban revelarse. Más bien, los resultados de las pruebas deben CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD 249 comunicarse de tal modo que no se malinterpreten o se les dé un mal uso y que ayuden antes que poner obstáculos a los estudiantes. Esta advertencia se aplica sobre todo a las pruebas aplicadas a niños con propósitos diagnósticos en contextos clínicos o educativos. Por otra parte, las calificaciones de exámenes de admisión a la universidad se comunican de rutina a los examinados así como a las instituciones que los estudiantes indican previamente. Además, la ley de Nueva York sobre veracidad en las evaluaciones, puesta en práctica en 1979, exige que a los estudiantes que se someten a la SAT o a otras pruebas de admisión a la universidad se les entreguen copias de las preguntas reales y las respuestas correctas, así como copias de sus propias hojas de respuestas, en un periodo razonable posterior a la prueba. Dos disposiciones más de la ley del estado de Nueva York son que (1) en el momento de la aplicación se comunique a quienes se sometan a la prueba cómo se calcularán sus calificaciones, cuál es la obligación contractual que el examinador tiene hacia ellos, y cómo las calificaciones de la prueba pueden ser afectadas por la asesoría y diversos factores demográficos, y (2) el concesionario de la prueba debe archivar la información y los estudios sobre su validez ante la comisión de educación estatal. La ley también exige que se publiquen ediciones completas de las pruebas para que los estudiantes puedan practicar con ellas. Algunos críticos de la evaluación educativa desean ampliar las disposiciones de la ley de Nueva York, acerca de la revelación total, hacia otros estados, e incluir otros exámenes a fin de promover el uso de pruebas nuevas para disminuir el sesgo cultural y que la industria de la evaluación resulte más confiable para los consumidores. Aunque más de 24 legislaturas estatales, así como el gobierno federal, han considerado leyes similares a la del estado de Nueva York, el único otro estado que aplica un estatuto especial de regulación de exámenes de admisión a la universidad es California. Esta ley, conocida como Acta Dunlop, requiere sólo que se proporcionen muestras representativas de las pruebas al Departamento de Educación del Estado de California. Las legislaturas estatales de Nueva York y California han considerado una legislación adicional para volver más estrictas las reglamentaciones relativas a la evaluación, pero dichos esfuerzos sólo han tenido éxito en Nueva York. El estatuto del estado de Nueva York y otras legislaciones sobre la veracidad en las evaluaciones en trámite no afectan únicamente a las pruebas SAT, ACT y a otras pruebas de admisión a la universidad, sino también a pruebas de admisión a escuelas de posgrado y profesionales. Aunque el Consejo de Admisión de la Escuela de Leyes y el Consejo de Admisión de Administración de Graduados aprobaron la revelación de los resultados de sus pruebas (LSAT y GMAT), la Asociación Estadounidense de Escuelas Médicas y la Asociación Dental Estadounidense expresaron una enérgica oposición a la legislación sobre la veracidad en la evaluación. La primera organización, argumentando que la ley de Nueva York viola los derechos de autor sobre la MCAT, obtuvo un interdicto en 1979 contra la aplicación de la ley. En 1990, una corte federal estableció que el estatuto del estado de Nueva York, que exige la publicación de los materiales de la Prueba de Admisión a la Escuela Médica, viola la ley federal de derechos de autor. A pesar de esta reglamentación, la revelación de materiales de prueba sigue siendo una práctica común en las organizaciones de evaluación. Los procedimientos actuales diseñados para garantizar evaluaciones justas y abiertas son una parte aceptada de la elaboración, administración y calificación de pruebas en el Servicio de Evaluación Educativa, el Programa de Evaluación Universitaria Estadounidense y otras organizaciones que diseñan y distribuyen pruebas. Las preocupaciones en torno a la legislación sobre la veracidad en la evaluación han propiciado mejoras en la revisión en cuanto a que las preguntas de las pruebas no contengan sesgos culturales o socioeconómicos. La cuidadosa revisión interna llevada a cabo por el personal profesional del ETS ha eliminado los sesgos (de grupo étnico, género, etc.) de casi todos los miles de reactivos que incluyen las pruebas del ETS cada año. Además, el Consejo de Exámenes de Admisión a la Universidad ha adoptado la política de permitir que los estudiantes verifiquen sus 250 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad calificaciones de la SAT y que se presenten públicamente los reactivos de esta prueba un año después de haberse aplicado. Los examinados pueden también confrontar los reactivos de la SAT y de otras pruebas del ETS y la forma en que se aplican estos exámenes. Efectos de la asesoría en las calificaciones de prueba Es comprensible que los candidatos a ingresar a universidades de licenciatura y posgrado y a otras escuelas profesionales estén interesados en mejorar sus calificaciones en los exámenes de admisión. Como consecuencia de la creciente importancia de la evaluación nacional a gran escala, se han publicado folletos de asesoría de pruebas y establecido escuelas que aseguran poder aumentar la calificación de una persona en una prueba en particular o de pruebas estandarizadas en general. Tres de estas organizaciones de asesoría de pruebas son College PowerPrep, Kaplan Inc., y The Princeton Review. El que la asesoría tenga o no un efecto significativo en las calificaciones de la SAT y en otros exámenes de admisión ha sido un tema discutido durante muchos años. Es un problema importante, pues si se demostrara que la asesoría puede mejorar las calificaciones de las pruebas, entonces los jóvenes que no pudieran pagar dicha asesoría carecerían de las mismas oportunidades que sus compañeros más pudientes. Los resultados de los primeros estudios sobre asesoría indicaron que sus efectos varían ampliamente, dependiendo de la semejanza del material estudiado con el de la prueba, del nivel de motivación y educación del examinando y de otros factores. Hace algunos años el Consejo de Exámenes de Admisión a la Universidad (1971) presentó pruebas relativas a los efectos de la asesoría para la SAT. Los resultados indicaron que el estudio intensivo de corto plazo sobre reactivos similares a los de la SAT no produjo aumentos significativos de las calificaciones, especialmente en la sección verbal de la prueba. Sin embargo, esta conclusión fue puesta en entredicho por varias personas, en particular por Stanley H. Kaplan, director de la mayor organización de asesoría de pruebas en el mundo. En 1979, la Comisión Federal de Comercio (FTC) presentó el informe de un estudio sobre los efectos de un programa de asesoría de diez semanas llevado a cabo en tres de los centros educativos Kaplan. Admitiendo que el estudio adolecía de ciertas fallas metodológicas, la FTC concluyó no obstante que el desempeño en las secciones verbal y matemática de la SAT mejoró gracias a los cursos de asesoría. El estudio de la FTC y una revisión de los resultados efectuada por Slack y Porter (1980) se evaluaron posteriormente por el Servicio de Evaluación Educativa. Al analizar de nuevo los datos de la investigación de la FTC, el ETS obtuvo resultados similares: efectos inconsistentes e insignificantes de la asesoría para estudiantes en dos de las escuelas Kaplan, e incrementos de 20 a 35 puntos para calificaciones en las secciones verbal y matemática en una tercera escuela. A pesar de reconocer que puede haber aumentos considerables en las calificaciones cuando los programas de asesoría incluyen muchas horas de trabajo en los cursos y tareas, el ETS afirmó que por lo menos parte de los aumentos descubiertos en la tercera escuela podrían atribuirse a diferencias en la motivación y a otras características personales. Los resúmenes de los estudios realizados durante las últimas dos décadas sobre los efectos de la asesoría en las calificaciones de la SAT revelan que el estudio intensivo de reactivos similares a los de la prueba puede producir aumentos de 15 a 25 puntos en las secciones tanto verbal como matemática. Sin embargo, estos aumentos no son mayores que los observados en estudiantes que repiten la prueba después de otro año de bachillerato (Donlon, 1984). Las mejoras ocurren sobre todo en reactivos con formatos complejos o confusos y con individuos de contextos educativos deficientes (Powers, 1986). Acertar sólo en dos o tres reactivos más podría aumentar las calificaciones verbales y matemáticas hasta en 20 o 35 puntos. Sin embargo, en ge- CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD 251 neral, la afirmación de The Princeton Review (Biemiller, 1986) y otras organizaciones de que las calificaciones de la SAT pueden aumentar en 100 o más puntos no tiene fundamento (Powers, 1993). La defectuosa metodología de investigación de muchos estudios sobre la asesoría produce resultados confusos y no concluyentes (Bond, 1989). Se dice que la última versión de la SAT, SAT I, es menos susceptible de admitir asesoría que sus antecesoras debido al mayor énfasis puesto en la interpretación de largos pasajes. La omisión de la subprueba de antónimos, cuyas calificaciones pueden mejorarse por la simple memorización de palabras y cierto conocimiento de asociaciones de palabras, también ha disminuido los efectos de la asesoría. Se han conservado las analogías, el trabajo de completar frases y la interpretación de párrafos largos, tareas que no sólo requieren de conocimiento de palabras (vocabulario), sino también de habilidades de razonamiento que son más difíciles de mejorar mediante una asesoría rápida. Un análisis de los resultados de un estudio de más de cuatro mil examinandos que presentaron la prueba SAT en 1995-1996 indicó que los efectos de la asesoría en las calificaciones de la Prueba de Razonamiento son mucho menores de lo que afirman las principales compañías comerciales de preparación de pruebas (Powers y Rock, 1999). Las calificaciones de los exámenes de admisión a la universidad suelen mejorar un poco con el desarrollo de los estudiantes y la familiaridad con las pruebas. En particular, tomar cursos académicos rigurosos y estudiar álgebra, geometría y significados de palabras justo antes de la prueba puede mejorar los resultados. Con respecto a los procedimientos para resolver la prueba, pasar por alto los reactivos difíciles y regresar a ellos después de terminar el resto de los reactivos de la sección, buscar respuestas “razonables” para los reactivos con extensos párrafos de lectura, adivinar respuestas en forma razonada y estrategias por el estilo no provocarán milagros, pero sí pueden mejorar en cierta medida las calificaciones (vea las recomendaciones para resolver pruebas en la página 49). De cualquier modo, además de comprobar que los reactivos nuevos no estén sesgados, el ETS los examina para investigar su susceptibilidad a la asesoría y descarta o modifica aquellos en los que puede mejorarse el desempeño mediante una instrucción o ejercicios de corto plazo (Swinton y Powers, 1985). Diferencias en las calificaciones de la SAT Las calificaciones de las pruebas no son números fijos, invariables; están sujetas a errores de medición y a diferencias genuinas en cuanto a habilidades y otras características personales. Los funcionarios escolares suelen estar alertas ante diferencias temporales y demográficas en las calificaciones de las pruebas, y con base en sus observaciones se decide intervenir en lo que respecta a la instrucción individual, las modificaciones de los programas y la distribución de los fondos públicos para la enseñanza. La reducción en las calificaciones de pruebas de habilidad y aprovechamiento despierta preocupación especial. Cambios anuales en las calificaciones de la SAT. Durante la década de 1970, en todo Estados Unidos, fue cada vez más obvio que estaba disminuyendo la media en las calificaciones de la SAT y otras pruebas estandarizadas de habilidades cognoscitivas que se aplicaban a estudiantes de bachillerato. Aunque la media en las calificaciones de la SAT aumentó en la década de 1950 y principios de la de 1960, hacia finales de ésta y en la de 1970 ocurrieron reducciones considerables. La media en las calificaciones de matemáticas de la SAT no disminuyó tanto como en las pruebas verbales durante este periodo, pero la caída también fue significativa. Ocurrieron disminuciones para ambos sexos, para todos los grupos étnicos y para los estudiantes de mayor y menor capacidad. Se percibieron similares tendencias al declive en las calificaciones promedio de la prueba ACT, la Prueba Minnesota de Aptitud Académica, las Pruebas Iowa de Desarrollo Educativo y la Prueba Comprensiva de Habilidades Básicas. 252 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad Se han planteado varias explicaciones para entender la disminución en las calificaciones hacia finales de la década de 1960 y en la de 1970: menor atención, preocupación y supervisión de los padres hacia los hijos; falta de motivación de los alumnos por desempeñarse bien: demasiada televisión; una sociedad más permisiva; maestros que prestan menos atención a los estudiantes (Elam, 1978), y la simplificación de los libros escolares (Hayes, Wolfer y Wolfe, 1996). Otras explicaciones incluían a las drogas, el sexo, la falta de incentivos económicos para obtener una buena educación, y el espaciamiento de los hijos en las familias (vea Zajonc, 1986). En una extensa revisión sobre la baja en las calificaciones de las pruebas de habilidad, un equipo de asesoría especial no logró encontrar ninguna evidencia de que la causa fuera una mayor dificultad de las pruebas (Austin y Garber, 1982). Aproximadamente la mitad de la reducción general entre 1963 y 1970 se consideró como un resultado de los cambios efectuados en la composición de la muestra de estudiantes que realizaron la prueba. Pero los cambios en la composición de género, raza-etnia, y posición socioeconómica de la muestra que se sometió a la SAT ya habían manifestado sus efectos para 1970. De acuerdo con el equipo asesor, las demás reducciones detectadas durante la década de 1970 se debieron a fuerzas sociales más constantes. No estaba claro exactamente cuáles fueron estas fuerzas y cuánta influencia tuvieron cada una, pero se mencionaron factores como programas de bachillerato menos exigentes intelectualmente, menores estándares educativos, maestros con habilidades inferiores, cambios en la estructura social y en los roles de las familias en Estados Unidos, la televisión, el desajuste nacional hacia principios de la década de 1970, y una menor motivación estudiantil. Más recientemente, Williams y Ceci (1997) observaron que el conjunto de estudiantes del último año de bachillerato que sustentó la prueba SAT fue menos selectivo en las citadas décadas de 1960 y 1970, y que aumentó la cantidad de instituciones demandantes de la prueba. Estos autores especularon sobre que si la SAT se hubiese aplicado a todos los estudiantes del último año de bachillerato y no a una muestra autoseleccionada en la década de 1950 y principios de la de 1960, la disminución en las calificaciones observadas hacia finales de la década de 1960 y principios de la de 1970 habría sido considerablemente menor (vea Berliner y Biddle, 1995). Diferencias de género en las calificaciones de la SAT. A lo largo de los años, consistentemente, los hombres han superado a las mujeres en las calificaciones de la sección matemática de la SAT, pero hasta 1972 las mujeres tuvieron mejores calificaciones que los hombres en la parte verbal de esta prueba. En 1998, la media de la calificación era 37 puntos más elevada para los hombres que para las mujeres en la sección matemática y 7 puntos más elevada para los hombres en la parte verbal. En promedio, los hombres tuvieron calificaciones ligeramente más elevadas que las mujeres en la SAT. Sin embargo, estas fueron diferencias generales y no se presentaron las mismas para todos los grupos étnicos. Durante mucho tiempo los críticos han argumentado que la SAT subestima los grados universitarios de las mujeres y, por lo tanto, que está sesgada en su contra (Shea, 1994). De acuerdo con Bob Schaeffer de FairTest (Chavez, 1993, p. A23): La misma naturaleza del SAT, que es una prueba de ritmo rápido, intensa presión y de opción múltiple con altas ventajas por adivinar, es un juego en el cual los chicos destacan. Quién sabe cuál es la razón cultural o biológica, pero las mujeres se inclinan más por intentar reflexionar sobre un problema, evalúan todas las opciones. Y eso las pone en desventaja estratégica. Se afirmó que, como resultado de la brecha generacional en las pruebas SAT, las jóvenes tienen menos probabilidades que los hombres de obtener becas escolares. Los funcionarios del ETS contestaron que las diferencias entre las calificaciones SAT promedio entre hombres y mujeres reflejaban auténticas diferencias educativas y que la validez de predicción de la prueba es tan elevada para un sexo como para el otro. En cualquier caso, en la mayoría de los estados de la OTROS TEMAS EN LAS PRUEBAS EDUCATIVAS 253 Unión Americana no se otorgan becas universitarias con base en las calificaciones de la SAT únicamente, sino que se toman en cuenta otros criterios como el promedio de puntuación por grado y el desempeño en actividades extracurriculares. Las causas de las diferencias de género en las pruebas SAT, que son las inversas a las diferencias en los promedios de la puntuación por grado en bachillerato y el primer año universitario, no están del todo claras. Las autoridades no están seguras de culpar a las pruebas, las escuelas, los factores biológicos o a otras variables ambientales. Otro factor posible es que, en promedio, la condición socioeconómica de las mujeres que presentaron la SAT en la década de 1980 era inferior a la de los hombres; y una hipótesis más establece que durante esta década las adolescentes estaban más preocupadas por sus citas románticas y el riesgo de embarazarse y se dedicaban menos al trabajo escolar que en la década de 1970 (Cordes, 1986). Cualesquiera que puedan ser las causas de las diferencias sexuales en las calificaciones de la SAT, al parecer están declinando: las mujeres han ido alcanzando a los hombres en ambas secciones de la SAT en años recientes (Shea, 1994). Diferencias étnicas en las calificaciones de la SAT. Durante los años de 1990, las posiciones relativas de la población asiático-americana, afro-americana, mexicano-estadounidense, puertorriqueña y blanca en la SAT permanecían bastante constantes. A excepción de las calificaciones de los asiático-americanos en la sección matemática de la SAT, en 1998 las calificaciones promedio de los grupos minoritarios eran inferiores a las de los blancos en las secciones verbal y matemática de la prueba. En ese año, la media de las calificaciones verbal y de matemáticas de los negros era inferior en aproximadamente 100 puntos a la de los blancos. Los críticos sostenían que esta diferencia se debía al hecho de que la SAT estaba sesgada en contra de los negros. Pero ocurría algo similar con diferentes grupos étnicos en las pruebas de lectura, matemáticas y ciencia de la Evaluación Nacional del Progreso Educativo. Las calificaciones SAT inferiores para las minorías sin duda se deben, al menos en parte, a los más bajos ingresos familiares y niveles educativos de los padres. Sin importar las causas, las calificaciones de las pruebas de afro-americanos y latinos se han incrementado ligeramente en años recientes. Estudiantes atletas y la SAT. Relacionado con, pero obviamente no exclusivo de, el problema de las diferencias de grupo étnico en las calificaciones de los exámenes de admisión está el requisito de la NCAA de que los estudiantes atletas tengan al menos un promedio de C y una calificación aprobatoria en la SAT para ser candidatos elegibles como estudiantes de primer grado en la escuela de la División I. Más precisamente, un estudiante que desee participar en competencias intercolegiales debe tener un promedio de puntuación de 2.5 o mayor y una calificación total en la SAT de 820 o más, un requisito que elimina a muchos estudiantes. Los adversarios de esos requisitos establecidos por la NCAA los han calificado de discriminatorios contra las minorías y sostienen que deberían reducirse. Pero aparentemente la mayoría de los representantes de las universidades de la División I de la NCAA consideran que los estudiantes atletas deberían ser capaces de cumplir con dichos requerimientos (Robbins y Almond, 1992). OTROS TEMAS EN LAS PRUEBAS EDUCATIVAS Aunque los asuntos relativos al SAT y a otros programas de evaluación nacionales han recibido más atención por parte de los medios de comunicación, otros aspectos relacionados con la evaluación en y por las escuelas también merecen tenerse en cuenta. Trampas en las pruebas Hacer trampa en las pruebas es un asunto preocupante en todos los niveles del sistema educativo. Al adquirir mayor importancia las calificaciones de las pruebas para determinar el futuro 254 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad educativo y las carreras profesionales de los individuos, pero además en la arena política para evaluar a las escuelas y otras instituciones, la tentación de hacer trampa parece haber aumentado. La administración de una prueba segura implica procedimientos estandarizados tales como verificar la identificación personal, sentar a los alumnos en determinada ubicación, una vigilancia cuidadosa y hojas de respuestas para disminuir las trampas, pero ninguno de estos procedimientos las elimina del todo. Las presiones de los padres, los maestros, los compañeros y los propios alumnos por tener buenos resultados pueden orillar a los estudiantes a robar pruebas, copiar respuestas de sus compañeros y hacer otro tipo de trampas. Además de las observaciones directas de las trampas en las pruebas o los informes de otras personas acerca de las trampas que han realizado estudiantes específicos, pueden obtenerse pruebas de estas anomalías a partir de (1) patrones similares de respuestas erróneas idénticas de estudiantes que se sentaron juntos durante la prueba (Belleza y Belleza, 1989, 1995) y (2) gran cantidad de borraduras en la hoja de respuesta, sobre todo al cambiar respuestas erróneas por correctas. Esta última técnica se usó en California a mediados de la década de 1980 para confirmar las sospechas de que los aumentos drásticos en las calificaciones en algunas escuelas se debían a que los propios maestros cambiaban las respuestas de los alumnos en las pruebas del Programa de Evaluación de California (CAP). Las hojas de respuesta de las pruebas CAP, que medían habilidades básicas de lectura, escritura y matemáticas, se aplicaban anualmente en los grados tercero, sexto, octavo y doceavo de las escuelas públicas de California y se calificaban mediante escaneo electrónico de los datos. Las máquinas no sólo calificaban las hojas de respuesta, sino que también contaban las borraduras. Usando este procedimiento en combinación con trabajo de oficina para confirmar, se descubrió que en varias docenas de escuelas de Los Ángeles el porcentaje de borraduras era considerablemente mayor al esperado 3%. Aunque el furor resultante y la cobertura de la prensa al respecto precipitó fuertes protestas por parte del sindicato de maestros y el rechazo de algunos maestros a manejar las pruebas CAP, estos acontecimientos llevaron a investigaciones sobre trampas y alteraciones directas e indirectas en las pruebas CAP y CTBS (Banks, 1990). Las alteraciones por parte de los maestros en las hojas de respuesta de los alumnos no pudieron refutarse en forma convincente, pero ¿por qué lo hicieron? La respuesta general parece ser que las calificaciones de las pruebas han llegado a ser tan usadas en la sociedad estadounidense —no sólo para evaluar a los individuos sino también a las escuelas, los distritos escolares, las etapas, e incluso los vecindarios—, que es enorme la presión sobre los maestros y las escuelas para que los alumnos se desempeñen bien. No sólo las presiones sociales sobre todas las personas relacionadas con las escuelas provocaron que los estudiantes hicieran trampa y los maestros alteraran las pruebas, sino que además éstos a menudo enseñan para las pruebas. Esta práctica y la alteración de pruebas es comprensible cuando consideramos la amplia publicidad que las escuelas dan a las calificaciones de prueba, la necesidad de justificar los aumentos en los gastos de educación y los incentivos por los cuales se asignan fondos adicionales a las escuelas cuando sus estudiantes obtienen calificaciones elevadas en las pruebas estandarizadas. El círculo vicioso en que el superintendente estatal es presionado por los políticos, los superintendentes de distrito por el superintendente estatal, los directores de escuela por el superintendente de distrito, los maestros por los directores, los estudiantes por los maestros y los padres, y los políticos, directores y maestros por los padres, lleva a una situación en donde “siempre tienes a alguien encima de ti”. Los directores y otros directivos escolares, que no tienen un puesto asegurado y pueden ser depuestos o transferidos si las calificaciones de los estudiantes resultan demasiado bajas en las pruebas estandarizadas, son particularmente susceptibles a la presión. Dado que sólo son humanos, es posible que dirijan esta presión a los maestros con el propósito de que sus escuelas den una buena impresión en el registro anual de promedios de calificaciones de pruebas de las escuelas, el cual se publica en los periódicos locales. OTROS TEMAS EN LAS PRUEBAS EDUCATIVAS 255 Los estudiantes, maestros y el personal administrativo de las escuelas requieren de alguna fuente de motivación para mejorar los bajos niveles en que la educación pública ha caído en muchas secciones escolares de Estados Unidos, así como algunas formas de evaluar la eficacia de sus esfuerzos. Sin embargo, la atmósfera de paranoia que según se informa permeó las posiciones de maestros y personal administrativo en el Distrito Escolar de Los Ángeles durante el escándalo de la alteración de pruebas de 1986 a 1988 no fue benéfica para la educación en general ni para la evaluación educativa en particular. El efecto del lago Wobegon En 1988 se informó que en Estados Unidos 70% de los estudiantes, 90% de los 15,000 distritos escolares, y los 50 estados tenían calificaciones superiores a las normas nacionales sobre las pruebas de aprovechamiento con referencia a normas aplicadas en escuelas elementales (Cannell, 1988). Este informe condujo a acuñar el término “efecto del Lago Wobegon”, según la comunidad de ficción de Minnesota ideada por Garrison Keilor “donde todos los niños son superiores al promedio”. Los hallazgos de Cannell se apoyaron en los resultados de un estudio realizado por el Departamento de Educación de Estados Unidos: 57% de los estudiantes de la escuela elemental tuvieron calificaciones superiores a la media nacional en lectura y 62% superiores a la media nacional en matemáticas. En otro estudio, llevado a cabo por los Amigos de la Educación, se descubrió que 83% de 5,143 distritos escolares, 73% de 4,501 distritos de escuelas secundarias, y todos menos dos estados (Louisiana y Arizona) estaban por encima del promedio en las calificaciones de pruebas de aprovechamiento (Cannell, 1989). Una explicación para el efecto del Lago Wobegon es que se trata de una consecuencia de que las pruebas no recibían nuevas normas con la frecuencia necesaria. Otra explicación es que se debe a que los maestros asesoran a los alumnos en las preguntas de la prueba, y les permiten un tiempo mayor al establecido para responderlas, e incluso modifican las hojas de respuesta ya completadas. Los editores de las pruebas de aprovechamiento estandarizadas citadas en estos estudios (CTB/McGraw-Hill, Riverside Publishing Company y Harcourt Brace) respondieron que resulta caro modificar las normas de las pruebas con la frecuencia que pudiera esperarse y que el aumento en las calificaciones de hecho puede indicar que las escuelas están mejorando. Sin embargo, los editores podrían esforzarse más por enfatizar ante los usuarios de las pruebas cuándo (fecha) y en qué muestras de estudiantes se estandarizaron sus pruebas. En particular, debería esclarecerse si se excluyó a algún grupo (por ejemplo, estudiantes de educación especial o aquellos con un dominio limitado del inglés) al seleccionar las muestras de estandarización. Aunque la mayoría de los funcionarios no respondió por escrito o en forma impresa a los descubrimientos y críticas de Cannell, un experto en evaluación escolar afirmó que no es ético ni está garantizado suponer que ha habido trampa cuando aumentan las calificaciones. Este funcionario defendió el derecho de los maestros a examinar el contenido de una prueba a fin de determinar en qué áreas de habilidad necesitan mejorar los estudiantes, pero no a enseñar de acuerdo con la prueba (Landers, 1989). Se reconoce ampliamente que las calificaciones tienden a dispararse hacia arriba cuando una batería de pruebas en particular se usa a lo largo de varios años en una escuela. Una razón del aumento puede ser que los maestros estén enseñando de acuerdo con la prueba, pero la explicación más plausible es que están enseñando a partir de la prueba (Lenke, 1988). Los maestros toman nota de las áreas de la prueba donde están bajas las calificaciones e intentan mejorar el conocimiento y las habilidades de los estudiantes en dichas áreas. Ésta es, desde luego, una estrategia de instrucción apropiada y no debe etiquetarse como trampa. También podríamos argumentar que el problema es con los tests con referencia a normas y que los resultados de las pruebas con referencia a criterios producirían información más significativa concerniente a las ventajas y deficiencias aca- 256 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad démicas y estarían menos sujetos a la mala interpretación. Como quiera que fuese, los políticos, los padres y otros interesados sin duda continuarán exigiendo datos de pruebas comparativos de un año al otro y entre escuelas para colaborar en la toma de decisiones educativas. Pruebas y estándares educativos nacionales La preocupación nacional de que los niños estadounidenses no están tan bien capacitados en ciencia y matemáticas como los niños de otros países data de por lo menos el lanzamiento del primer Sputnik soviético en 1957. Los resultados de pruebas de aprovechamiento aplicadas a nivel internacional reavivaron subsecuentemente esta preocupación al revelar que los escolares estadounidenses están atrasados con respecto a sus contrapartes de la mayoría de las demás naciones industrializadas en matemáticas y ciencia en particular (Centro Nacional para Estadísticas de Educación, noviembre de 1996, junio de 1997, febrero de 1998, 2001). El Acta Nacional de Estándares de Habilidades, que se incorporó en el documento Metas 2000: Acta de 1994 para Educar a Estados Unidos, estableció un consejo de estándares de habilidad nacionales para desarrollar un sistema nacional voluntario de estándares, evaluaciones y certificaciones de habilidad. Esta ley exigía que se formularan diversos sistemas de evaluación no discriminatorios (evaluaciones orales y escritas, evaluaciones de portafolio, pruebas de desempeño, y otras por el estilo) y que se aplicaran para verificar el logro de estos estándares. Se supuso que un conjunto de estándares educativos y las pruebas correspondientes proporcionarían una fuente de motivación y una guía para mejorar el aprendizaje en las escuelas públicas, así como una forma de determinar los progresos en la consecución de los estándares. Como se vio en el candente debate suscitado a finales de la década de 1990 acerca de la evaluación propuesta para toda la nación en el cuarto grado en lectura y en el octavo grado en matemáticas, ha sido difícil conseguir un apoyo bipartita para impulsar tales pruebas. Los conservadores tal vez teman que las pruebas nacionales sean el primer paso de la intromisión federal en las escuelas de sus vecindarios y que las escuelas locales estarían presionadas para adaptar sus planes de enseñanza con el fin de garantizar que los alumnos obtengan buenos resultados en las pruebas. Muchos representantes liberales se oponen a la evaluación nacional porque temen que las pruebas resulten discriminantes contra los niños de grupos minoritarios (Shogren, 1997). En conexión con el Acta Nacional de Estándares de Habilidades, también ha habido una gran cantidad de debates entre los líderes gubernamentales y los profesionales en cuanto a la creación de pruebas nacionales de inglés, matemáticas, ciencia, historia y geografía para aplicarse a nivel nacional en los grados cuarto, octavo y doceavo. En diciembre de 2001 el Congreso de Estados Unidos aprobó un proyecto de ley que establece pruebas estatales anuales en lectura y matemáticas para todos los niños de los grados tercero al octavo, empezando desde el año escolar 2005-2006. Las escuelas donde las calificaciones no mejoren durante dos años consecutivos podrían recibir más ayuda federal. Si las calificaciones en dichas escuelas continúan sin elevarse, los estudiantes de bajos ingresos podrían ser candidatos a clases individuales o trasladarse a otra escuela pública con recursos federales. Si las calificaciones de una escuela aún no mejoran en cinco años consecutivos, el resultado podría ser cambios en el personal u otras consecuencias importantes, tales como la toma del mando por las autoridades estatales o la transformación del plantel en una escuela con exenciones. (Los Angeles Times, 9 de diciembre de 2001, p. A30.) Este proyecto de ley permite que distintos estados apliquen pruebas distintas, pero todos los estudiantes de un determinado estado tienen que presentar una prueba estatal para poder realizar comparaciones por grado, escuela y distrito, y un estado no está autorizado a cambiar de una prueba a otra cada año. Asimismo, las pruebas no sólo deben contener reactivos de opción múltiple, sino también preguntas abiertas que demanden a los estudiantes formular las respuestas y demostrar un razonamiento crítico. OTROS TEMAS EN LAS PRUEBAS EDUCATIVAS 257 Además de las evaluaciones de dominio en los grados escolares, se han realizado esfuerzos para obtener apoyo y desarrollar una prueba nacional que determine la medida en que los estudiantes universitarios han adquirido habilidades en razonamiento crítico, resolución de problemas y comunicación, las cuales son necesarias “para competir en una economía global y ejercer los derechos y responsabilidades de la ciudadanía” (Zook, 1993, p. A3). Las propuestas para que se realice una evaluación nacional de estudiantes posterior a la secundaria, que han sido estimuladas por la demanda de representatividad en la educación superior, también son controvertidas. Sin embargo, es posible que en el futuro cercano se desarrolle algún tipo de procedimiento evaluativo para determinar si las grandes sumas de dinero que se gastan en la educación superior son eficaces para equipar a los adultos jóvenes con las habilidades requeridas en el campo de trabajo. El desarrollo de tal prueba o pruebas sería caro, pero no resultaría tan costoso como tener un país lleno de graduados universitarios con una educación deficiente. Evaluación de la inteligencia en las escuelas Durante las últimas décadas, las relaciones entre experiencia educativa, estatus socioeconómico, etnia, nacionalidad, género, nutrición y muchas otras variables psicosociales y biológicas y las calificaciones obtenidas en pruebas de habilidades cognoscitivas se han considerado en cientos de investigaciones (vea el capítulo 8). Una pregunta constante se refiere al carácter de la interacción entre herencia y ambiente para determinar las calificaciones que se obtienen en las pruebas psicológicas. El significado de esta pregunta y sus implicaciones sociales y educativas han dado lugar a acciones legales en algunos estados. Están en tela de juicio algunas preguntas relativas a la utilidad y al sesgo de los tests de inteligencia. ¿Son estas pruebas útiles y justas para todos los grupos de niños, o están sesgadas en contra de ciertos grupos étnicos? Entre los casos legales que han abordado la aplicación de pruebas de inteligencia en las escuelas están: Stell contra el condado de Savannah-Chatham (1963), Hobson contra Hansen (1967), Diana contra el Consejo Estatal de Educación (1970), Guadalupe contra el Distrito de la Escuela Elemental Tempe (1972), Larry P. contra Riles (1979), PASE contra Hannon (1980), y la NAACP de Georgia contra el Estado de Georgia (1985). En el caso de Stell contra el condado de Savannah-Chatham se tomó una decisión que después fue revocada por el Tribunal de Distrito de Apelación de Estados Unidos. La corte dictaminó en ese caso que, debido a que los CI de los niños negros eran inferiores a los de los niños blancos, exigir que ambos grupos se integraran en las mismas escuelas sería mutuamente desventajoso. En Hobson contra Hansen, la corte estableció que las pruebas de habilidad colectivas discriminan a los niños de grupos minoritarios y, por lo tanto, no podían utilizarse para asignar a los alumnos distintos cursos de habilidades. En Diana contra el Consejo Estatal de Educación, la corte dictaminó que no podían usarse procedimientos de evaluación tradicionales para ubicar a niños mexicano-estadounidenses en clases de niños con retraso mental susceptibles de ser educados, en California, y que debían tomarse medidas especiales (por ejemplo, asesoría bilingüe) para evaluar a los niños de grupos minoritarios. La decisión de la corte en Guadalupe... fue que se evaluara a los alumnos en su lengua principal y se eliminaran las partes injustas de la prueba. Asimismo, se estableció que las calificaciones de CI debían ser por lo menos dos desviaciones estándar menores a la media y que otros determinadores, tales como las medidas de comportamiento adaptativo, tendrían que incluirse al tomar decisiones sobre si los niños deberían clasificarse como retrasados mentales. En su libro Bias in Mental Testing (El sesgo en las evaluaciones mentales), Arthur Jensen (1980) afirmó que ni las pruebas verbales de inteligencia ni las no verbales están sesgadas de manera significativa en contra de niños nacidos en Estados Unidos pero pertenecientes a grupos minoritarios. Jensen sostenía que las pruebas de inteligencia y de otras habilidades cognosciti- 258 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad vas tienen validez predictiva para todos los grupos étnicos y que no son responsables de las diferencias entre dichos grupos. Como se expresó en la decisión sobre Larry P. contra Riles (1979), el juez Robert Peckham de la Corte Federal de Distrito de San Francisco no estuvo de acuerdo con Jensen. Después de concluir que las pruebas de CI negaban igual protección legal a los cinco demandantes negros de una demanda de clase, el juez Peckham ordenó continuara su anterior prohibición de aplicar las pruebas de CI con propósitos de colocación de niños negros en la escuela pública de California para retrasados mentales susceptibles de ser educados. Así, se dictaminó que las pruebas de inteligencia administradas individualmente están sesgadas en contra de los negros, y que el Departamento de Educación Estatal de California no podía usar estas pruebas para emitir un diagnóstico educativo ni para la colocación de niños negros en las escuelas públicas. A esta decisión contribuyó el hecho de que una cantidad desproporcionada de niños negros habían sido asignados a clases de EMR, a las cuales el juez Peckham llamaba “educación sin salida”. Por consiguiente, se estipuló que la proporción de niños negros en clases de EMR debería concordar con su proporción entre la población general de escolares. En 1986, el juez Peckham emitió de nuevo su prohibición del uso de pruebas de CI en las escuelas públicas de California, aun cuando se obtuviera el consentimiento de los padres. Sin embargo, la decisión de la corte en Larry P. no prohibía el uso de todas las pruebas de inteligencia en las escuelas públicas de California y dichas pruebas continuaron utilizándose para ciertos fines. Menos de un año después de emitido el fallo de Larry P. contra Riles, otro juez federal, John F. Grady, tomó una decisión muy diferente en un caso similar de Illinois. En este caso, PASE (Parents in Action on Special Education) contra Hannon (1980), se decretó “que las pruebas WISC, WISC-R y Stanford-Binet, cuando se usan bajo los estatutos legales ‘[otros criterios] para determinar el programa educativo apropiado para un niño’ (bajo la Ley Pública 94-142)... no discriminan en contra de niños negros” (p. 883). Como resultado, las pruebas de inteligencia continuaron administrándose con propósitos de ubicación en clases especiales en las escuelas públicas de Illinois y de muchos otros estados. De manera similar al fallo de PASE contra Hannon, la corte decidió en la NAACP de Georgia contra el Estado de Georgia (1985) que las pruebas de inteligencia no discriminan en contra de los niños negros. También contrariamente a las disposiciones del caso Larry P., en la decisión de Georgia... se concluyó que la presencia de cantidades desproporcionadas de niños negros en clases de EMR no constituye una prueba de discriminación. Por último, en septiembre de 1992 el juez Peckham levantó la prohibición sobre las pruebas de inteligencia en las escuelas públicas de California bajo el argumento de que no era justo para los padres negros que deseaban sí fueran aplicadas para decidir la ubicación educativa de sus hijos con problemas de aprendizaje (Bredemeier, 1991). De hecho, esta disposición anuló la prohibición anterior (1986) en contra del uso de pruebas de inteligencia en las escuelas públicas de California. Una reseña de los casos citados y de otros presentados ante los tribunales, y que se relacionan con la evaluación de la inteligencia en las escuelas, revela que las decisiones judiciales han variado de un estado a otro y de acuerdo con el clima político de la época. Aunque el uso de pruebas de inteligencia en ocasiones puede estimular la discriminación e incluso contribuir a una profecía que se cumple por sí misma, varios psicólogos y educadores sostienen que existen tres ventajas de usar estas pruebas con propósitos de ubicación. En muchos niños remitidos por los maestros con el señalamiento de que requieren educación especial se descubre que eso no es necesario cuando se les somete de nuevo a las pruebas. De hecho, si no se usaran las pruebas, probablemente se asignarían más niños de grupos minoritarios a las clases especiales. Incluso quienes están ubicados en dichas clases con base en calificaciones bajas en las pruebas a menudo aprovechan la educación especial al grado de que se mejora su CI, y ya no resultan candidatos para esos servicios. Por último, podría preguntarse qué sucede con los niños que sí requieren educación especial pero no son identificados por que no se les administran PRUEBAS DE EMPLEO Y SESGO 259 pruebas de inteligencia. ¿Cuántos escolares se retrasan cada año porque no cuentan con la educación apropiada para sus habilidades al ser ubicados en clases generales? PRUEBAS DE EMPLEO Y SESGO Tan importante como los asuntos concernientes al uso de pruebas en escuelas y universidades es el aspecto de la justicia de estos instrumentos en cuanto a propósitos de selección de empleo, colocación y promoción. Como resultado de la creciente preocupación por los derechos civiles, la importancia del tema se incrementó cada vez más durante la década de 1960. Debido a que las pruebas de empleo se habían validado sobre todo en miembros de la cultura blanca dominante, era razonable preguntarse si tenían alguna validez para los negros y otras minorías. Tal fue la situación en el caso de Myart contra Motorola (1964), donde el asunto era si una prueba usada con fines de selección podría considerarse racialmente discriminatoria. Legislación sobre la igualdad en las oportunidades de trabajo El Acta de 1964 sobre Derechos Civiles (en Estados Unidos) surgió a raíz del caso Motorola y otras críticas de la evaluación psicológica. El Título VII de esta acta prohibía específicamente la discriminación con base en la raza, el color, el país de origen, el sexo o la religión.1 Una disposición de la Suprema Corte sobre el Título VII ocurrió en el caso de Griggs et al., contra Duke Power Company (1971), que se relacionaba con una demanda interpuesta contra la compañía Duke Power por empleados negros. La demanda se enfrentaba al requisito que antes había establecido Duke Power de presentar un diploma de bachillerato y a las nuevas políticas de promoción y contratación que requerían calificaciones mínimas predeterminadas en la Prueba de Personal Wonderlic y en la Prueba de Comprensión Mecánica Bennett. El presidente de la Suprema Corte, Warren Burger, quien escribió la opinión mayoritaria en ese caso, concluyó que “si no puede demostrarse que una práctica de empleo que funciona para excluir a los negros está relacionada [significativamente] con el desempeño en el trabajo, tal práctica está prohibida” (Griggs et al., contra Duke Power Company, 1971, p. 60). Pero el juez Burger también señaló que: nada en el Acta [de Derechos Civiles] excluye el uso de procedimientos de evaluación o medición; obviamente son útiles. Lo que el Congreso ha prohibido es dar a estos dispositivos y mecanismos poder de control a menos que se demuestre que son una medida razonable del desempeño en el trabajo. El Congreso no ha ordenado que se prefiera a los menos calificados con prioridad frente a los más calificados simplemente por sus orígenes como minoría. Lejos de menospreciar las habilidades en el empleo como tales, el Congreso ha hecho de esas habilidades el factor preponderante, de modo que la raza, la religión, la nacionalidad y el sexo sean irrelevantes. (Griggs et al., contra Duke Power Company, 1971, p. 11.) La intención de la decisión de la Suprema Corte en el caso Griggs et al., contra Duke Power Company fue solicitar que los empleadores demostraran que las habilidades medidas por sus pruebas de selección y demás procedimientos de contratación estaban relacionadas con el puesto. El efecto inmediato de la decisión era evaluar de nuevo, y en algunas situaciones descontinuar, ciertas pruebas de selección por parte de las empresas y las organizaciones industriales. Posteriormente, el Congreso concluyó que el Título VII del Acta de 1964 sobre Derechos Civiles no se había aplicado en forma adecuada y que continuaba la discriminación contra las minorías y las mujeres. 1También están relacionadas con las prácticas de empleo justo el Acta de 1967 sobre Discriminación por Edad en el Empleo (ADEA) y el Acta de 1990 sobre Estadounidenses con Discapacidades (ADA). La ADEA declara prohibida la discriminación contra los empleados o candidatos de 40 años o mayores en todos los aspectos del proceso de empleo. Con la ADA, a los individuos calificados con discapacidades deben otorgárseles iguales oportunidades en todos los aspectos del empleo. 260 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad Esta conclusión llevó a una revisión del Acta de Derechos Civiles, el Acta de 1972 sobre Iguales Oportunidades de Empleo. El Consejo Coordinador de Iguales Oportunidades de Empleo (EEOCC), que fue establecido por el Acta de Iguales Oportunidades de Empleo, preparó entonces un conjunto de normas denominado Lineamientos Uniformes para Procedimientos de Selección de Empleados. Estas normas describían los procedimientos a seguir por empleadores, organizaciones laborales y agencias de empleo, y exponían que cualquier procedimiento de selección que opere para descalificar o afectar de alguna otra manera adversa a los miembros de cualquier grupo racial, étnico o de sexo en mayor grado que a otro grupo, se ha validado de acuerdo con estos lineamientos, y que no están disponibles procedimientos alternativos de empleo con igual validez pero con un efecto menos adverso. (Comisión Estadounidense sobre Iguales Oportunidades de Empleo, 1973, p. 20.) Los lineamientos establecen además que para ser juzgadas como una forma válida de predecir el desempeño, la prueba o combinación de pruebas normalmente deberán abarcar al menos la mitad de las habilidades medibles confiables y el conocimiento correspondiente al trabajo. La ley concerniente al impacto desigual de las prácticas de empleo con respecto a ciertos grupos se amplió en tres casos subsecuentes: Estados Unidos contra Georgia Power Company (1973), Albemarle Paper Co. contra Moody (1975), y Washington contra Davis (1976). En el caso de Albemarle Co. contra Moody, tras descubrir que el programa de evaluación de la compañía era inadecuado, la corte sostuvo que, incluso si una prueba es válida pero afecta de manera adversa el empleo de ciertos grupos, la organización debería hacer todos los esfuerzos posibles para encontrar un dispositivo de seguridad menos sesgado. La definición legal de impacto adverso sigue la regla de los cuatro quintos, de acuerdo con la cual se considera que está presente una situación de impacto adverso si un grupo tiene una tasa de selección que es cuatro quintos (80%) menor que la del grupo con la mayor tasa de selección. Por ejemplo, si cien negros solicitan un empleo y se contrata a 60 blancos (el grupo mayor), entonces puede decirse que existe una situación de impacto adverso cuando menos de (4/5)60 = 48 negros también son contratados. Según los lineamientos del EEOCC, se requiere que los patrones adopten técnicas de selección con el menor impacto adverso. En Washington contra Davis (1976), el tribunal amplió el criterio al que deberían relacionarse las pruebas de selección para incluir el desempeño en programas de capacitación para el empleo. Una revisión de 1978 de los lineamientos del EEOCC sobre la selección de empleados (Comisión Estadounidense de Iguales Oportunidades de Trabajo, 1978) no fue tan estricta como la versión original al requerir que los empleados realicen estudios de validez diferencial. Al igual que sus antecesores, los lineamientos revisados se diseñaron para exigir que los patrones justifiquen el uso de pruebas y otros procedimientos de selección que excluyan cantidades desproporcionadas de miembros de grupos minoritarios y mujeres. Los lineamientos describen tres métodos de validación en que pueden confiar los patrones: validez con relación a criterio, validez de contenido, y validez de constructo, pero no están claros en cuanto a qué tan grandes deberían ser los coeficientes de validez. Además, aunque los lineamientos revisados establecen que usar las pruebas es legítimo cuando las calificaciones están relacionadas con el desempeño en el trabajo, no especifican a qué se refieren con “criterios relacionados con el puesto”. La relación con el puesto es un concepto importante en este contexto, porque el uso de pruebas que tienen un impacto adverso se justifica en ocasiones con base en la afirmación de que están relacionadas con el puesto. La incapacidad de los lineamientos del EEOCC para esclarecer lo que significa “criterios relacionados con el puesto”, y otros problemas similares, impulsó a muchas empresas y organizaciones de servicios a suspender por completo el uso de pruebas para la selección de empleos. Los lineamientos se consideran por muchas autoridades técnica- PRUEBAS DE EMPLEO Y SESGO 261 mente obsoletos, y en muchos casos los estudios de validez requeridos son demasiado costosos y de valor cuestionable. Queda claro que la implicación de los lineamientos del EEOCC era que los gerentes de personal necesitan llevar a cabo estudios de validación de todos sus procedimientos de selección, no sólo de las pruebas psicológicas, para determinar si están significativamente relacionados con el éxito en el trabajo. En Watson contra Fort Worth Bank and Trust (1988), el Tribunal estableció que los dispositivos subjetivos del empleo, tales como las entrevistas, pueden validarse y que los empleados pueden alegar impacto adverso como resultado de prácticas de promoción basadas en entrevistas. Por costoso que pueda ser, las entrevistas y otros métodos menos objetivos que las pruebas deben someterse al escrutinio mediante estudios de validez apropiados. Otro interesante caso ventilado en los tribunales y relativo a las prácticas de empleo justas fue Wards Cove Packing Company contra Antonio et al., (1989). Los demandantes en este caso fueron trabajadores filipinos y esquimales de enlatadoras de salmón en Alaska, quienes sostenían que la compañía los estaba excluyendo de puestos con mejor paga como la reparación de maquinaria. La decisión judicial en este caso es importante, porque cambió el peso de la prueba al empleado para que demostrara que no era válida ni confiable la prueba psicológica usada con propósitos de promoción. La preocupación sobre esta decisión, que invirtió el tema central del caso de Griggs contra Duke Power condujo al Acta de 1991 sobre Derechos Civiles. Esta acta confirmó los principios del Título VII del Acta de 1964 sobre Derechos Civiles, pero esclareció la situación de que el peso de la prueba recae en el patrón. Otra importante disposición del acta prescribió efectivamente el uso de calificaciones límite diferenciales por raza, género u origen étnico, lo que tuvo el efecto de desechar el sistema de cuotas vigente durante más de dos décadas. Otras demandas legales relacionadas con la selección educativa y en el empleo se han ocupado de los efectos de la acción afirmativa o de cuotas al negar la admisión a la universidad a asiáticos y caucásicos estadounidenses que cuentan con la habilidad requerida. Aunque la corte ha apoyado los procedimientos de admisión o de selección que favorecen a los grupos con poca representación (por ejemplo, en Estados Unidos contra la ciudad de Buffalo, 1985), durante la década pasada fueron significativas las propuestas de prescindir de los requisitos de acción afirmativa ordenados legalmente en las escuelas y en el lugar de trabajo. Imparcialidad en las pruebas Como lo implican los lineamientos del EEOCC, las pruebas educativas y psicológicas estandarizadas en muestras de blancos son inaceptables para usarse en la selección de candidatos negros y de otros grupos minoritarios. Utilizar tales pruebas con grupos distintos a aquellos sobre los que se estandarizaron plantea el problema de la imparcialidad en las pruebas. El concepto de imparcialidad en la evaluación psicológica y educativa tiene un significado más estadístico que el supuesto por los lineamientos del EEOCC. El punto de vista tradicional en la medición psicológica es que la imparcialidad de una prueba para distintos grupos depende de si los candidatos con igual probabilidad de desenvolverse bien en un criterio de desempeño tienen las mismas posibilidades de ser seleccionados. De acuerdo con esta definición, incluso si la calificación media de un grupo es menor que la de otro, la prueba no necesariamente es parcial o injusta. Los negros y otras minorías de Estados Unidos pueden alcanzar calificaciones promedio más bajas que los blancos en las pruebas de empleo, pero esto no revela nada sobre la imparcialidad de las pruebas en el sentido técnico. Sin importar cualquier diferencia en las calificaciones promedio de las pruebas de dos grupos distintos, tradicionalmente se ha afirmado que una prueba de selección de empleo es imparcial si predice el mismo éxito en el trabajo para todos los grupos de candidatos. 262 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad Después de llamar la atención hacia una falla estadística en la definición tradicional (regresión equitativa) de imparcialidad de una prueba, Thorndike (1971) propuso una definición opcional. La definición del índice constante de Thorndike especifica que las calificaciones habilitantes de una prueba deberían establecerse de tal modo que se seleccionen distintos grupos de candidatos en proporción a la cantidad de cada grupo capaz de lograr un nivel aceptable en el criterio de desempeño. Por ejemplo, si 30% de todos los aspirantes blancos y 20% de todos los negros se juzgan capaces de desempeñarse bien en un trabajo determinado, entonces las calificaciones habilitantes en una prueba de selección deberían determinarse de tal manera que se contrate a 30% de los aspirantes blancos y 20% de los negros. Otra definición de la imparcialidad en las pruebas fue sugerida por Cole (1973), quien propuso se establecieran calificaciones límite por separado para los dos o más grupos distintos de aspirantes, de modo que la probabilidad de selección sea la misma para candidatos potencialmente exitosos en cada grupo. Supóngase, por ejemplo, que dos grupos distintos están compuestos por 50 y 100 aspirantes respectivamente. Si se ha determinado con anticipación que 50% de todos los candidatos puede desempeñar el puesto en forma satisfactoria, entonces debería contratarse a 50% ⫻ 50 = 25 aspirantes del primer grupo y 50% ⫻ 100 = 50 candidatos del segundo grupo. Dunnette y Borman (1979) sugirieron un procedimiento de selección de cuotas similar. Sin embargo, en su propuesta el porcentaje de aspirantes por seleccionarse está definido de antemano; entonces se aplican ecuaciones de regresión separadas para cada grupo. Los lineamientos del EEOCC revisados aceptan que la imparcialidad en las pruebas no es un concepto fijo y que los expertos pueden disentir en cuanto a su significado. Cualquiera que sea la definición que se prefiera, debería tomarse en cuenta la gravedad relativa de los errores de aceptar o rechazar aspirantes equivocadamente. Esto implica que la imparcialidad de una prueba es un asunto relativo, dependiendo de si se considera más grave rechazar a un aspirante que debería haber sido aceptado (falso negativo) o aceptar uno que fracasará (falso positivo). La conciencia social puede dictar que el primer error es más serio, mientras que las consideraciones de beneficio y seguridad indican que el segundo error es digno de mayor preocupación. Desde este punto de vista, el significado de imparcialidad es un asunto de política social, y no sólo de psicometría. Incluso cuando una prueba se considera imparcial en su conjunto, es posible que algunos reactivos individuales resulten injustos o estén sesgados contra un grupo en particular. Por ejemplo, ciertos reactivos pueden presentar una visión estereotipada de los grupos minoritarios y las mujeres de acuerdo con la ocupación, la educación, la familia y la recreación de alguna forma (Tittle, 1984). Para identificar el sesgo en los reactivos y protegerse contra ellos, los editores de pruebas suelen realizar revisiones dictaminadoras para detectar los estereotipos y la familiaridad del contenido de las pruebas respecto a grupos particulares. También se han diseñado diversos procedimientos estadísticos para determinar la presencia de sesgos en los reactivos o el funcionamiento diferencial de reactivos (DIF). Entre estos procedimientos se encuentran los índices transformados de dificultad de reactivos, correlaciones biseriales para determinar las discriminaciones en los reactivos, las curvas características de reactivos, y variantes de chi cuadrada tales como la estadística Mantel-Haenzel (Cole y Moss, 1989; Scheuneman y Bleistein, 1989). La construcción de curvas características de reactivos es una de las formas más descriptivas de detectar el sesgo en los reactivos. De acuerdo con este enfoque, un reactivo carece de sesgo si su curva característica es la misma para los grupos que se comparan. En otras palabras, los examinados con iguales habilidades, sin importar el grupo al que pertenezcan, tienen las mismas probabilidades de acertar en el reactivo. Se han llevado a cabo estudios experimentales donde el contenido de una prueba se varía para determinar si distintos grupos responden de manera diferente y estudios de análisis factorial para definir si las respuestas de distintos grupos producen RESUMEN 263 los mismos factores, y se han conducido investigaciones acerca del sesgo en las pruebas y los reactivos (Cole y Moss, 1989, Tittle; 1984). En 1984 se llegó a una solución conciliadora en lo que respecta al problema del sesgo en los reactivos, cuando el Servicio de Evaluación Educativa aceptó un acuerdo fuera de tribunales en una demanda que acusaba de sesgo social a exámenes de una franquicia de seguros en Illinois. Según los términos del acuerdo se aceptó que al elaborar los exámenes del seguro el ETS emplearía primero reactivos en que negros y blancos obtuvieran calificaciones más similares. Este enfoque, conocido como acuerdo de la Regla de Oro, por el nombre de la compañía de seguros involucrada en la demanda, se usó después en otros estados. Como quiera que fuese, el acuerdo de la Regla de Oro posteriormente fue objeto de gran cantidad de debates y rechazo (Educational Measurement, 1987, 6(2); Anrig, 1987; Denton, 1988). RESUMEN En Estados Unidos es práctica común pedir a los estudiantes que aprueben un examen de competencia mínima antes de otorgarles un diploma de bachillerato, y solicitar que los maestros pasen una prueba de habilidad profesional para ser contratados o confirmados en sus puestos. Algunas escuelas y universidades también han aplicado un método de valor agregado para la evaluación de cambios en conocimiento y habilidades durante los años anteriores a la graduación. Los estudios han revelado que existen numerosas evaluaciones en las escuelas, pero que a menudo maestros, padres y los propios estudiantes carecen de suficiente información y capacitación como para interpretar los resultados de las pruebas en forma precisa. En años recientes ha adquirido impulso la evaluación de habilidades en estudiantes y maestros de bachillerato. Además de evaluar tanto a los estudiantes como a los maestros, las pruebas e instrumentos similares se usan para evaluar los programas educativos y determinar la efectividad de otros procedimientos y programas de intervención. Durante muchas décadas se ha atacado el contenido y los usos de las pruebas estandarizadas de habilidades cognoscitivas. Las pruebas de opción múltiple en general, y los exámenes de admisión donde hay mucho en juego tales como la prueba SAT en particular, han sido muy criticadas por ser indicadores no válidos de lo que pretenden medir, por violar el derecho individual a la intimidad, por ser injustas tanto con los estudiantes privilegiados como con los de situación desventajosa, y por impulsar hábitos de estudio deficientes y prácticas sociales y económicas no éticas. El interés mostrado en la legislación sobre veracidad en la evaluación fue indicativo de la exigencia de que la industria de la evaluación se vuelva más abierta y responsable hacia el público. También ha sido causa de preocupación con respecto a la evaluación de capacidades el declive anual de las calificaciones en la SAT y en otras pruebas de habilidad aplicadas nacionalmente, así como los efectos de la asesoría y de las diferencias de género y étnicas en las calificaciones de prueba. La legislación y los litigios sobre derechos civiles y oportunidades de trabajo equitativas han dado origen a la reglamentación sobre el uso de pruebas en las empresas y la industria. Los lineamientos federales para los procedimientos de selección de empleados describen las características que deberán tener las pruebas y otras medidas a fin de considerarse técnicas aceptables y válidas para la selección y colocación de empleados. El problema de la imparcialidad en las pruebas para los grupos minoritarios y en desventaja condujo a nuevas definiciones de imparcialidad. Los asuntos legales y técnicos resultantes de la consideración de los conceptos de imparcialidad y predicción diferencial han alertado a los psicólogos profesionales, a los jefes de personal y al público en general sobre la necesidad de un uso más responsable de las pruebas y otros procedimientos de evaluación. 264 Aplicaciones y problemas en las pruebas de habilidad CAPÍTULO ONCE P R E G U N TA S Y A C T I V I D A D E S 1. Haga una lista de los argumentos a favor y en contra de la evaluación de la aptitud de (a) estudiantes de bachillerato, (b)candidatos a maestros de escuela y (c) maestros con experiencia. 2. Discuta objeciones específicas contra las pruebas estandarizadas en general y contra las pruebas de opción múltiple en particular. 3. Describa las críticas de la SAT y las respuestas a estas críticas por parte del Consejo de Exámenes de Admisión a la Universidad y el Servicio de Evaluación Educativa. 4. ¿Por qué podría la legislación sobre veracidad en la evaluación propiciar que los maestros enseñen para la prueba? 5. Analice la legislación establecida por el Congreso de Estados Unidos y los fallos de la Suprema Corte con respecto a la evaluación en el trabajo, empezando con el Título VII del Acta de 1964 sobre Derechos Civiles. 6. La imparcialidad en una prueba de aprovechamiento se define como “la medida en que los reactivos de una prueba constituyen una muestra representativa de lo que saben los examinados”, mientras que la imparcialidad en una prueba de habilidad se define como “la medida en que las calificaciones de una prueba son capaces de predecir igualmente el desempeño de criterios de distintos grupos”. Sin embargo, Thorndike sostenía que las pruebas son justas si “las calificaciones aprobatorias [de las pruebas se] establecen en niveles que... califiquen a los candidatos de dos grupos en proporción con la fracción de los dos grupos que alcanza un criterio de desempeño específico”. ¿Por qué existen distintas definiciones de imparcialidad en las pruebas, y qué implican tales definiciones? 7. Remítase a las 30 calificaciones aparejadas de la tabla A.2 en el apéndice A. Suponga que X es la calificación de una prueba de selección de empleo y Y la clasificación de desempeño en el trabajo. Suponga también que las 30 calificaciones se obtuvieron de un grupo mayoritario de aspirantes al puesto, mientras que las siguientes 20 calificaciones aparejadas corresponden a un grupo minoritario de candidatos. X Y X Y X Y X Y 40 62 40 52 36 64 48 32 40 31 34 48 56 48 24 41 44 64 36 54 52 42 18 46 64 46 38 26 34 65 50 32 68 60 44 39 30 42 60 48 Ahora suponga que 50% de los candidatos del grupo mayoritario, 25% de los del grupo minoritario, y 40% de todos los aspirantes realizan el trabajo satisfactoriamente (Y = 50 o mayor). ¿Es justa la prueba de acuerdo con la definición tradicional de imparcialidad? ¿Según la definición de Thorndike? ¿Para la definición de Cole? ¿Cuáles son los porcentajes de falsos positivos y de falsos negativos de cada grupo, y cómo afectan la imparcialidad de la prueba? 8. Investigue acerca de escuelas y cursos de asesoría de pruebas, así como sobre los materiales de asesoría de pruebas publicados que estén disponibles en su área geográfica. Intente localizar a seis o más estudiantes que hayan pagado por recibir asesoría o preparación para la SAT, la GRE o cualquier otra prueba aplicada a nivel nacional. Pregúnteles si la asesoría les ayudó a mejorar sus calificaciones en la prueba. ¿Qué evidencias mencionaron para demostrar los efectos benéficos de tal asesoría? CAPÍTULO DOCE INTERESES VOCACIONALES Las calificaciones de las pruebas de inteligencia y de habilidades especiales figuran entre las mejores formas de pronosticar el éxito educativo y ocupacional. Tales pruebas son medidas del desempeño máximo, en cuanto a que indican lo que una persona es capaz de lograr en condiciones óptimas. En general, los cuestionarios e inventarios de preferencias y otras variables afectivas contribuyen menos que las medidas cognoscitivas a pronosticar el éxito en la escuela y el trabajo, pero son muy útiles en la asesoría vocacional y educativa. Estas medidas de desempeño típico a menudo se suman en forma significativa a la información obtenida de medidas previas de habilidad y desempeño. Una desventaja de los instrumentos de evaluación afectiva es que la mayoría no son tan objetivos y, por ende, tan confiables como las pruebas cognoscitivas. Incluso es objeto de debate que los cuestionarios, inventarios de informes autodirigidos y otros instrumentos afectivos de medición merecen el nombre de pruebas. No obstante, muchos instrumentos afectivos tienen una confiabilidad muy respetable, validez apreciable para ciertos propósitos y otras características de una buena prueba. Tres variables afectivas que han recibido una gran cantidad de atención por parte de la investigación son los intereses, las actitudes y los valores. Las medidas de intereses son el tema del presente capítulo y las medidas de actitudes y valores se consideran en el capítulo 13. Los capítulos 14 a 18 completan nuestro estudio sobre las medidas afectivas con una revisión de varios tipos de procedimientos e instrumentos de evaluación de la personalidad. FUNDAMENTOS DE LA MEDICIÓN DE LOS INTERESES La información sobre los intereses de una persona, o las preferencias por ciertos tipos de actividades y objetos, pueden obtenerse de diversas maneras. El método más directo, simplemente preguntar a alguien qué le interesa, tiene sus escollos. Por ejemplo, las personas con frecuencia tienen poco conocimiento sobre sus intereses vocacionales o sobre lo que conllevan las ocupaciones en particular. Sin embargo, en ocasiones estos intereses expresados son mejores pronosticadores que la información obtenida en forma menos directa y no deben pasarse por alto en situaciones de consejería vocacional. Los resultados de una amplia investigación realizada por Flanagan, Tiedeman y Willis (1973) mostraron, por ejemplo, que varios grupos ocupacionales eran más dispares en sus intereses expresados que en sus habilidades cognoscitivas. Por ejemplo, estudiantes de ingeniería obtuvieron calificaciones mucho mayores al promedio en cuanto a intereses mecánico-técnicos e intereses en las ciencias físicas, mientras que estudiantes de leyes obtuvieron calificaciones más altas en cuanto a intereses por el servicio público (política), actividades literario-lingüísticas, negocios y ventas. 265 266 CAPÍTULO DOCE Intereses vocacionales Otros métodos para determinar los intereses incluyen observaciones del comportamiento tales como la participación en diversas actividades, inferir los intereses de una persona a partir de su conocimiento de terminología especial u otra información sobre ocupaciones específicas, y aplicar uno de entre las docenas de inventarios de intereses disponibles.1 Estos cuatro métodos de la medición del interés —pedir que se expresen los intereses, deducir los intereses a partir del comportamiento observado, inferir los intereses a partir del desempeño en pruebas de habilidades y determinar los intereses en inventarios de lápiz y papel— son aplicables a la evaluación de los grupos de intereses básicos descritos por Super y Crites (1962). Estos ocho grupos de interés son: científico, seguridad social, literario, material, sistemático, de contacto, expresión estética, e interpretación estética. Historia y escenario actual Empezando con el trabajo de E. L. Thorndike (1912) y otros, la investigación sobre intereses no se ha limitado a los contextos aplicados; se han realizado muchos estudios sobre los orígenes y la dinámica de los intereses. No obstante, los métodos estandarizados de medición de intereses se desarrollaron inicialmente con propósitos de asesoría y selección vocacional. James Miner tiene el crédito de haber llevado a cabo el primer intento sistemático por diseñar medidas de intereses vocacionales relacionadas con el criterio y validadas por contenido. Un cuestionario de intereses elaborado por Miner en 1915 fue el estímulo para celebrar un seminario histórico sobre medición de intereses en el Instituto Carnegie de Tecnología en 1919 y condujo a la construcción de inventarios de intereses vocacionales estandarizados. Uno de los participantes en el seminario fue E. K. Strong Jr., quien, impulsado por el éxito de uno de sus estudiantes de doctorado (K. Cowdery) al diferenciar entre ingenieros, abogados y médicos con base en sus intereses, amplió estos esfuerzos al iniciar un programa de investigación para diferenciar entre personas de muchas vocaciones distintas con base en sus intereses (vea Donnay, 1997). La investigación de Strong y sus alumnos condujo al desarrollo del Formulario de Intereses Vocacionales para Varones de Strong y de un instrumento paralelo para mujeres a finales de la década de 1920 y en la de 1930. Otros acontecimientos sobresalientes en la historia de la medición de intereses fueron la publicación en 1939 del Registro de Preferencias Vocacionales de Kuder y la investigación sobre medidas objetivas de intereses realizada por los psicólogos del Cuerpo de la Fuerza Aérea de Estados Unidos durante la Primera Guerra Mundial. Muchos inventarios de intereses se publicaron después de la guerra, pero las modificaciones de los instrumentos originales de Strong y de Kuder siguieron siendo las más populares. En la actualidad se aplican inventarios de intereses por varias razones en diversos ambientes. Tradicionalmente, estos instrumentos se han usado sobre todo en contextos de asesoría ocupacional y educativa en los niveles de bachillerato, universidad y rehabilitación vocacional. También se han usado ampliamente en la investigación sobre diferencias individuales y de grupo, tanto en la investigación básica para determinar el carácter, los orígenes y efectos de los intereses como en la investigación aplicada con fines de asesoría, selección y colocación vocacional. Otras aplicaciones de los inventarios de intereses incluyen asistencia en la toma de decisiones sobre pasatiempos, a mediados de una carrera profesional, prerretiro y jubilación (Hansen y Campbell, 1985). Los asesores académicos y vocacionales y los investigadores psicológicos son, sin duda, los mayores grupos de usuarios de inventarios de intereses vocacionales, pero los consultores industria1Un indicador preliminar del interés por un objeto, persona o situación en particular puede obtenerse tam- bién mediante procedimientos fisiológicos como la medición pupilométrica (Hess, 1965) o la falométrica (Harris y Rice, 1996; Pithers y Laws, 1995). FUNDAMENTOS DE LA MEDICIÓN DE LOS INTERESES 267 les, los administradores de desarrollo de carreras y los practicantes de recursos humanos también los encuentran útiles. Desarrollo de intereses ¿De dónde provienen los intereses? ¿Cómo se desarrollan y cambian con el tiempo? Los intereses vocacionales de los niños pequeños tienen, por lo general, un elemento de fantasía. Los niños fantasean sobre ser glamorosos, talentosos, heroicos o aventureros, pero tales ilusiones pueden tener poco que ver con sus habilidades o conocimiento sobre lo que conllevan las ocupaciones en particular. Normalmente, los niños evolucionan de una etapa de fantasía a otra de transición hacia finales de la niñez y principio de la adolescencia, y por último llegan a una etapa más realista en el desarrollo de los intereses vocacionales durante la adolescencia y la primera juventud. Aunque los intereses vocacionales no se vuelven muy específicos, realistas ni estables durante el bachillerato y más adelante, la orientación general de los intereses de una persona puede notarse muy pronto en la vida. Los niños pequeños tienden a participar en actividades que consideran apropiadas y evitan las que consideran inadecuadas para sí mismos (Tyler, 1964). También hacen distinciones entre los papeles de las personas y los de la vida. De acuerdo con Anne Roe y sus coautores (Roe y Klos, 1969; Roe y Siegelman, 1964), los intereses vocacionales y, por ende, las elecciones de carrera provienen de los tipos de relaciones que los niños tienen con su familia. Un ambiente familiar cálido, de aceptación, tiende a crear una orientación hacia las “personas”, mientras que una atmósfera fría, reservada, con mayor probabilidad origina una orientación hacia los “objetos” o las “cosas”. Desde una perspectiva de aprendizaje social, los intereses se consideran como resultado de un refuerzo diferencial al participar en determinadas actividades, además de la imitación y los modelos de personas que son importantes para el individuo. El papel de la herencia El ambiente afecta, desde luego, los intereses en un grado considerable, pero los hallazgos de un estudio realizado por Grotevant, Scarr y Weinberg (1977) sugieren que los niños nacen con una predisposición hereditaria a interesarse por ciertas cosas. En este estudio de 114 familias biológicamente relacionadas, se descubrieron muchas correlaciones significativas entre las calificaciones de los niños y los padres en un inventario de intereses. En contraste, se hallaron pocas correlaciones de importancia entre los intereses de los padres y sus hijos adoptivos en 109 familias. Los niños biológicamente relacionados eran más similares en sus patrones de interés que los niños que no tenían ningún parentesco, y los intereses de parejas de niños del mismo sexo eran más similares que los de sexo opuesto. Los resultados de un estudio Minnesota muy difundido sobre gemelos idénticos criados en forma separada también indicaron que las correlaciones entre los intereses de gemelos idénticos son mayores que entre los intereses de otros pares familiares (Bouchard et al., 1983; vea también Betsworth et al., 1994, Maloney, Bouchard y Segal, 1991; Waller, Lykken y Tellegen, 1995). Debido a que los gemelos idénticos tienen idénticas herencias, se ha interpretado que estos descubrimientos demuestran la influencia de la herencia en los intereses. En general, las pruebas de estudios de comportamiento genéticos demuestran que los intereses vocacionales están influidos por la genética; aproximadamente, de 40 a 50% de la varianza en intereses vocacionales es atribuible a la varianza genética. De acuerdo con Lykken, Bouchard, McGue y Tellegen (1993), la influencia genética funciona mediante la interacción gen-ambiente, en cuanto a que las personas con determinada constitución genética están expues- 268 CAPÍTULO DOCE Intereses vocacionales tas a experiencias y actividades particulares. Asimismo, es más probable que los intereses vocacionales sean consecuencia de influencias ambientales no compartidas —exclusivas del individuo—, más que de influencias ambientales compartidas con otras personas (Betsworth et al., 1994; Maloney et al., 1991). Una creencia común es que el comportamiento de los padres ejerce más influencia que la herencia al moldear los intereses de los niños, pero Sandra Scarr y sus colegas concluyeron que lo que hacen los padres aparentemente tiene poco efecto en los intereses de los hijos (Grotevant, Scarr y Weinberg, 1977). Más que intentar forzar o guiar a los niños hacia ciertas áreas de interés, estos investigadores recomendaron a los padres que proporcionen a sus hijos una amplia variedad de experiencias y modelos. Los niños tendrán así una mejor oportunidad de desarrollar las predisposiciones o inclinaciones que posean naturalmente hacia actividades específicas. Si se acepta que la gente tiende a interesarse por actividades que realiza bien y que la herencia desempeña un papel significativo en determinar las habilidades y el temperamento, es plausible que la herencia afecte los intereses indirectamente mediante las habilidades, el temperamento y la estructura física. Por ejemplo, una persona con una base genéticamente alta de nivel de actividad, pero con un nivel de inteligencia bajo, probablemente tendrá poco interés en convertirse en un físico teórico que dedica la mayor parte de su tiempo a reflexionar sobre problemas científicos. Por otra parte, una persona temperamentalmente activa y físicamente capaz puede mostrar mayor interés por convertirse en atleta profesional. Estabilidad de intereses Los patrones individuales de gustos y rechazos empiezan a desarrollarse mucho antes de que el individuo haya tenido experiencias con ocupaciones específicas. Estos primeros intereses son relativamente inestables, pero para cuando un niño llega al noveno grado, y casi con seguridad hacia el undécimo grado, sus preferencias por tipos específicos de actividades han quedado bastante bien determinadas. Los estudios longitudinales que abarcan dos o más décadas han demostrado que los intereses son sumamente estables hacia el final de la adolescencia (Hansen, 1988; Strong, 1955). Usando datos de archivo del Inventario de Intereses de Strong, Hansen (1988) encontró que los intereses tanto de hombres como de mujeres eran muy estables a lo largo de extensos periodos, hasta de 50 años. Por otra parte, los intereses de una persona pueden cambiar incluso en la edad adulta y debe tenerse especial cuidado al interpretar los resultados de inventarios de interés aplicados antes del noveno grado (Crite, 1969). VALIDEZ DE LOS INVENTARIOS DE INTERESES Debido a la importancia de la guía académica y vocacional, los inventarios de intereses comercialmente disponibles han sido casi tan populares como las pruebas de inteligencia general y de habilidades especiales. Sin embargo, en comparación con las mediciones cognoscitivas, los inventarios de intereses no pronostican con mucha precisión los grados escolares ni el desempeño ocupacional. En promedio, las calificaciones de los inventarios de intereses se correlacionan en alrededor de .20 a .30 con las notas escolares, mientras que las calificaciones de las pruebas de inteligencia general se correlacionan en alrededor de .50 con el mismo criterio. Las calificaciones de los inventarios de intereses contribuyen a pronosticar la selección ocupacional, la persistencia y la satisfacción, pero usualmente el éxito en el trabajo está más relacionado con la capacidad que con los intereses (Campbell y Hansen, 1981; Kuder, 1963). Como es más proba- VALIDEZ DE LOS INVENTARIOS DE INTERESES 269 ble que las personas eviten las ocupaciones que les desagradan que se incorporen a ocupaciones que les gustan, en los inventarios de intereses las calificaciones bajas tienden a pronosticar más lo que una persona evita hacer de lo que las calificaciones altas indican lo que se inclina a hacer (Dolliver, Irvin y Bigley, 1972; Zytowski, 1976). Simulación Como también es cierto de las pruebas de habilidades, la validez de los inventarios de intereses al pronosticar la elección ocupacional se ve afectada por factores presentes al responder las pruebas y por características personales. El que sean o no mentiras intencionales, las respuestas a los inventarios de intereses pueden no indicar los verdaderos intereses de la gente. En los inventarios de intereses ciertamente puede fingirse. Bridgman y Hollenbeck (1961) descubrieron, por ejemplo, que al indicarles inventar sus respuestas, estudiantes universitarios llenaron un inventario de intereses (la Forma D de Kuder) de tal modo que sus respuestas fueron muy similares a los de personas empleadas en ocupaciones específicas. Simplemente porque los inventarios de intereses pueden simularse no necesariamente significa que eso ocurrirá. Estos instrumentos son menos útiles cuando es desventajoso dar informes falsos, lo que es más probable cuando se usan las calificaciones para propósitos de selección educativa o laboral. Sin embargo, responder con falsedad a un inventario de intereses es mucho menos probable cuando se aplica con fines de consejería académica y vocacional. Incluso cuando la gente al parecer pudiera beneficiarse de dar respuestas falsas en un inventario de intereses, no siempre lo hace. Por ejemplo, el Inventario de Intereses Vocacionales de Strong (SVIB) se usó durante muchos años en seleccionar a individuos para capacitación avanzada en la marina estadounidense. En tales circunstancias podría suponerse que la simulación sería un problema. Sin embargo, esto no resultó ser el caso (Abrahams, Neumann y Gilthens, 1971). Las calificaciones promedio de un grupo de jóvenes que respondió el SVIB como parte de la solicitud de beca para la marina fueron muy similares a las que obtuvieron en bachillerato un año antes o en la universidad un año después de solicitar una beca. Además, las correlaciones entre los perfiles de calificación de interés obtenidas en la situación de solicitud de beca y las obtenidas en condiciones de evaluación de rutina estuvieron en el .90. Podría haber sido ventajoso para los aspirantes producir un resultado más favorable mintiendo, pero al parecer no lo hicieron de ninguna manera perceptible. Grupos de respuesta Aunque no es lo mismo que la simulación intencional, la tendencia a responder a la estructura en lugar de al contenido de los reactivos de prueba (grupos de respuesta) también pueden dar como resultado calificaciones imprecisas en los inventarios de intereses. De particular preocupación son los grupos de respuesta de aceptación o de acuerdo más que de disentimiento cuando no hay certeza, y de conveniencia social o dar una respuesta socialmente más conveniente. Una técnica diseñada para reducir estos grupos de respuesta es el formato de elección forzosa. Los reactivos con este formato consisten en dos o más afirmaciones descriptivas que son iguales en cuanto a conveniencia social, pero distintas en contenido y validez. En un reactivo de intereses de elección forzada, se pide a los examinados indicar cuál de las actividades descritas en tres o cuatro opciones les gustaría más (M) hacer y cuál les gustaría menos (m) hacer (vea la figura 12.1). Desafortunadamente, en ocasiones a las personas les parece raro y frustrante el formato de elección forzada. 270 Intereses vocacionales CAPÍTULO DOCE Visit art gallery Visitar unaangalería de arte M Browse in abiblioteca library Curiosear en una M Visit a museum Visitar un museo Coleccionar autógrafos Collect autographs L M L L Collectmonedas coins Coleccionar Coleccionar piedras Collect stones L M Muestra de reactivos del Estudio de Intereses Generales de Kuder. FIGURA 12.1 (Tomada del Estudio de Intereses Generales de Kuder, Forma E, Hoja de respuestas. Reproducida con autorización del editor, National Career Assessment Services, Inc.® Todos los derechos reservados.) Estatus socioeconómico Un factor demográfico que está significativamente relacionado con las respuestas a los inventarios de interés vocacional, y por lo tanto con su validez, es la situación socioeconómica de quien responde. Las personas de clase trabajadora no siempre tienen la oportunidad de cultivar sus intereses o capacitarse y participar en ocupaciones que sean atractivas para ellas. Para estos individuos, la seguridad económica es un factor más importante en las decisiones sobre el empleo que satisfacer sus intereses. Ésta es una de las razones por las que, durante muchos años, los psicólogos mostraron poca inclinación a construir inventarios para medir los intereses vocacionales de las personas que planeaban incorporarse a ocupaciones que no requerían capacitación o que requerían capacitación parcial o incluso total. Como el dinero parecía ser un determinante ocupacional más importante que satisfacer intereses vocacionales, el desarrollo de inventarios de interés para ocupaciones no profesionales se consideró improductivo. Como consecuencia, los primeros inventarios de interés se diseñaron casi por completo para usarse en la asesoría de jóvenes que estaban planeando incorporarse a una profesión. La situación cambió en cierta medida después de la Segunda Guerra Mundial, pero el principal foco de los inventarios de interés permaneció en las profesiones. En el extremo superior de la escala socioeconómica están los niños de familias adineradas. Ellos pueden tener fuertes intereses vocacionales, pero las expectativas y tradiciones familiares y sociales con frecuencia son más importantes que los intereses de los individuos para determinar las decisiones concernientes a sus carreras. Los hijos de familias acaudaladas pueden no estar autorizados para hacer lo que quieran, ya sea debido a que el estatus o la remuneración económica de las ocupaciones en que se interesan no son lo bastante altos o porque los padres esperan que sus hijos sigan sus pasos o hasta superen sus logros. Por otra parte, los jóvenes de clase media en ascenso tienen más probabilidades de intentar mejorar sus oportunidades de éxito ingresando en las ocupaciones donde tienen fuertes intereses, tal vez aunque no posean las habilidades que se requieren. Por esta razón, los inventarios de intereses en general han pronosticado mejor las elecciones ocupacionales para las personas de clase media que para las de clase alta o clase trabajadora (McArthur y Stevens, 1955). En cualquier caso, muchas de las ocupaciones del actual campo de trabajo no satisfacen los intereses de las personas que las realizan (Warnath, 1975). Así, ¿qué hacen las personas cuando descubren grandes discrepancias entre lo que les gustaría hacer y lo que deben hacer a fin de sobrevivir? En la mayoría de los casos, más que INVENTARIOS DE INTERESES DE STRONG 271 arriesgar su seguridad en una inexorable búsqueda en pos de sus intereses y aspiraciones vocacionales, es mucho más probable que adapten sus aspiraciones para acercarse más a lo que de hecho les es posible alcanzar (Gottfredson y Becker, 1981). INVENTARIOS DE INTERESES DE STRONG Dos de los primeros y más notables inventarios para medir los intereses vocacionales fueron diseñados por E. K. Strong, Jr. y G. F. Kuder. Como resultado de una investigación realizada durante la década de 1920, Strong descubrió significativas diferencias consistentes en cuanto a los informes sobre sí mismos de lo que a las personas les gustaba o disgustaba. Decidió diseñar un inventario para evaluar las diferencias individuales en intereses, empezando con la elaboración de una variedad de reactivos referentes a las preferencias por ocupaciones específicas, materias escolares, diversiones, actividades y tipos de personas. Estos reactivos, además de una escala para clasificar las habilidades y características individuales, se aplicaron entonces a grupos de hombres empleados en ocupaciones específicas. Al comparar las respuestas de los sujetos ubicados por grupos ocupacionales con las de los hombres en general, Strong pudo desarrollar varias docenas de escalas ocupacionales consistentes en reactivos que una cantidad considerable de hombres de ocupaciones específicas respondió de manera distinta a la de los hombres en general. Este Formulario de Intereses Vocacionales para Varones de Strong fue la primera medición de intereses estandarizada y distribuida comercialmente. Varios años más tarde, cuando quedó claro que los intereses de las mujeres no se limitaban al trabajo de oficina, a la enseñanza elemental, a la enfermería y a las labores domésticas, se diseñó un instrumento paralelo, el Formulario de Intereses Vocacionales para Mujeres de Strong. Por varias razones, incluyendo el deseo de acatar el Título IX del Acta de 1964 sobre Derechos Civiles (estadounidense) y de refutar las acusaciones de sexismo, las formas para hombres y mujeres del Formulario de Intereses Vocacionales®2 se combinaron en 1974 en un solo instrumento, el Inventario de Intereses de Strong-Campbell (SCII). Se realizaron esfuerzos por eliminar el sesgo hacia el sexo en el contenido de los reactivos y las etiquetas ocupacionales y por crear un inventario más independiente del género. Sin embargo, se reconoció que el sesgo hacia el sexo se había reducido aunque no eliminado del todo del SCII. Formato del Inventario de Intereses de Strong La última edición del instrumento originado por Strong es el Inventario de Intereses de Strong® (SII) (CPP).3 Este inventario consta de 317 reactivos agrupados en las siguientes ocho partes: I. Ocupaciones. Cada uno de los 135 títulos se responde con (A) agrado, (I) indiferencia o (D) desagrado. II. Materias escolares. Cada una de las 39 materias escolares se responde con (A) agrado, (I) indiferencia o (D) desagrado. III. Actividades. Cada una de las 46 actividades ocupacionales generales se responde con (A) agrado (I) indiferencia o (D) desagrado. 2Formulario de Intereses Vocacionales de Strong y SVIB son marcas registradas propiedad de la Imprenta de la Universidad de Stanford. 3Inventario de Intereses de Strong y SII son marcas registradas propiedad de la Imprenta de la Universidad de Stanford. 272 CAPÍTULO DOCE Intereses vocacionales IV. Pasatiempos. Cada una de las 29 diversiones o pasatiempos se responde con (A) agrado, (I) indiferencia o (D) desagrado. V. Tipos de personas. Cada uno de los 20 tipos de personas se responde con (A) agrado, (I) indiferencia o (D) desagrado. VI. Preferencias entre dos actividades. Para cada uno de los 30 pares de actividades se indica la preferencia por la actividad de la izquierda (I), por la de la derecha (D) o por ninguna de las dos (=). VII. Sus características. Cada una de las 12 características personales se responde con Sí, ? o No, dependiendo de si describen o no a la persona. VIII. Preferencia en el mundo del trabajo. Para cada uno de los 6 pares de ideas, datos y cosas, se indica la preferencia por el reactivo de la izquierda (I), por el de la derecha (D) o por ninguno de los dos (=). Aunque los reactivos, el formato y el procedimiento de aplicación del Inventario de Intereses de Strong permanecieron básicamente sin cambios con respecto a la edición anterior, el perfil se amplió para incluir 211 escalas ocupacionales (102 pares con distintas escalas para hombres y mujeres y 7 escalas para ocupaciones representadas por un solo género). Calificación El SII se califica sólo por computadora y los procedimientos de ponderación y calificación de reactivos son un secreto comercial. Los inventarios resueltos se envían a Consulting Psychologist Press para su calificación, elaboración de perfiles e interpretación, o bien pueden calificarse e interpretarse por medio de programas de cómputo que se venden a los usuarios.4 El informe del Perfil Strong muestra las calificaciones del examinando en cientos de escalas; también están disponibles otros tipos de informes, tales como el Informe Interpretativo de Strong, que proporciona información gráfica detallada sobre los intereses ocupacionales del examinando y descripciones a la medida sobre las mejores ocupaciones a elegir. El SII se califica en cinco grupos de mediciones: Índices administrativos, Temas ocupacionales generales, Escalas de intereses básicos, Escalas ocupacionales y Escalas de estilo personal. Antes de intentar interpretar las calificaciones de una persona en las últimas cuatro categorías, es preciso verificar las calificaciones de tres índices: el Índice de respuestas totales; los Índices de porcentaje de “Agrado”, “Indiferencia” y “Desagrado”; y el Índice de respuestas no frecuentes. El Índice de respuestas totales no debe caer por debajo de 300 (de entre 317); los Índices de Porcentaje de “Agrado”, “Indiferencia” y “Desagrado” no deberán quedar fuera del rango de 14 a 60; y el Índice de respuestas no frecuentes no debe ser menor que cero (Harmon, Hansen, Borgen y Hammer, 1994). Los Índices administrativos aparecen en la parte inferior de la página 6 de las seis páginas de “Instantánea: un resumen de resultados”. Como se muestra en la figura 12.2, el SII se califica en seis temas ocupacionales generales. Estos seis temas, que se describen en la tabla 12.1, se basan en las seis categorías de las “personalidades vocacionales” de J. L. Holland (1985): Realista (R), Investigadora (I), Artística (A), Social (S), Emprendedora (E) y Convencional (C). El estándar del examinado de la calificación 4El SII también está disponible mediante Internet para personas calificadas que ya tienen contratada una cuenta con Consulting Psychologist Press. Página 2 de las calificaciones de muestra del perfil Instantáneo en el Inventario de Intereses de Strong. FIGURA 12.2 (Modificado y reproducido con permiso especial del editor, Consulting Psychologist Press, Inc., Palo Alto, California 94303, a partir de Aplicaciones y Guía Técnica del Inventario de Intereses de Strong del Inventario de Intereses de Strong de los Formularios de Intereses Vocacionales de Strong, Forma T31.7. Lenore W. Harmon, Jo-Ida C. Hansen, Fred H. Borgen y Allen L. Hammer. Derechos reservados 1933, 1938, 1945, 1946, 1966, 1968, 1974, 1981, 1985, 1994, por el Consejo de Fiduciarios de la Leland Stanford Junior University. Todos los derechos reservados. Impreso con autorización de la Imprenta de la Universidad de Stanford, Stanford, California 94305.) 273 274 CAPÍTULO DOCE TABLA 12.1 Intereses vocacionales Descripciones de los tipos RIASEC Realista. Las personas de e