(PDF) LIBRO DE PSICOMETRIA | Andrea Zambrano - Academia.edu
UNDÉCIMA EDICIÓN TESTS PSICOLÓGICOS Y EVALUACIÓN LEWIS R. AIKEN Pepperdine University TRADUCCIÓN: María Elena Ortiz Salinas Universidad Nacional Autónoma de México Gabriela Montes de Oca Vega Traductora profesional REVISIÓN TÉCNICA: Rubén W. Varela Domínguez Universidad Nacional Autónoma de México Instituto Mexicano de Evaluación y Consejería Datos de catalogación bibliográfica AIKEN, LEWIS R. Tests psicológicos y evaluación. Undécima edición PEARSON EDUCACIÓN, México, 2003 ISBN: 970-26-0431-1 Área: Universitarios Formato: 18.5 × 23.5 cm Páginas: 544 Authorized translation from the English language edition, entitled Psychological Testing and Assessment, Eleventh Edition, by Lewis R. Aiken, published by Pearson Education Group, Inc., publishing as ALLYN AND BACON, Copyright © 2003. All rights reserved. Traducción autorizada de la edición en idioma inglés, titulada Psychological Testing and Assessment, Eleventh Edition, por Lewis R. Aiken publicada por Pearson Education Group, Inc., publicada como ALLYN AND BACON, Copyright © 2003. Todos los derechos reservados. Esta edición en español es la única autorizada. Edición en español Editor: Leticia Gaona Figueroa e-mail: leticia.gaona@pearsoned.com Supervisor de desarrollo: Diana Karen Montaño González Supervisor de producción: José D. Hernández Garduño Edición en inglés Executive Editor: Carolyn Merrill Editorial Assistant: Kate Edwards Marketing Manager: Wendy Gordon Editorial Production Service: Whitney Acres Editorial Manufacturing Buyer: JoAnne Sweeney Cover Administrator: Linda Knowles UNDÉCIMA EDICIÓN, 2003 D.R. © 2003 por Pearson Educación de México, S.A. de C.V. Atlacomulco 500-5to. piso Industrial Atoto 53519 Naucalpan de Juárez, Edo. de México E-mail: editorial.universidades@pearsoned.com Cámara Nacional de la Industria Editorial Mexicana Reg. Núm. 1031 Prentice Hall es una marca registrada de Pearson Educación de México, S.A. de C.V. Reservados todos los derechos. Ni la totalidad ni parte de esta publicación pueden reproducirse, registrarse o transmitirse, por un sistema de recuperación de información, en ninguna forma ni por ningún medio, sea electrónico, mecánico, fotoquímico, magnético o electroóptico, por fotocopia, grabación o cualquier otro, sin permiso previo por escrito del editor. El préstamo, alquiler o cualquier otra forma de cesión de uso de este ejemplar requerirá también la autorización del editor o de sus representantes. ISBN 970-26-0431-1 Impreso en México. Printed in Mexico. 1 2 3 4 5 6 7 8 9 0 - 06 05 04 03 Cualquier cosa que existe, existe en alguna cantidad. (Thorndike, 1918) Cualquier cosa que existe en cantidad, puede medirse. (McCall, 1939) CONTENIDO Prefacio xiii CAPÍTULO UNO Temas históricos y profesionales 1 PERSPECTIVA HISTÓRICA 1 LOS TESTS COMO UNA PROFESIÓN 6 ÉTICA Y NORMAS DE LOS TESTS 10 RESUMEN 15 PREGUNTAS Y ACTIVIDADES 16 CAPÍTULO DOS Diseño y elaboración de tests 18 PLANEACIÓN DE UN TEST 18 PREPARACIÓN DE LOS REACTIVOS DEL TEST 24 FORMACIÓN Y REPRODUCCIÓN DE UN TEST 32 PRUEBAS ORALES 37 PRUEBAS DE DESEMPEÑO 38 RESUMEN 40 PREGUNTAS Y ACTIVIDADES 40 CAPÍTULO TRES Administración, aplicación y calificación de los tests 43 APLICACIÓN DE LOS TESTS 43 CALIFICACIÓN DE LOS TESTS 52 RESUMEN 59 PREGUNTAS Y ACTIVIDADES 61 v vi CONTENIDO CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas 62 ANÁLISIS DE REACTIVOS 62 ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 73 IGUALACIÓN DE LAS PRUEBAS 81 RESUMEN 82 PREGUNTAS Y ACTIVIDADES 83 CAPÍTULO CINCO Confiabilidad y validez 85 CONFIABILIDAD 85 VALIDEZ 94 UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 100 RESUMEN 105 PREGUNTAS Y ACTIVIDADES 106 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas 108 FUNDAMENTOS DE LOS TESTS DE APROVECHAMIENTO 108 TIPOS Y SELECCIÓN DE LOS TESTS DE APROVECHAMIENTO ESTANDARIZADOS 116 BATERÍAS DE TESTS DE APROVECHAMIENTO 120 TESTS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 122 RESUMEN 130 PREGUNTAS Y ACTIVIDADES 132 CAPÍTULO SIETE Tests de inteligencia 135 HISTORIA, DEFINICIONES Y TEORÍAS 135 TESTS INDIVIDUALES DE INTELIGENCIA 141 CONTENIDO vii TESTS DE INTELIGENCIA COLECTIVOS 154 RESUMEN 162 PREGUNTAS Y ACTIVIDADES 163 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales 165 RETARDO MENTAL, SUPERDOTADOS Y CREATIVIDAD 165 INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 173 FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 183 RESUMEN 188 PREGUNTAS Y ACTIVIDADES 190 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica 192 EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 192 DISCAPACIDADES DE APRENDIZAJE 198 TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 201 RESUMEN 209 PREGUNTAS Y ACTIVIDADES 210 CAPÍTULO DIEZ Evaluación de habilidades especiales 212 CONCEPTOS Y CARACTERÍSTICAS DE LAS HABILIDADES ESPECIALES 212 HABILIDADES SENSORIO-PERCEPTIVAS Y PSICOMOTRICES 216 HABILIDAD MECÁNICA 220 HABILIDADES PARA TRABAJOS DE OFICINA Y LAS RELACIONADAS CON LA COMPUTACIÓN 224 HABILIDADES ARTÍSTICAS Y MUSICALES 225 BATERÍAS DE PRUEBAS DE APTITUDES MÚLTIPLES 227 viii CONTENIDO RESUMEN 236 PREGUNTAS Y ACTIVIDADES 238 CAPÍTULO ONCE Aplicaciones y problemas en las pruebas de habilidad 239 LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO 239 CRÍTICAS Y PROBLEMAS EN LOS TESTS DE HABILIDAD 244 OTROS TEMAS EN LOS TESTS EDUCATIVOS 253 PRUEBAS DE EMPLEO Y SESGO 259 RESUMEN 263 PREGUNTAS Y ACTIVIDADES 264 CAPÍTULO DOCE Intereses vocacionales 265 FUNDAMENTOS DE LA MEDICIÓN DE LOS INTERESES 265 VALIDEZ DE LOS INVENTARIOS DE INTERESES 268 INVENTARIOS DE INTERESES DE STRONG 271 INVENTARIOS DE INTERESES DE KUDER 276 INTERESES Y PERSONALIDAD 278 OTROS INVENTARIOS DE INTERESES CON PROPÓSITOS GENERALES Y ESPECIALES 284 UTILIZACIÓN DE LOS INVENTARIOS DE INTERESES EN LA CONSEJERÍA 287 RESUMEN 289 PREGUNTAS Y ACTIVIDADES 290 CAPÍTULO TRECE Actitudes, valores y orientaciones personales 294 MEDICIÓN DE ACTITUDES 294 MEDICIÓN DE VALORES 305 CONTENIDO ix ORIENTACIONES PERSONALES 307 RESUMEN 309 PREGUNTAS Y ACTIVIDADES 310 CAPÍTULO CATORCE Evaluación de la personalidad: orígenes, aplicaciones y problemas 313 PSEUDOCIENCIAS Y OTROS ANTECEDENTES HISTÓRICOS 313 TEORÍAS DE LA PERSONALIDAD 315 USOS Y ABUSOS DE LA EVALUACIÓN DE LA PERSONALIDAD 322 EVALUACIÓN CLÍNICA 326 OTRAS ÁREAS DE APLICACIÓN DE LA EVALUACIÓN DE LA PERSONALIDAD 328 PROBLEMAS Y CONTROVERSIAS EN LA EVALUACIÓN DE LA PERSONALIDAD 333 RESUMEN 339 PREGUNTAS Y ACTIVIDADES 340 CAPÍTULO QUINCE Observaciones y entrevistas 342 OBSERVACIONES 342 DATOS BIOGRÁFICOS 348 ENTREVISTAS 349 EVALUACIÓN Y ANÁLISIS DEL COMPORTAMIENTO 359 RESUMEN 361 PREGUNTAS Y ACTIVIDADES 362 CAPÍTULO DIECISÉIS Listas de verificación y escalas de calificación 364 CARACTERÍSTICAS DE LAS LISTAS DE VERIFICACIÓN 364 TIPOS Y EJEMPLOS DE LISTAS DE VERIFICACIÓN 368 x CONTENIDO ESTRATEGIAS PARA ELABORAR ESCALAS DE CALIFICACIÓN 373 TIPOS DE ESCALAS DE CALIFICACIÓN 374 PROBLEMAS CON LAS CALIFICACIONES 379 ESCALAS DE CALIFICACIÓN ESTANDARIZADAS 381 CLASIFICACIONES Q Y LA PRUEBA REP 382 RESUMEN 382 PREGUNTAS Y ACTIVIDADES 383 CAPÍTULO DIECISIETE Inventarios de personalidad 387 VERACIDAD, CONFIABILIDAD Y VALIDEZ 387 INVENTARIOS DE SÍNTOMAS Y DE UN SOLO CONSTRUCTO 389 INVENTARIOS DE CONTENIDO VALIDADO Y PUNTUACIÓN MÚLTIPLE 391 INVENTARIOS SOMETIDOS A ANÁLISIS FACTORIAL 393 INVENTARIO MULTIFÁSICO DE PERSONALIDAD DE MINNESOTA 396 OTROS INVENTARIOS DE PERSONALIDAD ADECUADOS AL CRITERIO 404 RESUMEN 409 PREGUNTAS Y ACTIVIDADES 410 CAPÍTULO DIECIOCHO Técnicas proyectivas 412 ELABORACIONES Y ASOCIACIONES DE PALABRAS 413 PRUEBAS DE MANCHAS DE TINTA 417 EL TAT Y VARIACIONES 420 OTRAS PRUEBAS DE APERCEPCIÓN 422 PROBLEMAS CON LAS TÉCNICAS PROYECTIVAS 423 PERSPECTIVAS PARA LA EVALUACIÓN DE LA PERSONALIDAD 424 RESUMEN 425 PREGUNTAS Y ACTIVIDADES 425 CONTENIDO xi APÉNDICE A: ESTADÍSTICA DESCRIPTIVA 428 ESCALAS DE MEDICIÓN 428 DISTRIBUCIONES DE FRECUENCIA 429 MEDIDAS DE TENDENCIA CENTRAL 433 PERCENTILES, DECILES Y CUARTILES 435 MEDIDAS DE VARIABILIDAD 435 CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE 437 REGRESIÓN MÚLTIPLE Y ANÁLISIS FACTORIAL 440 RESUMEN 445 PREGUNTAS Y ACTIVIDADES 446 APÉNDICE B: ÁREAS BAJO LA CURVA NORMAL 448 APÉNDICE C: DISTRIBUIDORES COMERCIALES DE MATERIAL DE EVALUACIÓN PSICOLÓGICA Y EDUCATIVA 451 APÉNDICE D: SITIOS WEB DE ORGANIZACIONES INTERESADAS EN LA EXAMINACIÓN Y EVALUACIÓN PSICOLÓGICA 457 Glosario 458 Respuestas a las actividades y preguntas cuantitativas 476 Referencias 482 Índice de autores 508 Índice temático 517 Índice de tests 524 PREFACIO Durante muchos años, los tests y la evaluación en psicología han sido objeto de crítica constante. En repetidas ocasiones se ha atacado el uso de los tests estandarizados, especialmente en contex- tos educativos y laborales. Ha habido numerosas demandas legales y juicios en los tribunales re- lacionados con las pruebas psicológicas, por lo que algunos estados de la Unión Americana han instaurado leyes sobre el uso y la reglamentación de los tests. Aunque puede ser justo criticar los métodos para evaluar a las personas y sus actividades, es indiscutible la necesidad de dichos mé- todos para evaluar, diagnosticar y predecir el comportamiento de los individuos en un mundo con una población de más de seis mil millones de personas. A pesar de las críticas provenientes tanto de profesionales de la psicología y la pedagogía como de otros ámbitos, la evaluación psi- cológica ha continuado expandiéndose y diversificándose. Como testimonio del dinamismo de los tests y la evaluación en psicología, se encuentran instrumentos nuevos, inventarios y escalas, aunados a los avances metodológicos en cuanto a la elaboración, aplicación, calificación e inter- pretación de instrumentos psicométricos. Son muchos los factores que han contribuido a este de- sarrollo, incluyendo la expansión de servicios y las oportunidades sociales hacia un segmento mayor de la población, siempre creciente, así como la necesidad de contar con métodos más efectivos para seleccionar, diagnosticar y ubicar a las personas en contextos laborales, educati- vos y clínicos. El desarrollo de los tests psicológicos durante las últimas décadas se ha facilitado por el progreso en el diseño y la programación computacional de alta velocidad. Desde que las compu- tadoras empezaron a estar disponibles comercialmente a mediados de la década de 1950, se han usado para calificar tests y analizar el desempeño tanto de individuos como de grupos. A partir de entonces las computadoras también se han utilizado para aplicar tests y otros instrumentos de evaluación, así como para interpretar sus resultados. Como consecuencia, los tests y otros dis- positivos psicométricos literalmente han reestructurado el campo de la evaluación psicológica, y sin duda continuarán haciéndolo en la medida en que lleguen a estar disponibles tecnologías y procedimientos más complejos. El aumento de la atención del público y de los profesionistas hacia la utilidad y las limi- taciones de los tests ha fomentado el deseo de que se incremente el cuidado con que se diseñan y distribuyen tanto los propios tests como otros materiales de evaluación similares. Asimismo, cada vez resulta más obvia y urgente la necesidad de una mejor capacitación entre los usuarios de los tests, y de una mayor conciencia del público y de los profesionales acerca de las conse- cuencias personales y sociales de las pruebas psicológicas en contextos educativos, clínicos, la- borales y empresariales. Los especialistas en psicometría, y otros expertos en tests y en la aplicación de pruebas, se preocupan porque estos instrumentos se diseñen y empleen no sólo prestando atención a sus características técnicas, sino también considerando las necesidades y los derechos de los individuos y de la sociedad en su conjunto. Estos asuntos se abordan en numerosas publi- caciones de organizaciones profesionales, tales como la American Psychological Association, la American Educational Research Association, la American Personnel and Guidance Association y el National Council in Measurement on Education. Consecuente con estas preocupaciones y propósitos, el principal objetivo de este libro de texto es, como lo ha sido desde que se publicó la primera edición hace más de 30 años, mejorar el conocimiento, la comprensión y la práctica de las personas que diseñan tests, los aplican, los xiii xiv PREFACIO resuelven, los califican, interpretan los resultados y toman decisiones con base en los datos así obtenidos. Al igual que sus predecesoras, la undécima edición está diseñada sobre todo como un libro de texto para estudiantes universitarios. Es adecuado para cursos de un semestre sobre tests y evaluación en un nivel propedéutico o de principiantes en psicología, pedagogía y áreas afi- nes. También puede ser de utilidad para psicólogos y otros profesionales que diseñan y aplican instrumentos de evaluación, e interpretan y aplican los resultados. Al escribir este libro he intentado abarcar por completo la materia sin llegar a ser exhaus- tivo, de modo que los instructores que lo adopten descubrirán que no han sido reemplazados por el texto. Éste presenta muchas oportunidades para que el instructor trabaje seleccionando e inter- pretando, así como reelaborando o ampliando, la información contenida. El Resumen que viene al final de cada capítulo proporciona un panorama y una reseña del material visto en el capítulo, y la sección de Preguntas y Actividades amplía y complementa la información. La estructura básica de la undécima edición de Tests Psicológicos y Evaluación es muy si- milar a la de las ediciones previas. Los profesores que estén familiarizados con cualquiera de ellas se encontrarán en un territorio conocido que ha cambiado aquí y allá, pero no de manera ra- dical. Algo que los usuarios de ediciones anteriores advertirán de inmediato es que hay más ca- pítulos (18) en esta edición. La estructura de los primeros cinco capítulos es muy similar a la anterior, pero el material del resto del libro se ha redistribuido. Los capítulos 6 a 9 y algunas par- tes de los capítulos 13 y 14 de la décima edición se han convertido en seis capítulos (6 a 11) en esta nueva edición. El material del capítulo 11 de la décima edición se ha distribuido en tres ca- pítulos (14, 15 y 16) en la actual, y el material que antes se encontraba en el capítulo 12 se ha distribuido ahora en los capítulos 17 y 18. El aumento de capítulos no se debe tanto a que se ha- ya añadido material nuevo, aunque así ocurrió en cierta medida, sino más bien a que se han di- vidido los anteriores capítulos en otros más breves y se ha incorporado a los capítulos del 6 al 18 material relevante de los capítulos 13 y 14 anteriores. El autor confía en que esta redistribución tenga sentido y facilite el estudio y la comprensión de la información sobre aptitudes cognosci- tivas de los capítulos 6 a 11 y el material sobre personalidad, intereses, actitudes y conceptos re- lacionados, de los capítulos 12 a 18. En años recientes han ocurrido varios cambios notables, si bien no revolucionarios, en la evaluación psicológica y pedagógica, y se les ha prestado la atención apropiada en este libro. En estos cambios se incluyen revisiones del contenido y el formato de los exámenes de admisión universitarios, las nuevas ediciones de varias pruebas y un interés renovado por la “política de los tests de inteligencia”. Se ha dado mayor atención a los tests de adaptación, a la teoría de la respuesta a los ítems, al uso de microcomputadoras en tests psicológicos, a pruebas neuropsi- cológicas y de desarrollo y a aplicaciones de pruebas en diversos contextos. Para contribuir a lo- grar el objetivo de introducir los tests psicológicos y la evaluación como un campo de estudio interesante e importante para los estudiantes que planean ingresar a alguno de los diversos cam- pos profesionales en que se diseñan y/o emplean evaluaciones psicológicas, se ha puesto todavía más énfasis en la aplicación de pruebas en ambientes educativos-escolares, clínicos-consultivos e industriales-empresariales. Se encuentra disponible, en su undécima edición, el libro Instructor´s Manual to Accom- pany Psychological Testing and Assessment (Editorial Allyn & Bacon, Pearson Education). También podría interesarle a los profesores saber que a través del autor aún están disponibles los disquetes de varias docenas de programas de computación que complementan los cursos sobre pruebas psicológicas y educativas. Puede enviar su solicitud, junto con un disquete formateado en sistema DOS y un sobre con estampillas, al doctor Lewis R. Aiken, 3300 Blue Ridge Court, Thousand Oaks, CA 91362. Por último, es posible comprar una Study Guide para el texto po- PREFACIO xv niéndose en contacto con el autor a la dirección mencionada o en la dirección de correo electró- nico laiken@prodigy.net. He recorrido ya un largo camino con este libro, y el viaje casi ha concluido. Agradezco a todos los estudiantes y colegas que han trabajado con las diez ediciones anteriores y han propor- cionado atinadas críticas y sugerencias, así como a los reseñadores de la undécima edición: An- gela Hazel, de Rochester College; William Mahler, de Concordia College, y William Warley, de Shorter College. También deseo expresar mi agradecimiento por los esfuerzos incansables y la experiencia de la productora editorial Faye Whitney-Lussier y el editor, William Thomas. Espe- ro sinceramente que los resultados de su trabajo y del mío se manifiesten en el producto termi- nado. Serán bien recibidos y se agradecerá todo tipo de comentarios y sugerencias para mejorar este libro. Lewis R. Aiken CAPÍTULO UNO TEMAS HISTÓRICOS Y PROFESIONALES Cualquiera que haya asistido a la escuela básica o a la universidad, ingresado al servicio militar o bien solicitado algún empleo durante el último medio siglo, sin duda ha completado una o más pruebas. En todo el mundo, las pruebas han llegado a tener una gran influencia en la vida y la ca- rrera de las personas. Sin embargo, los instrumentos de evaluación psicológica no se limitan a pruebas publicadas. Se dispone de muchas pruebas inéditas, además de cuestionarios, inventa- rios, escalas de medición y listas de opción múltiple, tanto publicadas como inéditas. Siempre que se requiera de información para tomar decisiones con respecto a la gente, o para ayudarla a elegir el rumbo de sus actos relativos a una futura situación educativa o laboral, posiblemente se use algún tipo de instrumento de evaluación. En escuelas, clínicas psicológicas, la industria y el servicio militar y civil, se utilizan ampliamente exámenes y otros instrumentos afines para propósitos de evaluación diagnóstica, selección, asignación y promoción. Además de sus aplicaciones en la toma de decisiones prácticas, las pruebas se usan en forma extensa en la investigación. Considerando sus múltiples funciones, no es de sorprender que las pruebas, por sí mismas, se hayan convertido en un gran negocio. De acuerdo con la Association of American Publishers, en el año 2000, el total de ventas en Estados Unidos por pruebas estandarizadas aplicadas tan sólo en los grados K-12* (en México equivale al tercer año de bachillerato), se calculaba en 234.1 millones de dólares, una cifra que aumenta en aproximadamente 7% cada año. Hay organizacio- nes comerciales, como las que figuran en la lista del apéndice C, que se especializan en publicar y distribuir pruebas y otros instrumentos psicométricos para evaluar las aptitudes, personalidades, los intereses y otras características de personas de todas las edades en distintas circunstancias. Las organizaciones profesionales incluidas en el apéndice D se ocupan de lo concerniente al uso ade- cuado de las pruebas aplicadas con diversos propósitos prácticos y de investigación. PERSPECTIVA HISTÓRICA Desde el principio de la historia humana se ha reconocido que las personas difieren en cuanto a sus aptitudes cognoscitivas, características de personalidad y comportamiento, y que estas dife- rencias pueden evaluarse en cierta forma. Hace casi 2,500 años, Platón y Aristóteles escribieron acerca de las diferencias individuales, e incluso ya tenían como antecesores de esta actividad a los antiguos chinos (Bowman, 1989; Doyle, 1974). Desde la remota fecha del año 2200 a. C., el entonces emperador chino instituyó un sistema de exámenes en el servicio civil para determinar si los funcionarios gubernamentales eran aptos para desempeñar sus labores. Este sistema, de 1 2 CAPÍTULO UNO Temas históricos y profesionales acuerdo con el cual se examinaba a los funcionarios cada tres años para evaluar su destreza en música, tiro con arco, equitación, escritura, aritmética, así como en ritos y ceremonias públicas y privadas, fue continuado por sucesivos gobernantes chinos, quienes incluyeron conocimientos de la ley civil, asuntos militares, agricultura, rentas públicas, geografía, composición y poesía (Green, 1991). Se trataba de exámenes orales, más que escritos, que evaluaban no solamente lo que los examinados respondían, sino también el cómo lo decían. Durante el siglo XIX, los gobier- nos británico, francés y alemán diseñaron sus exámenes para el servicio civil tomando el anti- guo sistema chino como patrón. Durante la Edad Media era prácticamente inexistente cualquier preocupación por la indi- vidualidad. En la estructura social de la sociedad europea medieval, las actividades de la gente se determinaban en gran medida dependiendo de la clase social en que se naciera. Se permitía poca libertad para la expresión o el desarrollo individuales. No obstante, hacia el siglo XVI, se tornó más progresista, menos doctrinaria y fue desarrollándose la idea de que las personas eran únicas y tenían derecho a afirmar sus dones naturales y a mejorar su posición en la vida. Esta era de Renacimiento, y el subsiguiente periodo de la Ilustración no sólo fueron etapas durante las cuales el interés por el aprendizaje y la creatividad resurgió y fue fomentado, constituyó también un renacimiento del individualismo. El espíritu de la libertad y el valor individual, que florecía gracias al estímulo político y económico que proporcionaban el capitalismo y la democracia, en- contró su expresión en el arte, la ciencia, la filosofía y el gobierno. Sin embargo, no fue sino has- ta finales del siglo XIX cuando realmente se inició la evolución del estudio científico de las diferencias individuales en cuanto a aptitudes y personalidad. Medición mental en el siglo XIX A principios del siglo XIX, los científicos solían considerar las diferencias en cuanto a habilida- des sensoriomotrices y mentales sobre todo como un fastidio o una fuente de error. Antes de la invención de instrumentos precisos y automáticos para medir y registrar acontecimientos físi- cos, la precisión de las mediciones científicas de tiempo, distancia y otras variables físicas de- pendía en gran medida de las habilidades de percepción motrices de los observadores humanos. La mayoría de estos observadores estaban muy bien capacitados y eran sumamente cuidadosos al realizar mediciones, pero aun así éstas variaban en forma considerable al ser efectuadas por distintas personas o incluso por el mismo observador en ocasiones diferentes. Debido a que la búsqueda de leyes generales en la naturaleza es difícil cuando las mediciones de fenómenos na- turales son imprecisas y no confiables, los físicos dirigieron su atención hacia la construcción de instrumentos que fueran más precisos y consistentes que la sola observación humana. Por ejem- plo, la invención que realizaron John Harrison y otros de relojes relativamente libres de los erro- res ocasionados por el movimiento de los buques y los cambios en temperatura y humedad facilitaron la determinación precisa de la longitud y contribuyeron a hacer los viajes en barco menos azarosos (vea Sobel y Andrewes, 1998). Impulsado por los escritos de Charles Darwin sobre el origen de las especies y por el sur- gimiento de la psicología científica, el interés por el estudio de las diferencias individuales cre- ció durante la última parte del siglo XIX. Darwin era inglés, pero la psicología de hecho fue bautizada como ciencia en Alemania al final del siglo XIX. Fue entonces cuando Gustav Fechner, Wilhelm Wundt, Hermann Ebbinghaus y otros psicólogos experimentales demostraron que los fenómenos psicológicos podían ser descritos en términos cuantitativos y racionales. Los aconte- cimientos que ocurrían en Francia y en Estados Unidos también fueron importantes para el de- sarrollo de las pruebas psicológicas. La investigación de psiquiatras y psicólogos franceses PERSPECTIVA HISTÓRICA 3 sobre perturbaciones mentales influyó en el desarrollo de técnicas de evaluación y tests, y el au- mento de la atención dedicada a los exámenes en las escuelas estadounidenses dio como resul- tado el desarrollo de medidas estandarizadas de los logros académicos. Al igual que en la historia de cualquier disciplina, muchas personas de varios países de- sempeñaron papeles significativos en la fase pionera de la medición mental. Especial importan- cia a fines del siglo XIX tuvieron Francis Galton, J. McKeen Cattell y Alfred Binet. Francis Galton (figura 1.1.), primo del naturalista Charles Darwin, fue un caballero inglés que se interesó en las bases hereditarias de la inteligencia y en la medición de las habilidades humanas. Galton dedicó su atención en particular a la herencia del talento, pero también elaboró una serie de pruebas sen- soriomotrices y diseñó varias técnicas para investigar las diferencias individuales en cuanto a aptitudes y temperamento. Usando estas pruebas sencillas, Galton realizó mediciones con más de nueve mil personas, cuyas edades iban de los 5 a los 80 años. Entre sus contribuciones meto- dológicas figura la técnica de co-relaciones, que sigue siendo un método popular para analizar calificaciones de pruebas. James McKeen Cattell fue un estadounidense que, al regresar de Alemania tras haber ob- tenido un doctorado en psicología experimental en la Universidad de Leipzig con la tutoría de Wilhelm Wundt, permaneció un tiempo en Inglaterra donde entró en conocimiento de los méto- dos y pruebas de Galton mientras fungía como su asistente. Más tarde, en la Universidad de Columbia, Cattell intentó relacionar las calificaciones de las mediciones de tiempo de reac- ción y discriminación sensorial con las calificaciones escolares. Clark Wissler y otros investiga- dores descubrieron que las relaciones, o correlaciones, entre el desempeño en las pruebas y el logro académico eran muy bajas. Tocó a otro psicólogo francés, Alfred Binet, construir la pri- mera prueba mental que contribuyó en forma significativa a la predicción del aprovechamiento académico. FIGURA 1.1 Francis Galton. El llamado “padre de la psicología individual”. Galton fue pionero en el estudio de la inteligencia y sus orígenes. 4 CAPÍTULO UNO Temas históricos y profesionales Las pruebas a principios del siglo xx En 1904 el ministro de educación pública en París, Francia, comisionó a Alfred Binet (figura 1.2) y a su socio, el doctor Théodore Simon, para que elaboraran un procedimiento de identificación de niños que al parecer fueran incapaces de sacar el provecho suficiente en las aulas escolares normales. Para este propósito, Binet y Simon construyeron una prueba, para ser administrada in- dividualmente, que consistía en 30 problemas dispuestos en orden creciente de dificultad. Los problemas de esta primera prueba de inteligencia práctica, que se publicó por primera vez en 1905, pusieron énfasis en la habilidad para juzgar, comprender y razonar. En 1908 se publicó es- ta prueba revisada, conteniendo entonces una gran cantidad de subpruebas clasificadas por nive- les de edad, de los 3 a los 13 años. Al calificar la revisión de 1908 de la Escala de Inteligencia de Binet-Simon, se introdujo el concepto de edad mental como una forma de cuantificar el desem- peño general de una persona en la prueba. Una revisión adicional de la escala de Binet-Simon, pu- blicada después de la muerte prematura de Binet en 1911, amplió la prueba hasta la edad adulta. Otros pioneros en pruebas y evaluaciones psicológicas fueron Charles Spearman en teoría de los tests, Edward Thorndike en pruebas de aprovechamiento, Lewis Terman en pruebas de in- teligencia, Robert Woodworth y Hermann Rorschach en pruebas de personalidad, y E. K. Strong hijo en mediciones de interés. El trabajo de Arthur Otis con pruebas de inteligencia administradas colectivamente condujo directamente a la elaboración de los Exámenes Alfa y Beta del ejército por parte de un comité de psicólogos durante la Primera Guerra Mundial. Cada uno de estos tests, el Alfa para gente que sabia leer y el Beta para analfabetos, se aplicaba en forma colectiva para me- dir las habilidades mentales de miles de soldados estadounidenses durante y después de la guerra. Muchos individuos han contribuido a enriquecer la teoría y la práctica de las pruebas psi- cológicas y educativas desde la Primera Guerra Mundial. Los nombres de gran parte de ellos se incluyen en la tabla 1.1 y todavía aparecen en los nombres de las pruebas y como referencia a FIGURA 1.2 Alfred Binet. Con Théodore Simon, en 1905 Binet elaboró la primera prueba de inteligencia práctica. (Reimpreso con autorización de Culver Pictures, Inc.) PERSPECTIVA HISTÓRICA 5 TABLA 1.1 Eventos selectos en la historia de la evaluación psicológica y educativa 1845 Publicación de los primeros exámenes usados por el Comité Escolar de Boston bajo la dirección del educador Horace Mann. 1864 George Fischer, director de escuela inglés, elabora una serie de escalas consistentes en una muestra de preguntas y respuestas como guías para evaluar las respuestas de los estudiantes a preguntas de pruebas de ensayo. 1869 El estudio científico de las diferencias individuales se inicia con la publicación de Classification of Men According to Their Natural Gifts (Clasificación de los hombres de acuerdo con sus dones naturales), de Francis Galton. 1882 Emil Kraepelin emplea técnicas de asociación de palabras para estudiar la esquizofrenia. 1884 Francis Galton abre el Laboratorio de Antropometría para la Exposición de Salud Internacional en Londres. 1888 J. M. Cattell abre un laboratorio de pruebas en la Universidad de Pensilvania. 1893 Joseph Jastrow presenta pruebas sensoriomotrices en la Exposición de Columbia en Chicago. 1897 J. M. Rice publica los descubrimientos de su investigación sobre las habilidades ortográficas de los es- colares estadounidenses. 1904 Charles Spearman describe su teoría de dos factores sobre aptitudes mentales. Se publica el primer li- bro de texto importante sobre medición educativa: Introduction to the Theory of Mental and Social Measurement (Introducción a la teoría de la medición mental y social), de E. L. Thorndike. 1905 Se publica la primera edición de la Escala de Inteligencia de Binet-Simon. 1908 Se publica la revisión de la Escala de Inteligencia de Binet-Simon. 1908–1909 J. C. Stone y S. A. Courtis publican las pruebas objetivas de aritmética. 1910 Carl Jung elabora una lista estandarizada de estímulos de asociación de palabras para analizar comple- jos mentales y recopila normas relacionadas. 1908–1914 E. L. Thorndike elabora pruebas estandarizadas de aritmética, caligrafía, lenguaje y ortografía, inclu- yendo la Scale for Handwriting of Children (Escala de caligrafía para niños, 1910). 1914 Arthur Otis elabora la primera prueba de inteligencia colectiva de grupo, basada en la Revisión Stan- ford de Terman de la Escala de Inteligencia Binet-Simon. 1916 Lewis Terman publica la Escala de Inteligencia de Stanford-Binet. 1917 Los Exámenes Alfa y Beta del ejército, los primeros tests de inteligencia colectivos son elaborados y administrados a los reclutas estadounidenses. 1926 Se aplica por primera vez la Prueba de Aptitud Académica (SAT, por sus siglas en inglés) para evaluar a los aspirantes a ingresar en la universidad. 1927 Se publica la primera edición del Formulario de Intereses Vocacionales para Varones, de Strong, así como las Pruebas de Inteligencia de Kuhlmann-Anderson. 1936 Los Exámenes de Registro de Graduados (GRE, por sus siglas en inglés) se usan por primera vez para seleccionar a los aspirantes a ingresar a la escuela de posgrado. 1937 Se publica la revisión de la Escala de Inteligencia de Stanford-Binet. 1938 Henry Murray Publica Explorations in Personality (Exploraciones sobre personalidad). Buros publica el primer Mental Measurements Yearbook (Anuario de mediciones mentales). 1939 Se publica la Escala de Inteligencia de Wechsler-Bellevue. 1942 Se publica el Inventario Multifásico de Personalidad de Minnesota. 1949 Publicación de la Escala de Inteligencia de Wechsler para Niños. 1960 Se publica la Forma L-M de la Escala de Inteligencia de Stanford-Binet. 1970–2002 Uso creciente de las computadoras para diseñar, administrar, calificar, analizar e interpretar pruebas. (continúa) 6 CAPÍTULO UNO Temas históricos y profesionales TABLA 1.1 Continuación 1971 Resolución de la Corte Federal de Estados Unidos para que las pruebas empleadas en la selección de personal estén relacionadas con los puestos (Griggs versus Duke Power). 1980–2002 Elaboración de la teoría de respuesta. 1981 Se publica una revisión de la Escala de Inteligencia de Wechsler para Adultos. 1985 Se publican los Standards for Educational and Psychological Testing (Normas para la evaluación peda- gógica y psicológica). 1989 Se publican el MMPI-II y la Escala de Inteligencia para Nivel Preescolar de Wechsler. 1990 Se publica la Escala de Inteligencia para Niños de Wechsler-III. 1997 Aparece la tercera edición de la Escala de Inteligencia para Adultos de Wechsler (WAIS-III). 1998 Se publica la decimotercera edición del The Mental Measurements Yearbook. 1999 Se publica Tests in Print V y una revisión de los Standards for Educational and Psychological Testing. técnicas, procedimientos y otros adelantos en los que han contribuido. Entre estos progresos se encuentran el perfeccionamiento de la metodología estadística, avances tecnológicos en la pre- paración y calificación de pruebas y el análisis de resultados en las evaluaciones. LOS TESTS COMO UNA PROFESIÓN El campo de aplicación de los tests psicológicos ha crecido rápidamente desde la década de 1920 y en la actualidad se producen y distribuyen comercialmente cientos de estas pruebas. Después de la Segunda Guerra Mundial, las pruebas estandarizadas, en particular las orientadas a evaluar los aprovechamientos académicos, se expandieron por todo el mundo. Muchas pruebas de apti- tud y personalidad elaboradas en Estados Unidos se tradujeron del inglés a otras lenguas. Ade- más de las pruebas estandarizadas ya publicadas, pudo disponerse de cientos de materiales de evaluación inéditos. Dichos instrumentos, que se citan en revistas y libros especializados, se han usado en todo el mundo. Fuentes de información La información concerniente a tests psicológicos y otros instrumentos de evaluación puede en- contrarse en páginas Web y en los catálogos de las empresas que los distribuyen (vea el apéndi- ce C). Muchas de estas compañías publican gran cantidad de catálogos de pruebas. Por ejemplo, la Psychological Corporation tiene catálogos distintos de acuerdo con las áreas de evaluación psicológica, terapia ocupacional y física, habla y lenguaje, y negocios/industria/gobierno. La empresa Pro.ed también cuenta con catálogos por separado para productos como tests psicoló- gicos; educación especial, rehabilitación, trastornos del desarrollo y en superdotados; primera infancia, y habla, lenguaje y audición. En los manuales adjuntos se incluyen más detalles sobre cada una de las pruebas. También se han publicado varios libros de consulta que abordan el tema de las pruebas. Dos fuentes importantes son: Tests in Print V (Murphy, Impara y Plake, 1999) y Tests (Maddox, 1997), las cuales proporcionan información descriptiva sobre cientos de pruebas disponibles comercialmente. Otra fuente importante es The Mental Measurements Yearbook (Impara y Pla- ke, 1998 y ediciones anteriores), cuyas trece ediciones contienen descripciones y revisiones de LOS TESTS COMO UNA PROFESIÓN 7 pruebas. También se incluyen revisiones de pruebas en Test Critiques (Keyser y Sweetland, 1984-1994). Tal vez la forma más directa de obtener información sobre pruebas de aplicación común sea consultar ERIC/AE Test Locator, un proyecto conjunto de ERIC Clearinghouse on Assessment and Evaluation de la Universidad Católica de América, la Sección de Biblioteca y de Servicios de Consulta del Educational Testing Service, el Instituto Buros de Mediciones Mentales de la Universidad de Nebraska en Lincoln, el Centro Comprensivo de la Región III de la Universidad George Washington, y los editores Pro-ed test. Es posible entrar en contacto directamente con la página Web de ERIC/AE Test Locator en: www.ericae.net/testcol.htm, www.unl.edu/buros, o bien en www.ets.org. Desde el Test Locator, pueden localizarse seis diferentes archivos: ETS/ ERIC Test File, Test Review Locator, BUROS/ERIC Test Publisher Locator, CEEE/ERIC Test Database, los cuales contienen las pruebas que suelen usarse con los estudiantes de LEP, el Re- glamento de prácticas de evaluación justas, y Consejos para la selección de pruebas. Además de las pruebas estandarizadas, en contextos de psicología aplicada se usan muchos cuestionarios y escalas de clasificación (vea Aiken, 1996, 1997). El libro Measures for Clinical Prac- tice: A Sourcebook (3ª ed., Corcoran y Fisher, 2000), contiene información descriptiva sobre docenas de instrumentos de este tipo que se utilizan en situaciones de consulta clínica y asesoría. Para encontrar detalles sobre pruebas y escalas inéditas, también pueden consultarse: Di- rectory of Unpublished Experimental Mental Measures (Goldman, Mitchell y Egelson, 1997 y volúmenes anteriores), A Consumer´s Guide to Tests in Print (Hammill, Brown y Bryant, 1992), e Index to Tests Used in Educational Dissertations (Fabiano, 1989). Para información inédita sobre mediciones de actitudes, se recomienda consultar la serie de volúmenes producidos en el Insti- tuto de Investigación Social de la Universidad de Michigan (Robinson, Shaver y Wrightsman, 1991, 1999 y volúmenes anteriores). En las bibliotecas de muchas universidades está disponible la base de datos HAPI (Health and Psychosocial Instruments), que contiene descripciones de más de 15 mil instrumentos psicométricos. Otras bases de datos útiles para obtener información sobre escalas y otros instrumentos psicométricos inéditos son PsycINFO y PsycLIT. En muchas revistas profesionales se publican versiones de pruebas selectas y revisadas, por ejemplo en: American Educational Research Journal, Journal of Educational Measure- ment, Measurement and Evaluation in Counseling and Development, Personnel Psychology y Psychoeducational Assessment. Se incluyen artículos sobre el desarrollo y la evaluación de tests y mediciones psicológicas en publicaciones especializadas como: Applied Psychological Mea- surement, Educational and Psychological Measurement, Journal of Clinical Psychology, Psy- chological Assessment: A Journal of Consulting and Clinical Psychology, Journal of Counseling Psychology y Journal of Vocational Behavior. También pueden encontrarse referencias a fuen- tes de información sobre pruebas específicas en: Psychological Abstracts, Education Index y Current Index to Journals in Education. Se han escrito libros enteros sobre pruebas individua- les, como el Inventario Multifásico de Personalidad de Minnesota (MMPI), el Test de las Man- chas de Tinta de Rorschach y las escalas de inteligencia de Wechsler. Clasificación de pruebas Al igual que en otras profesiones, en psicología la evaluación tiene su propio vocabulario espe- cial. El glosario que se incluye al final de este libro contiene definiciones de docenas de términos psicométricos, muchos de los cuales se refieren a tipos de pruebas o a métodos para clasificar- las. Las pruebas se pueden clasificar según su contenido, la forma en que se elaboraron, el pará- metro para cuya medición se diseñaron, el propósito de su aplicación, e incluso de acuerdo con 8 CAPÍTULO UNO Temas históricos y profesionales la manera en que se administran, califican e interpretan. Un criterio de clasificación sencillo es la dicotomía entre pruebas estandarizadas contra no estandarizadas. Una prueba estandarizada, elaborada por profesionales especialistas en desarrollar pruebas y que es administrada a una muestra representativa de personas pertenecientes a la población para la que se diseñó el instru- mento, tiene procedimientos establecidos de administración y calificación que son constantes en los distintos examinandos. Así, todos ellos tienen la misma oportunidad de responder los distintos reactivos de acuerdo con sus habilidades. Por lo general, las pruebas estandarizadas poseen normas; esto es, a partir de las puntua- ciones crudas obtenidas en la muestra de estandarización, se calculan varios tipos de califi- caciones transformadas. Las normas sirven como base para interpretar los resultados de las personas que se someten a la prueba después. Todavía más comunes que las pruebas estandari- zadas publicadas son los exámenes escolares no estandarizados, los que suelen elaborar los maestros de manera informal. Las pruebas también se clasifican como individuales o colectivas. Una prueba individual, como la Escala de Inteligencia de Wechsler para Niños, se administra a un examinando en cada ocasión. Una prueba colectiva, como la Prueba de Aptitudes Cognoscitivas, puede administrar- se simultáneamente a muchos examinandos. Mientras que la dicotomía de pruebas individuales contra pruebas colectivas se refiere a la eficiencia de la administración, la dicotomía de velocidad contra potencia corresponde al tiempo límite que se da para resolver una prueba. Una prueba de velocidad simple consta de muchos reactivos, pero los límites de tiempo son muy estrictos y casi nadie termina en el lapso asigna- do. Los límites de tiempo en una prueba de potencia son amplios para la mayoría de los exami- nandos, pero la prueba contiene reactivos más difíciles que los de una prueba de velocidad. Una tercera dicotomía se presenta en la clasificación: pruebas objetivas contra no objeti- vas, y se refiere al método de calificar una prueba. Una prueba objetiva tiene normas de califi- cación precisas ya establecidas y puede ser calificada por un empleado. Por otra parte, calificar pruebas de ensayo y ciertos tipos de tests de personalidad es muy subjetivo y los resultados pue- den variar cuando una misma prueba es calificada por personas distintas. Las pruebas también pueden clasificarse de acuerdo con el tipo de material o la clase de tarea que se pide a los examinandos. Algunas pruebas sólo contienen reactivos verbales o lin- güísticos (por ejemplo, párrafos de vocabulario o de lectura), mientras que otras consisten en diagramas, rompecabezas u otros materiales no verbales o no lingüísticos. La distinción entre pruebas verbales y no verbales también se refiere a la forma de la respuesta requerida. Las pruebas que exigen respuestas orales o escritas a menudo reciben el nombre de pruebas verbales, mien- tras las que piden a los examinandos señalar las respuestas correctas, construir algo o manipular materiales de prueba (armar rompecabezas, introducir bloques en agujeros y similares) se deno- minan pruebas no verbales o pruebas de ejecución. Otra clasificación de pruebas amplia, según su contenido o proceso, es en cognoscitivas contra afectivas. Las pruebas cognoscitivas intentan cuantificar los procesos y productos de la actividad mental y pueden clasificarse como mediciones de rendimiento y aprovechamiento. Una prueba de rendimiento evalúa el conocimiento de algún tema u ocupación académica y se centra en el comportamiento pasado del examinando (en lo que ya ha aprendido o logrado). Una prueba de aprovechamiento está enfocada al comportamiento futuro, es decir, a lo que la perso- na es capaz de aprender con la capacitación apropiada. Así, las pruebas de aptitud mecánica y de aptitud para el trabajo de oficina se diseñan para evaluar la habilidad para aprovechar una capa- citación adicional en tareas mecánicas y de oficina, respectivamente. Sin embargo, el rendi- miento y el aprovechamiento no son entidades separadas; lo que una persona ha alcanzado en el LOS TESTS COMO UNA PROFESIÓN 9 pasado (rendimiento) suele ser un muy buen indicador de la eficacia con que se desempeñará en el futuro (aprovechamiento). Algunos psicólogos prefieren no usar los términos rendimiento y aprovechamiento como formas de clasificar pruebas; más bien se refieren a ambos tipos de prue- ba como medidas de habilidad. Las pruebas afectivas se diseñan para evaluar intereses, actitudes, valores, motivos, ras- gos de carácter y otras características de personalidad no cognoscitivas. Para este propósito se han diseñado diversas técnicas, tales como la observación del comportamiento, los inventarios en lápiz y papel y las imágenes proyectivas. Algunas instituciones y organizaciones que conservan colecciones de pruebas psicológi- cas y educativas tienen sistemas formales para clasificar estos instrumentos. Uno de los sistemas de clasificación más completos es The Mental Measurements Yearbook, donde las pruebas se clasifican en 18 grandes categorías de contenido, las cuales se presentan en la tabla 1.2. Objetivos y usos de las pruebas Las pruebas psicológicas y otros instrumentos de evaluación se aplican en un amplio rango de ambientes académicos, clínicos-consultivos, de negocios-industriales, de justicia criminal-fo- renses, gubernamentales y militares. Los psicólogos de personal, clínicos, consultores, sociales, y muchos otros especialistas dedicados a la investigación o a aplicaciones prácticas en el compor- tamiento humano, dedican una parte considerable de su tiempo profesional a calificar e interpretar pruebas psicológicas. Las páginas Web de muchas de las compañías que se ocupan de los tests psicológicos y la evaluación se incluyen en el apéndice D. El objetivo principal de las pruebas psicológicas en la actualidad es el mismo que el preva- leciente en todo el siglo XX: evaluar el comportamiento, las aptitudes cognoscitivas, los rasgos de personalidad y otras características individuales y de grupo, a fin de ayudar a formarse juicios, predicciones y decisiones sobre la gente. De manera más específica, las pruebas se usan para: 1. Seleccionar aspirantes a empleos y programas educativos y de capacitación. 2. Clasificar y colocar a las personas en contextos educativos y laborales. 3. Asesorar y guiar a las personas con propósitos de asesoría educativa, vocacional y personal. 4. Conservar o despedir, promover y rotar estudiantes o empleados en programas educati- vos, de capacitación y en situaciones laborales. 5. Diagnosticar y prescribir tratamientos psicológicos y físicos en clínicas y hospitales. 6. Evaluar cambios cognoscitivos, intra o interpersonales relativos a programas educativos, psicoterapéuticos y otros de intervención en el comportamiento. 7. Supervisar la investigación sobre cambios en el comportamiento a lo largo del tiempo y evaluar la eficacia de nuevos programas o nuevas técnicas. TABLA 1.2 Categorías de tests incluidas en The Thirteenth Mental Measurements Yearbook Aprovechamiento Lenguas extranjeras Ciencia Evaluación del Aptitudes de inteligencia y generales Sensoriomotrices comportamiento Matemáticas Estudios sociales Desarrollo Varios Habla y audición Educación Neuropsicológicas Vocacionales Inglés y lenguaje Personalidad Bellas Artes Lectura 10 CAPÍTULO UNO Temas históricos y profesionales Además de analizar y describir características individuales, las pruebas pueden utilizarse para evaluar ambientes psicológicos, movimientos sociales y otros acontecimientos psicosociales. Entre las pruebas que están disponibles comercialmente, no se sabe con exactitud cuántas de cada tipo se usan, en qué situaciones, con qué objetivos ni quién las administra en un año de- terminado. Sin embargo, puede encontrarse un indicio general de su utilización en los resultados de varias investigaciones (Archer, Mariush, Imhof y Piotrowski, 1991; Butler, Retzlaff y Van- derploeg. 1991; Camara, Nathan y Puente, 2000; Piotrowski y Keller, 1992; Watkins, Campbell y Nieberding, 1994; Watkins, Campbell, Nieberding y Hallmark, 1995). Como es comprensible, los descubrimientos de estos estudios dependen de todo tipo de practicantes y/o investigadores incluidos en la muestra de la investigación, de su orientación teórica y de los objetivos del pro- ceso de evaluación. Las primeras dos secciones de la tabla 1.3 muestran, en orden de rango, las diez pruebas más usadas por los psicólogos clínicos y los neuropsicólogos del estudio de Cama- ra et al. (2000). Otro indicador de la popularidad general de un instrumento de evaluación, en particular en investigaciones publicadas, es la cantidad de veces que se menciona en la base de datos PsycINFO. Los diez instrumentos psicométricos empleados con mayor frecuencia entre 1995 y 2001 en contextos clínicos y de asesoría se incluyen en la última sección de la tabla 1.3. ÉTICA Y NORMAS DE LOS TESTS El aumento en el uso de pruebas estandarizadas de todo tipo ha dado origen al reconocimiento de la necesidad de ampliar la conciencia pública acerca de las ventajas y limitaciones de los ins- trumentos de evaluación psicológica y pedagógica, así como las motivaciones y prácticas de quienes las distribuyen y emplean. Una de las preocupaciones constantes de las organizaciones profesionales de psicólogos y educadores es que las pruebas disponibles comercialmente debe- rían medir efectivamente lo que declaran sus autores, editores y distribuidores. Contribuye al lo- gro de esta meta la edición de 1999 del folleto de normas técnicas Standards for Educational and Psychological Testing (AERA, APA y NCME, 1999), que es una modificación del Stan- dards de 1985 elaborada por representantes de la Asociación Americana de Investigación Educativa (AERA), la Asociación Americana de Psicología (APA) y el Consejo Nacional so- bre Medición en Educación (NCME). Al igual que las entregas anteriores, la edición de 1999 contiene las normas recomendadas para la elaboración y aplicación de pruebas. En ella se abordan con cierto detalle los criterios para evaluarlas, la práctica de su aplicación y los efec- tos de su uso. También se ocupan de fomentar la utilización adecuada de pruebas psicológicas y peda- gógicas Guidelines for Computer-based Tests and Interpretations (American Psychological As- sociation, 1986) y los Principles for the Validation and Use of Personnel Selection Procedures (Society for Industrial and Organizational Psychology, Inc., 1987). Preparación de los usuarios de pruebas La preparación requerida para aplicar, evaluar e interpretar pruebas varía en cierta medida de acuerdo con el tipo de prueba en particular. Las normas de preparación para los usuarios son más estrictas en el caso de pruebas individuales que en pruebas colectivas, y en pruebas de inteligen- cia y personalidad que en las de rendimiento y aptitudes especiales. Quienquiera que sea el usua- rio y tenga la preparación que tenga, la responsabilidad ética de garantizar que las pruebas se vendan sólo a personas preparadas corresponde directamente a los editores y distribuidores de ÉTICA Y NORMAS DE LOS TESTS 11 TABLA 1.3 Las diez pruebas usadas con mayor frecuencia por psicólogos clínicos y neuropsicólogos y las diez pruebas más mencionadas en PsycINFO, 1995-2001 PRUEBAS USADAS POR PSICÓLOGOS CLÍNICOSa 1. Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) 2. Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II 3. Escala de Inteligencia para Niños de Wechsler, Revisada (WISC-R y III) 4. Test de las Manchas de Tinta de Rorschach 5. Test Gestáltico Visomotor de Bender 6. Test de Apercepción Temática (TAT) 7. Prueba de Rendimiento de Rango Amplio-R y III 8. Técnica Proyectiva Casa-Árbol-Persona 9. Escala de Memoria de Wechsler, Revisada 10. Inventario de Depresión de Beck, Inventario Multiaxial Clínico de Millon PRUEBAS USADAS POR NEUROPSICÓLOGOSa 1. Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II 2. Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) 3. Escala de Memoria de Wechsler, Revisada 4. Test de Trazar un Camino A y B 5. Prueba FAS de Fluidez de Palabra 6. Batería de Pruebas Neuropsicológicas de Halstead-Reitan 7. Prueba de Memoria de Boston 8. Prueba de Categoría 9. Prueba de Rendimiento de Rango Amplio-R y III PRUEBAS MENCIONADAS EN PSYCINFO 1. Escala de Inteligencia para Adultos de Wechsler, Revisada (WAIS-R) 2. Inventario Multifásico de Personalidad de Minnesota (MMPI) I y II 3. Test de las Manchas de Tinta de Rorschach 4. Escala de Inteligencia para Niños de Wechsler, Revisada (WISC-R y III) 5. Indicador Tipológico de Myers-Briggs 6. Inventario de Depresión de Beck 7. Inventario Multiaxial Clínico de Millon 8. Test de Apercepción Temática 9. Lista de Verificación de Conducta para Niños 10. Escala de Memoria de Wechsler, Revisada aCon base en datos proporcionados por Camara, Nathan y Puente, 2000. las pruebas. Estas organizaciones deben encargarse de explicar y establecer la preparación nece- saria para aplicar e interpretar pruebas específicas. Los prestigiados editores comerciales de pruebas solicitan que los compradores cumplan con ciertos requisitos, dependiendo del carácter de la prueba y/o del grado de preparación necesa- rio para aplicarla. Los Sistemas de Orientación Americanos (AGS) y los de The Psychological 12 CAPÍTULO UNO Temas históricos y profesionales Corporation, así como otras organizaciones comerciales, adoptan una política de preparación de usuarios de tres niveles (A, B y C). AGS define estos tres niveles de la siguiente manera: Nivel A: El usuario ha terminado al menos un curso sobre medición, guía o una disciplina similar adecuada, o bien cuenta con la experiencia equivalente supervisada en aplicación e interpretación. Nivel B: El usuario ha concluido una capacitación graduada sobre medición, guía, evaluación psi- cológica individual o métodos de valoración especial adecuados para una prueba en particular. Nivel C: El usuario ha terminado con reconocimiento un programa de capacitación con trabajo apropiado y ha supervisado la experiencia práctica en la administración e interpretación de instru- mentos de evaluación clínica. El formato 1.1, que ha sido adoptado por la AGS para determinar si los compradores de pruebas individuales cumplen los requisitos de cada uno de estos tres niveles, se basa en la in- vestigación realizada por el Grupo de Preparación del Usuario de Pruebas (Moreland, Eyde, Ro- bertson, Primoff y Most, 1995). Esta investigación utilizó métodos de análisis de empleos para describir la capacidad de 86 usuarios de pruebas y 7 factores relacionados con el mal uso de és- tas. Los resultados condujeron a los investigadores a concluir que el uso profesional, sano, de pruebas significa que todos los usuarios deben: 1. Mantener la seguridad de los materiales de evaluación antes y después de aplicar las pruebas. 2. Evitar etiquetar a los individuos con base en el resultado de una sola prueba. 3. Respetar estrictamente la ley de derechos de autor y en ninguna circunstancia fotocopiar o re- producir cuadernillos de preguntas, hojas de respuestas, libros de texto ni manuales. 4. Aplicar y calificar las pruebas exactamente en la forma que lo especifica el manual. 5. Entregar los resultados sólo a las personas autorizadas y conforme a los principios aceptados de interpretación de pruebas (Moreland et al., p. 23). Códigos de ética El uso ético de pruebas puede controlarse en cierta medida mediante un código de ética al que se suscriben los profesionales en aplicación de pruebas y los editores. La Asociación America- na de Psicología (APA), la Asociación Americana de Personal y Asesoría (APGA) y el Consejo Nacional de Medición en Educación (NCME) tienen códigos de ética correspondientes a la apli- cación de pruebas y a la prestación de otros servicios psicológicos. Los códigos de ética de la APA, la APGA y el NCME abarcan muchos de los temas de la aplicación, normalización, con- fiabilidad y validez de las pruebas que se incluyen en los Standards for Educational and Psycho- logical Testing (AERA, APA y NCME, 1999). Los tres códigos destacan la importancia de considerar el bienestar del examinando o cliente y de protegerlo del mal uso de los instrumen- tos de evaluación. Con respecto a la evaluación y el diagnóstico, en “Ethical Principles of Psycholo- gists and Code of Conduct” (American Psychological Association, 1992, edición corregi- da en proceso, Web URL http://www.apa.org/monitor/feb01/ethicscode.html) se subraya que la evaluación y el diagnóstico deberían ser realizados sólo en un contexto profesional y por parte de especialistas capacitados y competentes en las pruebas adecuadas. También se pone énfasis en (1) la aplicación de procedimientos científicos para diseñar y seleccionar pruebas y técnicas que sean apropiadas para poblaciones específicas; (2) la interpretación juiciosa de los resultados de las pruebas; (3) el uso cuidadoso de las calificaciones de las ÉTICA Y NORMAS DE LOS TESTS 13 FORMATO 1.1 Formato de preparación del usuario de pruebas En AGS mantenemos un profundo compromiso con las prácticas profesionales en las pruebas es- tandarizadas. Para ayudar a garantizar el uso seguro de nuestras evaluaciones, requerimos a las personas que adquieren pruebas de AGS por primera vez llenen este formato. Luego, que lean los “Principios del uso eficaz del test” en la sección final de éste, y lo firmen para indicar que aceptan y cumplirán esos principios. Nombre _______________________ Puesto _____________ Teléfono ( ) _______________ Dirección _________________ Ciudad ___________ Estado ______ Código postal __________ Empresa para la que trabaja ___________________ Jefe inmediato_________________________ Dirección de la empresa ______________ Ciudad ______ Estado _____ Código postal _______ FAX ___________________________ Correo electrónico _______________________________ AGS ofrece descuentos de 50% en evaluaciones usadas en proyectos de investigación, y de 40% para programas de capacitación universitarios. Si le interesan, comuníquese a AGS por teléfono o por correo. Consulte el índice para los materiales no incluidos. Títulos profesionales: (marque todos los que correspondan) ❐ Título en: Área ______________________ Estado _______ Licencia núm. ______________ ❐ Miembro de la(s) organización(es) profesional(es) ❐ ACA ❐ AERA ❐ APA ❐ ASHA ❐ CEC ❐ NASP ❐ Otras ________________ Nivel de preparación: (marque todos los que correspondan) ❐ Licenciatura Año _____ Institución ________________ Especialidad __________ ❐ Maestría Año _____ Institución ________________ Especialidad __________ ❐ Doctorado Año _____ Institución ________________ Especialidad __________ Cursos (abajo, marque cada curso terminado y encierre en un círculo el nivel que completó). N = No graduado, G = Graduado, O = Otro (curso especial que haya terminado, como taller, capacitación laboral, etc.) (encierre en un círculo) (encierre en un círculo) ❐ Pruebas y mediciones básicas N G O ❐ Uso de pruebas en consultoría N G O ❐ Estadística descriptiva N G O ❐ Evaluación de carreras N G O ❐ Evaluación de inteligencia N G O ❐ Evaluación neuropsicológica N G O ❐ Evaluación de habla, audición y lenguaje N G O ❐ Otros (anótelos abajo) ❐ Diagnóstico educativo N G O ________________________ N G O ❐ Curso de evaluación en área de N G O ________________________ N G O especialización: __________________ N G O ________________________ N G O Área especial de competencia: (Anote un tipo de evaluación que use habitualmente y que ilustre mejor su habilidad en la aplicación e interpretación de pruebas.) ________________________________ Principios del uso eficaz de pruebas: El uso válido y profesional de las pruebas educativas y psicológicas implica que todos los usuarios deben: 1. Mantener la seguridad de los materiales de la prueba antes y después de aplicarla. 2. Evitar etiquetar a las personas con base en un único resultado de una prueba. 3. Respetar estrictamente la ley de derechos de autor y en ninguna circunstancia fotocopiar ni re- producir de ningún otro modo las hojas de respuestas, los cuadernillos de pruebas ni los manua- les respectivos. 4. Administrar y calificar las pruebas exactamente como lo especifica el manual. 5. Entregar los resultados sólo a las personas autorizadas y de manera acorde con los principios de la interpretación de pruebas. Su firma indica que acepta y cumplirá los principios descritos. Firma _________________________________________ Fecha ________________________ (Reproducido con la autorización del Servicio de Guía Americana de Moreland et al., 1995.) 14 CAPÍTULO UNO Temas históricos y profesionales pruebas y los servicios de interpretación, y (4) explicaciones claras pero cuidadosas de los hallazgos de la evaluación. También debería hacerse hincapié en la necesidad de mantener la se- guridad de las pruebas si éstas han de tener valor. La simple existencia de pruebas de alta calidad y de un conjunto de normas y principios para sus editores, distribuidores y consumidores no garantiza que éstas se apliquen e interpreten de manera adecuada. Los encargados de aplicar e interpretar las pruebas son responsables direc- tos de su uso apropiado, como lo reconocen cada vez más los psicólogos profesionales. Desafor- tunadamente, la capacidad y el conocimiento que poseen muchos asesores, médicos clínicos y otros profesionales son inadecuados para aplicar ciertas pruebas. Por lo tanto, es preciso con- cientizar a quienes aplican pruebas mentales acerca de las limitaciones de su preparación profe- sional, de la necesidad de obtener más capacitación y de conseguir ayuda de otros profesionales y fuentes de información actualizadas. Asimismo, los examinadores deben ser capaces de formu- lar juicios éticos acertados mostrándose sensibles a las necesidades tanto de los examinandos como de las organizaciones donde trabajan y de la sociedad en su conjunto. Consentimiento informado y confidencialidad El revelar de manera inadecuada datos de pruebas, en especial los identificados con el nombre del examinando, es un asunto que constantemente preocupa a los especialistas en evaluación psicológica. El uso creciente de las computadoras y de los bancos de datos relacionados ha in- crementado la necesidad de vigilancia para garantizar que los resultados de las pruebas conser- vadas en archivos electrónicos en particular sean protegidos adecuadamente contra la revelación impropia. A menos que la ley exija otra cosa, se necesita el consentimiento informado de quie- nes se someten a una prueba o de sus representantes legales antes de entregar los resultados iden- tificados con el nombre del examinando a cualquier persona o institución. El consentimiento informado implica que una persona acepta se entregue información privada porque sabe en qué consiste ésta y con quién será compartida. El formato 1.2 es un consentimiento informado que de- be leer y firmar el examinando o alguna persona responsable antes de que se lleve a cabo un examen psicológico. Como se señala en este formato, antes de que cualquier prueba u otros procedimien- tos psicológicos se administren, debe comunicarse al examinando el carácter y los objetivos de la evaluación, por qué se está aplicando, quién tendrá acceso a la información y cómo se usará ésta. Además de los derechos de consentimiento informado y confidencialidad, deberá adjudicarse la “etiqueta menos estigmatizante” al informar sobre la presencia de ciertos síntomas, trastornos y otros problemas psicológicos. Por ejemplo, “incapacitado mentalmente” es a todas luces menos estigmatizante, en el aspecto personal y social, que “débil mental”, “idiota” o “retrasado”, así co- mo “reacción de adaptación de la adolescencia” lo es menos que “personalidad psicópata”. Desde un punto de vista legal, los datos provenientes de pruebas psicológicas son comu- nicaciones privilegiadas que pueden compartirse con personas ajenas únicamente en casos de absoluta necesidad. En el momento de la administración de la prueba debe avisarse a los exami- nandos por qué están siendo sometidos a ella, quién tendrá acceso a la información y cómo se utilizará ésta. Después de las pruebas, los examinandos también tienen el derecho de conocer sus resultados y lo que significan. Excepto en circunstancias excepcionales, como cuando una per- sona es peligrosa para sí misma o para otros, la información de las pruebas es confidencial y no debe revelarse sin el consentimiento informado necesario. Incluso con consentimiento informa- do, los datos pueden ser privilegiados. Esto significa que exceptuando al examinando y, en caso de menores o de personas legalmente incompetentes, alguno o ambos padres o tutor, sólo el aboga- do del examinando, su médico o psicólogo pueden obtener una copia de la información. ÉTICA Y NORMAS DE LOS TESTS 15 CONSENTIMIENTO INFORMADO PARA UN EXAMEN PSICOLÓGICO Yo, ________________________________________________, voluntariamente acepto actuar como participante en un examen psicológico conducido por______________________________________. He recibido una explicación clara y completa sobre el carácter general y los propósitos del examen y de las razones específicas por las que se me examina. También he sido informado de los tipos de pruebas y demás procedimientos que se aplicarán, así como de la manera en que se utilizarán los resultados. Me doy cuenta de que quizá no le sea posible al examinador aclararme todos los aspectos del exa- men mientras éste no haya terminado. También entiendo que puedo poner fin a mi participación en el examen en cualquier momento y sin represalias. Además comprendo que se me informará de los resul- tados y que éstos no serán entregados a nadie más sin mi autorización. En este momento, solicito que se envíe una copia de los resultados de este examen a: Firma del examinando Nombre del examinando en letra de molde Fecha Firma del examinador FORMATO 1.2 Formato para obtener consentimiento informado y conducir un examen psicológico Las personas legalmente responsables no sólo tienen derecho al acceso a los descubri- mientos que los informes de sus propias pruebas ofrezcan, también pueden disponer que se transmitan sus resultados a organismos educativos, clínicos o de asesoría para su uso apropiado. Asimismo, debe hacerse el máximo esfuerzo por mantener la confidencialidad de los resultados de las pruebas y de cualquier información personal. El Acta Familiar de los Derechos Educati- vos y de Privacía de 1974 establece, por ejemplo, que los resultados de pruebas y otros registros de estudiantes en poder de instituciones educativas que reciben fondos federales pueden poner- se a disposición, en forma identificable por persona, de otros sólo con el consentimiento por es- crito del estudiante, de sus padres o de su tutor. Sin embargo, esta acta sí permite a los padres y al personal de la escuela con un “legítimo interés educativo” revisar los registros escolares, al igual que la Ley Pública 94-142 en el caso de niños con discapacidades. En 1988, el Comité Adjunto de Prácticas de Exámenes publicó un conjunto de derechos y responsabilidades diseñado “para enumerar y esclarecer las expectativas que razonablemente puedan tener quienes se someten a pruebas sobre el proceso de aplicación de éstas, y las expec- tativas que pueden tener quienes elaboran, aplican y usan las pruebas sobre los que se someten a ellas”. La responsabilidad fundamental de someterse a una prueba es asegurarse de compren- der los derechos que se tienen y actuar en consecuencia de la manera apropiada (vea la página Web url://www.apa.org/science/jctpweb.html). RESUMEN Las raíces de las pruebas psicológicas y la evaluación pueden rastrearse hasta la Grecia y China antiguas, aunque un método concertado, científico, para efectuar la medición de las diferencias individuales en cuanto a aptitudes y personalidad no se estableció sino hasta fines del siglo XIX en Europa y Estados Unidos. El campo de la evaluación psicológica y pedagógica se desarrolló 16 CAPÍTULO UNO Temas históricos y profesionales con rapidez en el siglo XX, y se emplearon ampliamente instrumentos psicométricos de diverso tipo en situaciones educativas, clínicas, de negocios, de gobierno y militares. Estos instrumen- tos pueden clasificarse en varias formas: estandarizados o no estandarizados, individuales o co- lectivos, de velocidad o de potencia, objetivos o no objetivos, verbales o no verbales, de lápiz y papel o de ejecución, y cognoscitivos, afectivos o psicomotrices. Los The Mental Measurements Yearbooks constituyen la fuente de información más amplia sobre pruebas. En Test Print V pue- de encontrarse una lista descriptiva bastante completa de pruebas, inventarios, escalas, listas de verificación y cuestionarios publicados. Las pruebas psicológicas y educativas se han convertido en un gran negocio durante las últimas décadas, pero el desarrollo de este campo se ha visto acompañado por debates acerca de la validez y utilidad de las pruebas y sobre la preparación profesional de quienes las aplican e in- terpretan. La información obtenida de la aplicación de tests psicológicos debe mantenerse con- fidencial y, salvo algunas excepciones, sólo puede compartirse con otras personas después de haber obtenido el consentimiento por escrito del examinado o de sus tutores o asesores legales. Con el fin de tener un mejor control que permita evitar el uso inadecuado de las prue- bas, la American Psychological Association, la American Educational Research Association, la American Personnel and Guidance Association y el National Council on Measurement in Education han publicado estándares y códigos sobre las prácticas éticas y justas de la apli- cación de las pruebas. El cumplimiento de dichos estándares y códigos ayuda asegurar que las pruebas psicológicas y demás instrumentos y procedimientos psicométricos son aplica- dos por personal calificado de manera tanto sensible como sensata y que los resultados se interpretan y aplican con precisión y consideración. P R E G U N TA S Y A C T I V I D A D E S 1. Identificar las contribuciones que cada una de las siguientes personas realizó a la evaluación psico- lógica y educativa: Alfred Binet, J. McKeen Cattell, Francis Galton, Hermann Rorschach, Charles Spearman, Lewis Terman, Edward Thorndike, Robert Woodworth y E. K. Strong, hijo. Para obte- ner más información, consulte artículos especializados o determinados capítulos en libros que tra- ten acerca de la historia de las pruebas psicológicas y educativas (por ejemplo, French y Hale, 1990; Goldstein y Hersen, 1990; McReynolds, 1986, y Sokal, 1987). 2. ¿Qué procedimientos o instrumentos se usaban en épocas antiguas para evaluar las aptitudes y per- sonalidad de la gente, y cómo se usaban los resultados de aquellas pruebas? 3. Describa y evalúe diversas formas de clasificar las pruebas psicológicas y otros instrumentos de evaluación psicométrica. 4. Examine en alguna biblioteca ejemplares de The Mental Measurements Yearbooks (Impara y Plake, 1988 y ediciones anteriores), Tests (4ª ed.) (Maddox, 1997), Test Critiques (Keyser y Sweetland 1984-1994) y Tests in Print V (Murphy, Impara y Plake, 1999). Describa los diversos tipos de infor- mación que contienen estas obras de referencia. 5. Se supone que los psicólogos son profesionales que piensan ante todo en el bienestar del público, así como científicos cuya búsqueda de la verdad no permite la explotación de otras personas; enton- ces, ¿por qué es necesario tener un código de ética explícito que regule la práctica de la psicología en general y de las pruebas psicológicas en particular? RESUMEN 17 6. ¿De qué manera los conceptos de consentimiento informado y confidencialidad en las pruebas psi- cológicas difieren del de comunicación privilegiada usado en las leyes y la medicina? 7. Revise el directorio telefónico de una ciudad grande e indague acerca de servicios de evaluación y pruebas educativas. Debe buscar en varias secciones: psicólogos, asesoría, pruebas, exámenes y si- milares. 8. (a) Conéctese a la página Web www.apa.org. (b) Oprima el botón del mouse en la palabra “Students”. (c) En “Topics”, oprima sobre Testing. (d) Explore la página de Testing and Assessment seleccionando los distintos temas resaltados. CAPÍTULO DOS DISEÑO Y ELABORACIÓN DE TESTS La cantidad de esfuerzo invertido en la elaboración de un test psicológico o educativo varía con el tipo de prueba y con los propósitos para los cuales se crea. Es probable que la mayoría de los maestros dedique relativamente poco tiempo a preparar pruebas de ensayo o de respuesta corta para evaluar el progreso de sus alumnos en una unidad de enseñanza. Por otro lado, las pruebas de habilidad y de personalidad diseñadas por especialistas en evaluación psicológica por lo ge- neral requieren del esfuerzo de muchos individuos que trabajan por periodos prolongados. Los procedimientos empleados en la elaboración de una prueba también varían con el ti- po de ésta y los propósitos de los usuarios. Preparar un inventario de lápiz y papel, de intereses o de características de la personalidad, implica problemas diferentes a los de construir una prue- ba de aprovechamiento o de aptitud. De igual modo, los complejos procedimientos seguidos por los diseñadores profesionales de pruebas son poco familiares para la mayoría de los maestros. Cualquiera que sea el tipo de prueba o las metas de los usuarios, se necesita cierto grado de pla- neación del contenido antes de escribir los reactivos que contendrá el instrumento. La planea- ción de la prueba deberá incluir definiciones claras de las variables o constructos que van a medirse, descripciones de las personas que van a ser examinadas, las condiciones bajo las cua- les se administrará la prueba, e información concerniente a la calificación, interpretación de las puntuaciones y uso que se dará a los resultados. PLANEACIÓN DE UN TEST La elaboración de un test requiere la consideración cuidadosa de sus propósitos específicos. Las pruebas cumplen muchas funciones diferentes, y su proceso de elaboración varía en cierto gra- do de acuerdo con el propósito que se pretenda lograr. Por ejemplo, se siguen procedimientos di- ferentes al elaborar pruebas de aprovechamiento, de inteligencia, de aptitud especial o un inventario de personalidad. Sin embargo, de manera ideal, la elaboración de una prueba u otro instrumento psicométrico empieza con la definición de las variables o constructos que van a me- dirse y con el esbozo del contenido propuesto. Pruebas de observación La elaboración de una prueba de aptitud para observar a solicitantes de un trabajo particular co- mienza con un análisis detallado de las actividades que componen ese trabajo. Un análisis de ta- reas, o análisis de trabajo, consiste en especificar los componentes del trabajo de modo que puedan construirse las situaciones de prueba o reactivos más adecuados para predecir el desempe- ño del empleado. Esas especificaciones pueden incluir incidentes cruciales, conductas que son de- cisivas para el desempeño exitoso o fallido, así como otra información que describa las actividades del trabajo. Dado que la descripción de un trabajo particular por lo general es larga y requiere de- 18 PLANEACIÓN DE UN TEST 19 dicación, la prueba final no medirá todos los aspectos del desempeño del empleado. Tratará sólo con una muestra de los comportamientos más importantes relacionados con el trabajo en cuestión, muestra que en el mejor de los casos debe ser representativa de todas las tareas a realizar. Pruebas de inteligencia En el capítulo 7 se describen con detalle los procedimientos empleados por los diseñadores de pruebas de inteligencia, por lo que aquí sólo se hará una breve descripción. Como en la elabora- ción de cualquier otra prueba, se reúne un conjunto de reactivos que supuestamente miden algún aspecto del constructo “inteligencia”. Esos reactivos pueden ser elaborados de acuerdo con una teoría específica de la conducta inteligente o haciendo referencia sólo a los tipos de tareas que la gente muy inteligente puede realizar de manera más efectiva que las personas menos inteligen- tes. La selección de los reactivos a incluir en la prueba final puede hacerse con base en las rela- ciones de las respuestas dadas a reactivos con criterios tales como la edad cronológica, así como con las relaciones entre los reactivos de la prueba. Inventarios y escalas de personalidad Al elaborar inventarios de personalidad y escalas de calificación se han empleado varios enfo- ques, algunos basados en el sentido común , otros en las teorías de personalidad y otros más en procedimientos estadísticos. Como se describe en los capítulos 16 y 17, muchos de los instru- mentos de evaluación de la personalidad publicados recientemente han sido elaborados combi- nando enfoques teóricos, racionales y empíricos. Uno o más de estos enfoques pueden emplearse en diferentes etapas del desarrollo del instrumento. Pruebas de rendimiento Se ha dedicado más atención a los procedimientos usados para elaborar pruebas de rendimiento académico que a los de otras clases de pruebas. Esto es comprensible cuando nos percatamos de que se aplican más pruebas de rendimiento que todos los otros tipos de pruebas combinados. A pe- sar del uso generalizado de las pruebas de rendimiento, la mayoría de los profesores, quienes su- puestamente están familiarizados con su materia de estudio, no dedica tiempo suficiente a la evaluación del progreso de los estudiantes. Con mucha frecuencia los maestros consideran que los exámenes son algo desagradable adjunto a la enseñanza, en lugar de verlos como parte integral y formativa del proceso educativo. Sin embargo, cuando se usan de manera efectiva, los resultados de los exámenes no se limitan a la sola evaluación y motivación de los estudiantes. También pro- porcionan información a los maestros, al personal administrativo y a los padres, concerniente a la medida en que se han alcanzado los objetivos educativos específicos. Al proporcionar datos sobre la efectividad del currículo escolar y los procedimientos de enseñanza, las puntuaciones de los exámenes pueden contribuir significativamente en la planificación educativa para estu- diantes individuales o grupos, incluso para distritos escolares enteros. Preguntas para las personas que planifican los instrumentos Quienes planifican las pruebas de rendimiento de un salón de clases deben empezar por atender con cuidado las siguientes preguntas: 1. ¿Cuáles son los temas y materiales sobre los que se examinará a los estudiantes? 2. ¿Qué tipos de preguntas deben elaborarse? 20 CAPÍTULO DOS Diseño y elaboración de tests 3. ¿Qué formatos o esquemas de reactivos y pruebas deben utilizarse? 4. ¿Cuándo, dónde y cómo debe administrarse la prueba? 5. ¿Cómo debe calificarse y evaluarse la prueba resuelta? Las preguntas 1, 2 y 3 se analizan en este capítulo, las preguntas 4 y 5 en el capítulo 3. Taxonomías de objetivos cognoscitivos Así como elaborar una prueba de observación para usar en la selección de personal requiere un aná- lisis preliminar del trabajo a desempeñar, la preparación de una prueba para medir objetivos instruc- cionales específicos es más efectiva cuando las conductas que van a evaluarse se definen claramente al inicio. Desde mediados de la década de 1950 se ha prestado mucha atención a los sistemas forma- les y estándar de clasificación de los objetivos cognoscitivos, afectivos y psicomotrices de la instruc- ción. En la tabla 2.1 se presentan las principales categorías de cuatro de esas taxonomías de objetivos cognoscitivos. Las seis principales categorías de la primera taxonomía, la Taxonomía de objeti- vos educativos: el dominio cognoscitivo (Bloom y Krathwohl, 1956), se presentan en orden de la más simple a la más compleja. Esas categorías no son exclusivas, sino más bien progresivamente in- TABLA 2.1 Compendio ilustrativo de los objetivos cognoscitivos Bloom y Krathwohl (1956) Conocimiento Comprensión Aplicación Análisis Síntesis Evaluación Educational Testing Service (1965) Memoria Comprensión Pensamiento Ebel (1979) Comprensión de la terminología (o vocabulario) Comprensión del hecho y del principio (o generalización) Habilidad para explicar o ilustrar (comprensión de relaciones) Habilidad para calcular (problemas numéricos) Habilidad para predecir (qué es probable que suceda bajo condiciones especificadas) Habilidad para recomendar la acción apropiada (o algunas situaciones de problemas prácticos específicos) Habilidad para formular un juicio evaluativo Gerlach y Sullivan (1967) Identificación Nominación Descripción Elaboración Ordenamiento Demostración PLANEACIÓN DE UN TEST 21 clusivas. Por ejemplo, tanto el Conocimiento (categoría I) como la Comprensión (categoría II) son esenciales para la Aplicación (categoría III) y por ende están incluidas en la tercera categoría. En la tabla 2.2 se presenta una descripción de las categorías registradas en esta taxonomía. Otra taxonomía presentada en la tabla 2.1, la propuesta por Gerlach y Sullivan (1967), enfa- tiza la conducta del examinado en la identificación, nominación, descripción, elaboración, ordena- miento o demostración de algo. La identificación consiste en indicar qué miembro de un conjunto pertenece a una categoría particular. En la nominación debe proporcionarse la etiqueta verbal co- rrecta para un referente o conjunto de referentes. La descripción consiste en reportar categorías re- levantes de objetos, eventos, propiedades o relaciones. En la elaboración se crea un producto de acuerdo con ciertas especificaciones. El ordenamiento requiere arreglar en un orden específico dos o más referentes, y la demostración consiste en realizar ciertas acciones para cumplir una tarea es- pecificada. La aplicación de cualquiera de las taxonomías presentadas en la tabla 2.1 debe alentar a la persona que diseña la prueba a ir más allá de los reactivos que miden el reconocimiento simple o la memoria, y a preparar reactivos que midan objetivos educativos de orden superior y deman- den reflexión. Los siguientes reactivos, que pueden presentarse en un formato de ensayo o de prueba objetiva, ejemplifican lo anterior: ¿Cuál es la fórmula para calcular el error estándar de medición? (Conocimiento) Examine la siguiente gráfica y determine cuántos reactivos deben agregarse a una prueba de 50 reactivos para aumentar su confiabilidad de .60 a .80. (Comprensión) TABLA 2.2 Categorías de la Taxonomía de objetivos educativos: el dominio cognoscitivo I. Conocimiento implica el recuerdo de hechos específicos. Los verbos de muestra en los reactivos de conocimiento son definir, identificar, mencionar y nombrar. Ejemplo de un reactivo de conocimien- to es: “Mencione las seis categorías principales de La taxonomía de objetivos educativos: el domi- nio cognoscitivo”. II. Comprensión significa entender el significado o propósito de algo. Los verbos de muestra en los reactivos de comprensión son convertir, explicar y resumir. Ejemplo de un reactivo de comprensión es: “Explique lo que quiere decir el revisor de la prueba cuando dice que ésta no es confiable”. III. Aplicación implica utilizar la información y las ideas en situaciones nuevas. Los verbos de muestra en los reactivos de aplicación son calcular, determinar y resolver. Ejemplo de un reactivo de aplica- ción es: “Calcule la media y la desviación estándar del siguiente grupo de calificaciones”. IV. Análisis es descomponer algo para revelar su estructura y las interrelaciones que hay entre sus partes. Los verbos de muestra en los reactivos de análisis son analizar, diferenciar y relacionar. Ejemplo de un reactivo de análisis es: “Analice esta unidad instruccional en varias categorías conductuales y de contenido”. V. Síntesis es combinar varios elementos o partes en un todo estructural. Los verbos de muestra en los reactivos de síntesis son diseñar, crear, formular y planificar. Ejemplo de un reactivo de síntesis es: “Diseñe una tabla de especificaciones para una prueba de estadística elemental”. VI. Evaluación es formular un juicio basado en el razonamiento. Los verbos de muestra en los reactivos de evaluación son comparar, criticar, evaluar y juzgar. Ejemplo de un reactivo de evaluación es: “Evalúe el procedimiento usado en la estandarización de esta prueba”. Fuente: Tomado de Taxonomy of Educational Objectives: The Classification of Educational Goals: Handbook I: The Cognitive Domain, por Benjamin S. Bloom et al. Copyright © 1956, 1984 por Longman Publishing Group. 22 CAPÍTULO DOS Diseño y elaboración de tests Calcule el error estándar de estimación para una prueba que tiene una correlación de .70 con un criterio que tiene desviación estándar de 10. (Aplicación) Distinga entre una prueba de rendimiento para el salón de clase y una prueba estandariza- da de rendimiento en términos de lo que mide cada una y la manera en que se utilizan. (Análisis) Formule una teoría que relacione los intereses con la personalidad y mencione la eviden- cia de investigación apropiada que la apoya. (Síntesis) Evalúe las críticas concernientes al contenido y los usos del SAT. (Evaluación) Objetivos afectivos y psicomotrices Una función importante de la educación es inculcar en los estudiantes ciertas actitudes, valores y otros estados afectivos. No existe un método que sea completamente satisfactorio para clasifi- car los objetivos afectivos de la instrucción, pero se ha propuesto toda una serie de sistemas de clasificación. Un ejemplo es la Taxonomía de objetivos educativos: dominio afectivo (Krath- wohl, Bloom y Masia, 1964). Las principales categorías de esta taxonomía son: I. Recibir o aten- der. II. Responder o participar. III. Valorar o creer en el valor de algo. IV. Organizar los valores en un sistema. V. Caracterización mediante un valor o valor complejo. En comparación con su contraparte en el dominio cognoscitivo, esta taxonomía no se ha aplicado con mucha frecuencia. También se han propuesto taxonomías de objetivos educativos en el dominio psicomotriz (por ejemplo, Harrow, 1972; Nixon y Jewett, 1980; Simpson, 1966). Las seis categorías en la Ta- xonomía del dominio psicomotriz de Harrow, por ejemplo, son: movimientos reflejos, movi- mientos básicos fundamentales, habilidades perceptuales, habilidades físicas, movimientos hábiles y comunicación no discursiva. Los niveles inferiores de la taxonomía de Nixon y Jewett se interesan en la percepción de los componentes de un movimiento y en los esfuerzos de los examinados por repetirlo o recordarlo después de que se ha demostrado. Los niveles superiores ponen de relieve la creación de movimiento para una situación específica en los deportes, la dan- za u otras actividades físicas. Al aplicar dicha taxonomía, deben tomarse decisiones con respec- to a los pesos numéricos que se asignarán a cada componente del desempeño y a si se harán deducciones por errores, torpezas y falta de pulcritud. Tabla de especificaciones La mayoría de los diseñadores de pruebas no se adhiere rígidamente a una taxonomía formal al especificar los objetivos que van a medirse. No obstante, al planificar una prueba es útil construir una tabla de especificaciones de dos vías. En dicha tabla, los objetivos conductuales que van a evaluarse se presentan en los encabezados de renglón y los objetivos de contenido (temáticos) co- mo encabezados de columna. Luego se escriben en el cuerpo (celdas) de la tabla las descripcio- nes de los reactivos específicos que caen bajo los encabezados apropiados de renglón y columna. Una tabla de especificaciones debe ser razonablemente detallada en términos del conoci- miento y las habilidades que se espera demuestren los examinados, pero es importante no enfa- tizar en exceso un objetivo particular. Por ejemplo, puede ser más sencillo elaborar reactivos que evalúen el conocimiento de términos y hechos que reactivos donde se mida la habilidad de ana- lizar y evaluar, pero en la prueba deben incluirse reactivos de las dos últimas categorías. La tabla 2.3 es una tabla de especificaciones para una unidad sobre preparación, aplica- ción y análisis de reactivos de pruebas. Advierta que el número total de reactivos que se dedica PLANEACIÓN DE UN TEST 23 a cada tema aparece entre paréntesis debajo del mismo. Una vez que se ha determinado un con- junto de objetivos para un curso o unidad de instrucción y que se ha preparado el bosquejo te- mático, pueden elaborarse los reactivos de la prueba para medir el grado en que los estudiantes han alcanzado los objetivos mencionados para cada tema. Ciertos tipos de reactivos de prueba son más apropiados que otros para medir la obtención de objetivos específicos. Los reactivos de respuesta corta y de completamiento son adecuados para eva- luar el conocimiento de la terminología, pero inadecuados para evaluar habilidades cognoscitivas de orden superior. Por esta razón, la tabla de especificaciones para una prueba debe ser inspeccionada con cuidado antes de decidir qué tipo de reactivos y cuántos de cada uno son apropiados. Al planifi- TABLA 2.3 Especificaciones para una prueba sobre preparación y administración de pruebas OBJETIVO CONDUCTUAL CONTENIDO (TEMA) Preparación Elaboración Aplicación Calificación Análisis de reactivos Análisis de tra- Reactivo de apa- Rapport; efecto Clave de lista; Criterio; consis- bajo; incidentes rejamiento; co- de halo calificación tencia interna; Conocimiento de críticos; muestra lectivo en (2 reactivos) compuesta; homogeneidad la terminología representativa espiral; grupo de calificación con de la prueba (3 reactivos) respuestas máquina (3 reactivos) (5 reactivos) (3 reactivos) Categorías en Ventajas y des- Factores que Reglas para cali- Métodos para de- la Taxonomía ventajas de los afectan el desem- ficar pruebas de terminar la validez Conocimiento de de objetivos reactivos de en- peño en la prue- ensayo y pruebas de los reactivos; hechos específi- educativos sayo y de los ba (3 reactivos) objetivas propósitos del cos (2 reactivos) reactivos objeti- (3 reactivos) análisis de reacti- vos (4 reactivos) vos (3 reactivos) Explicación de los 0 reactivos 0 reactivos Efectos de la Explicación de la propósitos de ha- ponderación de relación entre p y Comprensión cer plan de prueba los reactivos so- D (1 reactivo) (2 reactivos) bre la califi- cación total (1 reactivo) Especificaciones Ejemplos de Instrucciones Corrección para Cálculo de los para una unidad reactivos de op- para una prueba la adivinación; índices de difi- Aplicación sobre examina- ción múltiple pa- (2 reactivos) ponderación de cultad y discri- ción (1 reactivo) ra medir confianza; uso minación; comprensión, del nomograma distribución de aplicación, análi- para calificar los las respuestas a sis, síntesis y reactivos de reor- los distractores evaluación (4 denamiento (4 (4 reactivos) reactivos) reactivos) Total 8 reactivos 13 reactivos 7 reactivos 11 reactivos 11 reactivos 24 CAPÍTULO DOS Diseño y elaboración de tests car una prueba también es necesario considerar cuestiones prácticas como el costo, el tiempo dispo- nible para la administración, la disposición de los reactivos y las condiciones de la prueba. PREPARACIÓN DE LOS REACTIVOS DEL TEST La meta principal de la planificación de la prueba es la preparación de un bosquejo detallado, co- mo una tabla de especificaciones, que sirva como guía al elaborar los reactivos con los que se van a evaluar o predecir ciertos objetivos. Una vez preparada dicha tabla o el bosquejo detalla- do del contenido de la prueba, el siguiente paso es elaborar los reactivos. Por lo general, es re- comendable que, en las pruebas objetivas, inicialmente se prepare alrededor de 20% más de reactivos de los que en realidad se necesiten, de modo que se disponga de una cantidad adecua- da de buenos reactivos para la versión final de la prueba. Las organizaciones comerciales de tests, como el Educational Testing Service, emplean como elaboradores de reactivos a personas que poseen un conocimiento profundo de la materia de la prueba y destreza suficiente para la creación de reactivos. Cualquier persona que desee aprender cómo elaborar buenos reactivos puede beneficiarse al inspeccionar una muestra de reactivos de las pruebas publicadas, ya que éstos se encuentran entre los mejores disponibles. Todos los reactivos representan procedimientos para obtener información acerca de los individuos, pero la cantidad y los tipos de información varían con la naturaleza de las tareas planteadas por diferentes tipos de reactivos. Pedir a los examinados que comparen la Batalla de Bulge con la Batalla de Hastings requiere un tipo de respuesta diferente a la que se obtiene cuan- do se les pide señalar, de entre una serie de acontecimientos, los que ocurrieron en cada batalla. En el primer reactivo se requieren habilidades de organización e integración complejas, mien- tras que sólo se necesita memoria de reconocimiento para responder al segundo. Se han sugerido varios métodos para clasificar los reactivos de acuerdo con el formato o la forma de la respuesta requerida. Completamiento o llenado contra selección, recuerdo contra reconocimiento, y construcción de respuesta contra identificación son formas de diferenciar en- tre los reactivos donde se pide a los examinados que escriban o construyan una respuesta y aque- llos en que se les pide señalar cuál de varias alternativas es correcta. Otro método popular de clasificación de reactivos es ensayo contra objetivo, de los cuales se presentan ejemplos en la ta- bla 2.4. Todos los reactivos de ensayo son del tipo de completamiento o llenado, donde la res- puesta del examinado se construye en lugar de ser meramente identificada. Un reactivo objetivo puede ser del tipo de completamiento o llenado, o de selección, de- pendiendo de si se pide que los examinados construyan una respuesta o seleccionen la mejor res- puesta de entre una lista de alternativas. El rasgo crucial de los reactivos objetivos no es la forma de la respuesta, sino la objetividad con la que pueden calificarse. Dos o más calificadores de un reactivo de ensayo pueden estar en desacuerdo en si una respuesta dada es correcta y en cuántos puntos debería recibir. Sin embargo, salvo que ocurran errores administrativos, los diferentes ca- lificadores de una prueba objetiva asignarán la misma calificación a una determinada prueba. Reactivos de ensayo La ventaja principal de los reactivos de ensayo es que pueden medir la habilidad personal para or- ganizar, relacionar y comunicar, conductas que no son fáciles de evaluar con los reactivos objeti- vos. Las pruebas de ensayo tienen las ventajas de que requieren menos tiempo para su elaboración y reducen la probabilidad de que los examinados respondan en forma correcta a los reactivos por PREPARACIÓN DE LOS REACTIVOS DEL TEST 25 TABLA 2.4 Ejemplos de varios tipos de reactivos de test I. Reactivos de ensayo Instrucciones: Escriba una respuesta de media página para cada uno de los siguientes reactivos. 1. Compare las ventajas y desventajas de los reactivos de ensayo y los reactivos objetivos. 2. Explique las razones para realizar un análisis de reactivos en una prueba para el salón de clases. II. Reactivos objetivos A. Respuesta corta Instrucciones: Escriba la(s) palabra(s) apropiada(s) en cada espacio. 1. La única cosa que es objetiva acerca de una prueba objetiva es ______________________ . 2. ¿Cuál es el primer paso formal en la elaboración de una prueba para predecir el desempeño la- boral?_________________________________________________________________ ___________________________________________________________________. B. Verdadero-falso Instrucciones: Encierre V en un círculo si la afirmación es verdadera; encierre F en un círculo si la afirmación es falsa. V F 1. El sistema de clasificación de pruebas más global es el de The Mental Measure- ments Yearbooks. V F 2. El grupo de respuesta de deseabilidad social es la tendencia a dar una calificación al- ta a un examinado en un rasgo sólo porque obtuvo una calificación alta en otro rasgo. C. Aparejamiento Instrucciones: Escriba la letra correspondiente al nombre correcto, de la lista que aparece en la segunda columna, en el espacio apropiado de la línea al margen de la primera columna. ______ 1. prueba colectiva de inteligencia A. Binet ______ 2. prueba individual de inteligencia B. Darwin ______ 3. inventario de intereses C. Galton ______ 4. inventario de personalidad D. Otis ______ 5. correlación producto-momento E. Pearson ______ 6. pruebas sensoriomotrices F. Rorschach G. Spearman H. Strong I. Woodworth D. Opción múltiple Instrucciones: Escriba la letra de la opción correcta en el espacio del margen al lado del reactivo. ______ 1. Los adverbios como nunca, en ocasiones y siempre, que revelan la respuesta a un examinado que no tiene información sobre la materia del reactivo, se llaman a. generalidades brillantes b. adverbios de enlace c. grupos de respuesta d. determinantes específicos ______ 2. Jimmy, quien tiene 8 años 4 meses de edad, obtiene una calificación de edad mental de 9 años 5 meses. ¿Cuál es su razón CI en la prueba? a. 88 b. 90 c. 113 d. 120 26 CAPÍTULO DOS Diseño y elaboración de tests simple adivinación. Sin embargo, las preguntas de ensayo pueden ser tan generales que se inter- preten de manera muy diferente por distintas personas. Además, el número de preguntas de ensa- yo que pueden ser respondidas con respuestas de media página en una clase típica de 50 minutos (aproximadamente seis) puede ser insuficiente para determinar el conocimiento que tiene una persona de la materia de la prueba. No deberíamos esperar que las respuestas fueran tan inclusi- vas o detalladas como las requeridas por los reactivos del cuadro 2.1, pero podrían alcanzar cier- ta comprensión relativamente profunda del material. Otras desventajas de las pruebas de ensayo es que son susceptibles al engaño por parte de individuos con facilidad de palabra que no cuentan con información; además, su calificación es subjetiva y toma mucho tiempo. Un profesor de historia informó haber aplicado una prueba de ensayo que incluía la pre- gunta: “¿Cuáles fueron las causas y las consecuencias de la Batalla de Hastings?” Y un estudian- te apático, cuya preparación sobre la historia de Inglaterra no incluía los acontecimientos anteriores al siglo XIV, empezó a responder la pregunta con la afirmación: “No puedo comentar sobre la Batalla de Hastings, pero dirijamos nuestra atención hacia la Guerra de los Cien Años”. Éste es un ejemplo bastante ostensible de la tendencia que los examinados no informados tienen a responder una pregunta ligeramente diferente de la que fue planteada para enfatizar lo que sa- ben, en lugar de lo que no saben. Una manera de enfrentar este problema, aunque laborioso pa- ra los que presentan la prueba y para los que la califican, es el famoso procedimiento chino que consiste en hacer que los estudiantes escriban todo lo que saben del tema. Es posible que lo me- dido por esa prueba sea la susceptibilidad a la fatiga más que el conocimiento general. Como regla, no deberán usarse reactivos de ensayo cuando el mismo conocimiento o ha- bilidad puedan ser evaluados con reactivos objetivos. Si se plantean preguntas de ensayo, la per- sona que redacta los reactivos debe tratar de hacer las preguntas de manera tan objetiva como sea CUADRO 2.1 ¿UN EXAMEN FINAL GLOBAL PARA LOS ALUMNOS UNIVERSITARIOS DEL ÚLTIMO AÑO? 1. Describa la historia del pontificado desde sus orígenes hasta el presente, concentrándose espe- cialmente, pero no de manera exclusiva, en su impacto social, político, económico, religioso y filosófico en Europa, Asia, África y América. 2. Con base en el conocimiento que tenga usted de sus obras, evalúe la estabilidad emocional, el grado de ajuste y las frustraciones reprimidas de Alejandro de Afrodisias, Ramsés II, Gregorio de Nicea y Hammurabi. Apoye sus respuestas con citas del trabajo de cada uno de estos hombres, mencionando las referencias apropiadas. 3. Desarrolle un plan realista para reducir la deuda nacional. Identifique los efectos de su plan sobre el cubismo, la controversia donatista y la teoría de las ondas de la luz. Bosqueje un método para prevenir esos efectos. Critique este método desde todos los puntos de vista posi- bles. Señale las deficiencias en su punto de vista, según lo demuestra su respuesta a la pregunta anterior. 4. Bosqueje el desarrollo del pensamiento humano. Estime su relevancia y compárelo con el desa- rrollo de cualquier otra clase de pensamiento —animal o alienígena. 5. Suponga que 2 500 aborígenes amotinados y enloquecidos están asaltando el aula. ¿Cómo los cal- maría usted? Puede usar cualquier idioma antiguo excepto el latín o el griego y cualquier técnica no verbal diferente a la violencia. 6. Tome una posición a favor o en contra de la lógica y la verdad. ¿Cómo probaría la validez de su posición sin involucrar a nadie más o sin poner en peligro su propia salud? PREPARACIÓN DE LOS REACTIVOS DEL TEST 27 posible. Esto puede lograrse al (1) definir la tarea y redactar los reactivos de manera clara, por ejemplo, pedir a los examinados que comparen y expliquen en lugar de que discutan; (2) usar un número pequeño de reactivos que deberán responder todos los examinados; (3) estructurar los reactivos de forma que los expertos en la materia estén de acuerdo en que puede demostrarse que una respuesta es mejor que otra, y (4) hacer que los examinados respondan a cada reactivo en una hoja por separado. Reactivos de respuesta corta, de verdadero y falso y de aparejamiento Los reactivos objetivos no se limitan a los cuatro tradicionales (respuesta corta o completamiento, verdadero y falso, aparejamiento y opción múltiple), pero éstos son los más populares. Entre las ventajas atribuidas a las pruebas objetivas está el que pueden calificarse de manera fácil e impar- cial y que, como se requiere menos tiempo para responder a cada reactivo, puede hacerse un mues- treo más amplio del contenido que en las pruebas de ensayo. Al preparar las pruebas objetivas debe tenerse cuidado de lograr que los reactivos resulten claros, precisos y gramaticalmente correctos. Deben escribirse en un lenguaje adecuado para el nivel de lectura de las personas a las que se diri- gen. Debe incluirse en el reactivo toda la información y los requerimientos necesarios para selec- cionar una respuesta razonable, omitiendo las palabras y frases no funcionales o estereotipadas. Resulta tentador elaborar reactivos objetivos mediante la copia literal de afirmaciones de un texto o de otras fuentes, pero esta práctica sólo enfatiza la memoria. Las personas que redac- tan reactivos también deben tener cuidado de no incluir claves para las respuestas correctas y evi- tar los reactivos interrelacionados o entrelazados. Dos reactivos están interrelacionados cuando el planteamiento de uno proporciona una señal para la respuesta del otro. Dos reactivos están en- trelazados cuando es necesario conocer la respuesta a uno de ellos para llegar a la respuesta co- rrecta del otro. Reactivos de respuesta corta. Un reactivo de respuesta corta o de completamiento plantea una tarea tipo fuente, en la cual se requiere que los examinados completen o llenen uno o más es- pacios en blanco de una afirmación incompleta con las palabras o frases correctas, o que den una respuesta breve a una pregunta. En términos de la longitud de la respuesta elaborada, los reacti- vos de respuesta corta caen entre los reactivos de ensayo y los de reconocimiento. Los reactivos de respuesta corta se encuentran entre los más sencillos de elaborar, y requieren que los examina- dos proporcionen la respuesta correcta en lugar de simplemente reconocerla. Aunque son espe- cialmente útiles para evaluar el conocimiento de la terminología, los reactivos de respuesta corta tienen serias limitaciones: son inapropiados para medir objetivos instruccionales complejos y, debido a que puede haber más de una respuesta correcta, la calificación no siempre es por com- pleto objetiva.1 Al elaborar reactivos de respuesta corta deberán seguirse las siguientes directrices: 1. Las preguntas directas son preferibles a las afirmaciones incompletas. 2. Plantee los reactivos de forma que las respuestas sean breves y no ambiguas. 3. Si se utiliza una afirmación incompleta, coloque el espacio en blanco al final de la afirmación. 1Un tipo de reactivo de completamiento diseñado para evaluar la habilidad de lectura es la técnica cloze. En este proce- dimiento se instruye a los individuos para que reemplacen las palabras faltantes que han sido borradas al azar en deter- minados párrafos. Una medida de la habilidad de lectura del individuo es el grado en que puede llenar correctamente los espacios en blanco y dar así sentido a los pasajes. 28 CAPÍTULO DOS Diseño y elaboración de tests 4. Haga que todos los espacios en blanco sean de la misma extensión. 5. Evite usar múltiples espacios en blanco en el mismo reactivo, en especial si tornan poco claro el significado de la tarea. 6. Indique las unidades en que deben expresarse las respuestas numéricas. Reactivos de verdadero y falso. Uno de los tipos de reactivos que es más sencillo de elabo- rar, pero probablemente el más criticado por los examinadores profesionales, es el de verdadero y falso. Los reactivos de verdadero y falso pueden escribirse y leerse con rapidez y, por ende, permiten un muestreo amplio del contenido de la materia. Un defecto notorio de los reactivos de verdadero y falso es que a menudo se interesan en información trivial o se elaboran copiando afirmaciones literales de un texto. En consecuencia, se dice que alientan la memorización y así encaminan mal los esfuerzos por aprender. Otra crítica a estos reactivos es que a menudo son ambiguos y no pueden usarse para medir objetivos instruccionales más complejos. Además, de- bido a que la calificación total en una prueba de este tipo puede ser afectada por la tendencia del examinado a adivinar cuando tiene dudas o a estar de acuerdo (o en desacuerdo), la precisión de la calificación puede ser cuestionable.2 En promedio, los examinados obtendrán un 50% de aciertos en los reactivos de verdadero y falso simplemente por adivinar. Las calificaciones pueden ser infladas todavía más cuando los reac- tivos contienen determinantes específicos —palabras como todos, siempre, nunca y sólo—, los cua- les indican que la afirmación probablemente es falsa, o palabras como a menudo, en ocasiones y usualmente, sugerentes de que la afirmación es verdadera. A pesar de esos defectos, los reactivos de verdadero y falso no tienen que ser triviales o ambiguos o encaminar mal el aprendizaje. En defensa de los reactivos de verdadero y falso, Ebel (1979) afirma que el grado de dominio que tienen los estudiantes en un área particular del cono- cimiento es indicado por su éxito al juzgar la veracidad o falsedad de proposiciones relaciona- das con él (p. 112). Él ha considerado que tales proposiciones son expresiones del conocimiento verbal, que es la esencia del logro educativo. La defensa que hizo Ebel de los reactivos de verdadero y falso puede ser cuestionada, pe- ro no se cuestiona el hecho de que estos reactivos, bien diseñados, pueden medir más que la sim- ple memoria. Por ejemplo, al incluir dos conceptos, condiciones o eventos en un reactivo de verdadero y falso, el examinador puede preguntar si es verdad que tienen una relación de mode- rada a fuerte (Diekhoff, 1984). Otras posibilidades son preguntar si (1) un concepto, condición o evento implica o es una consecuencia de otro evento; (2) un concepto, condición o evento es un subconjunto, ejemplo o categoría de otro evento, (3) ambos conceptos, condiciones o even- tos son verdaderos. Dichos reactivos pueden medir la comprensión así como el conocimiento significativo de conceptos y eventos. Cualesquiera que sean los objetivos de una prueba de verdadero y falso, al elaborar reac- tivos de este tipo es recomendable atender las siguientes sugerencias: 1. Asegúrese de que las afirmaciones planteen asuntos importantes (no triviales). 2. Establezca afirmaciones relativamente cortas, y verdaderas o falsas sin lugar a dudas. 3. Evite los reactivos planteados de manera negativa, especialmente los que contienen doble negación. 4. Evite los reactivos ambiguos y capciosos. 2La tendencia a estar de acuerdo cuando se tiene duda (o conformidad) es un grupo de respuesta. Los grupos de respues- tas son las tendencias por parte de los examinados a responder a los reactivos de una prueba de acuerdo con su forma, es decir, a la manera en que están planteados, en lugar de hacerlo con base en su contenido. PREPARACIÓN DE LOS REACTIVOS DEL TEST 29 5. Como regla, evite los determinantes específicos. Si se usan determinantes específicos pa- ra hacer que se equivoquen las personas sin conocimientos, pero hábiles para presentar pruebas, deben incluirse en las afirmaciones verdaderas tan a menudo como en las falsas. 6. En las afirmaciones de opinión, cite la fuente. 7. Haga que las afirmaciones verdaderas y las falsas sean aproximadamente de la misma lon- gitud, y que el número de afirmaciones verdaderas sea aproximadamente igual al de las falsas. Puede argumentarse que, dado que los reactivos falsos tienden a discriminar más que los reactivos verdaderos, el número de afirmaciones falsas debería ser mayor que el de afirmaciones verdaderas. Sin embargo, si el maestro sigue esta práctica en pruebas su- cesivas, los estudiantes pueden darse cuenta de ello y comenzar a responder “falso” cuan- do tengan duda acerca de la respuesta. 8. Asegúrese de que las respuestas erróneas sean más atractivas planteando los reactivos de tal manera que la lógica superficial, los errores populares o los determinantes específicos sugieran que las respuestas erróneas son correctas. Las afirmaciones falsas que parecen verdaderas también pueden hacer que se equivoquen los examinados sin conocimientos. Reactivos de aparejamiento. Tanto los reactivos de verdadero y falso como los de opción múltiple son, en cierto sentido, variedades de los reactivos de aparejamiento. En estos tres tipos de reactivos, un conjunto de opciones de respuesta se equipara con un conjunto de opciones de estímulo (premisas). La distinción es que los reactivos de verdadero y falso y los de opción múl- tiple tienen sólo una premisa (el tronco del reactivo) y dos o más opciones de respuesta, mientras que los reactivos de aparejamiento tienen múltiples premisas y múltiples opciones de respuesta. La tarea del examinado en un reactivo de aparejamiento es acoplar las opciones de respuesta con la premisa correcta. El aparejamiento usualmente es de uno a uno (una respuesta por premisa), pe- ro también puede ser de una respuesta a varias premisas, de varias respuestas a una premisa, o de varias respuestas a varias premisas. Por supuesto, debe informarse a los examinados cuál de esos procedimientos se aplica en un reactivo particular. Los reactivos de aparejamiento son más sencillos de elaborar y cubren el material de ma- nera más eficiente que muchos otros tipos de reactivos; por desgracia, usualmente sólo miden la memorización de acontecimientos.3 Además, la necesidad de hacer que las opciones sean homo- géneas (que todas las opciones de respuesta sean del mismo tipo, como fechas, lugares o nom- bres) limita el tipo de material que puede adaptarse a un marco de aparejamiento. A continuación se presentan algunos lineamientos para elaborar reactivos de aparejamiento: 1. Ordene la premisa y las opciones de respuesta en un formato claro y lógico de columnas, con las premisas en la columna izquierda y las opciones de respuesta en la columna derecha. 2. Use entre seis y quince premisas, con dos o tres opciones de respuesta más que premisas. 3. Numere las premisas de manera sucesiva, y coloque letras (a, b, c, etc.) antes de las opcio- nes de respuesta. 4. Especifique con claridad las bases para realizar el aparejamiento. 5. Coloque todo el reactivo en una sola página. Un tipo especial de reactivo de aparejamiento es el reactivo de reordenamiento, en el cual se requiere que los examinados clasifiquen un número fijo de categorías predeterminadas. En un 3Al menos un estudio encontró que los reactivos de aparejamiento pueden diseñarse para ser iguales o incluso superio- res a los de opción múltiple como medidas tanto del dominio del contenido de interés como de las actitudes de las per- sonas que presentan la prueba (Shaha, 1984). 30 CAPÍTULO DOS Diseño y elaboración de tests tipo particular de reordenamiento conocido como reactivo de rango, los individuos reordenan un conjunto de opciones en orden de la primera a la última (o de la más alta a la más baja). Reactivos de opción múltiple No se sabe quién elaboró el primer reactivo de opción múltiple para una prueba, pero desde el punto de vista de la evaluación psicológica fue algo fortuito.4 Los reactivos de opción múltiple son los más versátiles de todos los reactivos objetivos, ya que pueden usarse para medir logros de aprendizaje simples y complejos en todos los niveles y en todas las áreas temáticas. Aunque los reactivos de respuesta de ensayo demandan mayor habilidad de organización que la selec- ción de respuestas a los reactivos de opción múltiple, responder de manera correcta a un reacti- vo de opción múltiple bien preparado requiere buena habilidad para discriminar y no sólo capacidad para reconocer o recordar la respuesta correcta. Las calificaciones en los reactivos de opción múltiple también son menos afectadas por la adivinación y por otros grupos de respues- ta que las calificaciones en otros reactivos objetivos. Además, puede obtenerse información de diagnóstico útil a partir de un análisis de las opciones incorrectas (distractores) seleccionadas por los examinados. Entre los defectos de los reactivos de opción múltiple están que (1) los buenos son difíci- les de elaborar, en especial aquellos en los que todas las opciones resulten igualmente atractivas para los examinados que no conocen la respuesta correcta; (2) enfatizan el reconocimiento más que el recuerdo y la organización de la información, y (3) requieren más tiempo para la respues- ta y pueden muestrear el dominio temático de manera menos adecuada que los reactivos de ver- dadero y falso. También se ha argumentado, pero no demostrado, que las pruebas de opción múltiple favorecen a los lectores sagaces, hábiles y rápidos, y penalizan a los personas más re- flexivas y que piensan con más profundidad (Hoffman, 1962). En el cuadro 2.2 se presentan lineamientos para facilitar la elaboración de reactivos de op- ción múltiple de alta calidad. Tales lineamientos son sobre todo producto de la lógica y de la ex- periencia, más que de la investigación, y su seguimiento no garantiza la elaboración de buenas pruebas de opción múltiple. La elaboración de buenos reactivos depende mucho o más que del co- nocimiento de la materia de la prueba, de la comprensión de lo que los estudiantes deberían saber y de lo que es poco probable que sepan acerca de la materia, y del arte o habilidad de plantear pre- guntas. Incluso cuando los lineamientos no se siguen con precisión, los reactivos de opción múl- tiple tienden a ser bastante sólidos en su capacidad para medir el conocimiento y la comprensión. Elaboración de distractores. Un factor crucial en la determinación de la efectividad de los reac- tivos de opción múltiple es la selección o elaboración de los elementos distractores (las opciones incorrectas). Para la selección de reactivos puede emplearse una aproximación racional o una em- pírica. El enfoque racional demanda a la persona que elabora la prueba formular juicios persona- les concernientes a qué distractores son apropiados. En contraste, el enfoque empírico consiste en seleccionar distractores de entre las respuestas incorrectas más populares a los troncos de los reac- tivos aplicados en afirmaciones abiertas-cerradas. No hay consenso acerca de qué método da lugar a los mejores distractores, pero el juicio del examinador parece ser al menos tan efectivo como la aproximación empírica (Hanna y Johnson, 1978; Owens, Hanna y Coppedge, 1970). 4Se acredita a Arthur Otis haber sido pionero en el uso del formato de reactivo de opción múltiple en las pruebas colec- tivas de inteligencia. Los primeros instrumentos publicados que emplearon este formato fueron las Pruebas autoaplica- bles de Otis de habilidad mental (1916-1917). PREPARACIÓN DE LOS REACTIVOS DEL TEST 31 CUADRO 2.2 LINEAMIENTOS PARA ELABORAR REACTIVOS DE OPCIÓN MÚLTIPLE 1. Debe utilizarse como tronco una pregunta o una afirmación incompleta, pero se prefiere el formato de pregunta. Si el tronco es una afirmación incompleta, coloque el espacio en blanco al final de la afir- mación. 2. Establezca claramente el problema específico de la pregunta o afirmación incompleta en el tronco y a un nivel de lectura apropiado para los examinados, pero evite tomar preguntas o afirmaciones literales de los textos. 3. Coloque la mayor parte del reactivo en el tronco. Es ineficiente repetir las mismas palabras en cada opción y a los examinados les resulta menos difícil revisar las opciones más cortas. 4. Emplee preguntas de opinión con moderación; cuando las utilice, cite la fuente de la opinión. 5. Cuatro o cinco opciones son típicas, pero también pueden escribirse buenos reactivos que tengan sólo dos o tres opciones. Con los estudiantes de los primeros grados, tres opciones son preferibles a cuatro o cinco. Haladyna y Downing (1993) concluyeron que tres opciones pueden ser ade- cuadas para la mayor parte de las pruebas de habilidad y rendimiento. 6. Si las opciones tienen un orden natural, como fechas o edades, es aconsejable disponerlas en ese orden. De otro modo, ordénelas aleatoria o alfabéticamente (siempre que la alfabetización no pro- porcione señales para la respuesta correcta). 7. Haga que todas las opciones sean aproximadamente de la misma extensión, que sean gramatical- mente correctas y apropiadas en relación con el tronco. Sin embargo, no deje que el tronco revele la opción correcta por medio de asociaciones verbales u otras señales. 8. Haga que todas las opciones sean plausibles para los examinados que no conocen la respuesta correcta, pero haga que sólo una opción sea la correcta o “la mejor”. Los errores populares o las afirmaciones que sólo son parcialmente correctas son buenos distractores. 9. Al elaborar cada distractor, plantee una razón por la cual los examinados que no conocen la res- puesta correcta podrían seleccionarlo. 10. Evite, o al menos minimice, el uso de expresiones negativas como “no” en el tronco o las op- ciones. 11. Aunque cierta cantidad de novedad e incluso de humor es apropiada y puede servir para intere- sar y motivar a los examinados, no deben usarse reactivos y opciones ambiguos o capciosos. 12. Use con moderación las expresiones: ninguno de los anteriores, todos los anteriores, o más de uno de los anteriores. Además, evite el uso de determinantes específicos como: siempre o nunca. 13. Coloque las opciones en un formato apilado (párrafo) en lugar de hacerlo en tándem (una tras otra); use números para designar los reactivos y letras para las opciones. 14. Prepare el número correcto de reactivos para el grado o nivel de edad que se pondrá a prueba, ha- ciendo que cada reactivo sea independiente de otros reactivos (que no se entrelacen o se inter- relacionen). 15. Haga que los niveles de dificultad sean tales que el porcentaje de examinados que responden a un reactivo de manera correcta esté aproximadamente a la mitad entre el porcentaje de azar (adivi- nación aleatoria) y el 100 por ciento: % correcto = 50(k + 1)/k, donde k es el número de distrac- tores por reactivo. Elaboración de reactivos complejos. Los diseñadores de pruebas por lo general tienen más di- ficultad para elaborar reactivos que midan la comprensión y el pensamiento que los que miden el conocimiento directo de la materia. Se han propuesto varias formas de redactar reactivos objeti- vos que evalúen objetivos instruccionales más complejos. Opciones como: todas las anteriores, ninguna de las anteriores, dos de las anteriores y todas salvo una de las anteriores, pueden tornar más difícil la elección de un examinado. Dicha elección también puede complicarse haciendo que todas las opciones sean correctas (o incorrectas) y pidiendo a los examinados que seleccionen la mejor o la más apropiada para cada reactivo. Otras maneras de hacer más difícil la decisión de un 32 CAPÍTULO DOS Diseño y elaboración de tests examinado son: (1) incluir reactivos de respuesta múltiple en los cuales números variables de op- ciones sean correctos y el examinado deba indicar qué opciones (si las hay) son correctas o inco- rrectas; (2) hacer que los examinados seleccionen una respuesta y la mejoren o escriban una breve justificación de la misma, y (3) pedir a los examinados que identifiquen el planteamiento correc- to (como una ecuación o método de solución) en tareas de resolución de problemas. En el cuadro 2.3 se ilustran otros procedimientos para incrementar la complejidad de los reactivos de opción múltiple. Todas esas técnicas están diseñadas para hacer que la selección de la opción correcta sea un proceso reflexivo y analítico, en el cual se pongan en práctica varias capacidades cognoscitivas en lugar de sólo la memoria. Por último, el uso de un formato de con- junto de problemas, en el cual dos o más reactivos de opción múltiple se relacionan con la mis- ma ilustración, gráfica, pasaje o escenario, se ha vuelto popular en los exámenes de acreditación o certificación (Hambleton, 1996). Uso de computadoras en la elaboración de pruebas Las aplicaciones más comunes de las computadoras en la elaboración de pruebas consisten en programas de procesamiento de textos para ayudar en la mecanografía de los reactivos, la forma- ción, la revisión de errores de ortografía y de sintaxis, etc. La elaboración de pruebas es facilita- da aún más por una combinación del procesador de textos y programas de gráficos que apoyan la preparación de pruebas compuestas por palabras e ilustraciones. Esos programas contienen ban- cos de reactivos a los cuales se puede tener acceso ingresando ciertas palabras clave que indican el contenido y las características psicométricas deseadas en la prueba. Los bancos de reactivos, de los que pueden seleccionarse y recuperarse los reactivos al diseñar las pruebas, están disponibles con los editores de libros de texto como complementos para determinadas obras. Los redactores de reactivos de prueba basados en la computadora, algoritmos de especifi- cación de dominio para generar reactivos de prueba, y enfoques basados en la lingüística o el aprendizaje de conceptos para la redacción de reactivos, pueden proporcionar procedimientos más eficientes y precisos para la elaboración de reactivos de prueba (Herman, 1994). En la ac- tualidad la preparación de buenos reactivos de prueba es tanto un arte como una ciencia. FORMACIÓN Y REPRODUCCIÓN DE UN TEST Una vez que se han preparado los reactivos para una prueba, es aconsejable hacer que los revi- sen y editen personas conocedoras. Incluso los esfuerzos más concienzudos no necesariamente producen una buena prueba, y un amigo o asociado con frecuencia puede detectar errores y ha- cer sugerencias valiosas para mejorar los reactivos. Suponiendo que el diseñador de la prueba ha elaborado un número suficiente de reactivos satisfactorios, antes de formar una prueba deben tomarse decisiones finales concernientes a va- rios asuntos: 1. ¿Es la longitud de la prueba es apropiada para los límites de tiempo? 2. ¿Cómo deberán agruparse u ordenarse los reactivos en las páginas del cuadernillo de la prueba? 3. ¿Deben marcarse las respuestas en el cuadernillo de la prueba o se utilizará una hoja es- pecial de respuestas? 4. ¿Cómo se reproducirán el cuadernillo de la prueba y la hoja de respuestas? 5. ¿Qué información debe incluirse en las instrucciones de la prueba? FORMACIÓN Y REPRODUCCIÓN DE UN TEST 33 CUADRO 2.3 ALGUNAS FORMAS COMPLEJAS DE REACTIVOS DE OPCIÓN MÚLTIPLE 1. Clasificación. El examinado clasifica a una persona, objeto o condición en una de varias cate- gorías diseñadas en el tronco. Jean Piaget se caracteriza mejor como un psicólogo . a. clínico c. psicómetra b. del desarrollo d. social 2. Condiciones si-entonces. El examinado debe determinar la consecuencia correcta de una o más condiciones presentes. Si la varianza verdadera de una prueba se incrementa, pero la varianza de error permanece constante, ¿cuál de las siguientes situaciones ocurrirá? a. la confiabilidad aumentará c. la varianza observada disminuirá b. la confiabilidad disminuirá d. ni la confiabilidad ni la varianza observada cambiarán 3. Condiciones múltiples. El examinado utiliza las condiciones o afirmaciones presentadas en el tronco para derivar una conclusión. Si la media de una prueba es 59 y su desviación estándar es 2, ¿cuál es la calificación z de Ma- ría si su calificación cruda en la prueba es 60? a. –2.00 c. .50 b. –.50 d. 2.00 4. Verdadero y falso múltiple. El examinado decide si una, todas o ninguna de las dos o más con- diciones o afirmaciones presentadas en el tronco es(son) correcta(s). ¿Es cierto que (1) Alfred Binet fue el padre de las pruebas de inteligencia, y (2) su primera prue- ba de inteligencia se publicó en 1916? a. ambas 1 y 2 c. 1 no pero 2 sí b. 1 pero no 2 d. ni 1 ni 2 5. Falta de correspondencia. El examinado indica cuál opción no pertenece al mismo grupo que las otras. ¿Cuál de los siguientes nombres no corresponde con los otros? a. Alfred Adler c. Carl Jung b. Sigmund Freud d. Carl Rogers 6. Relaciones y correlatos. El examinado determina la relación entre dos conceptos e indica cuál de ellos (a, b, c, d, etc.) se relaciona con un tercer concepto de la misma manera que los dos pri- meros conceptos se relacionan entre sí. La media es a la desviación estándar como la mediana es a: a. la desviación promedio c. el rango semiintercuartilar b. el rango inclusivo d. la varianza 34 CAPÍTULO DOS Diseño y elaboración de tests Extensión de la prueba La decisión de cuántos reactivos incluir en una prueba depende de los límites de tiempo, del gra- do y nivel de lectura de los examinados, y de la extensión y dificultad de los reactivos. Los reac- tivos cortos y/o los que sólo requieren memorización de acontecimientos pueden responderse en menos tiempo que los más largos, donde son necesarios cálculos laboriosos y/o razonamiento abstracto. La experiencia previa con reactivos del mismo tipo general que los incluidos en una prueba ayudará a determinar si los límites de tiempo son apropiados. En las pruebas de dificul- tad moderada aplicadas a partir del nivel de las escuelas secundarias, una buena regla empírica es conceder un minuto por cada reactivo de opción múltiple o de respuesta corta y un minuto por cada dos reactivos de verdadero y falso. De este modo, una prueba de 50 reactivos de opción múltiple o de respuesta corta y una de 100 reactivos de verdadero y falso suelen ser apropiadas para un periodo de clase típico de 50 minutos en el nivel de secundaria. Cinco o seis preguntas de ensayo que requieren respuestas de media página pueden ser respondidas en este mismo pe- riodo. A menos que los reactivos sean muy largos o sumamente difíciles, al menos 90% de los estudiantes en un grupo típico de secundaria podrán terminar la prueba en el tiempo asignado. La extensión de la prueba y los límites de tiempo necesitarán ajustarse hacia abajo o hacia arri- ba cuando se examine a alumnos de escuela primaria o a estudiantes de universidad. Existen, por supuesto, diferencias entre los estudiantes en cuanto al tiempo que requieren para terminar una prueba. Puede esperarse que aquellos con más conocimientos o habilidades en la materia de la prueba terminen primero, pero no siempre sucede así. Los estudiantes menos in- formados pueden simplemente adivinar o “rendirse” y entregar la prueba antes del tiempo lími- te cuando se permita hacerlo. Además, los hábitos de presentación de pruebas de los examinados con altas calificaciones pueden llevarlos a revisar los reactivos de la prueba en varias ocasiones para estar seguros de que no pasaron algo por alto o lo interpretaron mal. Ciertos estudiantes, con altas y bajas calificaciones, también habrán escuchado que es más probable que sus respues- tas iniciales sean las correctas, y por lo tanto no es buena idea perder tiempo reconsiderando la primera elección. Todos esos factores hacen difícil predecir cuánto tiempo le tomará a un alum- no determinado terminar una prueba. Todo depende de una interacción compleja entre la prepa- ración, la personalidad y el estado emocional y físico del estudiante, de la naturaleza y dificultad del material de la prueba, y del ambiente del examen (ruido y otras distracciones, conducta del examinador o supervisor, etcétera). Es probable que quien administre la prueba pueda hacer que el tiempo real dedicado a resolverla sea más uniforme al pedir que los examinados permanezcan en sus asientos después de terminarla, pero aún así puede haber diferencias sustanciales en el tiempo que necesitan los examinados para completar la prueba. Ordenamiento de los reactivos En lo que respecta al ordenamiento de las opciones en los reactivos de opción múltiple, se ha di- cho que los examinados muestran preferencias por la posición de las opciones, y cuando no es- tán seguros de la respuesta es más probable que elijan ciertas opciones (digamos b y c) que otras (a y d). Aunque la investigación no ha logrado demostrar que estas preferencias tengan un efec- to significativo en las calificaciones de una prueba (Jessell y Sullins, 1975; Wilbur, 1970), es aconsejable ordenar los reactivos de opción múltiple y los de verdadero y falso de forma que las respuestas no sigan un patrón. Ordenar las opciones para los reactivos de opción múltiple en or- den alfabético puede ser satisfactorio, pero una mejor estrategia es aleatorizar el orden de las op- ciones dentro de los reactivos. Esto asegurará que al menos la persona que elabora la prueba no tenga ninguna inclinación al ordenar las opciones correctas. Por supuesto, cuando se usan, op- FORMACIÓN Y REPRODUCCIÓN DE UN TEST 35 ciones como: todas las anteriores y ninguna de las anteriores, éstas deben colocarse en la última posición. En los reactivos de aparejamiento o reordenamiento, a los examinados les resulta más conveniente y la calificación se facilita si todas las premisas y opciones de respuesta se colocan en la misma página. Colocar los reactivos de respuesta corta en grupos de cinco o algo así tam- bién puede reducir los errores al presentar y calificar una prueba. Por último, debe proporcionar- se espacio suficiente para responder los reactivos de respuesta corta y los de ensayo, sea que las respuestas se escriban en el cuadernillo de la prueba o en una hoja por separado. Con relación al esquema de la prueba como un todo, puede esperarse que la tarea de los exa- minados se haga más sencilla si se agrupan juntos los reactivos del mismo tipo (opción múltiple, verdadero y falso, etc.) y los que tratan del mismo tema. Es cierto que ordenar los reactivos en gru- pos de acuerdo con el tipo o tema puede simplificar la preparación, aplicación y calificación de la prueba, pero no hay evidencia de que esta práctica mejore las calificaciones del instrumento. En las pruebas que contienen reactivos objetivos y de ensayo, estos últimos suelen colocarse al final, ya que suelen requerir más tiempo y diferentes procesos de pensamiento que los primeros. Otra suposición razonable es que las calificaciones de la prueba serán más altas si se orde- nan subconjuntos de reactivos del más fácil al más difícil. Se supone que el éxito al responder los reactivos más sencillos crea expectativas favorables de éxito, y que ello anima a los examinados a poner más empeño en los reactivos más difíciles. Sin embargo, los hallazgos de la investigación no siempre han confirmado esta suposición (Allison, 1984; Gerow, 1980; Klimko, 1984). Un reacti- vo sencillo ocasional puede mejorar el desempeño en los reactivos subsecuentes, pero, en general, ordenar los reactivos en orden de dificultad parece tener poco efecto sobre las calificaciones glo- bales. Las excepciones a esta conclusión son las pruebas de velocidad (Plake, Ansorge, Parker y Lowry, 1982) o las muy difíciles (Green, 1984; Savitz, 1985). En una prueba de velocidad o en una que es muy difícil, colocar los reactivos más difíciles al final de la prueba parece mejorar un tanto las calificaciones. Una conclusión lógica de los hallazgos de la investigación sobre los efectos del ordena- miento en los reactivos de acuerdo con el nivel de dificultad es que, al elaborar pruebas que no son de velocidad desde fáciles hasta de dificultad moderada, los diseñadores harían bien en preocuparse menos por el ordenamiento de los reactivos e interesarse más en asegurarse de que estén bien escritos y midan lo que se supone deben medir. Cuando una prueba es muy difícil o de velocidad, colocar los reactivos en orden de los más fáciles a los más difíciles puede asegu- rar el uso más eficiente del tiempo del examinado, así como mejorar la motivación y, por consi- guiente, dar por resultado calificaciones más altas. Hojas de respuestas Para la mayoría de las pruebas que se administran en un aula, en especial en los primeros grados, es aconsejable hacer que los estudiantes marquen o escriban sus respuestas en el cuadernillo de la prueba (Airasian y Terrasi, 1994). Esto genera menos errores al indicar las respuestas. En los reac- tivos objetivos, también facilita la calificación si se requiere que los examinados escriban las letras o respuestas apropiadas en los espacios marginales situados a la izquierda de las preguntas. Las hojas de respuestas por separado, que son más fáciles de calificar, pueden usarse a partir de los últimos años de la escuela elemental. Si la prueba se va a calificar con una máqui- na deberán usarse hojas de respuestas distribuidas comercialmente. En dichas hojas, los exami- nados responden colocando en un círculo o en un espacio al lado del número del reactivo el núme- ro o letra correspondiente. Si la prueba va a calificarse de manera manual, el profesor puede 36 CAPÍTULO DOS Diseño y elaboración de tests preparar fácilmente una hoja de respuestas y duplicarla. Una hoja de respuestas para una prueba de 75 reactivos de opción múltiple puede tener el siguiente formato: 1. a b c d e 26. a b c d e 51. a b c d e 2. a b c d e 27. a b c d e 52. a b c d e ... ... ... 25. a b c d e 50. a b c d e 75. a b c d e Se indica a los examinados que marquen la letra correspondiente a la respuesta correcta para ca- da reactivo. También se dispone de hojas de respuestas SCANTRON que pueden ser calificadas por una máquina o a mano. Toda institución educativa tiene recursos que facilitan la reproducción de materiales es- critos o impresos para su uso en el aula. Las máquinas fotocopiadoras pueden utilizarse para re- producir los cuadernillos de prueba en un formato de impresión por uno o ambos lados, en ocasiones a color. Si se va a usar el mismo tipo de hoja de respuestas para diferentes pruebas, puede imprimirse una gran cantidad en una sola operación de la máquina y almacenarse para otras aplicaciones de pruebas. Instrucciones en los tests Las instrucciones generales para una prueba de ensayo u objetiva que se aplica de manera simul- tánea a un grupo de personas se colocan al frente de la prueba, y las instrucciones específicas pa- ra cada parte de una prueba múltiple se colocan antes de la parte respectiva. Por lo general, resulta sensato mecanografiar las instrucciones en negritas de forma que sea menos probable que los exa- minados las salten o las pasen por alto. Como su planteamiento puede llegar a tener cierto efecto sobre las calificaciones obtenidas, las instrucciones deben ser precisas más que generales (Joncas y Standig, 1998). También es aconsejable que el examinador lea en voz alta las instrucciones glo- bales si son inusuales o poco familiares para los examinados. En una prueba individual en la cual el examinador presenta cada tarea e interactúa de manera continua con el examinado, las instruc- ciones se dan en forma oral. Sea que se den de manera oral, impresa o en ambas formas, las ins- trucciones deben informar a los examinados acerca del propósito de la prueba (o reactivo), cómo deben indicarse las respuestas,5 qué tipo de ayuda pueden esperar si no entienden algo, cuánto tiempo tienen para terminar la prueba, cómo se calificarán las respuestas, si es recomendable adi- vinar cuando se tenga duda, y cómo corregir una respuesta si cometieron un error. Las siguientes instrucciones generales para una prueba de rendimiento aplicada a un grupo son representativas: Escriba su nombre en la esquina superior derecha de la hoja de respuestas, pero no escriba en el cua- dernillo de la prueba. Esta prueba está diseñada para evaluar su conocimiento y comprensión de es- tadística elemental. Son 50 reactivos y usted tendrá exactamente 50 minutos para completar la prueba. Indique su respuesta a cada reactivo llenando el espacio apropiado en la hoja de respuestas debajo de la letra que corresponde a la respuesta correcta. Su calificación en la prueba será igual al número de reactivos que haya respondido correctamente. Aunque la adivinación al azar no aumen- tará su calificación, si puede eliminar al menos una opción en un reactivo, es sensato hacer una con- 5Como el método de respuesta en las pruebas aplicadas por computadora puede no ser familiar para algunos examina- dos, debe asignarse tiempo suficiente para dar las instrucciones y mostrar cómo funciona el equipo. Además, los exami- nados deben ser supervisados durante la prueba para asegurarse de que están usando el equipo de manera apropiada. PRUEBAS ORALES 37 jetura informada a partir de las opciones restantes. Debe tener tiempo suficiente para responder todos los reactivos y revisar sus respuestas. Si termina antes de tiempo, por favor permanezca sentado en silencio hasta que todos hayan terminado. Cuando las instrucciones de una prueba se den de manera oral, deben leerse de forma lenta, cla- ra y exactamente como aparecen impresas. Después de haber leído las instrucciones, debe per- mitirse a los examinados hacer preguntas, e independientemente de su trivialidad o redundancia aparente, deben responderse de manera paciente e informativa. En las pruebas múltiples que constan de cierta variedad de temas y/o tipos de reactivos, puede ser necesario dar instrucciones específicas para cada parte. Las instrucciones que atañen a muchos de los mismos asuntos (cómo marcar las respuestas, cómo corregir los errores, si se pueden omitir respuestas o adivinar cuando se tenga duda) pueden variar con el tipo de reacti- vos objetivos. Las instrucciones para responder los reactivos de ensayo pueden incluir sugeren- cias acerca de cómo estructurar las respuestas (bosquejo, formato y cosas similares); cómo deben ser las respuestas largas; qué tanto peso de calificación se dará al contenido, forma, gra- mática, caligrafía y otros rasgos de las respuestas, y si debe intentarse responder a todas las pre- guntas, a un número selecto de éstas, o si algunas son obligatorias y otras opcionales. PRUEBAS ORALES Las pruebas orales se definen como una situación de evaluación en la cual los examinados res- ponden de manera oral a las preguntas planteadas. Las preguntas pueden presentarse de manera oral, por escrito o de ambas formas. Las pruebas orales de rendimiento son más comunes en las instituciones educativas europeas que en Estados Unidos, donde la práctica de las pruebas ora- les declinó durante el siglo XX y es menos común en los grados superiores que en los inferiores. A muchos estudiantes no les gustan las pruebas orales y sienten que son medidas injustas del conocimiento y la comprensión. Sin embargo, los maestros de expresión oral, arte dramáti- co, inglés e idiomas extranjeros, a menudo deploran la falta de atención a la evaluación de las habilidades del lenguaje hablado y sienten que la consecuencia de semejante descuido es una ciudadanía que no puede hablar de manera correcta, comprensible y cómoda. Aunque muchos maestros de idiomas y de otras materias en las cuales es importante el desarrollo de las habilida- des del habla admiten lo deseable de los ejercicios y evaluaciones orales, también se dan cuenta de que las pruebas orales no sólo son muy subjetivas sino que a menudo resultan ineficientes (Crowl y McGinitie, 1974; Platt, 1961). Ventajas de las pruebas orales Desde los primeros años del siglo XX, las pruebas orales de rendimiento se han venido percibien- do como carentes de eficiencia y rigor psicométrico. También se les ha criticado por requerir de- masiado tiempo, proporcionar una muestra limitada de respuestas y por estar mal planeadas en la mayoría de los casos. Sin embargo, a pesar de sus limitaciones, incluso los críticos de las pruebas orales admi- ten que éstas poseen algunas ventajas sobre las pruebas escritas. Una ventaja es la situación so- cial interactiva que proporcionan, lo que permite evaluar cualidades personales como apariencia, estilo y manera de hablar. La situación cara a cara también hace poco probable la copia y quizá los engaños. Otras ventajas de las pruebas orales es que con frecuencia requieren respuestas a un 38 CAPÍTULO DOS Diseño y elaboración de tests nivel intelectual más alto que las escritas, y proporcionan práctica en comunicación oral e inte- racción social. También alientan una revisión más cuidadosa del material de prueba y pueden ser terminadas en menos tiempo que exámenes escritos comparables. Los individuos que aplican pruebas orales pueden seguir los procesos de pensamiento de los examinados y localizar con más facilidad los límites de su conocimiento y comprensión de la materia. Esos límites pueden ser determinados pidiendo a los examinados que expliquen, defiendan o se esmeren en sus res- puestas. Por último, el tiempo que se necesita para preparar y evaluar las respuestas orales pue- de ser menor que para una prueba escrita comparable (Glovrozov, 1974; Platt, 1961). Las pruebas orales son especialmente apropiadas para los alumnos de primaria y para otros que experimentan dificultades en la lectura o escritura. Incluso en los niveles superiores puede es- tar justificada la aplicación de una prueba oral ocasional cuando el tiempo y/o los recursos para reproducir los materiales de prueba son escasos (Green, 1975). Los exámenes orales son crucia- les en materias como expresión oral, idiomas y arte dramático. Las entrevistas estructuradas que constan de preguntas y respuestas orales a menudo se realizan con solicitantes de puestos en organizaciones gubernamentales e industriales. Es fre- cuente que tales entrevistas se efectúen por teléfono cuando los solicitantes no pueden viajar al sitio del examen. En exámenes de este tipo es posible introducir cierta cantidad de estandariza- ción y control planteando a todos los examinados las mismas preguntas, limitando el tiempo del que disponen para responder y registrando electrónicamente sus respuestas para reproducirlas y evaluarlas más tarde. Pruebas orales contra pruebas escritas El hecho de que las calificaciones en las pruebas orales de rendimiento sólo tengan correlaciones moderadas con las calificaciones en pruebas escritas comparables, sugiere que miden aspectos di- ferentes del rendimiento. En general, el conocimiento de hechos específicos puede ser determina- do con mayor rapidez por las pruebas objetivas escritas, por lo que los exámenes orales no deben contener grandes cantidades de esos tipos de preguntas. Como sucede con las pruebas de ensayo, las pruebas orales son más apropiadas cuando las preguntas requieren de respuestas extensas. Dado que los logros o las conductas evaluadas mediante pruebas orales son tan importan- tes como las mediciones de pruebas escritas, debería prestarse más atención a la principal fuen- te de error en las pruebas orales: los examinadores o evaluadores. Las personas que aplican pruebas orales deben poseer un conocimiento profundo de la materia y una conciencia muy agu- da de las respuestas apropiadas. Además, las categorías usadas por los examinadores al descri- bir o calificar las respuestas de los examinados deberían citar conductas observables específicas en lugar de conceptos vagos como potencial creativo, carácter, habilidad general o efectividad interpersonal. Estos conceptos indefinidos, y que quizá no puedan definirse, no son medidos más fácilmente por las pruebas orales que por las escritas. PRUEBAS DE DESEMPEÑO Las pruebas de lápiz y papel son las más eficientes y objetivas de todos los tipos de pruebas, pe- ro por lo regular sólo proporcionan información indirecta acerca de la habilidad de una persona para hacer o fabricar algo. El conocimiento de la materia puede demostrarse de manera bastan- te minuciosa en un periodo corto por medio de una prueba de ensayo, una de opción múltiple u otra prueba escrita. Sin embargo, poseer un bagaje de información acerca de un tema o ser ca- paz de explicar cómo hacer algo no es lo mismo que usar la información o destreza en situacio- PRUEBAS DE DESEMPEÑO 39 nes prácticas. En alguna ocasión el autor condujo un taller de relaciones humanas con un grupo de supervisores de una línea de ensamblaje. Aunque todos los supervisores salieron bien en las pruebas escritas del material presentado en el taller y coincidieron en que un enfoque democrá- tico hacia la supervisión era superior a uno autoritario, la mayoría reanudó su conducta autorita- ria en la supervisión al regresar a la línea de ensamblaje. Hay muchos otros ejemplos de conductas específicas a la situación, en las cuales los estu- diantes aprenden a dar la respuesta correcta en clase o en una prueba de lápiz y papel, pero la abandonan cuando enfrentan una situación de la vida real en la que podría ser aplicable. Buena parte del aprendizaje que se da en el salón de clase se relaciona con conductas en contextos no académicos, pero la relación está lejos de ser perfecta. La generalización del conocimiento y las habilidades del salón de clases a las situaciones de la vida real es particularmente endeble en el caso del conocimiento verbal. Los maestros se dan cuenta de que si la escuela debe preparar a los estudiantes para la vida, las habilidades y el conocimiento deben enseñarse de tal manera que se transfieran a situaciones laborales y otros contextos no académicos. Los maestros de ciencia, atletismo, arte dramático, música, artes industriales, expresión oral, lenguas extranjeras, caligra- fía, agricultura, y muchas otras áreas temáticas, reconocen la necesidad de que los estudiantes practiquen repetidamente y tengan experiencia directa para que las habilidades sean bien apren- didas y transferibles. Los laboratorios y proyectos de ciencia, las habilidades psicomotrices aprendidas en juegos y deportes, tocar instrumentos musicales y cantar, actuar en obras, cons- truir o aplicar objetos útiles en un taller, practicar el hablar en público y la conversación en es- pañol y en otros idiomas, todo lo anterior, proporciona oportunidades para aprender y practicar habilidades que son potencialmente útiles fuera de la clase y servirán como cimientos para el aprendizaje práctico experiencial posterior. Debido a un mayor realismo que las pruebas escri- tas, a las pruebas de ejecución en ocasiones se les conoce como evaluación auténtica o, para en- fatizar que son una opción a las pruebas escritas, evaluación alternativa. Aunque puede no ser necesario seguir una taxonomía de objetivos psicomotrices al plani- ficar una prueba para medir qué tan bien ha aprendido una persona una habilidad particular, es útil elaborar una lista detallada de las conductas que son indicadoras de un rango de competen- cia en esa habilidad. Deben tomarse de antemano decisiones como qué tanto peso (numérico) se dará a cada aspecto del desempeño y qué deducciones (si las hay) se harán por errores, lentitud o descuido. Una prueba de ejecución debe concentrarse, sobre todo, en el producto o resultado final de ejecutar una habilidad, pero también es importante observar la forma en que se realiza (el proce- so). Por ejemplo, lo que cuenta más al jugar golf es el número de golpes requeridos para meter la bola en el hoyo, pero todos los instructores de golf se dan cuenta de que la forma, o estilo, también es importante. En las pruebas de ejecución que involucran un producto terminado tangible no sólo debe advertirse la cantidad y calidad del producto, sino también la eficiencia con la que fue hecho. Tanto los productos como los procesos del desempeño suelen evaluarse de manera subje- tiva, principalmente por observación combinada con un registro escrito o electrónico y una lista de verificación o escala de calificación. Es posible examinar y evaluar portafolios enteros, o co- lecciones de los desempeños y productos de los estudiantes a lo largo de un periodo. Para la eva- luación precisa del desempeño es crucial una observación cuidadosa que esté tan libre de sesgos como sea posible. Las pruebas de ejecución estructuradas, en las cuales se prueba a cada exami- nado bajo las mismas condiciones, suelen ser más objetivas que las no estructuradas, donde se observa y evalúa a los estudiantes de manera subrepticia durante la clase, en los pasillos o en otras áreas de la escuela. Pero incluso aunque se tenga sumo cuidado, por su misma naturaleza, las pruebas de ejecución son menos objetivas y, en consecuencia, menos confiables que las prue- bas escritas. Además, las pruebas de ejecución requieren más tiempo que las escritas y a menu- 40 CAPÍTULO DOS Diseño y elaboración de tests do también equipo costoso y otras condiciones que consumen tiempo. Por esas razones, siempre que el costo y la ineficiencia de una prueba de ejecución no sean compensados por su carácter realista, es preferible una prueba escrita. RESUMEN Este capítulo trata principalmente de procedimientos para diseñar y elaborar pruebas de rendi- miento educativo, pero los principios analizados también pueden aplicarse a otros tipos de ins- trumentos de evaluación psicológicos y educativos. El primer paso en la elaboración de una prueba de rendimiento es preparar una lista de los objetivos conductuales que van a evaluarse. Luego debe construirse una tabla de especificaciones que presente el número de reactivos necesarios en cada categoría de contenido (temático) para ca- da objetivo conductual. Se han propuesto varias taxonomías o métodos de clasificación de obje- tivos conductuales en los dominios cognoscitivo, afectivo y psicomotriz. La taxonomía de objetivos educativos más popular es la Taxonomía de objetivos educativos: el dominio cognosci- tivo, de Bloom y Krathwohl. Tanto las pruebas de ensayo como las objetivas poseen ventajas y desventajas. Los reac- tivos de ensayo son más fáciles de elaborar, pero los reactivos objetivos pueden calificarse de manera más rápida y precisa. Las pruebas objetivas también proporcionan una muestra más re- presentativa del contenido de la materia. Las preguntas de respuesta corta, de verdadero y falso, de opción múltiple y de aparejamiento son variedades de los reactivos objetivos. De éstos, los reactivos de opción múltiple son los más versátiles y populares. Al formar una prueba debe prestarse atención a factores como la longitud y el formato, el método para registrar las respuestas, las facilidades para la reproducción de la prueba, y las ins- trucciones para la aplicación. Las instrucciones de aplicación de una prueba incluyen el(los) pro- pósito(s), los límites de tiempo, el procedimiento de calificación y lo aconsejable de adivinar cuando se tenga duda. Las pruebas orales no se usan tan a menudo como las pruebas escritas, pero cuando se pla- nean, aplican y evalúan con cuidado pueden proporcionar información que por lo regular no se obtiene con otros métodos de evaluación. En cierto sentido, tanto las pruebas escritas como las orales son medidas de ejecución, pero el concepto de pruebas de ejecución por lo general se ha concentrado en conducta no verbal. Dado que las pruebas de ejecución son más realistas que las verbales, en ocasiones se les conoce como evaluación auténtica. En lugar de limitarse a descri- bir cómo hacer algo o qué se hizo, las pruebas de ejecución requieren que los examinados de- muestren un proceso. Dichas pruebas se emplean de manera extensa para evaluar habilidades aprendidas en el laboratorio y en situaciones de campo, las cuales abarcan desde el laboratorio de ciencia hasta la arena deportiva y otros contextos aplicados. A menudo los maestros conser- van y evalúan portafolios del desempeño y los productos de los estudiantes. P R E G U N TA S Y A C T I V I D A D E S 1. Elija un tema para desarrollar una prueba en un área que le interese, plantee sus objetivos conduc- tuales y de contenido, elabore una tabla de especificaciones y diseñe una prueba objetiva de una ho- ra sobre el tema elegido usando varios tipos de reactivos. RESUMEN 41 2. Diseñe un sistema de objetivos educativos del dominio cognoscitivo para su salón de clases. ¿En qué difiere de los sistemas que se describieron en el texto? ¿Qué ventajas y desventajas particulares posee? 3. Elabore una taxonomía de objetivos para las humanidades o el currículo básico en la universidad. Incluya al menos cinco objetivos de su taxonomía, con dos o tres subobjetivos bajo los cinco obje- tivos principales. Defina cada una de las principales categorías y subcategorías de su taxonomía de manera tan clara y objetiva como sea posible. 4. Diseñe una tabla de especificaciones para una prueba global de humanidades que vaya a aplicarse a todos los estudiantes al final de su segundo año en la universidad. Base los objetivos conductuales y de contenido de su tabla de especificaciones en la taxonomía que elaboró en la actividad 3. 5. Describa las fortalezas y debilidades relativas de las pruebas de ensayo, orales y de ejecución. ¿Pa- ra qué propósitos y bajo qué condiciones es más apropiado cada tipo de prueba? 6. ¿Por qué suele considerarse que los reactivos de opción múltiple son superiores a los otros tipos de reactivos objetivos? ¿Puede pensar en una situación donde los reactivos de verdadero y falso, com- pletamiento o aparejamiento sean preferibles a los de opción múltiple? 7. Escriba cinco reactivos de respuesta corta (completamiento), cinco de verdadero y falso, y cinco de opción múltiple basándose en la siguiente selección adaptada de Aiken (1980): Una razón para la escasez de datos psicométricos sobre los adultos mayores es que en este grupo de edad la gente, cuya conducta es menos susceptible de ser controlada por psicólogos y educadores, a menudo se muestra renuente a ser examinada. Hay muchas razones para ex- plicar la poca cooperación de los adultos mayores en las situaciones de prueba, incluyendo la falta de tiempo, la percepción de las tareas de la prueba como triviales y sin sentido, y el temor de salir mal y parecer tontos. A los adultos mayores, en mayor medida que los adultos más jóvenes que están más conscientes de la prueba, no les entusiasma realizar tareas que los hagan ver ridículos o que son percibidas como irrelevantes en sus vidas. Debido a que los adultos mayores tienen poca motivación para ser examinados, se re- quiere sensibilidad y tacto de parte de los examinadores psicológicos para obtener respuestas válidas. Por desgracia, a menudo se cuestiona si los examinadores técnicamente competentes pero jóvenes pueden establecer suficiente rapport con los examinados mayores como para co- municarles adecuadamente las instrucciones de la prueba y estimularlos para hacer lo mejor que puedan. Relativamente pocos psicómetras parecen tener el entrenamiento y la experien- cia suficientes en la examinación psicológica de los adultos mayores como para hacer un tra- bajo creíble. Sin embargo, la mayoría de los examinadores encuentra que una vez que las personas mayores aceptan ser probadas, tienen una motivación tan alta como la de los exami- nados jóvenes para hacer las cosas bien. Incluso cuando los adultos mayores se muestran cooperativos y motivados, los límites de tiempo de muchas pruebas, la presencia de defectos sensoriales, la tendencia a la distrac- ción y la facilidad con que se fatigan les dificulta desempeñarse de manera satisfactoria. Una de las cosas más características acerca de ser mayor es que los reflejos y los movimientos fí- sicos tienden a ser más lentos. Por esta razón, las explicaciones de la declinación relaciona- da con la edad en las calificaciones de pruebas en áreas como el aprendizaje y la memoria deben considerar el hecho de que los adultos mayores por lo general no reaccionan con tan- ta rapidez como los adultos jóvenes. Aunque la gente mayor suele estar en desventaja en las pruebas cronometradas, su de- sempeño mejora de modo significativo cuando se le da tiempo suficiente para responder. En las pruebas que no están cronometradas los adultos mayores muestran poca o ninguna infe- rioridad en comparación con los adultos más jóvenes. 42 CAPÍTULO DOS Diseño y elaboración de tests Los defectos sensoriales, en especial en las modalidades visual y auditiva, también pueden interferir con el desempeño en la vejez. Puede ser útil contar con materiales especia- les de prueba, como caracteres grandes, y examinadores entrenados que estén alerta en cuan- to a la presencia de defectos sensoriales. Sin embargo, en ocasiones un supuesto defecto sensorial en realidad puede ser una máscara para ocultar un problema de lectura o compren- sión auditiva. El autor tuvo la experiencia de prepararse para probar a un hombre anciano que, avergonzado por su poca habilidad para la lectura, convenientemente olvidó sus lentes y, en consecuencia, no pudo leer los materiales de la prueba. 8. ¿Cuáles son las ventajas y desventajas de las pruebas orales en comparación con las pruebas escri- tas? ¿En qué circunstancias son apropiadas las pruebas orales? ¿Cómo deberían diseñarse, aplicar- se y calificarse? 9. ¿Qué miden las pruebas de ejecución que no pueda ser medido por medio de pruebas de lápiz y pa- pel (escritas) o por pruebas orales? Describa dos o tres pruebas de ejecución que haya presentado. CAPÍTULO TRES ADMINISTRACIÓN, APLICACIÓN Y CALIFICACIÓN DE LOS TESTS Sin importar qué tan cuidadosamente se elabore una prueba, los resultados no tienen ningún va- lor si no se administra y califica ésta en forma adecuada. La necesidad de contar con procedi- mientos y guías establecidos para administrar y calificar pruebas psicológicas y educativas es reconocida por todas las organizaciones profesionales dedicadas a la evaluación de personas. Una fuente importante de estos recursos son los Standards for Educational and Psychological Testing (American Educational Research Association, American Psychological Association y National Council on Measurement in Education, 1999), una serie de 264 normas para construir, evaluar, administrar y calificar pruebas y otros instrumentos psicométricos, y para interpretar y usar los resultados. Las 16 normas que conciernen específicamente a la administración, califica- ción y registro de pruebas ponen énfasis en la importancia de tener instrucciones claras para que la administración y calificación se sigan con todo cuidado. Las normas también hacen hincapié en que los materiales de las pruebas deben conservarse seguros, los fraudes han de detectarse y controlarse, y la interpretación de los resultados debe ser clara al leerla. APLICACIÓN DE LOS TESTS El procedimiento que debe seguirse para aplicar una prueba o cualquier otro instrumento psico- métrico depende del tipo de que se trate (individual o colectiva, con tiempo predeterminado o sin éste, cognoscitiva o afectiva), lo mismo que de la edad cronológica, la educación, los ante- cedentes culturales y el estado físico y mental de los examinados. Cualesquiera que sean el tipo de prueba y las características de quienes se someten a ella, el desempeño también puede alte- rarse por factores como disposición y motivación del examinado, cantidad de sueño durante la noche previa a la prueba, molestias físicas, angustia relativa a la prueba, otros problemas emo- cionales, y medicamentos que se estén consumiendo. No sólo la disposición, la habilidad para resolver pruebas y la motivación de los examina- dos afectan el desempeño, sino también la apariencia y el comportamiento de quien aplica la evaluación, así como la situación. Sobre todo, en el caso de pruebas individuales, son importan- tes la habilidad y la personalidad del examinador. Quienes administran la mayoría de las pruebas individuales deben tener un título o certificado formal expedido por un organismo gubernamen- tal apropiado o ser supervisados por otro examinador certificado. Estos requisitos contribuyen a garantizar que los examinadores cuenten con el conocimiento y la capacidad necesarios para ad- ministrar, calificar e interpretar diversos tipos de instrumentos psicométricos. 43 44 CAPÍTULO TRES Administración, aplicación y calificación de los tests Las variables situacionales, incluyendo el tiempo para resolver la prueba y el lugar donde se aplique, y condiciones ambientales como iluminación, temperatura, nivel de ruido, ventilación u otras distracciones, también pueden contribuir a la motivación, concentración y desempeño de las personas que se examinan. Por consiguiente, antes de administrar una prueba, debemos estar seguros de que el ambiente físico sea el apropiado. Deberes del examinador antes de la prueba Programación. Al programar una prueba, el examinador debe tomar en cuenta las actividades que suelen realizar los examinados en esa hora del día. No es sensato administrar pruebas a niños durante las horas del almuerzo o del juego, cuando acostumbran realizar alguna otra actividad placentera, o cuando acaban de tener lugar acontecimientos divertidos o emocionantes (por ejemplo, inmediatamente después de días feriados). El tiempo de la prueba casi nunca debe exce- derse de una hora al tratarse de niños pequeños o de una hora y media cuando son niños de secun- daria. Debido a que 30 minutos es el límite de tiempo en que un niño de nivel preescolar y de primaria puede permanecer atento a las tareas de una prueba, puede requerirse más de una se- sión para administrarse pruebas extensas a niños pequeños. Con respecto a las pruebas en el aula, debe informarse a los estudiantes con suficiente an- ticipación cuándo y dónde se administrará la prueba, qué contenido de materias incluirá, qué ti- po de prueba (objetiva, de ensayo, oral) se administrará y cuánto tiempo se concederá para resolverla. Los estudiantes merecen la oportunidad de prepararse intelectual, emocional y físi- camente para una prueba. Por ello, regularmente no es aconsejable imponer exámenes sorpresa. Si el maestro piensa que ocasionalmente las pruebas sin previo aviso ayudan a garantizar que los alumnos se mantengan al corriente con el material del curso, dichos exámenes no deben tener el mismo peso que las evaluaciones habituales. Consentimiento informado. En muchos lugares, la aplicación de una prueba de inteli- gencia o de otro instrumento de psicodiagnóstico a un niño requiere del consentimiento in- formado de uno de los padres, un tutor o de otra persona legalmente responsable del niño. El consentimiento informado consiste en un acuerdo entre una institución o individuo y una persona en particular o su representante legal. Con los términos del acuerdo se otorga per- miso para aplicar tests psicológicos a una persona y/o conseguir otra información con pro- pósitos de evaluación o de diagnóstico. Debe obtenerse el consentimiento informado de quienes se someterán a una prueba, o de sus repre- sentantes legales cuando sea adecuado, antes de iniciarla excepto (a) cuando la evaluación sin con- sentimiento sea ordenada por ley o por reglamentación gubernamental; (b) cuando la evaluación sea parte de las actividades habituales de la escuela, o (c) cuando el consentimiento esté claramente im- plícito (American Educational Research Association et al., 1999, p. 87). El requisito de consentimiento informado suele cumplirse al obtener la firma de una per- sona legalmente responsable en una forma estándar proporcionada por el distrito escolar u otra institución pertinente. La forma especifica el(los) objetivo(s) de la evaluación, el uso que se ha- rá de los resultados, los derechos del padre o tutor y el procedimiento a seguir para obtener una copia del informe final o de la interpretación. Familiarizarse con la prueba. No debe haber duda en cuanto a la familiaridad con el mate- rial de la prueba y el procedimiento de aplicación cuando el examinador es la misma persona. APLICACIÓN DE LOS TESTS 45 Debido a que la persona que administra una prueba estandarizada rara vez es la misma que la elaboró, debe estudiarse con cuidado el manual adjunto antes de iniciar el proceso de evalua- ción. Es de particular importancia familiarizarse con las instrucciones de administración y con el contenido de la prueba. Para lograr esta familiaridad, es recomendable que el examinador mis- mo se someta a la prueba antes de administrarla a otra persona. Por último, es aconsejable revi- sar las instrucciones y otros materiales del procedimiento justo antes de la aplicación. Asimismo, los folletos, las hojas de respuestas y otros materiales de la prueba deben revisarse y contarse con anterioridad. Las pruebas seguras que incluyen un número de serie, como la Prue- ba de Evaluación Académica y los Exámenes de Registro de Graduados, deben inspeccionarse en forma minuciosa y ordenarse por número. Cuando un niño o un adulto sea remitido para un examen psicológico por una institución externa o por un médico o juez, las pruebas y otros procedimientos de psicodiagnóstico a admi- nistrarle dependerán de los tipos de información que requiera la fuente que remite y de los fines para los que se empleará la prueba. En consecuencia, es importante que la persona que remite especifique con precisión la información requerida y lo que se hará con ella. En todo caso, el examinador debe estar familiarizado a fondo con las pruebas o los demás instrumentos psicomé- tricos y los tipos de individuos y condiciones para los que son adecuados. Garantizar condiciones de evaluación satisfactorias. Los examinadores deben asegurarse de que los asientos, la ventilación, la temperatura, el nivel de ruido y otras condiciones físicas del ambiente de evaluación sean satisfactorios. Es preferible utilizar una habitación que sea familiar para los examinados y esté relativamente libre de distracciones. Colocar un letrero de “Prueba- No molestar” en la puerta cerrada puede contribuir a evitar interrupciones y otros distractores. También deberá contarse con acceso fácil a las salidas y a las instalaciones sanitarias. Es mejor administrar una prueba individual en una habitación privada, sólo con el exami- nador, el examinado y, de ser necesario, uno de sus padres, el tutor u otra persona responsable. Ya sea en una prueba individual o en una colectiva, es preciso tomar previsiones especiales pa- ra examinados físicamente discapacitados o diferentes (por ejemplo zurdos). Reducir los fraudes. Los examinadores bien capacitados están muy conscientes de la impor- tancia de la seguridad de la prueba, tanto antes como después de administrarla, y de aceptar la responsabilidad de que se conserve dicha seguridad. Debe advertirse a quienes se someten a una prueba que hacer que otra persona responda el examen en su lugar, revelar material confidencial o cualquier otra forma de fraude es un comportamiento inade- cuado que puede generar sanciones (American Educational Research Association et al., 1999, p. 88). Antes de la prueba, debe procurarse que haya asientos confortables que además contribu- yan a eliminar la posibilidad de fraude. Aunque es preferible, no siempre puede lograrse que los examinados dejen un asiento libre entre cada uno para que resulten difíciles las oportunidades de hacer trampa. Preparar formas múltiples (con reactivos distintos o con una distribución dife- rente) de la prueba y repartir formas distintas a los examinados adyacentes puede reducir las trampas en una prueba aplicada colectivamente. Otra posibilidad es usar diversas hojas de res- puestas, es decir, con distinta disposición. También deben emplearse varios vigilantes cuando se trate de pruebas para un grupo grande. Ellos pueden ayudar a distribuir y recoger los materiales de la prueba y a responder dudas sobre el procedimiento; además, su presencia tiende a desalentar las conductas tramposas y la indisciplina. La vigilancia y otros procedimientos diseñados para pre- 46 CAPÍTULO TRES Administración, aplicación y calificación de los tests venir las trampas se consideran con suma seriedad al administrar pruebas estandarizadas seguras, tales como la Prueba de Evaluación Académica y los Exámenes de Registro de Graduados. Estas pruebas, los folletos y las hojas de respuestas, que se cuentan con todo cuidado antes y después de los exámenes, se supervisan minuciosamente. Se solicita de las personas que se someten a es- tas pruebas mostrar una identificación oficial antes de ser admitidos en el aula de exámenes. Deberes del examinador durante la prueba Seguir las instrucciones de la prueba. Mediante instrucciones meticulosamente preparadas, que se leen en forma lenta y clara al presentarse oralmente, se informa a los examinados sobre los objetivos de la prueba y cómo anotar sus respuestas. Se pide a los examinadores de pruebas estandarizadas que sigan cuidadosamente las instrucciones de administración, aun cuando una explicación adicional podría esclarecer la tarea para los examinados. El no apegarse a las ins- trucciones estándar puede dar como resultado una tarea distinta de la que tenían en mente los di- señadores de la prueba. Si las instrucciones no son idénticas a las presentadas a la muestra de personas con las que se estandarizó la prueba, los resultados no tendrán el mismo significado que los del grupo de estandarización. Por ende, se habrá perdido un útil marco de referencia pa- ra interpretar los resultados. Los examinadores de contextos clínicos y educativos en ocasiones van más allá de las ins- trucciones de la prueba e intentan probar los límites de las habilidades o las características personales de los examinados. Esto puede lograrse mediante procedimientos de evaluación di- námicos o auténticos para obtener claves adicionales con fines de interpretación o diagnóstico. Una ilustración de la evaluación dinámica se encuentra en el concepto de Feuerstein acerca de la evaluación del potencial de aprendizaje (Feuerstein, Feuerstein y Gross, 1997). La evaluación del potencial de aprendizaje implica un formato de prueba-enseñanza-prueba donde se examina a una persona, se le somete a una práctica sobre los materiales de la prueba y luego vuelve a apli- cársele el examen. Se calcula entonces el cambio en el nivel de desempeño de la primera a la se- gunda ocasión en que se resuelve la prueba como una medida del potencial de aprendizaje del examinado (vea también Tombari y Borich, 1999). Permanecer alerta. Al administrar una prueba colectivamente, ya sea estandarizada o no, el examinador debe mantenerse alerta para evitar las trampas, así como que se hable o haya ruido innecesario. También es sensato tomar la precaución de tener un mensajero disponible para casos de emergencias médicas o algún otro problema. En pruebas elaboradas por el maestro, o inclu- so en pruebas estandarizadas si las instrucciones lo permiten, es posible informar periódicamen- te a los estudiantes cuánto tiempo les resta anotando la hora en el pizarrón o en otra superficie visible. Establecer una relación interpersonal. Tanto en pruebas individuales como colectivas, el comportamiento del examinador puede tener un efecto considerable en la motivación y el com- portamiento de los examinados. En ocasiones, hasta una sonrisa puede brindar ánimo a los exa- minados nerviosos o poco preparados a fin de que conserven la calma y logren un desempeño óptimo. Debido a que las pruebas individuales proporcionan una mejor oportunidad de observar a los examinados que las pruebas de aplicación colectiva, es más probable detectar falta de mo- tivación, distracción y tensión en un contexto de evaluación individual. Así, pueden realizarse esfuerzos para manejar estos problemas o por lo menos tomarlos en cuenta al interpretar los re- sultados. En una situación de evaluación colectiva, donde suele ser imposible mantener una in- teracción personal con cada uno de los examinados, el examinador tiene más dificultades para APLICACIÓN DE LOS TESTS 47 advertir cómo se está sintiendo y desempeñando una persona. Tanto en pruebas individuales co- mo colectivas, una buena regla a seguir es mostrarse amigable pero objetivo, con autoridad mas no autoritario, con modales y vestuario apropiados y a cargo de la situación de evaluación. Tal comportamiento por parte del examinador tiende a crear una situación de rapport, es decir, una relación interpersonal cordial de aceptación que anima a los examinados a responder en forma honesta y precisa. Prepararse para manejar problemas especiales. En determinadas circunstancias, los exa- minadores deben ser especialmente activos y alentadores. Una situación de evaluación produce cierta cantidad de tensión casi en cualquier persona, y en ocasiones un examinado se pone muy nervioso. Las pruebas en personas muy jóvenes, muy viejas, perturbadas mentalmente, con re- traso mental, discapacidad física o desventajas culturales presentan problemas especiales. En al- gunas situaciones, tal vez tengan que darse las preguntas y las respuestas en forma oral y no escrita, o en una lengua en particular. El examinador no sólo debe estar familiarizado con el ma- terial de la prueba, sino también conducirse de manera alerta, flexible, cálida y objetiva. Estas cualidades no se enseñan con facilidad, pero la experiencia en diversas situaciones de evalua- ción desempeña un papel importante para adquirirlas. Flexibilidad. También se permite cierta flexibilidad al administrar pruebas no estandarizadas e incluso en algunos instrumentos estandarizados, pero el exceso de flexibilidad puede volver inútiles las normas establecidas con propósitos de interpretación. Al evaluar con estas medidas, la sensibilidad y la paciencia por parte del examinador pueden proporcionar una mejor oportu- nidad para que los discapacitados y otros individuos con problemas especiales demuestren sus aptitudes. Otros procedimientos recomendados, que se han adaptado de técnicas de instrucción reconocidas, son los siguientes: 1. Proporcionar tiempo suficiente para que los examinados respondan el material de la prueba. 2. Permitir la práctica necesaria con reactivos de ejemplo. 3. Usar periodos de evaluación relativamente cortos. 4. Observar si hay signos de fatiga o angustia y tomarlos en cuenta. 5. Ser consciente y tomar las medidas pertinentes en caso de defectos visuales, de audición y otros sensoriales o perceptuales-motrices. 6. Brindar estímulo y refuerzo positivo con generosidad. 7. No intentar obligar a los examinados a responder cuando se han resistido a hacerlo en va- rias ocasiones. Pruebas orales. Los exámenes orales a menudo provocan en los estudiantes sentimientos en- contrados y mucha aprehensión. Como resultado, los esfuerzos por calmar esos temores y ofre- cer otros métodos de evaluación a quienes les afectan emocionalmente las situaciones de evaluación oral puede mejorar la efectividad de este tipo de pruebas. Los examinadores que rea- lizan esfuerzos especiales por establecer una relación interpersonal con los examinados descu- bren que es posible que éstos lleguen a disfrutar de las pruebas orales. Aplicar una prueba En general, no se consideran justos los exámenes sorpresa. Los alumnos merecen la oportunidad de prepararse para una prueba. Debe informárseles con anticipación no sólo cuándo y dónde se realizará la prueba, sino también lo que abarcará y qué tipo de prueba será. Con respecto al for- 48 CAPÍTULO TRES Administración, aplicación y calificación de los tests mato, tanto los estudios en aulas como de laboratorio han revelado que las personas tienden a ob- tener mejores resultados en pruebas de recordatorio (ensayo, de respuestas breves) cuando se les informa que se administrará una prueba de ensayo (por ejemplo, May y Thompson, 1989). Espe- rar una prueba de reconocimiento (opción múltiple, de falso-verdadero) estimula un estudio de los detalles más concentrado, mientras que esperar una prueba de recordatorio origina mayores esfuerzos por recordar unidades de un nivel superior y temas del material (Schmidt, 1983). Hay estudios de aula donde se ha descubierto que comunicar con anticipación que se ad- ministrará una prueba objetiva está relacionado con calificaciones más elevadas en pruebas de opción múltiple, de falso-verdadero y otras de reconocimiento. Sin embargo, los resultados de estudios de laboratorio son más complejos (Lundeberg y Fox, 1991). Además, otros factores co- mo la habilidad mental, la habilidad para resolver pruebas, adivinar y una cuidadosa lectura y consideración de los reactivos parecen tener tanto efecto en las calificaciones de las pruebas co- mo saber qué tipo de prueba se aplicará. En cualquier caso, al aplicar una prueba de aprovecha- miento, es justo proporcionar información previa sobre su forma y cobertura. Ingenio para resolver pruebas. Al responder reactivos de prueba objetivos, la gente suele emplear métodos muy diferentes de los que previó el autor de los reactivos. No todos los exami- nados leen con cuidado los reactivos y con frecuencia no utilizan la información proporcionada. Esto puede no ser esencial en todos los casos, ya que en ocasiones es posible reconocer las res- puestas correctas en reactivos de opción múltiple sin haber leído el material en que se basan las preguntas. Por ejemplo, las opciones erróneas pueden descartarse al advertir que algunas están expresadas en forma incorrecta o son demasiado extensas o breves. Otras claves que pueden re- velar las respuestas correctas en reactivos de opción múltiple son asociaciones aliteradas, opcio- nes no relacionadas, lenguaje incluyente, opciones en clave que son más precisas que las demás, claves gramaticales y opciones que se revelan al aparecer resueltas en otros reactivos. Las observaciones de estudiantes que responden pruebas de opción múltiple y luego son entrevistados revelan que, si bien los reactivos a menudo se responden simplemente eliminando las opciones que parecen incorrectas, una práctica más común es realizar juicios comparativos entre las opciones. Los resultados de la investigación de Rogers y Yang (1997) indican que los alumnos primero deben tener cierto conocimiento del contenido de las opciones raíz y/o de los reac- tivos a fin de eliminar las opciones incorrectas y aprovechar las claves del reactivo. Otro aspecto del ingenio para resolver pruebas es el conocimiento de la idiosincracia del maestro. El ingenio para resolver pruebas parece ser una capacidad específica, no general, para identificar claves que se desarrolla en los estudiantes al madurar y compartir información sobre la forma de resolver pruebas (Evans, 1984). Por ejemplo, la extensión, el tecnicismo y cierto exotis- mo de las opciones proporcionan claves para encontrar las respuestas correctas (Strang, 1980; Tid- well, 1980). También es de interés el hecho de que la influencia del ingenio para resolver pruebas en general es mayor para los reactivos de cuatro opciones que para los de tres (Rogers y Harley, 1999). Los niños parecen tener más esta habilidad que las niñas (Preston, 1964), y los reactivos verbales son más susceptibles de resolverse mediante esta capacidad que los numéricos (Rowley, 1974). Algunos aspectos de dicha habilidad pueden enseñarse (American College, 1978; Millman y Pauk, 1969). El cuadro 3.1 contiene una lista de 15 sugerencias que, al practicarse antes y duran- te una prueba, pueden incrementar el ingenio para responder pruebas y mejorar los resultados. Cambiar las respuestas. A menudo los examinados se enfrentan a la duda de cambiar o no sus respuestas iniciales a los reactivos. En ocasiones se afirma que, como las primeras respues- tas suelen ser las correctas, revisar la prueba y cambiar las respuestas sobre las que ya se ha re- APLICACIÓN DE LOS TESTS 49 CUADRO 3.1 SUGERENCIAS PARA MEJORAR LOS RESULTADOS DE SU PRUEBA Antes de la prueba 1. Pida al instructor una copia de viejas pruebas que pueda usted revisar legítimamente. 2. Pregunte a otros estudiantes qué tipo de pruebas suele administrar el instructor. 3. No espere a que llegue el día anterior para empezar a estudiar cuando la prueba ha sido anuncia- da con anticipación. 4. Estudie para el tipo de prueba (de elección múltiple, de falso-verdadero, de ensayo) que se ha anunciado. 5. Si no se ha especificado el tipo de prueba que se administrará, tal vez sea mejor estudiar para una prueba de recordatorio (ensayo). 6. No convierta el estudiar para una prueba en un acontecimiento social; en general es mejor aislar- se para preparar una prueba. 7. No se ponga demasiado cómodo para estudiar. Su cuerpo supone que desea dormir cuando se re- cuesta o su posición resulta demasiado confortable. 8. Intente estructurar el material que estudia como reactivos de prueba, por ejemplo, en reactivos de opción múltiple si éste es el tipo de examen que tendrá, o en reactivos de ensayo si está progra- mada una prueba de ensayo. 9. Aplique el Estudio Q3R (inspección, preguntas, lectura, recitación, revisión) al estudiar para una prueba. Revise el material, formúlese preguntas acerca de él, lea con atención intentando recor- dar, recite el material para usted mismo después de leerlo y revíselo justo antes de la prueba. Durante la prueba 1. Lea cuidadosamente las instrucciones de la prueba antes de empezar con las preguntas. Si cierta información, como los límites de tiempo, la corrección por adivinar, el peso de los reactivos o cuestiones similares se han omitido, no dude en preguntar al examinador. 2. En pruebas de ensayo, piense en las preguntas y formule respuestas en su mente y/o en un papel aparte antes de empezar a escribir las respuestas definitivas. 3. Tómese su tiempo al resolver una prueba. Por ejemplo, en una prueba de opción múltiple debe ha- ber respondido una n fracción de la prueba para cuando haya transcurrido la n fracción del tiem- po reglamentario. 4. Ya sea que se emplee o no la corrección por adivinar al calificar una prueba, no deje reactivos sin responder si puede descartar por lo menos una opción. 5. Pase por alto los reactivos más difíciles y regrese a ellos posteriormente. No entre en pánico si no puede responder un reactivo; enciérrelo en un círculo y regrese a él después de haber resuelto otros. Entonces, si aún no está seguro de la respuesta, reflexione y adivine la mejor opción. 6. No se apresure a entregar la prueba antes de que termine el tiempo; cuando le sea posible, revise sus respuestas. flexionado es contraproducente (Benjamin, Cavell y Shallenberger, 1984). Sin embargo, los re- sultados de varias investigaciones indican que los examinados tienden a obtener calificaciones más altas cuando reconsideran sus respuestas y cambian aquellas sobre las que dudan (vea, por ejemplo, Geiger, 1990, 1991a, 1991b). Es más probable que las respuestas erróneas se convier- tan en acertadas que viceversa, aunque la cantidad de preguntas que de hecho se cambian tiende a ser pequeña. 50 CAPÍTULO TRES Administración, aplicación y calificación de los tests Adivinar. Las instrucciones para pruebas objetivas suelen incluir consejos sobre omitir un reactivo o adivinar cuando se duda sobre la respuesta correcta. Adivinar, lo que es más probable cuando los reactivos son difíciles o muy elaborados, origina más inflación de la calificación en reactivos de falso-verdadero que en pruebas de opción múltiple. En general, es aconsejable adi- vinar sólo cuando pueden eliminarse una o más opciones, o cuando se tiene cierta idea sobre la opción correcta. Debido a que en general es posible eliminar por lo menos una opción en un reactivo, adivinar antes que omitir reactivos suele producir calificaciones más altas. Esto es cier- to ya sea que se “corrijan” o no los resultados por adivinar. Como es comprensible, los examinados adivinarán menos si se les informa que su califi- cación será reducida como castigo por adivinar, al contrario de lo que sucede cuando no se dan instrucciones al respecto o se les pide que adivinen cuando tengan dudas. Desafortunadamente, los estudiantes no siempre leen ni siguen con atención las instrucciones. Incluso quienes las leen palabra por palabra no siempre las interpretan del mismo modo. Sin importar lo que aconsejen o no las instrucciones, a algunas personas no les gusta tomar riesgos y se muestran renuentes a adi- vinar cuando no están seguros de la respuesta correcta. Deberes del examinador después de la prueba Después de administrar una prueba individual, el examinador debe recoger y guardar en lugar seguro todos los materiales de la prueba. Es preciso animar a los examinados sobre su desempe- ño, tal vez darles alguna pequeña recompensa si se trata de niños y conducirlos al lugar adecua- do. En evaluaciones clínicas, en general es importante consultar con el padre o acompañantes del examinado, quizás antes y después de la prueba. Al terminar la prueba, también se dará informa- ción sobre lo que se hará con los resultados a los examinados y/o a sus acompañantes. El exami- nador tranquiliza a los interesados al prometer comunicarles los resultados e interpretaciones a los propios individuos o a la institución y recomendar medidas subsiguientes. Tras la administración de una prueba colectiva de grupo, el examinador tiene que recoger los materiales pertinentes (folletos, hojas de respuestas, papel para usar como borrador, lápices, etcétera). En caso de una prueba estandarizada, es necesario contar y cotejar los folletos y las ho- jas de respuestas, así como verificar todos los demás materiales para asegurarse de que nada fal- te. Sólo entonces se despide a los examinados o se les prepara para la siguiente actividad, y se ordenan las hojas de respuestas para calificarlas. Pruebas adaptativas Históricamente, no se ha seguido con precisión en todas las pruebas un procedimiento de apli- cación de pruebas en el que se presenten los mismos reactivos a todos los examinados. No obs- tante, en general se ha permitido poca flexibilidad al determinar los reactivos. Este método tradicional de aplicación de pruebas es particularmente ineficaz en pruebas de aprovechamien- to, porque se les presentan a los examinados muchos reactivos que resultan demasiado fáciles o difíciles para ellos. Adaptar el contenido de una prueba al nivel de capacidad del examinado eli- mina la necesidad de aplicar muchos reactivos muy fáciles o muy difíciles, lo que ahorra tiem- po y esfuerzo. En pruebas adaptativas o a la medida, los reactivos específicos aplicados a una persona en particular dependen de su capacidad calculada a partir de sus respuestas a reactivos previos. Debido a que las pruebas son más precisas para medir la habilidad de las personas si la dificul- tad de los reactivos corresponde a su propio nivel de habilidad, evaluar ésta mientras el exami- APLICACIÓN DE LOS TESTS 51 nado avanza en la prueba permite seleccionar los reactivos más cercanos a su habilidad real (vea Meijer y Nering, 1999; Wainer, 2000). Los bancos de reactivos para pruebas adaptativas pueden ser recopilados por computadoras programadas para seguir alguna de las metodologías de respuesta de reactivos (vea los capítulos 4 y 5). En las pruebas adaptativas, deben cumplirse algunos supuestos de la teoría de respuesta al Ítem (IRT) incluyendo los siguientes: (1) todos los reactivos de una reserva miden una sola habili- dad o dimensión de aprovechamiento, y (2) los reactivos son independientes, es decir, la respues- ta de una persona a un reactivo no depende de su respuesta a ningún otro reactivo. El cumplimiento de la primera suposición, de unidimensionalidad, es más probable en el caso de bancos de reacti- vos o de pruebas derivadas del análisis factorial (vea el apéndice A). La segunda suposición se cumple si los reactivos no están interconectados o interrelacionados de alguna manera. El procedimiento adaptativo para aplicar una prueba de aprovechamiento o de capacidad fun- ciona de la siguiente manera. Aplicando un modelo estadístico apropiado y una metodología de res- puesta de reactivos, se recopila por computadora un banco de reactivos de prueba variando la dificultad y quizás otras características. Una estimación del nivel de habilidad del examinado determina los reac- tivos que se administrarán primero. Como alternativa, al principio pueden administrarse reactivos de me- diana dificultad. La selección de los reactivos que se administrarán subsecuentemente depende de las respuestas del examinado a los reactivos previos. La evaluación continúa mientras el cálculo de error o el nivel de precisión de las respuestas no llegue a un nivel especificado. A diferencia del procedimiento de evaluación tradicional, en las pruebas adaptativas no se permite a los examinados saltarse reactivos ni revisar o cambiar sus respuestas.1 Pero debido a que no todos los reactivos de un banco se administran a cada examinado, las pruebas adapta- tivas son más eficientes que las convencionales. Se aplica al examinado sólo alrededor de la mi- tad de los reactivos usados en las evaluaciones tradicionales, sin que se pierda información y manteniendo confiabilidad y validez equivalentes. La calificación de una persona en la mayoría de las pruebas adaptativas está determinada no sólo por el procedimiento tradicional de contar la cantidad de reactivos contestados correcta- mente, sino tomando en cuenta las características estadísticas de los reactivos. En todo caso, la investigación ha demostrado que las calificaciones de las pruebas adaptativas computarizadas son sumamente comparables a las calificaciones de las pruebas de lápiz y papel equivalentes (Kapes y Vansickle, 1992; Mead y Drasgow, 1992). Asimismo, al administrar reactivos que son más apropiados para el nivel de habilidad del examinado, una prueba adaptativa puede resultar más confiable que otra más extensa diseñada para evaluar la misma habilidad. La seguridad de una prueba es más fácil de mantener en el caso de pruebas adaptativas asistidas por computadora. El requisito de seguridad es de particular importancia en el caso de sistemas de evaluación proporcionados a través de Internet, como el desarrollado por Northwest Evaluation Association (Olson, 2000). Otras ventajas de las pruebas adaptativas asistidas por computadora incluyen calificaciones y registros más precisos e inmediatos, menos errores gene- rados por adivinación, así como la posibilidad de grabar las respuestas y los tiempos en que se re- suelven los reactivos(Bunderson, Inouye y Olsen, 1989). Una desventaja, al menos cuando se 1Rocklin, O´Donnell y Holst (1995) propusieron una variante de la evaluación adaptativa computarizada, llamada eva- luación autoadaptativa, que ofrece a los examinados la oportunidad de diseñar dinámicamente la dificultad de los reac- tivos y, por tanto, ampliar su estado afectivo y motivacional. En este procedimiento, antes de la presentación, los reactivos en una prueba autoadaptativa se agrupan por nivel de dificultad con base en datos normativos. Se permite al examinado especificar la categoría de dificultad de la que debe tomarse cada reactivo sucesivo. De esta manera, un exa- minado que busque un reto puede especificar que el siguiente reactivo sea difícil, mientras otro que esté intentando evi- tar el fracaso puede especificar que el siguiente reactivo sea bastante fácil. 52 CAPÍTULO TRES Administración, aplicación y calificación de los tests evalúan individuos o grupos pequeños, es el costo de la inversión inicial y el gasto por el man- tenimiento del equipo y de la actualización de los programas de cómputo. Los usos de las pruebas adaptativas para evaluar la inteligencia general y las habilidades eran más bien limitados hasta hace relativamente poco. Algunos organismos ofrecen versiones adaptativas computarizadas de la Prueba de Evaluación Académica (SAT), la Batería de Aptitu- des Vocacionales de las Fuerzas Armadas (ASVAB), los Exámenes de Registro de Graduados (GRE) y algunas otras pruebas de habilidades cognoscitivas (vea Bergstrom y Lunz, 1999; Mills, 1999; Segall y Moreno, 1999) y de personalidad (vea, por ejemplo, Forbey, Handel y Ben-Porath, 2000; Reise y Henson, 2000). CALIFICACIÓN DE LOS TESTS Los diseñadores profesionales de tests no esperan a que se elabore y administre una prueba antes de decidir qué procedimiento de calificación usarán. En una prueba realizada por maestros consistente en varias partes que incluyen distintos contenidos o tipos de reactivos, es posible que el maestro quiera obtener calificaciones separadas de las diversas partes, así como un resultado general de la prueba en su conjunto. También debe decidirse si se restará una corrección por adivinar, si se asig- narán distintos pesos a la calificación de los diversos reactivos o secciones y si se entregarán los re- sultados en forma directa o convertidos a otras escalas numéricas. Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones. Las hojas de respuestas pueden calificar- se a máquina, y aun cuando se califiquen a mano, pueden usarse plantillas de calificación, propor- cionadas por el editor de las pruebas, de acuerdo con las instrucciones incluidas en el manual. Calificación de pruebas de ensayo Las pruebas de ensayo pueden hacerse más efectivas al estructurar la tarea con claridad, de mo- do que la interpretación de una pregunta no varíe mucho de una persona a otra. La calificación puede basarse entonces en la calidad de la respuesta. De manera similar, el procedimiento de ca- lificación para los reactivos de ensayo deberá estar tan estructurado y ser tan objetivo como sea posible, de forma tal que las calificaciones dependan menos de factores ajenos al contenido o de impresiones y más del nivel de conocimiento y comprensión demostrado. Calificar con base en la destreza caligráfica más que en la calidad de las respuestas,2 generalizar demasiado (error de indulgencia) y asignar una calificación alta a una respuesta simplemente porque el examinado obtuvo una buena calificación en otros reactivos (efecto de halo), se encuentran entre los erro- res que pueden alterar las calificaciones en reactivos de ensayo. Pueden tomarse varias medidas para que las calificaciones de las pruebas de ensayo sean más objetivas y confiables. Para empezar, el examinador debe decidir ya sea calificar la pregun- ta en conjunto o asignar pesos distintos a cada componente. La calificación completa (global u holística) es común, pero tal vez sea más significativo emplear un procedimiento analítico en el que se asignen puntos para cada reactivo de información o habilidad incluido en la respuesta. En el primer reactivo de ensayo de la tabla 2.4, por ejemplo, puede otorgarse un punto por cada ven- taja o desventaja correcta registrada y un máximo de cinco puntos para la forma en que se orga- 2Las calificaciones en las pruebas de ensayo no siempre se relacionan positivamente con la calidad caligráfica. En un es- tudio de Chase (1990-1991), los ensayos escritos con mala letra reciben calificaciones más elevadas que los escritos con buena letra. Esto puede deberse a que los mejores alumnos tenían mala caligrafía, a que los profesores interpretaban la bue- na letra como un intento por enmascarar el conocimiento deficiente del material, o a algún otro factor. CALIFICACIÓN DE LOS TESTS 53 niza la respuesta. La cantidad máxima de puntos asignados a un reactivo debe determinarse no sólo por el juicio del examinador sobre la importancia del reactivo, sino también por la extensión asignada a la respuesta. Cuando las instrucciones especifican una respuesta de media página, el reactivo debe tener menor peso que cuando se requiere una respuesta de página completa. Cualesquiera que sean los pesos de calificación asignados a preguntas y respuestas espe- cíficas, es aconsejable que el diseñador de la prueba prepare de antemano respuestas ideales para las preguntas. También se recomienda que se bloqueen los nombres de los examinados antes de revisar las pruebas, de modo que puedan evaluarse en forma anónima. A continuación se presen- tan otras recomendaciones: 1. Califique todas las respuestas a una pregunta antes de pasar a la siguiente pregunta. 2. Califique todas las respuestas a una pregunta específica durante el mismo periodo de ca- lificación. 3. Cuando se califiquen tanto el estilo (mecánica, calidad de la redacción) como el conteni- do, es preciso evaluar las pruebas en forma separada. 4. Pida a otra persona que califique nuevamente cada prueba y como resultado final elija el promedio de puntos asignados por ella y por usted. 5. Escriba comentarios al lado de las respuestas de los examinados y marque las correccio- nes en las pruebas. Las correcciones y los comentarios escritos en las pruebas de aula son un complemento va- lioso de la cantidad de puntos o del grado asignado. Es más probable que el alumno aprenda algo extra si sus respuestas se corrigen y comentan que cuando sólo se les asigna un número o letra. Los programas de cómputo para calificar ciertos tipos de reactivos de ensayo ya están dis- ponibles para usarse vía red en un formato de escribir-evaluar-reescribir. Dos ejemplos son Intelli- gent Essay Assessor, basado en el análisis semántico latente (Landauer, 1998, 1999) y el programa “e-rater”. Los procedimientos de calificación y asignación de grados basados en la computadora para los ensayos empiezan por “enseñar” al programa sobre el tema asignado mediante la lectu- ra de cientos de miles de vocablos de textos en línea. Los ensayos escritos por expertos sobre el te- ma y los ensayos de estudiantes ya calificados por instructores son digeridos por el programa para establecer sus procedimientos de evaluación. Los programas van más allá de verificar simplemen- te la extensión y mecánica de las palabras y de evaluar el aprendizaje específico de temas y pre- guntas. Se determinan y evalúan la inclusión de conceptos clave, la estructura semántica y la orientación de los argumentos del alumno. Los programas disponibles en la actualidad para asig- nar grados a ensayos no determinan la medida en que la escritura resulta creativa o compleja, sino más bien están orientados hacia ensayos que exponen temas objetivos (Murray, 1998). Calificación de pruebas objetivas Una ventaja exclusiva de las pruebas objetivas es la eficiencia y precisión con que pueden cali- ficarse. Mientras quienes evalúan pruebas de ensayo dedican en general horas para leer las res- puestas y revisar su corrección, un empleado puede calificar una prueba objetiva de manera rápida y precisa mediante una plantilla o una máquina. De modo que es posible regresar las pruebas a los estudiantes cuando aún tienen en mente el material visto en ellas. Es posible preparar con gran facilidad tiras de claves o plantillas para calificar a mano los cuadernillos de prueba o las hojas de respuestas. Puede elaborarse una tira de claves funcional usando una tira de cartón donde las respuestas correctas se ubiquen en los sitios que correspon- den a los espacios de la prueba donde se escriben las respuestas. Para preparar una plantilla de 54 CAPÍTULO TRES Administración, aplicación y calificación de los tests calificación a usar en hojas de respuestas especiales, en una hoja en blanco o cartoncillo se per- fora en los espacios correspondientes a las respuestas correctas. Calificaciones a máquina. Aunque la mayoría de las hojas de respuestas para pruebas distri- buidas comercialmente pueden calificarse a mano o a máquina, las que distribuyen ciertas orga- nizaciones sólo se califican a máquina. Después de que se aplica una prueba, las hojas de respuestas se envían por correo a un servicio especial o se regresan al distribuidor para que las califiquen a máquina. Las máquinas para calificar han estado disponibles desde la primera mitad del siglo XX. Las máquinas de antaño eran sensibles sólo a marcas magnéticas colocadas en el papel, por lo que se requerían lápices magnéticos especiales para marcar las hojas de respuestas. Las máqui- nas contemporáneas para calificar lotes grandes de hojas de respuestas son lectores ópticos sen- sibles a las marcas realizadas con lápices comunes. No se requiere de una computadora para la calificación rápida y eficiente de pruebas, pero utilizarla provee de cierta flexibilidad de uso que posteriormente permite realizar análisis esta- dísticos, y la interpretación y almacenamiento de las calificaciones y otros datos personales. Además de la calificación realizada localmente con un lector óptico, las hojas de respuestas pue- den enviarse por correo o módem a un servicio de calificación central. La programación requerida para usar un lector óptico de escritorio es bastante sencilla e incluye un rango amplio de funciones, tales como ponderar reactivos, calificar parcialmente, analizar reactivos, marcar aciertos y errores e imprimir diversos tipos de información, estadísti- cas y gráficas. Adicionalmente a las calificaciones sin depurar y a las convertidas, se registran distribuciones de frecuencia e histogramas, estadísticas de pruebas (medias aritméticas, desvia- ciones estándar, coeficientes de consistencia interna) y estadísticas de reactivos (índices de difi- cultad y de discriminación, distribución de las respuestas a opciones y conceptos similares). Pueden efectuarse calificaciones, análisis y registros de calificaciones usando un lector ópti- co conectado a una microcomputadora que tenga los programas de evaluación apropiados. Sin em- bargo, los paquetes de cómputo que elaboran pruebas de acuerdo con ciertas especificaciones, las califican, analizan y presentan los resultados, son complejos y costosos. Un ejemplo de dichos pro- gramas para fines generales es MicroCAT (de Assessment Systems Corporation), el cual hace posi- ble la construcción, aplicación, calificación y análisis de pruebas diseñadas a partir de la perspectiva de respuesta al ítem o de la evaluación clásica y administradas mediante procedimientos adaptati- vos o convencionales. MicroCAT crea y mantiene bancos de reactivos que consisten en texto, grá- ficas e imágenes digitalizadas; desarrolla y elabora formas de pruebas impresas; produce y aplica tests computarizados que van desde simples pruebas convencionales hasta complejas pruebas adap- tativas, y realiza análisis de reactivos convencionales, análisis de respuesta a ítemes y calibraciones de reactivos. Algunas funciones de elaboración y administración de pruebas de MicroCAT están dis- ponibles en línea y es posible acceder a ellas mediante programas de cómputo como los sistemas C-Quest y FastTEST proporcionados por Assessment Systems Corporation. Errores humanos de calificación. La calificación de pruebas por computadora no es un pro- ceso totalmente exento de errores, por ello se recomienda que los servicios de calificación de pruebas revisen la frecuencia de errores y emitan informes con las correcciones adecuadas cuan- do se encuentren tales fallas (American Educational Research Association et al., 1999). No obs- tante, en comparación con la calificación a mano, las tasas de errores de la calificación por computadora son reducidas. Considerando el hecho de que las instrucciones para calificar muchas pruebas individua- les de inteligencia y personalidad no siempre son claras y objetivas, no es sorprendente que lle- CALIFICACIÓN DE LOS TESTS 55 guen a asignarse distintas puntuaciones a la misma respuesta. Aunque la variabilidad en las ca- lificaciones tal vez sea mayor en el caso de evaluadores con poca experiencia (Slate y Jones, 1990), incluso los más experimentados cometen errores. Por ejemplo, se ha descubierto que los errores tanto en administración como en calificación ocurren cuando los estudiantes de psicolo- gía e incluso psicólogos profesionales administran pruebas de inteligencia individual (Franklin y Stillman, 1982; Ryan, Prefitera y Powers, 1983). En varios casos, los errores son de tal mag- nitud que se asignan a las personas niveles de inteligencia equivocados. También el personal clí- nico capacitado comete errores al calificar a mano inventarios de personalidad, en ocasiones tan graves que llegan a alterar los diagnósticos clínicos (Allard, Butler, Faust y Shea, 1995; Allard y Faust, 2000). Otros estudios han revelado que los resultados de las calificaciones se modifican por el agrado de quien administra o califica el examen hacia el examinado. También percibir al examinado como una persona cálida (Donahue y Sattler, 1971), brillante o aburrida (Sattler, Hi- llix y Neher, 1970; Sattler y Winget, 1970) puede afectar el resultado. Pueden ocurrir errores al convertir calificaciones brutas en calificaciones estándar o escaladas cuando se desconoce o se calcula mal la edad cronológica exacta del examinado. Ponderación de calificaciones para reactivos de opción múltiple y de falso-verdadero. Parece razonable esperar que en pruebas objetivas, como en reactivos de ensayo, la cantidad de puntos asignada a una respuesta varíe de acuerdo con el tipo de reactivo y la calidad de la res- puesta. Se han llevado a cabo muchos estudios sobre los efectos de la ponderación previa de las respuestas a reactivos de pruebas objetivas convencionales, es decir, asignar distinta cantidad de puntos a tipos de reactivos diferentes y a diversas respuestas. Algunas investigaciones han con- cluido que la ponderación previa es más definida y confiable que la calificación convencional (Hsu, Moss y Khampalikit, 1984; Serlin y Kaiser, 1978; Willson, 1982). Sin embargo, las ven- tajas de la ponderación diferencial de las respuestas a reactivos no parecen justificarse por el au- mento en el costo y el tiempo de calificar (Kansup y Hakstian, 1975). En pruebas de 20 o más reactivos, asignar simplemente una calificación de 1 a cada respuesta correcta y 0 a las incorrec- tas resulta tan satisfactorio como usar pesos diferenciales. Así, las calificaciones posibles en una prueba de 50 reactivos de opción múltiple que haya sido calificada en forma convencional o de otra de falso-verdadero calificada mediante este procedimiento varían de 0 a 50. Asignar pesos diferenciales a distintas respuestas puede ser más efectivo si el tipo de res- puesta requerida fuese cambiado. Una variante interesante del formato de falso-verdadero es pedir a los examinados que indiquen qué tan seguros se sienten de sus respuestas. La tabla 3.1 ilustra TABLA 3.1 Procedimiento de ponderación de confianza para reactivos de falso-verdadero El examinado señala que: La afirmación en realidad es: VERDADERA FALSA La afirmación probablemente es verdadera 2 –2 La afirmación posiblemente es verdadera 1 0 No tengo idea .5 .5 La afirmación posiblemente es falsa 0 1 La afirmación probablemente es falsa –2 2 Fuente: Robert L. Ebel, Measuring Educational Achievement, © 1965, p. 131. Adaptado con permiso de Prenti- ce Hall, Englewood Cliffs, NJ. 56 CAPÍTULO TRES Administración, aplicación y calificación de los tests dicho procedimiento de ponderación de la confianza para reactivos de falso-verdadero. Aunque este procedimiento represente una mejora sobre la calificación convencional de 0-1 para reacti- vos de falso-verdadero, tal vez dicha calificación es satisfactoria para la mayoría de las pruebas de aula formadas por 30 o más reactivos. Calificación de reactivos de clasificación. Así como con los reactivos de falso-verdadero y de opción múltiple, los reactivos de respuesta breve y de aparejamiento pueden calificarse asig- nando 1 punto a las respuestas correctas y 0 puntos a las erróneas y las omisiones. Debido a la gran cantidad de órdenes distintos en que puede colocarse un grupo de reactivos, la calificación de reactivos de clasificación presenta un problema especial. Por ejemplo, el error de asignar el segundo lugar a un reactivo al que de hecho corresponde el primero, no es tan grave como colo- car dicho reactivo en cuarto lugar. Las dos fórmulas que pueden usarse para calificar reactivos de clasificación son: 2⌺ 冷d冷 S1 ⫽ c 1 ⫺冤 c2 ⫺ j , 冥 (3.1a) 2⌺ (d)2 S2 ⫽ c 1 ⫺冤 c(c2 ⫺ 1) , 冥 (3.1b) En estas fórmulas, c representa la cantidad de cosas clasificadas, las d son valores absolutos de las diferencias entre las posiciones asignadas por el examinado y las posiciones predetermina- das, y j = 0 cuando c es par y 1 si c es non. Para ejemplificar el uso de estas fórmulas, suponga- mos que deben ordenarse cinco ciudades de acuerdo con su población asignando una posición de 1 a la ciudad con la mayor población, 2 a la segunda más grande, y así sucesivamente. Los nombres de las cinco ciudades se incluyen en la primera columna de la tabla 3.2, las posiciones predeterminadas aparecen en la segunda columna y las asignadas por un examinado hipotético en la tercera columna. La cuarta columna contiene los valores absolutos de las diferencias entre la posición correcta para cada ciudad y las posiciones predeterminadas, y la quinta columna pre- senta el cuadrado de dichas diferencias. El total de los valores absolutos de las diferencias entre las posiciones del examinado y las posiciones predeterminadas es 10, y el total del cuadrado de las diferencias es 28. Sustituir c ⫽ 5, ⌺ⱍdⱍ ⫽10, y j ⫽ 1 en la fórmula 3.1a produce 5[1 – 2(10)/(52 ⫺ 1)] ⫽ .83 ⬇ 1. Sustituir c ⫽ 5 y ⌺d2 = 28 en la fórmula 3.1b da 5{1 – 3(28)/[5(52 – 1)]} ⫽ 1.5 ⬇ 2. Los resultados de aplicar estas dos fórmulas no coinciden porque, comparada con la fórmula 3.1a, la fórmula 3.1b otorga más peso a las diferencias de posición mayores que a las menores. Cualquiera de las dos fórmulas es satisfactoria, dependiendo de si se opta por asignar un castigo extra a las respuestas que varían mucho de las predeterminadas. En cualquier caso, no hay un método único para calificar reactivos de pruebas que sea el mejor en todos los aspectos: eso depende de la filosofía y los objetivos del evaluador. Corrección por adivinación. Después que la calificación total bruta se ha establecido, surge la pregunta de si es un indicador preciso de la verdadera situación del examinado en la prueba o si está inflada por los aciertos generados al adivinar. Es frecuente que las personas adivinen en pruebas objetivas, y las probabilidades de mejorar sus calificaciones de esa manera, en especial tratándose de reactivos con pocas opciones, pueden ser elevadas. Si la persona no conoce la res- puesta correcta y todas las opciones son igualmente atractivas, la probabilidad de seleccionar la opción correcta adivinando es de 100/k, donde k es el número de opciones por reactivo. Así, la po- sibilidad de adivinar la respuesta correcta es de 50 sobre 100 en un reactivo de falso-verdadero, CALIFICACIÓN DE LOS TESTS 57 TABLA 3.2 Calificación de un ejemplo de reactivo de reacomodo RANGO POSICIÓN DEL VALOR ABSOLUTO CUADRADO DE CIUDAD CORRECTO EXAMINADO DE LA DIFERENCIA LA DIFERENCIA Houston 4 1 3 9 Chicago 3 2 1 1 Los Ángeles 2 3 1 1 Filadelfia 5 4 1 1 Nueva York 1 5 4 16 Totales 10 28 pero sólo de 25 sobre 100 en un reactivo de cuatro opciones. Obviamente, adivinar las respues- tas de una gran cantidad de reactivos puede tener un efecto mucho más grave en una prueba de falso-verdadero que en una de opción múltiple. Corregir los efectos de adivinación en ciertas pruebas estandarizadas (por ejemplo, la SAT y la GRE) conlleva restar una porción de la cantidad de respuestas erróneas a la cantidad de respuestas acertadas. El razonamiento en que se basan las fórmulas llamadas de corrección por adivinar no es de nuestro interés aquí, salvo en lo concerniente a la suposición cuestionable de que los examinados adivinan a ciegas cuando tienen dudas. La fórmula de corrección por adivi- nar más común es: W S ⫽ R ⫺ , (3.2) k ⫺ 1 donde R es la cantidad de reactivos que el examinado acierta, W la cantidad de reactivos en que el examinado se equivoca, k la cantidad de opciones por reactivo y S la calificación corregida. Esta fórmula se ha criticado por producir resultados que son demasiado bajos cuando los exami- nados están menos familiarizados con el material de la prueba y muy elevados cuando están más familiarizados con dicho material (Little, 1962, 1966). Una fórmula alternativa propuesta por Little (1962) es: W S ⫽ R ⫺ , (3.3) 2(k ⫺ 1) Los profesionales que administran pruebas están de acuerdo, por lo general, en que las fórmulas de corrección por adivinación en realidad no corrigen los efectos de adivinar y suelen tener poca influencia en el orden de las calificaciones. Hay excepciones cuando la cantidad de reactivos sin contestar varían mucho entre las personas y cuando algunos reactivos tienen más probabilidades de ser contestados que otros. Por lo regular, estas fórmulas, que suponen proce- dimientos similares a asignar pesos diferenciales a distintos reactivos, no se recomiendan para calificar pruebas de aula. Probablemente son más útiles para revisar pruebas de falso-verdadero y de velocidad, en las cuales el factor de adivinación interviene mucho más que en otro tipo de exámenes. Las calificaciones negativas, que en general se originan cuando se aplica la fórmula 3.2 en pruebas de falso-verdadero (S ⫽ R ⫺ W), usualmente se cambian por cero. De cualquier 58 CAPÍTULO TRES Administración, aplicación y calificación de los tests modo, los examinados tienen derecho a saber si sus resultados se modificarán por adivinación. En las instrucciones de las pruebas debe añadirse información sobre cómo habrá de calificarse, incluyendo si se empleará corrección por adivinar. Calificaciones modificadas. Usualmente no vale la pena alterar las calificaciones sin depurar de las pruebas objetivas mediante la ponderación diferencial de reactivos o con fórmulas de corrección por adivinar, pero a menudo se modifican de otras maneras para que resulten más significativas. Co- mo se describe en la sección sobre normas del capítulo 4, el proceso de interpretar resultados de pruebas se facilita al transformarlos en calificaciones de percentiles o en calificaciones estándar. Calificación de pruebas orales Aunque es más probable que ocurran errores al calificar respuestas orales que escritas, hay for- mas especiales de evaluar el desempeño que mejoran la objetividad de la calificación en prue- bas orales (vea la forma 3.1). Otras maneras de reducir los errores en este tipo de pruebas consisten en prestar atención al diseño de las preguntas, elaborar modelos de respuestas a las preguntas antes de administrar la prueba, recurrir a varios evaluadores y capacitar a los exami- nadores para evitar favoritismos y otros sesgos. Si el tiempo asignado a la calificación no es crí- tico, puede mejorarse su precisión si se graban las respuestas y vuelven a evaluarse más tarde (vea Aiken, 1983a). FORMA 3.1 Forma para evaluar informes orales Instrucciones: Para cada una de las preguntas de la lista, califique el desempeño del estudian- te en una escala de 1 a 10: 1 corresponde a muy deficiente y 10 a excelente. Escriba el número adecuado (1 a 10) en la raya. 1. ¿Qué tan bien conoce el estudiante el tema del informe? 2. ¿Qué tan bien organizado estaba el informe? 3. ¿Qué tan eficaz fue la introducción para captar su atención? 4. ¿Con cuánta claridad y precisión habló el alumno? 5. ¿Qué tan interesante fue el tema? 6. ¿Qué tan eficaces fueron los materiales audiovisuales (películas, carteles, notas del pizarrón) en caso de haberse usado? 7. ¿Qué tanto se abstuvo el alumno de ver sus notas casi todo el tiempo y en cambio miró a la clase durante el informe? 8. ¿Con cuánta eficiencia usó el alumno gestos, posturas corporales y otros mensajes no verbales para comunicarse? 9. ¿En qué medida el estudiante se refirió a investigaciones u otras fuentes para pre- sentar el informe? 10. ¿Cómo calificaría la conclusión (resumen de los puntos principales, preguntas para reflexionar, etc.) del informe? Comentarios: RESUMEN 59 Calificación y notas Después de haber administrado y calificado las pruebas, es preciso calificar los resultados. En el caso de pruebas realizadas por el maestro, la evaluación de los resultados en general implica asignar letras o notas. La asignación de notas es un proceso bastante subjetivo, dependiente no sólo de la prueba misma, sino de las expectativas del evaluador y de las calificaciones obtenidas por otros estudiantes. Algunos maestros califican estrictamente sobre la curva, mientras que otros evalúan en términos de un estándar o criterio de desempeño fijo. Sin embargo, la mayoría tal vez emplea una combinación de notas de curva y de estándar fijo. En un procedimiento de curva, el método Cajori, se asignan letras como sigue: A para el mejor 7% de las pruebas, B al siguiente 24%, C al 38% que sigue, D al 24% siguiente y F al 7% más bajo. La desventaja de es- te método es que no considera que la dificultad de las pruebas varía y que el nivel de capacidad promedio no es el mismo para estudiantes de distintas clases. Otro procedimiento de curva esta- blece límites de notas con letra para pruebas de aula cuando el nivel de capacidad de la clase, el desempeño de la clase en la prueba con respecto a otras clases, y los propios resultados de la prueba se toman en cuenta (Aiken, 1983b, 2000).3 El sistema de asignación de notas, en que A se considera excelente o superior, B superior al promedio o bueno, C es el promedio, D es inferior al promedio o deficiente, y F es insuficien- te o reprobado, es una forma de interpretación de resultados o de evaluación del desempeño. To- das las instituciones públicas y privadas tienen estándares que se espera cumplan sus alumnos, empleados o miembros. Los estándares pueden ser flexibles, pero en algún momento se evalúa el desempeño de los miembros de la organización. El castigo por obtener una evaluación nega- tiva puede consistir en trabajo extra, degradación, suspensión o incluso expulsión. Las recom- pensas por una evaluación favorable incluyen premios, privilegios y ascensos. Las notas en letra implican la evaluación del desempeño académico mediante la aplica- ción de diversas pruebas de aprovechamiento a los estudiantes. Las calificaciones en otras prue- bas de habilidad y personalidad también requieren de interpretación si se pretende usarlas para ciertos fines como ubicación en puestos o clases especiales, psicodiagnóstico o tratamientos psi- cológicos, u otro tipo de intervenciones. Interpretar las calificaciones en dichas pruebas puede ser un proceso muy complejo, dependiendo del tipo de prueba y los propósitos para los que se aplique. La interpretación involucra factores tanto objetivos como subjetivos, incluyendo el uso de normas como se analiza en el siguiente capítulo. RESUMEN Los procedimientos para administrar y calificar pruebas varían en cierta medida según el tipo de prueba y las personas a las que está dirigida. Los examinados deben estar preparados, motivados para desempeñarse bien y relativamente exentos de tensión y de otras condiciones distractoras. 3Aiken (2000) analiza los problemas relacionados con las notas en letra y describe un conjunto de siete programas de cómputo que proporcionan una base más objetiva para la asignación de notas. Estos programas pueden usarse para asig- nar letras, calcular el promedio o una serie de letras ponderadas, convertir letras en percentiles, transformar notas en puntos de calidad y calcular estadísticas apropiadas, convertir calificaciones numéricas en una escala diferente, puntos en percentiles y calificaciones estándar, y almacenar o recuperar notas en letras, números enteros o decimales de un ar- chivo. Previa solicitud puede obtenerse una copia de esta serie de programas enviando un disquete formateado de siste- ma DOS y un sobre de porte pagado al doctor Lewis R. Aiken, 3300 Blue Ridge Court, Thousand Oaks, CA 91362. 60 CAPÍTULO TRES Administración, aplicación y calificación de los tests Quienes administran las pruebas deben estar capacitados, familiarizados con la prueba en par- ticular y tener la seguridad de que todo está en orden antes de iniciar una prueba. En general, las circunstancias de prueba deben ser física y psicológicamente cómodas, de modo que los exami- nados se sientan dispuestos a realizar su mejor esfuerzo. Como regla general, debe informarse a los examinados sobre el o los objetivos de la prue- ba, cuándo y dónde se administrará,cuál será el formato y el material que aborda. Los examina- dores deben seguir las instrucciones cuidadosamente, tomar precauciones para reducir al mínimo las trampas y prepararse para manejar emergencias y otros problemas especiales. Suele permitir- se cierta flexibilidad al aplicar pruebas elaboradas por maestros y estandarizadas, pero en caso de alejarse radicalmente de las instrucciones de administración se invalida el uso de las normas en las pruebas estandarizadas. Los examinadores también deben intentar entablar un buen rapport con los examinados, en particular en el caso de pruebas aplicadas de manera individual. El ingenio para resolver pruebas, los aciertos al adivinar, cambiar las respuestas y hacer trampas son algunos de los factores que pueden inflar los resultados en una prueba objetiva; alardear, usar una redacción rebuscada o buena caligrafía tienen el mismo efecto en las pruebas de ensayo. La influencia del ingenio lpara resolver pruebas se minimiza al elaborar los reactivos con cuidado y evitando las claves como la extensión de los reactivos, determinantes específicos, errores gramaticales, indicios estilísticos y opciones heterogéneas (no paralelas). Con frecuen- cia se aplican fórmulas de corrección por adivinación para reducir los efectos de adivinación. No obstante, con la posible excepción de los reactivos de falso-verdadero, al calificar pruebas de au- la, las pruebas convencionales de corrección por adivinación no suelen compensar el tiempo y los esfuerzos invertidos. Las pruebas de ensayo pueden calificarse holística o analíticamente, pero en ambos casos debe informarse a los examinados cómo se revisarán las pruebas. Se recomienda calificar las respuestas de todos los examinados a una pregunta específica antes de continuar con la siguien- te, lo mismo que evaluar el contenido y el estilo de las respuestas en forma separada. Además de una calificación numérica, a menudo es útil incluir comentarios, correcciones y explicaciones como retroalimentación sobre el desempeño en las pruebas de ensayo. Muchas pruebas objetivas se califican con ayuda de computadoras u otras máquinas especia- les. En general, la calificación a máquina es superior en términos de velocidad y precisión, pero menos flexible que la realizada a mano. La evaluación de muchos tests de inteligencia y persona- lidad individuales no es del todo objetiva, y pueden cometer errores graves tanto los profesionales como el personal capacitado. En las pruebas adaptativas, donde la secuencia de las preguntas presentadas al examinado varía de acuerdo con su posición estimada en la variable especificada y con sus respuestas a reactivos anteriores, el tiempo de administración se reduce considerablemente. El uso de compu- tadoras para presentar reactivos y evaluar respuestas hace de las pruebas adaptativas una opción eficiente, aunque más costosa, que el método tradicional de presentar dichos reactivos a todos los examinados. Se han investigado a fondo los efectos de asignar distinto peso en la calificación para di- ferentes tipos de reactivos objetivos o para distintas respuestas a un reactivo. En general, no se recomiendan ponderaciones previas para calificar pruebas que consistan en 20 o más reactivos. Las calificaciones brutas con frecuencia se convierten en percentiles o calificaciones es- tándar con el fin de calcular porcentajes, realizar comparaciones e interpretar calificaciones. Las calificaciones en pruebas de aula también pueden convertirse en notas, ya sea usando un conjun- to establecido de porcentajes como los especificados en el método Cajori o de una manera más subjetiva. RESUMEN 61 P R E G U N TA S Y A C T I V I D A D E S 1. Defina lo que es el ingenio para resolver pruebas y describa los comportamientos que revelan di- cha conducta. ¿Qué puede hacer un diseñador de pruebas para reducir lo más posible los efectos de tal habilidad en las calificaciones? 2. Pregunte a un grupo de sus compañeros de clase sobre las técnicas que usan para elegir respuestas en pruebas con reactivos de opción múltiple cuando no han estudiado el material en forma adecua- da. ¿Qué técnicas son más comunes y qué tan efectivas son? 3. Sin duda ha observado que la velocidad para resolver una prueba de aula puede variar en gran me- dida de estudiante a estudiante. Algunos terminan un examen de dos horas en menos de una hora, mientras que otros continúan trabajando después de terminado el tiempo permitido. A juzgar por sus observaciones y conversaciones, ¿cuáles considera que son los principales factores que determinan la velocidad para concluir una prueba? 4. ¿Qué es una prueba adaptativa? ¿De qué manera las pruebas adaptativas son mejores que los proce- dimientos de evaluación objetivos convencionales? ¿En qué aspectos son inferiores? 5. ¿Cuáles son algunas de las ventajas y desventajas de elaborar, administrar y calificar pruebas por computadora, en comparación con las mismas actividades realizadas mediante procedimientos con- vencionales? 6. Juan resuelve una prueba de 50 reactivos de opción múltiple, con cuatro opciones. Acierta en 30 reactivos, se equivoca en 16 y deja 4 sin contestar. ¿Cuál es su calificación total, con corrección por adivinación y sin ésta? Si todos los reactivos son de falso-verdadero y obtiene el mismo núme- ro de aciertos y errores ya mencionados, ¿cuál será su calificación total, con y sin corrección por adivinación? 7. Un examen sobre historia británica contiene un reactivo de reacomodo consistente en una lista de siete batallas. Se pide a los alumnos que ordenen las siete batallas de acuerdo con la fecha en que ocurrieron. El orden correcto es: Batalla de Hastings, Batalla de Bunker Hill, Batalla de Yorktown, Batalla de Trafalgar, Batalla de Waterloo, Batalla del Marne, Battalla de Bretaña. Juan ordena las batallas de la siguiente manera: Waterloo, Hastings, Yorktown, Trafalgar, Marne, Bretaña y Bunker Hill. ¿Cuál sería su calificación en este reactivo? María elige el siguiente orden: Hastings, Water- loo, Yorktown, Bunker Hill, Trafalgar, Marne, Bretaña. ¿Cuál es su calificación? 8. Usando los porcentajes diseñados mediante el método Cajori, asigne letras de grado a las califica- ciones de la distribución X en el ejercicio 3 del apéndice A (página 446). Después asigne letras de grado a la distribución Y del mismo ejercicio. Suponga que la calificación máxima es 50, la mínima 0, y la habilidad mediana de la clase es 50. 9. Observe la administración de una prueba en una de sus clases. ¿El examinador siguió los lineamien- tos descritos en este capítulo? Si no fue así, ¿qué errores cometió y cuáles fueron las consecuencias reales o posibles de sus equivocaciones? CAPÍTULO CUATRO ANÁLISIS DE REACTIVOS Y ESTANDARIZACIÓN DE PRUEBAS Este capítulo aborda dos temas en cierta medida técnicos, pero importantes: el análisis de reac- tivos y la estandarización de pruebas. Ambos temas tienen que ver con el cálculo de ciertos aná- lisis estadísticos que deben revisarse con detalle para determinar si todos los reactivos de una prueba están funcionando como deberían, y cómo pueden interpretarse las calificaciones de las pruebas. El análisis de reactivos se centra en el funcionamiento de reactivos individuales, mientras que la estandarización de pruebas se ocupa de la interpretación normativa de los resul- tados de la prueba en su conjunto o de algunas de las partes o subpruebas que la integran. Los te- mas de este capítulo y del siguiente se tratan, sobre todo, desde la perspectiva de la teoría clásica (tradicional) sobre pruebas, pero no se dejan de lado los enfoques más recientes de la teoría de respuesta al ítem. Tanto la teoría clásica sobre pruebas (CTT) como la teoría de la respuesta a los ítemes (IRT) son útiles para el desarrollo, el análisis y las aplicaciones de pruebas y, dependien- do de la tarea específica, ambas han recibido apoyo. ANÁLISIS DE REACTIVOS Incluso después de haber sido administrada y calificada una prueba, no siempre es seguro que haya funcionado bien. Cuando se pilotea una prueba en un principio, es posible que surjan va- rios problemas. Ésta es una de las razones de que las pruebas que se distribuyen comercialmen- te se administren primero a una muestra de personas representativas del grupo que las pruebas están destinadas a medir. Entonces pueden analizarse las respuestas de esa muestra piloto para determinar si los reactivos están funcionando de manera adecuada. Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habili- dad o de personalidad, un análisis post mortem o post hoc de los resultados es tan necesario co- mo en medicina o en cualquier otra empresa humana. Entre las preguntas que es preciso contestar figuran las siguientes: ¿fueron adecuados los límites de tiempo? ¿Los examinados en- tendieron las instrucciones? ¿Fueron apropiadas las condiciones en que se administró la prueba? ¿Se manejaron de manera adecuada las situaciones de emergencia? Es inusual que puedan anti- ciparse todos los problemas o contingencias que surgen durante un piloteo, pero un análisis pos- terior puede proporcionar información y motivación para prever y manejar situaciones similares al administrar pruebas en el futuro. El cuestionario de la forma 4.1, que responden los examina- dos inmediatamente después de haberse sometido a una prueba de aprovechamiento, puede ofre- cer información cualitativa sobre las percepciones en cuanto a la imparcialidad de la prueba, si se sentían preparados para ella, si cumplió con sus expectativas o cómo respondieron a los reacti- vos individuales. 62 ANÁLISIS DE REACTIVOS 63 FORMA 4.1 Forma de evaluación de test Instrucciones: Llene esta forma después de terminar la prueba. Encierre su respuesta en un círculo para cada reactivo y responda en los espacios en blanco de ser necesario. Sí No 1. ¿Fue satisfactorio el ambiente (asientos, temperatura, ventilación, nivel de ruido, etc.) en que se aplicó la prueba? ____________________________ Sí No 2. ¿Leyó usted cuidadosamente las instrucciones antes de empezar la prueba? Sí No 3. ¿Fueron claras las instrucciones? Sí No 4. ¿El formato de la prueba (tipo de reactivos, acomodamiento, hoja de res- puestas) fue satisfactorio? _____________________________________ Sí No 5. ¿La prueba cubrió de manera adecuada el material asignado? __________ Sí No 6. ¿Las preguntas de la prueba tenían dificultad adecuada? ______________ Sí No 7. ¿Estudió usted lo suficiente para la prueba? ________________________ Sí No 8. ¿Estudió el material correcto? ___________________________________ Sí No 9. ¿Piensa que respondió las preguntas de manera equivocada? ¿Cuáles? ___ Sí No 10. ¿Adivinó algunas de las respuestas? ¿Cuántas? ¿Cuáles? _____________ Sí No 11. ¿Omitió usted algunos de los reactivos? ¿Cuáles? ___________________ Sí No 12. ¿Tuvo bastante tiempo para terminar la prueba? _____________________ Sí No 13. ¿Al terminar la prueba, revisó sus respuestas? Sí No 14. ¿Estuvo nervioso o emocionalmente molesto durante la prueba? Sí No 15. ¿Fue justa la prueba? _________________________________________ Sí No 16. En general, ¿considera que la prueba fue buena? ____________________ Sí No 17. ¿Durante la prueba observó que se hiciera trampa? __________________ 18. ¿Qué calificación espera obtener en esta prueba? ______________________ El análisis de las respuestas que da un grupo determinado de personas a un reactivo indi- vidual en una prueba cumple varias funciones. El principal objetivo de dicho análisis de reacti- vos es contribuir a mejorar la prueba al revisar y descartar reactivos ineficaces. Otra función importante de dicho análisis, en especial en una prueba de aprovechamiento, es proporcionar in- formación diagnóstica sobre lo que saben o no los examinados. 64 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas Pruebas con referencias a criterios y de dominio El procedimiento empleado en evaluar la eficacia de los reactivos de prueba depende, en cierta medida, del propósito de la misma. Por ejemplo, el examinador puede estar interesado sólo en determinar qué tanto sabe un examinado sobre el material de la prueba, no en comparar su de- sempeño con el de otras personas. En este caso, el desempeño se mide contra un criterio o están- dar establecido por el maestro del aula o por una política institucional. El objetivo de tal evaluación con referencias a criterio (o a un área) no es descubrir qué calificación obtiene una persona en relación con otras, sino en qué nivel se encuentra en cuanto a determinados objetivos de una lección, curso o programa. Un tipo particular de prueba con referencias a criterio, dise- ñada para medir el logro de un rango limitado de habilidades cognoscitivas, se conoce como prueba de dominio. La calificación de una persona en una prueba de dominio, o en cualquier otra prueba con referencias a criterio, se expresa como un porcentaje de la cantidad total de reactivos respondidos de manera correcta; una calificación perfecta indica el 100% de dominio del material. Diferencias individuales y validez de los reactivos Dado que suele ser difícil llegar a un acuerdo sobre cuánto debe saber una persona sobre una ma- teria en particular o en qué consiste dominarla, tradicionalmente las calificaciones se han inter- pretado comparándolas con las obtenidas por otras personas. Las pruebas psicológicas se han diseñado, sobre todo, para evaluar diferencias entre individuos en cuanto a características. Las habilidades y la personalidad de la gente difieren, y los psicólogos intentan evaluar estas dife- rencias mediante diversos tipos de pruebas. Mientras mayor sea el cuidado con que se lleva a ca- bo dicha evaluación, mayor será la precisión con que podrá predecirse el comportamiento a partir de los resultados de las pruebas. En consecuencia, los encargados de elaborar pruebas in- tentan diseñar reactivos que permitan diferenciar a las personas en cuanto a lo que se quiera me- dir. De esta manera, aumenta la variabilidad de los resultados totales de las pruebas y entonces una calificación determinada se convierte en un índice más preciso de la posición de una perso- na en relación con la de otros individuos. A fin de evaluar la utilidad de un reactivo como medida de las diferencias individuales en cuanto a las características de habilidad o de personalidad, se requiere un criterio externo de me- dida de dicho rasgo. Si la prueba se elabora para predecir el desempeño en un trabajo o en la es- cuela, entonces un criterio apropiado consiste en la medida del desempeño laboral (digamos, las escalas del jefe) o del aprovechamiento escolar (por ejemplo, notas asignadas por el maestro). La validez de un reactivo para predecir una posición con base en un criterio externo puede de- terminarse al correlacionar las calificaciones de un reactivo (0 para los errores y 1 para los acier- tos) con las calificaciones de la medida de criterio. Se han usado distintos tipos de coeficientes de correlación para este propósito; el más común es el coeficiente biserial puntual, que puede calcularse con la siguiente fórmula: 1Yp ⫺ Y2 2ntnp> 3 1nt ⫺ np 2 1np ⫺ 12 4 rpb ⫽ , (4.1) St donde nt = la cantidad total de examinados, np = la cantidad de examinados que resuelven co- rrectamente el reactivo, = la media de las calificaciones de criterio de quienes pasan el reac- tivo, = la media de todas las calificaciones de criterio, y st = la desviación estándar de todas las calificaciones de criterio. El criterio puede ser externo (productividad en el trabajo o grados de un curso) o incluso calificaciones totales de la propia prueba. ANÁLISIS DE REACTIVOS 65 Para ilustrar el cálculo del coeficiente biserial puntual, supongamos que la media y la des- viación estándar del total de las calificaciones de un grupo de 30 personas son 75 y 10, respecti- vamente. Ahora bien, si la calificación media de 17 examinados que aciertan en determinado reactivo es 80, la sustitución de estos valores en la fórmula 4.1 produce: 180 ⫺ 75 2 2301172> 3 131292 4 rpb ⫽ ⫽ .58. 10 Cuanto más elevada sea la correlación entre reactivo y criterio, más preciso será el reactivo como predictor del criterio. El que un reactivo se conserve o deseche depende del tamaño de es- te coeficiente. Aunque reactivos con coeficientes tan bajos como .20 pueden contribuir a predecir el criterio, se prefieren coeficientes más elevados. Un reactivo con una correlación cercana o me- nor que .00 con el criterio debe, sin duda, revisarse o descartarse. Sin embargo, la utilidad de un reactivo para predecir un criterio específico no sólo depende de la correlación entre reactivo y cri- terio, sino también de la correlación del reactivo con otros reactivos de la prueba. Son mejores los reactivos que tienen correlaciones elevadas con el criterio, pero bajas con otros reactivos, porque representan una contribución más independiente a la predicción de calificaciones de criterio. Dificultad de los reactivos e índices de discriminación Por lo general, no hay un criterio externo fácilmente disponible contra el cual validar los reactivos de las pruebas de aprovechamiento en el aula, de modo que a menudo se emplea un procedimiento distinto, el de consistencia interna. Al igual que con cualquier otra prueba, el análisis de reacti- vos de una prueba de aula conlleva determinar el porcentaje de examinados que pasan el reactivo y la correlación del reactivo con una medida de criterio. No obstante, en el caso de una clase de apro- vechamiento de aula, el criterio consiste en calificaciones totales sobre la prueba misma. Suponiendo que la serie de reactivos en conjunto es una medida adecuada de aprovechamiento en el sujeto, la suma de las calificaciones se usa como el criterio para determinar la consistencia interna de la prueba. Un procedimiento más breve consiste en dividir a los examinandos en tres grupos según sus calificaciones en la prueba como un todo: un grupo superior formado por el 27% que obtu- vo las calificaciones más altas, un grupo inferior compuesto por el 27% que tuvo las calificacio- nes más bajas, y el restante 46% incluido en un grupo intermedio. Cuando el número total de examinados es pequeño, el 50% correspondiente a los grupos inferior y superior a menudo se utiliza para propósitos de análisis de reactivos. En cualquier caso, los siguientes índices estadís- ticos se calculan a partir de los resultados de los grupos inferior y superior: Up ⫹ Lp p ⫽ (4.2) U ⫹ L y Up ⫺ Lp D ⫽ . (4.3) U Up y Lp son la cantidad de individuos que hay en los grupos superior e inferior, respectivamen- te, y que aciertan en el reactivo; U y L son el número total de personas en los grupos superior e inferior (obsérvese que U = L ), respectivamente. Al valor de p se le conoce como índice de di- ficultad del reactivo y al de D como índice de discriminación del reactivo. Para ejemplificar el cálculo de estos índices, supongamos que 50 personas presentan una prueba. Entonces los gru- 66 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas pos superior e inferior pueden formarse con los .27 × 50 L 14 superior y el 14 inferior de la su- ma total de calificaciones. Si 12 de las personas del grupo superior y 7 de las que forman el grupo inferior pasan el reactivo A, entonces p = (12 ⫹ 7)/28 = .68 y D = (12 ⫺ 7)/14 = .36. El índice de dificultad del reactivo tiene un rango de .00 a 1.00. Un reactivo con p = .00 es uno que nadie contestó correctamente, y un reactivo de p = 1.00 es el que todos respondieron en forma acertada. El valor p óptimo para un reactivo depende de varios factores, incluyendo los objetivos de la prueba y la cantidad de opciones de respuesta. Si el propósito de una prueba es identificar o seleccionar sólo un pequeño porcentaje de los mejores candidatos, entonces la prue- ba debe ser bastante difícil, como se refleja en un valor promedio inferior de p. Si la prueba es- tá diseñada para rechazar sólo a algunos candidatos muy deficientes, entonces es mejor un valor promedio de p elevado. Por ejemplo, el valor de p óptimo debe ser muy bajo para reactivos de una prueba diseñada para otorgar becas o hacer contrataciones en puestos superiores, pero muy alto en una prueba diseñada para identificar estudiantes candidatos a programas terapéuticos. En una prueba elaborada para medir un rango amplio de habilidad, el valor de p óptimo es más cercano a .50. Como se muestra en la tabla 4.1, para una prueba semejante el valor promedio de p ópti- mo también varía inversamente con el número de opciones de respuestas (k). Los valores de p para reactivos aceptables caen dentro de un rango bastante estrecho, aproximadamente de .20, alrededor de estos valores registrados.1 Aunque algunos reactivos muy fáciles y otros muy difí- ciles con frecuencia se incluyen en una prueba de rango amplio, de hecho agregan muy poco a la efectividad general para distinguir entre estudiantes que poseen distinta cantidad de conoci- miento, habilidad o comprensión del material de prueba. El índice de discriminación del reactivo (D) es una medida de la eficacia de un reactivo para discriminar entre quienes obtienen altas y bajas calificaciones en una prueba. Mientras más elevado sea el valor de D, resulta más eficaz para establecer dicha distinción. Cuando (D) es igual a 1.00, todos los examinados del grupo superior y ninguno del grupo inferior en las califi- caciones totales de la prueba respondieron el reactivo en forma adecuada. Sin embargo, casi nunca resulta D igual a 1.00 y, por lo regular, se considera aceptable un reactivo si tiene un índi- ce D de .30 o mayor. Pero D y p no son índices independientes, y el valor de D mínimo acepta- TABLA 4.1 Índices medios óptimos de la dificultad de los reactivos para pruebas con reactivos de opción múltiple NÚMERO DE OPCIONES (k) ÍNDICE MEDIO ÓPTIMO DE DIFICULTAD ( p) 2 .85 3 .77 4 .74 5 .69 Abierta .50 (ensayo, respuesta breve) Fuente: Elaborado con datos proporcionados por F. M. Lord, Psychometrika, 17 (1952), pp. 181-194. 1El rango de p debe ser menor que .20 en una prueba con topes máximos diseñada para medir con eficacia dentro de un rango bastante estrecho de capacidad. Éste es el caso, por ejemplo, de una prueba diseñada para seleccionar o identifi- car un grupo de personas relativamente pequeño con habilidades muy bajas o muy altas o con cualesquier característi- cas que tengan una tasa de aparición baja (tasa base) en la población de interés. ANÁLISIS DE REACTIVOS 67 ble varía de acuerdo con el valor de p. Un valor de D en cierta medida inferior a .30 es acepta- ble mientras p cada vez aumenta o disminuye más que el valor óptimo, sobre todo cuando los grupos de comparación superior e inferior son numerosos. Asimismo, un reactivo con un índice D bajo no se descarta automáticamente: es posible salvarlo modificándolo. Elaborar reactivos de pruebas adecuados es un proceso minucioso, de modo que los defectuosos deben corregirse y conservarse siempre que sea posible. Factores que afectan el funcionamiento de los reactivos Los resultados de un análisis de reactivos a menudo varían considerablemente dependiendo del grupo específico que se somete a la prueba, en particular cuando la cantidad de examinados es reducida. Algunos reactivos pueden responderse de manera diferente por hombres y por mu- jeres o por algún grupo étnico, de edad o socioeconómico en comparación con otro. Al elaborar una prueba estandarizada, en la actualidad es frecuente revisar cada reactivo y los análisis esta- dísticos correspondientes para buscar indicios de falta de discriminación o sesgo por grupo. Pa- ra facilitar este proceso, a menudo se calculan índices estadísticos del funcionamiento diferencial del reactivo (DIF). Se han propuesto muchos métodos para obtener información so- bre el funcionamiento diferencial de los reactivos de pruebas, incluyendo el procedimiento de diagramas delta de reactivos del Servicio de Evaluación Pedagógica y varios procedimientos de chi cuadrada (vea Camilli y Shepard, 1994). Sólo porque la forma como se responde un reactivo varía de grupo a grupo no quiere de- cir necesariamente que un reactivo esté sesgado en contra de alguno de los grupos. Técnicamen- te, un reactivo se considera sesgado sólo cuando mide algo distinto —una característica o rasgo diferente— en un grupo con respecto a otro. Si las calificaciones de un grupo reflejan diferen- cias verdaderas en cuanto a la capacidad o cualquier característica para cuya medición se dise- ñó el reactivo, éste se encuentra técnicamente libre de sesgo. Al realizar un análisis de reactivo individual para cada grupo puede revelarse la presencia de sesgo en el reactivo, es decir, si el reactivo discrimina bien entre calificaciones altas y bajas en ambos grupos. También surgen problemas en el análisis de reactivos de las pruebas de velocidad, en las que los límites de tiempo son breves y no todos los examinados pueden terminar. En una prueba de velocidad, los reactivos cercanos al final de la prueba intentan resolverse por relativamente pocas personas. Si quienes alcanzan y por consiguiente tratan de resolver un reactivo final son los exa- minados más capaces, el índice de discriminación (D) probablemente será mayor del que resulta- ría si el límite de tiempo fuera más generoso. Por otra parte, si los más descuidados tienen más probabilidades de llegar a los reactivos del final de la prueba e intentar responderlos, los valores D de dichos reactivos tenderán a ser inferiores a los de aquellos que se encuentran cercanos al prin- cipio. Se han propuesto varios procedimientos para resolver los problemas que genera el análisis de reactivos hacia el final de las pruebas de velocidad, pero ninguno resulta del todo satisfactorio. A pesar de sus desventajas, los índices de dificultad y de discriminación de reactivos pro- porcionan información útil sobre el funcionamiento de los reactivos individuales. En general, se ha descubierto que el análisis de reactivos produce mejoras considerables en la eficacia de las pruebas. En particular, el índice de discriminación de reactivos es una medida bastante adecua- da de la calidad del reactivo. Junto con el índice de dificultad (p), D puede servir como una ad- vertencia de que algo está fallando en un reactivo. Los constructores de pruebas a menudo han recibido el consejo de registrar los resultados estadísticos del análisis de reactivos, junto con el reactivo mismo, en tarjetas de índices y archi- var las tarjetas para su uso posterior. Con la llegada de las computadoras de alta velocidad, aho- ra los reactivos pueden codificarse por tema, niveles de dificultad y de discriminación, y tal vez 68 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas hasta por los procesos cognoscitivos que implica responderlos, y después almacenarlos en un banco de reactivos. No sólo los profesionales que elaboran pruebas usan estos bancos de reacti- vos, también están disponibles como complementos de muchos libros de texto para usarse como pruebas prácticas o servir como banco de reactivos al elaborar pruebas de aula. Las computado- ras pueden utilizarse para seleccionar reactivos de un banco que maneje distintos contenidos e integrarlos como una unidad de prueba o exámenes. También hay programas de computación es- pecializados para facilitar la elección de reactivos que abordan un tema específico y, además, con las características estadísticas deseadas. Consistencia interna contra validez El concepto de validez del reactivo, en general, se refiere a la relación entre un reactivo y un cri- terio externo. Pero D es una medida de la relación de los resultados de reactivos con un criterio interno (total de calificaciones de la prueba) más que con un criterio externo. Seleccionar reac- tivos con valores D altos dará como resultado una prueba internamente consistente en la que las correlaciones entre reactivos son muy positivas. Sin embargo, las calificaciones de una prueba internamente consistente no siempre están muy correlacionadas con las calificaciones de un cri- terio externo. Para construir una prueba con una elevada correlación con un criterio externo, de- ben seleccionarse reactivos que tengan correlaciones bajas entre sí, pero elevadas con la medida de criterio. Seleccionar reactivos con base en la estadística D origina un tipo de prueba distinto al de una prueba compuesta por reactivos elegidos por sus altas correlaciones con un criterio ex- terno. Cuál de estas estrategias, interna o externa, es superior depende de los propósitos de la prueba. Si se desea una medida internamente consistente de una característica, debe usarse el ín- dice de discriminación (D) para seleccionar reactivos. Si se requiere el predictor más válido de un criterio externo en particular, deberán emplearse las correlaciones de criterio de reactivos. En ocasiones es adecuada una combinación de ambas estrategias: se elabora una prueba compues- ta a partir de subpruebas con bajas correlaciones entre sí y correlaciones considerables con un criterio externo, pero los reactivos de cada subprueba están altamente intercorrelacionados. Reactivos con referencias a criterios Los índices de dificultad y de discriminación pueden calcularse también en reactivos de prueba con referencia a criterios, y se diseñan para determinar las posiciones de los examinados en ob- jetivos pedagógicos específicos. En este caso, los examinados se dividen en dos grupos: un gru- po superior consistente en los examinados U, cuyas calificaciones totales de prueba cumplen con el criterio establecido de desempeño aceptable, y un grupo inferior integrado por los exami- nados L, cuyas calificaciones totales no satisfacen los criterios. Para un reactivo particular, Up es el número en el grupo superior (encima del nivel de criterio) de quienes aciertan en el reacti- vo, y Lp es el número en el grupo inferior (debajo del nivel de criterio) de los que aciertan en el reactivo. Entonces el índice de dificultad del reactivo se define mediante la fórmula 4.2. Debido a que U y L no necesariamente son iguales, el índice de discriminación del reactivo se define como: Up Lp (4.4) D ⫽ ⫺ . U L Puede emplearse un criterio externo para formar los grupos superior e inferior. En el caso de una prueba de aprovechamiento con referencia a criterio, por ejemplo, los examinados pueden dividirse en dos grupos: los que recibieron instrucciones sobre el tema asociado con la prueba (U) y quienes no recibieron dichas instrucciones (L). Los grupos U y L también pueden consis- ANÁLISIS DE REACTIVOS 69 tir en los mismos individuos, tanto antes (L) como después (U) de la instrucción. En cualquier caso, puede usarse la fórmula 4.4 para determinar un índice de discriminación de reactivos. Análisis de distractores El análisis de los reactivos de opción múltiple suele empezar con el cálculo de índices de discri- minación y dificultad para cada reactivo. Un análisis secundario se ocupa del funcionamiento de los distractores k ⫺ 1 para cada reactivo. El índice de discriminación de reactivos (D) propor- ciona cierta información sobre el funcionamiento de los distractores en conjunto. Un D positivo indica que los examinados en el grupo superior (en la calificación total de la prueba) tendieron a seleccionar uno de los distractores; la magnitud de D indica la medida de esta tendencia. Por otra parte, un D negativo indica que los distractores se eligieron con mayor frecuencia por exa- minados del grupo superior que por los del grupo inferior y que el reactivo debe revisarse. Sin embargo, el signo y la magnitud de D no revelan si todos los distractores funcionaron de mane- ra adecuada. El método más sencillo para determinar si todos los distractores están funcionando como deberían es contar el número de veces que cada distractor se seleccionó como la respuesta ade- cuada por los examinados del grupo superior y por los del grupo inferior. Si, en el caso de un reactivo que por lo demás es satisfactorio, demasiados examinados del grupo superior o muy po- cos del grupo inferior seleccionaron un distractor determinado, éste debería ser modificado o reemplazado. En términos ideales, todos los distractores k ⫺ 1 deberían ser igualmente acepta- bles para los examinados que no conocen la respuesta correcta de un reactivo; en consecuencia, todo distractor debe ser seleccionado por alrededor de la misma cantidad de personas. Curvas características de los reactivos Incluso los valores aceptables de p y D no garantizan que un reactivo esté funcionando de ma- nera efectiva a lo largo de todos los niveles de desempeño de la prueba. Para ser más efectivo, la proporción de las personas que contestan un reactivo correctamente debería aumentar en forma continua con el incremento de las calificaciones totales en la prueba o subprueba. El que un reac- tivo de prueba funcione de esta manera puede determinarse mediante la curva característica del reactivo (ICC). Al construir una ICC, la proporción de examinados que dieron la respuesta en clave se contrasta contra sus calificaciones en un criterio interno (por ejemplo, las calificaciones totales de la prueba) o un criterio externo, como el aprovechamiento académico o el desempeño laboral. Una vez que se ha construido la curva característica de un reactivo en particular, es po- sible determinar el nivel de dificultad y el índice de discriminación de dicho reactivo. El nivel de dificultad (b) es la calificación de criterio en el que 50% de los examinados dio la respuesta acer- tada (predeterminada); el índice de discriminación (a) es la pendiente de la curva característica del reactivo en el punto del 50%. Por ejemplo, de las dos curvas características del reactivo tra- zadas en la figura 4.1, un valor de .50 en el eje vertical corresponde a una calificación total en la prueba de 68 en el caso del reactivo 1 y de 77 en el reactivo 2. Por consiguiente, el reactivo 2 es más difícil que el 1. Sin embargo, la ICC del reactivo 1 tiene una pendiente más pronunciada que la del reactivo 2, de modo que el reactivo 1 discrimina mejor que el 2 entre quienes obtienen las calificaciones superiores y los de las calificaciones inferiores en toda la prueba. Estas dos medi- das (ubicación y pendiente de la ICC) son similares a los índices p y D del análisis de reactivos tradicional, pero una ICC proporciona de mejor modo una imagen detallada del funcionamien- to de reactivos a lo largo de todo el rango de calificaciones de criterio interno o externo. Además 70 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas 1.0 0.9 0.8 Proporción de respuestas correctas al reactivo Reactivo 1 0.7 0.6 0.5 Reactivo 2 0.4 0.3 0.2 0.1 55 60 65 70 75 80 85 90 95 Calificación total de la prueba FIGURA 4.1 Dos curvas características de reactivos. Vea la explicación en el texto. de trazar la proporción de respuestas correctas que corresponden a las calificaciones totales de una medida de criterio externo o interno, la proporción de individuos que obtiene cada califica- ción y que seleccionaron un distractor en particular puede trazarse al analizar la eficacia de los distractores de reactivos. Teoría de respuesta al Ítem A diferencia de la atención más bien superficial que otorgan la teoría y los métodos tradiciona- les sobre pruebas a las respuestas a reactivos individuales, tales respuestas son el núcleo de la teoría y metodología de respuesta a los ítemes. La teoría de respuesta al Ítem (IRT) se basa en ANÁLISIS DE REACTIVOS 71 la relación funcional teórica entre un continuo de capacidad latente supuesto y las respuestas a reactivos individuales en una prueba. Los cálculos que conlleva son muy complicados y en ge- neral deben realizarse con la ayuda de un programa de cómputo como LOGIST, BILOG, AS- CAL o BIGSTEPS (vea Mislevy y Stocking, 1989; Vale, 1985; Wright y Linacre, 1991). El modelo usual de la IRT es una función logística que tiene uno, dos o tres parámetros. La fórmula para generar cálulos de probabilidad en el modelo de tres parámetros es: P1u2 ⫽ c ⫹ 11 ⫺ c2 1 . (4.5) 1 ⫹ e ⫺a1u⫺b2 En esta fórmula, e es la base del logaritmo natural (2.718282), a es un parámetro de la pendiente de un reactivo, b es un parámetro de ubicación de un reactivo, c es un parámetro seudoadivinato- rio, ¨ es el nivel de capacidad del examinado en una escala de calificación estándar, y P(¨) es la probabilidad de que una persona con nivel de capacidad ¨ conteste el reactivo correctamente. Su- poniendo que c = 0, la fórmula 4.5 se reduce a la ecuación para el modelo de dos parámetros: 1 P1u2 ⫽ . (4.6) 1 ⫹ e ⫺a1u⫺b2 Otra suposición de que todos los reactivos son igualmente discriminantes produce la ecuación para el modelo de un parámetro o modelo de Rasch: 1 P1u2 ⫽ . (4.7) 1 ⫹ e ⫺11u ⫺ b2 Aunque el modelo de Rasch ha originado una gran cantidad de investigaciones psicométricas, el modelo de dos parámetros tiene por lo menos la misma popularidad. Como se ilustra en la figura 4.2, la forma de una curva de respuesta a reactivos varía con los valores de los parámetros a y b. Ambas curvas de esta figura se construyeron con la función de dos parámetros de la fórmula 4.6. En la curva P, el parámetro de dificultad (b) es 1.00 y el pa- rámetro de discriminación (a) es .5; en la curva Q, b = .25 y a = .75. Obsérvese que b es el valor de ¨ (el punto sobre el eje horizontal) que corresponde a P(¨) = .5, y a es la pendiente de la cur- va en P(¨) = .5. En el modelo de tres parámetros, b es el valor de P(¨) correspondiente a .5(c + 1), donde c es el punto en que la curva de respuesta al reactivo cruza el eje vertical. Un ejercicio instructivo consiste en trazar varias curvas de respuesta a criterios de uno, dos y tres parámetros usando diversos valores de los parámetros adecuados. Las calificaciones del continuo de capa- cidad latente se expresan en unidades de calificación estándar (z), pero en la mayoría de las apli- caciones pedagógicas, las calificaciones z se transforman a una escala con una media de 300 y desviación estándar de 50. En la práctica real, ni los parámetros de reactivos ni las calificaciones de capacidad laten- te (¨) de los examinados se conocen, y el problema es determinar la curva de respuesta a reacti- vos que mejor se ajuste a las respuestas a reactivos individuales. Esto incluye un procedimiento iterativo, de máxima aceptación, consistente en suponer ciertos valores iniciales para los pará- metros de reactivos, calculando las P(¨) correspondientes a los diversos valores de ¨, comparan- do las respuestas a reactivos pronosticadas con las reales y continuando con el proceso hasta alcanzar una solución más adecuada. El proceso de calcular parámetros de reactivo requiere de las respuestas de una gran cantidad de sujetos que son representativos de la población de exami- 72 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas 1.0 0.8 Proporción de respuestas correctas al reactivo Reactivo Q 0.6 Reactivo P 0.4 0.2 0 -3 -2 -1 0 1 2 3 Capacidad calculada (calificación estándar) FIGURA 4.2 Dos curvas de respuesta a reactivos. Vea la explicación en el texto. nandos potenciales, aproximadamente 2,000 para el modelo de tres parámetros y 500 para el de un parámetro (Rasch). Un rasgo importante de los parámetros de reactivos calculados es que son relativamente in- dependientes del nivel de capacidad de la muestra particular de personas en que se basan. A dife- rencia de la metodología tradicional de evaluación, que confunde la dificultad y la discriminación de pruebas con la muestra de los individuos sometidos a la prueba, en la IRT estos parámetros son, al menos en teoría, independientes de la muestra particular de las personas evaluadas. Además de proporcionar cálculos de parámetros de reactivos, la IRT puede usarse para estimar las calificaciones de los examinados en el continuo de capacidad latente. De hecho, este es el principal propósito de aplicar una prueba construida mediante los principios de la IRT. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 73 Igual que al estimar parámetros de reactivos a partir de niveles de capacidad, el cálculo de cali- ficaciones individuales en el continuo de capacidad latente es un proceso iterativo que se inicia al sustituir ciertos valores experimentales por la capacidad del examinado y los parámetros de reactivos supuestos en la ecuación logística apropiada. Las P(¨) resultantes se comparan enton- ces con las P(¨) reales, y el proceso continúa hasta que se obtiene una ecuación más adecuada. Los errores estándar de los valores estimados de ¨, una medida de la variabilidad de las ¨ esti- madas alrededor de las ¨ reales pero desconocidas, también pueden calcularse. Otra propiedad interesante de la IRT, la invarianza de la capacidad del examinando con respues- ta a los reactivos empleados para calcularla, se deriva del proceso de calcular las ¨. Esta característica de la IRT significa que puede aplicarse una prueba de cualquier nivel de dificultad para determinar la posición de una persona en el continuo de capacidad latente. Sin embargo, el cálculo más preciso se obtiene cuando los reactivos que constituyen la prueba, y por ende la prueba misma, son los más ade- cuados, es decir, que están en el mismo nivel de dificultad que la capacidad del examinando. La IRT se ha empleado para diversos propósitos, incluyendo la elaboración de pruebas, la ca- libración de calificaciones de pruebas con el fin de proporcionar un marco de referencia para inter- pretarlas, la estandarización de pruebas, la determinación del funcionamiento diferencial de reactivos (DIF), y evaluaciones adaptativas. Con respecto a la construcción de pruebas, pueden ele- girse las áreas de la IRT sobre el continuo de capacidad donde se requieren mediciones más preci- sas, para que no se desperdicien reactivos en áreas menos importantes. Así, usando la IRT es posible desarrollar pruebas de clasificación, de selección y con referencias a criterios sumamente precisas, así como pruebas más tradicionales con un espectro amplio a lo largo del continuo de capacidad. El enfoque de la IRT sobre el DIF es trazar las curvas de respuesta a reactivos en forma separada para los dos o más grupos demográficos de personas (blancos contra negros, hombres contra mujeres, etc.). Las curvas de respuesta a reactivos con formas significativamente distintas para los grupos de comparación proporcionan pruebas del funcionamiento diferencial de los reactivos. Una desventaja de la mayoría de los modelos de la IRT es la suposición de que un único rasgo latente subyace en la ejecución de las pruebas, pero los modelos multidimensionales han progresado. La mayoría de los modelos de la IRT se limita también a una calificación de 0-10, aunque también se han diseñado procedimientos más complejos que incluyen calificaciones de múltiples puntos, como en las escalas de calificación. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en quienes se basa el diseño de un instrumento, son útiles para propósitos de interpretación de calificacio- nes. Con el fin de cumplir esta tarea, deben estandarizarse la prueba, el inventario, la escala de clasificación y cualquier otro instrumento psicométrico. Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que de- ben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo. La estandarización también incluye aplicar la prueba a una muestra grande de personas (la muestra de estandarización) seleccionada como representante de la población meta a la que está destinada la prueba. El principal propósito de estandarizar una prueba es determinar la distribución de puntua- ciones crudas en la muestra de estandarización (grupo norma). Las calificaciones crudas obte- nidas se transforman entonces en alguna forma de calificaciones derivadas o normas. Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y califi- caciones estándar. La mayoría de los manuales de pruebas contiene tablas de normas con pun- tuaciones crudas y cierto tipo de calificaciones convertidas correspondientes. Así, la posición de 74 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas una persona en una prueba puede evaluarse con referencia a la tabla adecuada de normas y bus- cando los equivalentes de calificaciones convertidas de sus propias puntuaciones crudas. En es- te método de interpretación con referencias a normas, las normas obtenidas no funcionan como estándares del desempeño deseado, sino simplemente como un marco de referencia para inter- pretar calificaciones. Las normas indican la posición de una persona en la prueba con respecto a la distribución de las calificaciones obtenidas por personas de la misma edad cronológica, gra- do, sexo u otras características demográficas. Al evaluar niños discapacitados, en ocasiones es preciso aplicar una prueba fuera de ni- vel diseñada para una edad o nivel de grado inferior al de la persona evaluada. Se requieren en- tonces normas especiales fuera de nivel para interpretar las calificaciones. Hay varias pruebas estandarizadas, como la Batería de Kaufman de Evaluación para Niños, que proporcionan eva- luaciones fuera de nivel y las normas correspondientes. En términos de tamaño de muestra y representatividad, con frecuencia las pruebas colecti- vas, y las de aprovechamiento en particular, se estandarizan de manera más adecuada que las prue- bas individuales. Las normas para pruebas colectivas pueden estar basadas hasta en cien mil personas, mientras que el tamaño del grupo de norma para una prueba individual cuidadosamente estandarizada es más probable que sea de entre dos mil y cuatro mil. Sin embargo, una muestra de estandarización grande no garantiza que sea representativa de la población de interés. La muestra debe seleccionarse con sumo cuidado a fin de que sea representativa de la población meta. Selección de una muestra de estandarización Para funcionar con eficacia en la interpretación de calificaciones de pruebas, las normas deben ser apropiadas para el grupo o los individuos por evaluar. Por ejemplo, una calificación particu- lar de un alumno de cuarto grado puede sobrepasar la del 80% de los niños de cuarto grado y la del 60% de los de sexto. Aunque puede ser de interés comparar la calificación de un estudiante de cuarto con las calificaciones de niños de tercero y sexto, la posición del alumno en su propio grupo (cuarto) es prioritaria. Siempre que se transforma una calificación con referencia a una ta- bla de normas, es importante tomar nota de las características de la muestra (edad, sexo, grupo étnico, educación, nivel socioeconómico, región geográfica) del grupo de norma en particular, e incluir esta información en todos los comunicados sobre el desempeño de la persona en las eva- luaciones. Otra consideración importante es cuándo (en qué fecha) se obtuvieron las normas. En ciertas pruebas las normas pueden perder su vigencia en épocas de cambios sociales y educati- vos rápidos. Las modificaciones en el currículo escolar, por ejemplo, pueden requerir de una nueva estandarización o tal vez de modificar o reconstruir una prueba de aprovechamiento cada determinado número de años. La forma en que una muestra de estandarización se selecciona de una población varía des- de un muestreo aleatorio sencillo hasta estrategias más complejas, tales como el muestreo alea- torio estratificado y el muestreo por grupos. En un muestreo aleatorio sencillo, cada uno de los miembros de la población meta tiene la misma oportunidad de ser seleccionado. Empero, la aleatoriedad no garantiza que haya representatividad. En consecuencia, una forma más adecua- da de estandarizar una prueba es empezar por categorizar, o estratificar, la población de una serie de variables demográficas (sexo, edad, nivel socioeconómico, región geográfica y similares) que presumiblemente están relacionadas con las calificaciones de la prueba. Entonces la cantidad de individuos seleccionados al azar de cada categoría o estrato es proporcional al número total de personas de la población que caen en ese estrato. Cuando se emplea este procedimiento de mues- treo aleatorio estratificado, se reduce la probabilidad de elegir una muestra atípica o sesgada. ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 75 Las normas obtenidas de este modo proporcionan una base mejor para interpretar calificaciones de la prueba que las normas determinadas en una muestra aleatoria sencilla. El muestreo por grupos es más económico que el muestreo aleatorio estratificado, y tiene mayores probabilidades de originar una muestra representativa de la población meta. El proce- so se inicia al dividir una región geográfica designada o alguna otra entidad relevante en bloques o grupos. Entonces se elige al azar un porcentaje especificado de los grupos y dentro de cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias, etc.). El último paso es administrar la prueba a cada persona de la subunidad, o por lo menos a una muestra aleatoria de personas con las características establecidas. Administrar todos los reactivos de una prueba a una muestra aleatoria estratificada o a una muestra por grupo resulta tedioso y prolongado, por lo que se han propuesto estrategias menos costosas para obtener normas. Una de tales estrategias es elegir una muestra tanto de individuos como de reactivos. En el muestreo de reactivos se aplican distintas muestras de reactivos a muestras diferentes de personas seleccionadas al azar. Un grupo responde una serie de reactivos y otros grupos contestan otras series. El proceso es eficiente, en cuanto a que pueden aplicarse más reactivos a una gran cantidad de personas en un lapso bastante breve. Pueden realizarse en- tonces análisis de reactivos y determinarse normas basadas en calificaciones de muestras repre- sentativas para un amplio rango de contenidos de pruebas. Las normas derivadas del muestreo de reactivos son muy similares a las logradas mediante el procedimiento tradicional, pero más laborioso, de aplicar toda la prueba a una muestra representativa grande. Las normas publicadas en manuales de pruebas son útiles para comparar la calificación de un examinado con las calificaciones de una muestra de personas de varias localidades, a veces una selección de todo el país. Pero en general los maestros están más interesados en saber cómo se desempeñaron los alumnos en comparación con otros en una escuela, un sistema escolar, es- tado o región particular, más que con las de una muestra de toda la nación. Cuando el interés se restringe a las calificaciones particulares de una escuela específica, el examinador querrá trans- formar las calificaciones crudas en normas locales mediante los procedimientos discutidos en las secciones subsiguientes. A menudo las normas locales se usan para fines de selección y co- locación en escuelas y universidades. Normas de edad y grado Entre los tipos de normas más populares, sobre todo debido a que son bastantes fáciles de com- prender para los usuarios, figuran las normas de edad y grado. Una norma de edad (equivalente de edad, edad educativa) es la calificación media de una prueba obtenida por las personas en una edad cronológica determinada; una norma de grado (equivalente de grado) es la calificación media obtenida por los estudiantes en un nivel de grado específico. Las normas de edad se ex- presan en doce intervalos de un mes que van, por ejemplo, para el décimo año, de 10 años, 0 me- ses, a 10 años, 11 meses. Las normas de grado se expresan en diez intervalos de un mes, con base en la suposición de que el crecimiento en la característica de interés durantes los meses de verano no tiene importancia. Por ejemplo, el rango de las normas de grado para el quinto grado es de 5-0 a 5-9, en intervalos de un mes desde el principio hasta el final del año escolar. A pesar de su popularidad, las normas de edad y de grado tienen desventajas serias. El prin- cipal problema es que el progreso en las características cognoscitivas, psicomotoras o afectivas no es uniforme en todo el rango de edades o grados. Debido a que las unidades de edad y de grado se reducen progresivamente al aumentar la edad o el nivel de grado, una diferencia de evolución de dos meses en el aprovechamiento en el cuarto grado (por ejemplo, de 4-2 a 4-4) no es pedagógica- 76 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas mente equivalente a dos meses de evolución del aprovechamiento en un nivel de grado posterior (digamos, de 8-2 a 8-4). Las normas de edad y de grado implican erróneamente que la tasa de aumento de las capacidades evaluadas es constante de un año al siguiente, de modo que los es- pecialistas en mediciones pedagógicas con frecuencia desaconsejan su uso. Se prefieren las nor- mas en que la unidad de medida es menos variable a lo largo del rango de calificaciones. Debido a su conveniencia, las normas de edad y de grado siguen usándose en el nivel escolar elemental o de primaria, donde las unidades de crecimiento son más constantes a lo largo del tiem- po. No obstante, incluso en este nivel las normas de edad y de grado deben complementarse con nor- mas de rangos percentilares o de calificaciones estándar para una edad o grado en particular. Por lo común, los alumnos de un grado específico en el que se determinan normas de gra- do tienen un rango de edades bastante amplio: en las normas se incluyen las calificaciones de ciertos estudiantes que, de hecho, son mayores (o menores) que el alumno promedio en ese gra- do. Para proporcionar un índice más preciso de la calificación promedio de los alumnos en un nivel de grado establecido, en ocasiones se omiten las calificaciones de los estudiantes que son considerablemente mayores o menores que la edad modal, y la calificación media se calcula só- lo en los estudiantes que tienen la edad apropiada para ese grado. Estas normas restringidas se conocen como normas de edad modales. Este tipo de normas, que casi no se encuentran en los manuales de pruebas de aprovechamiento contemporáneos, se mencionan aquí principalmente por su interés histórico. Como se recordará, el término edad mental se mencionó en el breve análisis del capítulo 1 sobre la historia de la evaluación mental. Este concepto, que ideó Alfred Binet, es un tipo de nor- ma de edad empleado en diversas pruebas de inteligencia. La calificación de edad mental de un examinado en particular corresponde a la edad cronológica del subgrupo de niños (todos de la mis- ma edad cronológica) del grupo de estandarización cuya calificación media es la misma que la del examinando. Con fines pedagógicos, la práctica en muchas escuelas para evaluar a los retrasados mentales ha sido agruparlos de acuerdo con su edad mental en lugar de su edad cronológica. Otra práctica de evaluación más antigua, que casi ha desaparecido, consiste en convertir las normas de edad en cocientes dividiendo las calificaciones de edad de cada examinando entre su edad cronológica (en meses) y multiplicando el cociente resultante por 100. El cociente intelectual (rela- ción de CI) en la más antigua Escala de Inteligencia de Stanford-Binet, por ejemplo, se definió como: MA CI ⫽ 100 a b, CA (4.8) donde MA y CA son la edad mental y la edad cronológica del examinado en meses. De manera similar, un cociente educativo sobre ciertas pruebas de aprovechamiento se calculó como la re- lación entre la edad educativa (la norma de edad en una prueba de aprovechamiento educativo) y la edad cronológica en meses. Al comparar los resultados de un test de inteligencia con los de una prueba de aprovechamiento educativo, puede calcularse un cociente de aprovechamiento como la relación de la edad educativa con la edad mental. Algunos de estos cocientes aún se calcu- lan evaluando las puntuaciones de pruebas, pero los especialistas en mediciones psicológicas no recomiendan esta práctica. Normas percentilares Las normas percentilares consisten en una tabla de percentiles que corresponden a puntuaciones crudas particulares. Las puntuaciones crudas se transforman como percentiles, y el porcentaje del grupo de norma inferior a una calificación en particular es el rango percentilar de dicha ca- ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 77 TABLA 4.2 Rangos percentilares y calificaciones estándar correspondientes a los puntos medios de una distri- bución de frecuencia de puntuaciones de pruebas (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) RANGO PER- INTERVA- CENTILAR VALO DE PUNTO FRECUENCIA DEL PUNTO CALIF. MEDIO FRECUENCIA ACUMULATIVA MEDIO z Z zn T NCE 750–799 774.5 3 248.5 99.4 (99) 2.59 76 2.51 75 103 700–749 724.5 11 241.5 96.6 (97) 2.03 70 1.82 68 88 650–699 674.5 18 227.0 90.8 (91) 1.48 65 1.33 63 78 600–649 624.5 27 204.5 81.8 (82) .92 59 .91 59 69 550–599 574.5 49 166.5 66.6 (67) .37 54 .43 54 59 500–549 524.5 65 109.5 43.8 (44) –.19 48 –.16 48 47 450–499 474.5 38 58.0 23.2 (23) –.74 43 –.73 43 35 400–449 424.5 25 26.5 10.6 (11) –1.30 37 –1.25 38 24 350–399 374.5 13 7.5 3.0 (3) –1.85 31 –1.88 31 11 300–349 324.5 1 .5 .2 (0) –2.41 26 –2.88 21 –10 lificación. Las columnas 2 y 5 de la distribución que aparece en la tabla 4.2 muestran que, para este grupo de calificaciones, el rango percentilar de una calificación de 625 es aproximadamen- te 82, y el rango percentilar de una calificación de 475 es aproximadamente 23. Alternativamente, puede decirse que el octagésimo segundo percentil es 625 y el vigésimo tercero es 475. Las normas percentilares a menudo se usan para fines de selección y colocación en una escuela o grado en particular, de manera que el procedimiento para calcular percentiles se des- cribirá con cierto detalle. Las columnas 1 y 3 de la tabla 4.2 son una frecuencia de distribución de 250 calificaciones obtenidas en una prueba de capacidad académica, y la columna 2 da los puntos medios de los intervalos de calificaciones. Al calcular el valor inicial de la columna 4 (frecuencia acumulativa inferior al punto medio) para un intervalo en particular, se suman las frecuencias de todos los intervalos hasta ese intervalo. A este total se añade la mitad de la fre- cuencia de ese intervalo. Por ejemplo, el valor 227.0 para el intervalo 650-699 se calcula como 1 ⫹ 13 ⫹ 25 ⫹ 38 ⫹ 65 ⫹ 49 ⫹ 27 ⫹ 12 (18) = 227.0. Dado que el valor inicial para un interva- lo en particular de la columna 4 es la frecuencia acumulativa inferior al punto medio de ese in- tervalo, el rango percentilar de un punto medio de intervalo dado puede calcularse dividiendo la frecuencia acumulativa correspondiente de la columna 4 entre la cantidad total de calificaciones (n) y multiplicando el cociente resultante por 100. Para los datos de la tabla 4.2, n = 250, de mo- do que cada rango percentilar de la columna 5 es igual a 100 veces la frecuencia acumulativa correspondiente de la columna 4 dividida entre 250. Por ejemplo, el rango percentilar del pun- to medio 674.5 es 100(227/250) = 90.8 ⬇ 91. Los rangos percentilares son bastante fáciles de calcular y comprender, por lo que son más populares que las normas estándar de calificación. Las tablas de normas de rangos percentilares dentro de grupos de grados, edades cronológicas, género, ocupaciones, y otros grupos demográ- ficos se incluyen en los manuales adjuntos a muchos instrumentos psicométricos. Desafortuna- damente, el problema de las unidades de calificación desiguales, al que nos referimos antes en el análisis de las normas de edad y grado, no se resuelve con las normas de rangos percentilares. 78 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas Los rangos percentilares son medidas del nivel ordinal y no de intervalo (vea el apéndice A), y por lo tanto las unidades no son iguales en todas las partes de la escala. En relación con el atributo que se mide, la diferencia entre dos rangos percentilares ya sea en el extremo inferior o en el superior de la escala de Percentiles equivalentes (vea la figura 4.3) es mayor que la existente entre dos ran- gos percentilares con una diferencia numérica igual pero más cercana al centro de la escala. El hecho de que las unidades de rangos percentilares se acumulen en la mitad y se disper- sen en los extremos de la escala dificulta la interpretación de los cambios y las diferencias en es- tas calificaciones transformadas. Así, la diferencia de capacidad entre una persona con un rango percentilar de 5 y otra con uno de 10 en una prueba de aprovechamiento no es igual a la diferen- cia de capacidad entre una persona con un rango percentilar de 40 y otra que tenga uno de 45. En términos del atributo (habilidad) que se mide, la diferencia entre los rangos percentilares de 5 y 10, por ejemplo, es mayor que la existente entre los de 45 y 50; esto se debe a que es mayor la unidad de medida para la primera diferencia. Para interpretar normas de rangos percentilares en n Porcentaje de casos por abajo de partes de la curva normal Desviaciones estándar Porcentajes acumulativos redondeados Percentiles equivalentes Calif. z +4.0 Calif. T Calif. CEEB Calif. NCE Estaninas Porcentaje en estanina Escalas de Wechsler Subpruebas Desviación de CIs FIGURA 4.3 Rangos percentilares y calificaciones estándar correspondientes a varios puntos de la línea base de una distribución normal de calificaciones. (H. G. Seashore, Methods of expressing test scores, The Psychological Corporation Test Service Bulletin, núm. 48, 1955.) ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS 79 forma precisa, debemos recordar asignar un peso mayor a las diferencias de rango percentilar en los extremos que a las mismas diferencias cerca de la mitad de la escala. Normas de calificación estándar A diferencia de los rangos percentilares, las calificaciones estándar representan la medición en una escala de intervalos. Las normas de calificación estándar son puntuaciones convertidas que tienen cualesquier media y desviación estándar deseadas. Hay muchos tipos de calificaciones estándar, los cuales incluyen a las calificaciones z, Z, CEEB, de CI de desviación, estaninas, T y NCE. Calificaciones z . Los equivalentes de calificaciones z de una distribución particular de pun- tuaciones crudas pueden determinarse como: X ⫺ X z ⫽ , s (4.9) donde X es una puntuación cruda dada, X es la media aritmética, y s es la desviación estándar de las puntuaciones crudas. Transformar puntuaciones crudas en calificaciones z produce una dis- tribución de calificaciones con la misma forma, pero con una media y desviación estándar distin- tas a la distribución de la puntuación cruda (X). La media de las calificaciones z es 0, y la desviación estándar es 1. Las calificaciones z correspondientes a los puntos medios del intervalo incluidos en la colum- na 2 aparecen en la columna 6 de la tabla 4.2. La media y la desviación estándar de la distribución de calificaciones en la tabla 4.2 son 541.5 y 90.3, respectivamente. Por lo tanto, la calificación z co- rrespondiente al punto medio 774.5 es (774.5 ⫺ 541.5)/90.3 = 2.58. Las calificaciones z correspon- dientes a los puntos medios de los demás intervalos pueden encontrarse del mismo modo. Las calificaciones z de varios puntos en la línea base de la curva normal se presentan en la figura 4.3. Calificaciones Z. El hecho de que las calificaciones z pueden ser números decimales positivos o negativos origina cierta dificultad para manipularlas. El problema puede resolverse multiplicando las calificaciones z por una constante y añadiendo otra constante a los productos. Multiplicar z por 10, sumar 50 al producto, y redondear el resultado al número entero más cercano produce una ca- lificación Z. La media de un conjunto de calificaciones Z es 50 y su desviación estándar es 10, pe- ro la distribución de frecuencia de las calificaciones Z tiene la misma forma que la distribución original de las puntuaciones calificaciones crudas (vea la columna 7 de la tabla 4.2). Calificaciones CEEB. En cierta época, las calificaciones estándar (calificaciones CEEB) so- bre pruebas publicadas por el College Entrance Examination Board (Consejo de Evaluación de Ingreso a la Universidad) se determinaban multiplicando las calificaciones z correspondientes por 100 y sumando 500 a los productos. Por ejemplo, esto se hizo a las puntuaciones crudas de la Prueba de Aptitud Académica (SAT) aplicada en 1941, lo que produjo una nueva distribución con una media de 500 y desviación estándar de 100. Sin embargo, posteriormente las califica- ciones obtenidas por estudiantes que se sometieron a la SAT no se transformaron de esta mane- ra. Más bien, para garantizar una unidad de calificación constante por comparar los resultados de pruebas año con año, a partir de 1941 las calificaciones de la escala SAT se basaron en los re- sultados de la prueba aplicada ese año.2 2Las calificaciones estándar en la última versión de la SAT, renombrada como Prueba de Aptitud Académica, se basan en el desempeño de un millón de estudiantes que presentaron la prueba en 1994. Las nuevas calificaciones SAT se “reu- bicaron“ para tener una media de 500 y desviación estándar de 100. 80 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas Calificaciones Wechsler. Las puntuaciones crudas en las subpruebas de las escalas de inteli- gencia de Wechsler se transformaron para tener una media de 10 y desviación estándar de 3. No obstante, las puntuaciones verbales, de ejecución y de escala total (CIs de desviación) en las pruebas de Wechsler se convirtieron a una distribución con una media de 100 y desviación es- tándar de 15 (vea las últimas dos líneas de la figura 4.3). Calificaciones estándar normalizadas. Las normas de calificaciones estándar descritas arri- ba son simples transformaciones lineales de puntuaciones crudas. La media y las desviaciones estándar de las calificaciones transformadas son distintas de las de la distribución de la puntua- ción cruda, pero la forma de las dos distribuciones es idéntica. Si la distribución de la calificación es simétrica, también lo será la distribución de las calificaciones transformadas. Para hacer las calificaciones de distintas pruebas más directamente comparables, se usa un procedimiento de transformación que no sólo afecte la media y la desviación estándar, sino que también cambie la forma de la distribución de las puntuaciones crudas a la de una distribución normal. Transformar un grupo de puntuaciones crudas en calificaciones estándar normalizadas empieza por calcular los rangos percentilares que corresponden a las puntuaciones crudas. En- tonces, a partir de una tabla de áreas bajo la curva normal (apéndice B), se encuentra la califica- ción z que corresponde a cada rango percentilar. Por ejemplo, supóngase que los puntos medios (la columna 2) de la distribución de la tabla 4.2 deben convertirse en calificaciones estándar nor- malizadas. Debido a que los rangos percentilares de estos puntos medios ya se han encontrado (columna 5), empezamos por convertir los rangos percentilares en proporciones (por ejemplo, 99.4 se convierte en .994). Entonces, a partir de la tabla del apéndice B, se determinan las cali- ficaciones Z bajo las cuales se encuentran las proporciones dadas del área. Así, la calificación z (zn ) bajo la cual se encuentra .994 del área bajo la curva es 2.51. Las otras calificaciones z nor- malizadas de la columna 8 de la tabla 4.2 se determinaron de manera similar. Para eliminar los puntos decimales y los números negativos, estas calificaciones zn se transformaron en califica- ciones T mediante la fórmula T = 10zn ⫹ 50 (columna 9) y en calificaciones NCE (equivalente de curva normal) mediante la fórmula NCE = 21zn ⫹ 50. Las calificaciones T van aproximada- mente de 20 a 80 y las NCE de aproximadamente 0 a 100. Las calificaciones zn pueden transformarse en calificaciones normalizadas con cualesquier media y desviación estándar deseadas. Otra escala de calificación es la calificación estanina (nue- ve estándar) ejemplificada por la tercera escala desde abajo en la figura 4.3. En esta escala están- dar normalizada, que tiene una media de 5 y desviación estándar de aproximadamente 2, hay nueve rangos distintos, o estaninas.3 Estos rangos se designan con los números 1 al 9, y, como se muestra en la figura, cierto porcentaje de una distribución normal de pruebas cae dentro del interva- lo representado por una estanina dada. Sin embargo, la calificación estanina no es una verdadera escala de calificaciones estándar, porque la primera y la novena estanina están abiertas. Obsérve- se en la figura 4.3 que la amplitud de las estaninas 2 a 8 es igual, indican unidades de calificación estándar iguales, pero las estaninas 1 y 9 abarcan una distancia mucho más amplia. Una ventaja de las calificaciones estaninas es que representan rangos más que puntos es- pecíficos. Esto contribuye a equilibrar la tendencia a considerar las calificaciones de pruebas co- mo medidas precisas, invariables, de las diferencias individuales. Otro procedimiento que tiene el mismo efecto es registrar no sólo el rango percentilar o la calificación estándar correspondiente a una puntuacion cruda dada, sino también un rango percentilar o un intervalo de calificación es- tándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera posición del 3También se propusieron una calificación sten consistente en 10 unidades (Canfield, 1951) y una calificación C de 11 unidades (Guilford y Fruchter, 1973), pero sólo la segunda se ha usado en alguna medida. IGUALACIÓN DE PRUEBAS 81 examinado en la prueba. Esta práctica reconoce el hecho de que las calificaciones de las evalua- ciones psicológicas y educativas no son exactas, sino que están sujetas a errores de medición. IGUALACIÓN DE PRUEBAS En muchas situaciones que implican la aplicación y la investigación de pruebas psicológicas, se requiere más de una versión de prueba. Las formas paralelas de una prueba son equivalentes en el sentido de que pueden contener los mismos tipos de reactivos de igual dificultad y que están altamente correlacionadas. Por lo tanto, las calificaciones que se obtienen en una forma son muy similares a las obtenidas por los mismos examinados en una segunda forma en el mismo nivel de edad o de grado que la primera forma. Desafortunadamente, elaborar pruebas paralelas es un proceso bastante caro y laborioso. Empieza con la preparación de dos pruebas, con el mismo ti- po y número de reactivos, que originan las mismas medias y desviaciones estándar cuando se es- tandarizan en el mismo grupo de personas. Las formas paralelas producidas se igualan convirtiendo las calificaciones de una forma a las mismas unidades que las de la otra forma. Es- to puede lograrse, por ejemplo, mediante el método equipercentil de cambiar las puntuaciones en cada forma a rangos percentilares. Entonces se prepara una tabla de calificaciones equivalentes sobre las dos formas equiparando el rango percentilar de p sobre la primera forma a la califica- ción del rango percentilar p sobre la segunda forma. Al proceso de igualar, o más bien de hacer comparables, dos pruebas del mismo nivel de dificultad (por ejemplo, el mismo grado) se le conoce como igualación horizontal. Esto también puede realizarse verticalmente, como cuando se igualan las calificaciones de dos pruebas con distintos niveles de dificultad (grados diferentes). En general, el proceso de igualar incluye su- jetar las pruebas a reactivos comunes o a un banco, como se realizó cada año con la Prueba de Aptitud Académica (SAT) estadounidense. Al usar un conjunto de reactivos en común que eran los mismos que un subconjunto de reactivos en por lo menos una forma anterior de la prueba, las calificaciones de cada forma nueva de la SAT que se aplicaba cada año se igualaban estadística- mente a formas previas en la prueba. La teoría de respuesta al ítem (IRT), que prescribe métodos de calibración para un con- junto de reactivos de pruebas en un continuo de rasgos latente definidos de modo operativo (por lo común representados mediante calificaciones estándar en el eje horizontal de una curva de respuesta a ítemes), también se ha aplicado a la tarea de igualar pruebas. La propiedad de inva- rianza de la muestra en los parámetros de reactivos en la IRT, que se abordó en la explicación previa sobre análisis de reactivos, facilita el proceso de determinar calificaciones equivalentes o igualadas en distintas pruebas. El método de la IRT para igualar incluye buscar una ecuación li- neal que transforme los parámetros del reactivo (índices de dificultad y de discriminación) de la versión de una prueba a los de una segunda versión. La metodología con que se establecen las constantes adecuadas para las ecuaciones lineales de transformación, de modo que los paráme- tros correspondientes en ambas pruebas se encuentren en la misma escala, se denomina vincula- ción. Los procedimientos de vinculación requieren que ambas pruebas compartan algunos reactivos en común (de soporte), o que un subconjunto de examinados resuelva ambas pruebas o un tercer examen que mida el mismo rasgo. Los procedimientos de igualación de la teoría de respuesta a los ítemes son económicos en cuanto a que también incluyen el muestreo de reacti- vos, en el que se aplican subconjuntos de reactivos seleccionados al azar a distintos grupos de personas seleccionadas también aleatoriamente. Cualquiera que sea el método empleado para intentar igualar dos pruebas (equipercentil, de respuesta a ítemes, transformaciones de calificaciones lineales o no lineales), las pruebas que midan distintas características psicológicas o que tengan diferente confiabilidad no pueden, es- 82 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas trictamente hablando, igualarse. En casi todos los casos, lo mejor que puede hacerse es lograr que ambas pruebas o instrumentos psicométricos resulten “comparables”. RESUMEN El principal objetivo de un análisis de reactivos es mejorar una prueba modificando o descartan- do los reactivos ineficaces. El análisis de reactivos también proporciona información específica sobre lo que saben o no los examinados. Los reactivos de pruebas pueden analizarse comparan- do respuestas a reactivos con calificaciones de criterio externo, como las notas asignadas por el maestro o las clasificaciones de los jefes, o de criterio interno, como calificaciones de prueba to- tales. Si el propósito es elaborar una prueba que pueda predecir al máximo las calificaciones con un criterio externo, entonces los reactivos deberían validarse contra el criterio. Se calculan diversos análisis estadísticos para validar los reactivos de pruebas contra cri- terios externos e internos. Dichas estadísticas, que son índices de la relación entre reactivos ca- lificados dicotómicamente (correcta-incorrecta) y calificaciones con la medida de criterio, constituyen una base para aceptar o rechazar reactivos específicos. Dos sencillos coeficientes que pueden calcularse al analizar los reactivos de una prueba elaborada por maestros son el índice de dificultad de reactivos (p) y el índice de discriminación de reactivos (D). Estos índices se aplican a reactivos tanto con referencias a normas como con re- ferencias a criterios. El valor óptimo de p depende de los propósitos de la prueba y de la canti- dad de opciones por reactivo. En la mayoría de los casos se requiere un valor D de .30 o mayor para que un reactivo sea aceptable. Además de calcular los índices de dificultad y de discriminación de los reactivos de prue- ba, los reactivos deben examinarse en cuanto a sesgos, ambigüedad y los efectos de la velocidad. Las variaciones marcadas de la uniformidad en la distribución de frecuencia de las respuestas a los distractores son un signo de deficiencias en el funcionamiento del reactivo. Al elaborar una curva característica de los reactivos, la proporción de examinados que dan la respuesta en clave a un reactivo se traza contra las calificaciones con un criterio interno (cali- ficaciones de prueba totales) o externo. Una extensión del método de curva característica de los reactivos, conocida como teoría de respuesta a los ítemes, conlleva incluir parámetros de difi- cultad, discriminación y adivinanza en una ecuación logística, o bien derivar valores de estos pa- rámetros para dicha ecuación. La ecuación logística relaciona la proporción de examinados que contestaron el reactivo de manera correcta con cálculos de sus calificaciones en un continuo es- pecífico de capacidad u otra característica unidimensional. La estandarización consiste en aplicar una prueba a una muestra representativa de perso- nas en condiciones estándar (uniformes) y mediante un procedimiento estándar. Las normas calcu- ladas a partir de las puntuaciones de prueba obtenidas conforman un marco de referencia para interpretar puntuaciones alcanzadas por personas que después se someten a la prueba. Tradicio- nalmente, las normas se han establecido evaluando una muestra (aleatoria, aleatoria estratifica- da, por grupo) de la población para la que está destinada la prueba. De menor costo y más eficientes que los procedimientos convencionales de estandarización de pruebas son las técnicas de muestreo de reactivos, en las que se toman muestras no sólo de las personas sino también de los reactivos y distintos grupos de examinados responden diferentes conjuntos de reactivos. Dependiendo de las necesidades y recursos de los usuarios de pruebas, las normas pueden calcularse en muestras locales, regionales o nacionales. Las normas de edad y grado, que se es- tablecen con mayor frecuencia para pruebas de aprovechamiento, permiten comparar califica- ciones de pruebas individuales con el promedio de calificaciones de niños de cierta edad o grado. La principal desventaja de las normas de edad y grado es que el progreso en el aprove- chamiento o capacidad no es uniforme a través de la edad o los niveles de grado. Las normas de RESUMEN 83 rangos percentilares, en las que las puntuaciones crudas de una prueba se convierten en porcen- tajes de personas en el grupo de estandarización que alcanzaron esas calificaciones o menos, también se ven afectadas por el problema de desigualdad en las unidades de calificación. Las normas de rango percentilar, de edad y de grado son bastante fáciles de comprender y su uso es conveniente; por ello, sin duda continuarán siendo populares. Las normas de calificaciones estándar se convierten en calificaciones que tienen una me- dia y una desviación estándar designadas. A diferencia de las medidas ordinales representadas por la edad, el grado y las normas de rango percentilar, las calificaciones estándar (z, T, CEEB y otras) son medidas de nivel de intervalo. No todas las calificaciones estándar se distribuyen nor- malmente, pero pueden convertirse con facilidad en calificaciones estándar normalizadas. Las calificaciones de pruebas paralelas pueden escalarse para lograr igualdad, si no se igualan estrictamente, de varias maneras. Tradicionalmente, las pruebas se han igualado por el método equipercentil, pero los métodos más recientes acarrean modelos de respuesta a reactivos técnicamente más complejos. P R E G U N TA S Y A C T I V I D A D E S 1. ¿Cuáles son los índices de dificultad (p) y de discriminación (D) de una prueba administrada a 75 per- sonas si 18 de las del grupo superior (27% superior en el total de calificaciones de la prueba) y 12 del grupo inferior (27% inferior del total de calificaciones de la prueba) aciertan en el reactivo? Obsér- vese que el redondeo da como resultado 20 personas en el grupo superior y 20 en el grupo inferior. 2. Calcule los índices de dificultad (p) y de discriminación (D) de un reactivo de una prueba con refe- rencia a criterio aplicada a 50 personas, 30 de las cuales obtuvieron calificaciones en el nivel del cri- terio o superior, y 20 consiguieron calificaciones por debajo del nivel de criterio. De quienes alcanzaron o superaron el nivel del criterio, 20 acertaron en el reactivo; entre las que quedaron ba- jo el nivel del criterio, 10 dieron la respuesta correcta al reactivo. 3. La siguiente tabla en dos direcciones indica si cada una de las 20 personas acertó (a) o falló (f) en ca- da uno de los 10 reactivos en una prueba de opción múltiple con cuatro opciones. Clasificando a los examinandos de la A a la J en el grupo superior y de la K a la T en el grupo inferior sobre la puntua- ción total de la prueba (vea la última línea de la tabla), calcule los índices de dificultad y de discrimi- nación para cada reactivo. Escriba estos valores en las últimas dos columnas de la tabla. Al examinar los índices p y D, decida qué reactivos son aceptables y cuáles necesitan modificarse o descartarse. Examinado Reactivo A B C D E F G H I J K L M N O P Q R S T p D 1 a a a f f f a a a a f a a f f f a f f f 2 a a f a f a f a f a a f f a f f f f a f 3 a f a a a f a f a f f a a f f a f f f f 4 a a a a a a f a f a a f f a a f f f f f 5 a a f a a a a a f f f a f f f f f f f f 6 a a a a a a f a a a a f a a f a f a f a 7 a f f f a a a a f a f f a f a f f a a f 8 a a a a a f f f a f a a f f f a a f f f 9 a a a a f a a f a a a a f a a f f f f f 10 a a a f a a a f a f f f f f f f a f f f Calif. 10 8 7 7 7 7 6 6 6 6 5 5 4 4 3 3 3 2 2 1 84 CAPÍTULO CUATRO Análisis de reactivos y estandarización de pruebas 4. Suponga que Jorge obtiene una puntuación cruda de 65 en una prueba aritmética con una media de 50 y desviación estándar de 10, pero obtiene una puntuación cruda de 80 en una prueba de lectura con una media de 75 y desviación estándar de 15. ¿Cuáles son las calificaciones z y Z en las prue- bas? ¿Jorge es mejor en aritmética o en lectura? 5. Con referencia a la tabla de áreas bajo la curva normal (apéndice B), busque las calificaciones z co- rrespondientes a los rangos percentilares 10°, 20°, 30°, 40°, 50°, 60°, 70°, 80° y 90°. Luego convier- ta las calificaciones z en calificaciones T, CEEB, NCE y estaninas. 6. Construya una distribución de frecuencia a partir de las 30 calificaciones que aparecen enseguida, use un ancho de intervalo de 3. Luego calcule el rango percentilar y las calificaciones z, Z, zn y T correspondientes a los puntos medios del intervalo. 82 85 70 91 75 88 78 82 95 79 86 90 87 77 87 73 80 96 86 81 85 93 83 89 92 89 84 83 79 74 7. ¿Por qué las normas de calificaciones estándar se consideran superiores a las normas de edad, de grado y de rango percentilares? 8. A continuación se presenta una lista de calificaciones de una prueba de semejanzas de ocho reactivos en la que las posibles calificaciones van de 0 a 16. Calcule el rango percentilar, la calificación z, y la cali- ficación T correspondiente a cada una de las puntuaciones crudas. Consulte el apéndice A como ayuda. CALIF. CRUDA FRECUENCIA RANGO PERCENTILAR z Z T 16 8 15 26 14 71 13 140 12 171 11 223 10 272 9 250 8 257 7 209 6 183 5 124 4 89 3 79 2 51 1 23 0 25 9. Describa los procedimientos para igualar (es decir, volver comparables) las calificaciones en dos pruebas diseñadas como formas paralelas. CAPÍTULO CINCO CONFIABILIDAD Y VALIDEZ La estandarización es un paso importante en el diseño y la evaluación de pruebas psicológicas y otros instrumentos de evaluación, pero no es el último paso. Antes de que una prueba pueda uti- lizarse con cierta seguridad, debe obtenerse información acerca de su confiabilidad y validez por lo que a sus propósitos específicos concierne. CONFIABILIDAD Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida con- sistente, o confiable. En consecuencia, una de las primeras cosas que será necesario determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente confiable como pa- ra medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no sea lo suficien- temente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones so- bre su conducta. Hablando en términos estrictos, más que ser una característica de una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas (Thompson, 1994). Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una característica relativamente estable. A diferencia de la inestabili- dad, la falta de confiabilidad es resultado de errores de medición producidos por estados inter- nos temporales, como la baja motivación o la falta de disposición, o de condiciones externas como un ambiente de prueba incómodo o con distracciones. Teoría clásica de la confiabilidad En la teoría clásica de los tests se supone que la calificación observada de una persona en una prueba está compuesta por una puntuación “real” más algún error no sistemático de medición. La puntuación real de una persona en una prueba particular se define como el promedio de las puntuaciones que obtendría si presentara la prueba un número infinito de veces. Es obvio que la puntuación real de una persona nunca puede medirse de manera exacta; tiene que ser estimada 85 86 CAPÍTULO CINCO Confiabilidad y validez a partir de su puntuación observada en la prueba. También se asume en la teoría clásica de los tests que la varianza de las puntuaciones observadas (s2obs) de un grupo de personas es igual a la varianza de sus puntuaciones reales (s2rea) más la varianza debida a los errores no sistemáticos de medición (s2err): s2obs = s2rea ⫹ s2err (5.1) Entonces la confiabilidad (r11) de las calificaciones se define como la razón de la varianza de la calificación real con la varianza de la calificación observada, o la proporción de la varianza ob- servada que es explicada por la varianza real: 2 stru r11 ⫽ 2 (5.2) sobs La proporción de la varianza observada explicada por la varianza de error o que no se explica por la varianza real puede determinarse a partir de las fórmulas 5.1 y 5.2 como: s2 err 2 ⫽ 1⫺ r11. (5.3) sobs La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un nú- mero decimal positivo que fluctúa entre .00 y 1.00. Una r11 de 1.00 indica una confiabilidad per- fecta, y una r11 de .00 indica una falta absoluta de confiabilidad de la medición. Como la varianza de las calificaciones reales no puede calcularse de manera directa, la confiabilidad se estima analizando los efectos de variaciones en las condiciones de la administración y el contenido de la prueba en las calificaciones observadas. Como advertimos antes, la confiabilidad no es influi- da por cambios sistemáticos en las calificaciones que tienen un efecto similar en todos los exami- nados, sino sólo por cambios no sistemáticos que tienen efectos diferentes en personas distintas. Dichos factores no sistemáticos influyen en la varianza de error y, por lo tanto, en la confiabilidad de las calificaciones en la prueba. Cada uno de los diversos métodos para estimar la confiabili- dad (test-retest, formas paralelas, consistencia interna) toma en consideración los efectos de cir- cunstancias algo diferentes que pueden producir cambios no sistemáticos en las puntuaciones y, por ende, afectan la varianza de error y el coeficiente de confiabilidad. Coeficiente test-retest Se calcula un coeficiente test-retest para determinar si un instrumento mide de manera consis- tente de una ocasión a otra. Este coeficiente, conocido también como coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo de personas en una apli- cación con sus puntuaciones en la segunda aplicación de la prueba. El procedimiento test-retest toma en consideración los errores de medición que resultan de diferencias en las condiciones (ambientales, personales) asociadas con las dos ocasiones en que se administró la prueba. Dado que en ambas ocasiones se aplicó la misma prueba, los errores debidos a diferentes muestras de los reactivos de la prueba no se reflejan en un coeficiente test-retest. Además, es probable que las diferencias entre las condiciones de la aplicación sean mayores luego de un intervalo largo CONFIABILIDAD 87 que de uno corto. Como resultado, la magnitud de un coeficiente de confiabilidad test-retest tiende a ser mayor cuando el intervalo entre la prueba inicial y el retest es corto (unos cuantos días o semanas) que cuando es largo (meses o años). Coeficiente de formas paralelas Cuando el intervalo entre la prueba inicial y el retest es corto, los examinados recuerdan, por lo general, muchas de las preguntas y respuestas de la prueba inicial. Como es obvio, esto afecta sus respuestas en la segunda aplicación, un hecho que por sí mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin embargo, por lo regular algunas personas re- cuerdan más del material de la prueba que otras, ocasionando que la correlación entre el test y el retest sea menos que perfecta. Lo que parece necesitarse para superar esta fuente de error es una forma paralela del instrumento, esto es, una que conste de reactivos similares pero no de los mis- mos reactivos. Entonces puede calcularse como índice de confiabilidad un coeficiente de formas paralelas, también conocido como coeficiente de equivalencia. En principio, la idea de formas paralelas es razonable: al aplicar una forma paralela luego de un intervalo apropiado que sigue a la aplicación de la primera forma puede determinarse un coeficiente de confiabilidad que refleje los errores de medición debidos a los diferentes reacti- vos y los distintos momentos de aplicación. Para controlar los efectos de confusión de la forma de la prueba con el momento de la aplicación, la forma A debe administrarse primero a la mitad del grupo y la forma B a la otra mitad; luego, en la segunda aplicación, el primer grupo presen- ta la forma B y el segundo la forma A. La correlación resultante entre las calificaciones de las dos formas, conocida como coeficiente de estabilidad y equivalencia, toma en cuenta errores de- bidos a los diferentes momentos de aplicación o a los distintos reactivos. Coeficientes de consistencia interna Se dispone de formas paralelas para una serie de pruebas, en particular para pruebas de habili- dad (aprovechamiento, inteligencia, aptitudes especiales). Sin embargo, una forma paralela de una prueba a menudo es costosa y difícil de elaborar. Por esta razón se elaboró un método me- nos directo de tomar en cuenta los efectos de diferentes muestras de los reactivos de una prueba sobre la confiabilidad. Éste es el método de consistencia interna, que incluye el método de divi- sión por mitades de Spearman, las fórmulas de Kuder-Richardson y el coeficiente alfa de Cron- bach. Sin embargo, los errores de medición causados por diferentes condiciones o momentos de aplicación no se reflejan en un coeficiente de consistencia interna. En consecuencia, este tipo de coeficientes no pueden verse como verdaderos equivalentes de los coeficientes test-retest o de formas paralelas. Método de división por mitades. En este enfoque simplificado de la consistencia interna una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones pueden cali- ficarse por separado de los que tienen números pares. Entonces la correlación (roe) entre los dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de confiabili- dad de formas paralelas para una mitad de la prueba tan larga como la prueba original. Suponien- 88 CAPÍTULO CINCO Confiabilidad y validez do que las dos mitades equivalentes tienen medias y varianzas iguales, la confiabilidad de la prueba como un todo puede estimarse mediante la fórmula Spearman-Brown: 2roe r11 ⫽ 1⫹roe (5.4) Para demostrar el uso de la fórmula 5.4, suponga que la correlación entre las calificaciones totales obtenidas en los reactivos con números nones y en los reactivos con números pares de una prueba es .80. Entonces la confiabilidad estimada de toda la prueba es r11 = 2(.80)/(1 +.80) = .89. Método de Kuder-Richardson. Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual número de reactivos. Como cada forma puede dar por resultado un va- lor algo diferente de r11, no queda claro qué estrategia de división producirá el mejor estimado de confiabilidad. Una solución al problema es calcular el promedio de los coeficientes de confiabilidad obtenidos de todas las divisiones por mitades como el estimado global de confiabilidad. Esto puede hacerse, pero el siguiente procedimiento abreviado fue elaborado por Kuder y Richardson (1937). Bajo ciertas condiciones, la media de todos los coeficientes de división por mitades pue- de estimarse mediante una de las siguientes fórmulas: r11 ⫽ k[1 ⫺ Σpi(1 ⫺ pi)兾s2] ] 冥 (5.5) k⫺1 k ⫺ X(k ⫺ X)兾s2 r11 ⫽ (5.6) k⫺1 En estas fórmulas, k es el número de reactivos en la prueba, x es la media de las calificaciones totales de la prueba, s2 es la varianza de las calificaciones totales de la prueba (calculadas con n en lugar de n – 1 en el denominador), y pi es la proporción de examinados que dan la respuesta de la clave al reactivo i. Las pi se suman a lo largo de todos los reactivos k. Las fórmulas 5.5 y 5.6 se conocen como fórmulas Kuder-Richardson (K-R) 20 y 21, respectivamente. A diferencia de la fórmula 5.5, la 5.6 se basa en la suposición de que todos los reactivos son de igual dificul- tad; esto también conduce a una estimación más conservadora de la confiabilidad y es más fácil de calcular que la fórmula 5.5. Para demostrar la aplicación de la fórmula 5.6, suponga que una prueba que contiene 75 reac- tivos tiene una media de 50 y una varianza de 100. Entonces r11 = [75 – 50(75 – 50)/100]/74 = .84. Coeficiente alfa. Las fórmulas 5.5 y 5.6 son casos especiales del coeficiente alfa más general (Cronbach, 1951). El coeficiente alfa se define como k(1 ⫺ Σs2i 兾s2t ) α⫽ (5.7) k⫺1 donde k es el número de reactivos, s2i la varianza de las calificaciones en el reactivo i, y s2t la va- rianza de las calificaciones totales de la prueba. Las fórmulas de Kuder-Richardson sólo son aplicables cuando los reactivos de la prueba se califican con 0 o 1, pero el coeficiente alfa es una fórmula general para estimar la confiabilidad de una prueba que consta de reactivos en los cua- les pueden asignarse calificaciones de distinto peso a respuestas diferentes. Todos los procedimientos de consistencia interna (división por mitades, Kuder-Richard- son, coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad. En consecuencia, CONFIABILIDAD 89 deben modificarse para proporcionar estimaciones razonables de confiabilidad cuando la mayo- ría de los examinados no termina la prueba en el tiempo permitido. Para ello, una posibilidad consiste en aplicar las dos mitades de la prueba en momentos diferentes, pero con límites de tiempo iguales. Se calcula entonces la correlación entre las calificaciones de las dos mitades cro- nometradas por separado y los coeficientes resultantes se corrigen con la fórmula 5.4. También pueden usarse los procedimientos de test-retest y de formas paralelas para estimar las confiabi- lidades de las pruebas de velocidad. Confiabilidad entre calificadores Salvo por errores administrativos, las calificaciones calculadas por dos calificadores diferentes de una prueba objetiva presentada por un individuo deben ser idénticas. Sin embargo, la califi- cación de las pruebas de ensayo y orales, además de otros juicios evaluativos (calificaciones de personalidad, calificación de pruebas proyectivas) es un proceso bastante subjetivo. Al evaluar las calificaciones que implican el juicio subjetivo del calificador, es importante conocer el gra- do en que diferentes calificadores están de acuerdo en las calificaciones y otros valores numéri- cos dados a las respuestas de diferentes examinados y reactivos. El enfoque más común para determinar la confiabilidad entre calificadores es hacer que dos personas califiquen las respues- tas de un número considerable de examinados y calcular luego la correlación entre los dos con- juntos de calificaciones. Otro enfoque es hacer que muchas personas califiquen las respuestas de un examinado o, mejor aún, que muchas personas califiquen las respuestas de varios examina- dos. Esta última estrategia arroja un coeficiente intraclase o coeficiente de concordancia, el cual es un coeficiente generalizado de confiabilidad entre calificadores. En muchos libros de estadís- tica se describen los procedimientos para calcular estos coeficientes. Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone de formas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se juzga el desempeño oral (vea la forma 3.1 en la página 58). Aunque los exámenes orales tienen, por lo general, una confiabilidad menor que pruebas escritas comparables, la atención cuidadosa al diseño de las preguntas orales, a la elaboración de las respuestas modelo a las preguntas antes de aplicar la prueba, y al uso de calificadores múltiples, puede mejorar la confiabilidad de las ca- lificaciones en las pruebas orales. Dichos procedimientos han dado por resultado coeficientes de confiabilidad entre calificadores de .60 y .70 para las pruebas orales aplicadas en ciertos cursos de licenciatura, posgrado y de escuelas profesionales. Otras sugerencias para mejorar la confiabi- lidad de las evaluaciones del desempeño oral incluyen alentar a los examinados a demorar la res- puesta hasta que hayan pensado por un momento en la pregunta, y registrar las respuestas de manera electrónica para que más tarde sean reproducidas y reevaluadas por los calificadores. Interpretación de los coeficientes de confiabilidad Los coeficientes de confiabilidad de instrumentos afectivos como las listas de verificación, escalas de calificación e inventarios de personalidad, intereses o actitudes, por lo general son más bajos que los de las pruebas cognitivas de aprovechamiento, inteligencia o habilidades especiales. Sin embar- go, los coeficientes de confiabilidad obtenidos con esos instrumentos afectivos pueden ser bastante respetables, y los obtenidos con los instrumentos cognitivos en ocasiones son bastante bajos. ¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instru- mento psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las pun- tuaciones de la prueba. Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de dos grupos de personas son significativamente diferentes, un coeficiente de confia- 90 CAPÍTULO CINCO Confiabilidad y validez bilidad de .60 a .70 puede ser satisfactorio. Por otro lado, cuando se utiliza la prueba para com- parar la calificación de una persona con la de otra, o la calificación de una persona en una prue- ba con su calificación en otro instrumento, se necesita un coeficiente de confiabilidad de al menos .85 para determinar si diferencias pequeñas en las calificaciones son significativas. Variabilidad y extensión de la prueba Como con otras medidas de relación, los coeficientes de confiabilidad tienden a ser más altos cuando la varianza de las puntuaciones de la prueba, las puntuaciones del reactivo, las califica- ciones u otras variables que son evaluadas, es grande que cuando es pequeña. Como la varianza de la calificación de la prueba se relaciona con la extensión de ésta, un método para incrementar la confiabilidad es hacer la prueba más larga. Sin embargo, la simple inclusión de más reactivos en una prueba no necesariamente incrementa su confiabilidad. Los nuevos reactivos deben ser del mismo tipo general y medir la misma cosa que los reactivos que ya contiene la prueba. De hecho, agregar reactivos que miden algo diferente de lo que miden los reactivos originales pue- de dar lugar a una reducción en la confiabilidad. La fórmula general de Spearman-Brown es una expresión del efecto que tiene sobre la confiabilidad el alargar una prueba incluyendo más reactivos del mismo tipo general. Esta fór- mula, una generalización de la fórmula 5.4, es: mr11 rmm ⫽ 1 ⫹ (m ⫺ 1)r11 (5.8) donde m es el factor por el cual se alarga la prueba, r11 la confiabilidad de la prueba original no alargada, y rmm la confiabilidad estimada de la prueba alargada. Por ejemplo, si una prueba de 20 reactivos que tiene un coeficiente de confiabilidad de .70 se hace tres veces más larga agregando 40 reactivos más, la confiabilidad estimada de la prueba alargada será 3(.70) / [1 + 2(.70)] = .875. La figura 5.1 ilustra los efectos que produce sobre la confiabilidad el incrementar el número de reactivos en una prueba por un factor de 11/2, 2, 3, 4 o 5. Note que el incremento creciente en la confiabilidad es menor cuando la confiabilidad inicial es alta y con incrementos sucesivamente mayores en la extensión de la prueba. Resolver la fórmula 5.8 para m arroja la siguiente fórmula para determinar cuántas veces más extensa debe ser una prueba de confiabilidad r11 a fin de obtener una confiabilidad deseada (r11): rmm(1 ⫺ r11) m⫽ r11(1 ⫺ rmm) (5.9) Esta fórmula puede utilizarse para determinar el incremento necesario en la longitud de la prue- ba y, en consecuencia, el número de reactivos que deben agregarse para incrementar la confia- bilidad de un valor desde r11 hasta rmm. Además de depender del número de reactivos, la varianza y la confiabilidad de una prue- ba son afectadas por la heterogeneidad de la muestra de personas que la presentan. Entre mayor sea el rango de diferencias individuales en cierta característica, mayor será la varianza de las ca- lificaciones en una medida de esa característica. En consecuencia, el coeficiente de confiabili- dad de una prueba u otro instrumento de evaluación será mayor en un grupo más heterogéneo con una varianza más grande en la calificación de la prueba. El que la confiabilidad de una prue- ba varíe con la naturaleza del grupo probado se refleja en la práctica de informar acerca de coe- ficientes de confiabilidad separados para grupos que difieren en edad, grado, género y posición CONFIABILIDAD 91 Factor de alargamiento 1.5 2 3 4 5 Confiabilidad de la prueba alargada 1 0.8 0.6 0.4 0.2 0 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 Confiabilidad de la prueba inicial (no alargada) Figura 5.1 Confiabilidad de una prueba alargada como función de la confiabilidad inicial y el factor de alargamiento. La confiabilidad se incrementa a medida que se agregan a una prueba más reactivos del mismo tipo general, pero el monto del incremento es mayor cuando la confiabilidad inicial es baja. Además, la confiabilidad de la prueba alargada se nivela gradualmente conforme la prueba se vuelve cada vez más larga. socioeconómica. La asociación entre la varianza y la confiabilidad de una prueba también se ad- vierte en que las pruebas compuestas, sobre todo por reactivos de dificultad intermedia (valores p de alrededor de .50), tienden a ser más confiables que las pruebas donde la mayoría de los reac- tivos tienen índices más altos o más bajos de dificultad. Error estándar de medición Puesto que se desconoce la varianza de las calificaciones reales, no puede calcularse la confia- bilidad de manera directa a partir de la fórmula 5.2. Sin embargo, dado un estimado de la con- fiabilidad, puede calcularse la varianza de la calificación real a partir de la fórmula 5.2 o, lo que es de mayor interés, calcular la varianza de error a partir de la fórmula 5.3. Al resolver la fórmu- la 5.3 para serr obtenemos: serr ⫽ sobs兹1 ⫺ r11 (5.10) donde s es la desviación estándar de las calificaciones observadas de la prueba y r11 el coeficien- te de confiabilidad test-retest. Este estadístico, conocido como error estándar de medición (serr), es una estimación de la desviación estándar de una distribución normal de las calificaciones de 92 CAPÍTULO CINCO Confiabilidad y validez la prueba que se supone serían obtenidas por una persona que presentara la prueba un número infinito de veces. La media de esta distribución hipotética de calificaciones sería la calificación real de la persona en la prueba. Para ilustrar el cálculo y el significado del error estándar de medición, suponga que la des- viación estándar de una prueba es 6.63 y el coeficiente de confiabilidad test-retest es .85; entonces serr ⫽ 6.63兹1 ⫺ .85 ⫽ 2.57. Si la calificación de una persona en la prueba es 40, puede con- cluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 – 2.57 = 37.43 y 40 + 2.57 = 42.57. Para obtener el intervalo de confianza de 95% para una calificación real, debe multiplicar- se serr por 1.96 y el producto resultante agregarse y restarse de la calificación observada: califica- ción observada ±1.96 serr. La figura 5.2 es un perfil o psicógrafo de las puntuaciones obtenidas por un estudiante de undécimo grado en las diez pruebas y tres compuestos de la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). La puntuación del estudiante en una prueba o compuesto particular está indicada por las líneas verticales cortas que se proyectan a partir de la mitad de la barra horizontal correspondiente. La anchura de la barra horizontal es igual a 1.96 veces el error estándar de medición de esa prueba o compuesto particular. En consecuencia, podemos decir que hay una probabilidad de .95 de que la calificación real del estudiante en la prueba caiga den- Prueba o compuesto ASVAB Habilidad académica Habilidad verbal Habilidad matemática Conocimiento del mundo Comprensión de párrafos Razonamiento aritmético Conocimiento matemático Ciencia general Información automotriz y de taller Comprensión mecánica Información electrónica Operaciones numéricas Velocidad de codificación 0 10 20 30 40 50 60 70 80 Calificación T estándar Figura 5.2 Gráfica de las calificaciones T de un estudiante (líneas verticales cortas que se proyectan desde la mitad de las barras horizontales) y barras que representan los intervalos de confianza del 95% para las calificaciones T reales del estudiante en las 10 pruebas y tres compuestos de la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). Vea el texto para detalles. CONFIABILIDAD 93 tro del rango numérico representado por la barra horizontal que se extiende desde la calificación observada –1.96serr hasta la calificación observada +1.96serr. Como regla empírica, la diferencia entre las puntuaciones de dos personas en la misma prue- ba no debe considerarse significativa salvo que sea por lo menos dos veces el error estándar de me- dición de la prueba. Por otro lado, la diferencia entre las puntuaciones de la misma persona en dos pruebas debe ser mayor que dos veces el error estándar de medición más grande para que la dife- rencia se interprete como significativa. Esto es así porque el error estándar de la diferencia entre las puntuaciones en las dos pruebas es mayor que el error estándar de medición de cada prueba. Como vimos en la fórmula 5.10, el error estándar de medición se relaciona inversamente con el coeficiente de confiabilidad. Cuando r11 = 1.00, no hay error al estimar la calificación real de una persona a partir de su calificación observada; cuando r11 = .00, el error de medición alcan- za su valor máximo (s). Por supuesto, una prueba que tiene un coeficiente de confiabilidad cer- cano a .00 es inútil porque la precisión de cualquier decisión tomada sobre la base de las puntuaciones estará al nivel del azar. A diferencia de la teoría clásica de los tests, en la cual el error estándar de medición se aplica a todas las puntuaciones en una población particular, en la teoría de respuesta al ítem (IRT) difiere de una calificación a otra. En la IRT, el error estándar de medición de las puntua- ciones correspondientes a un nivel particular de habilidad es igual al recíproco de la cantidad de información transmitida por una calificación a ese nivel. La cantidad de información proporcio- nada por las respuestas a un reactivo particular es determinada a partir de la función de informa- ción del reactivo, y la información proporcionada por la prueba como un todo en un nivel particular de habilidad es la suma de los valores de información del reactivo en ese nivel de ha- bilidad (vea Hambleton, Swaminathan y Rogers, 1991). Confiabilidad de las pruebas referidas a criterio El concepto tradicional de confiabilidad corresponde a las pruebas referidas a normas, las cua- les están diseñadas principalmente para diferenciar entre individuos que poseen varias cantida- des de una característica específica. Entre mayor sea el rango de diferencias individuales en las puntuaciones de una prueba, mayor será la confiabilidad de la prueba. Por otro lado, al elaborar la mayoría de las pruebas referidas a criterio la meta es identificar a las personas como pertene- cientes a uno de dos grupos. Un grupo consta de personas cuyas puntuaciones igualan o exce- den el nivel de criterio (de dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan el nivel de criterio. En esta situación, resultan ina- propiados los procedimientos correlacionales tradicionales para determinar los coeficientes test- retest, de formas paralelas y de consistencia interna. El coeficiente de acuerdo, que es la proporción de calificaciones que caen por encima o por debajo del nivel de criterio en ambas aplicaciones o ambas formas, es un índice de la confia- bilidad de una prueba referida a criterio. Otro índice es el coeficiente kappa, que es algo más di- fícil de calcular, pero estadísticamente más apropiado que el coeficiente de acuerdo (Cohen, 1968; Aiken, 1988). Teoría de la generalización Durante muchos años los psicómetras han enfatizado que una prueba no tiene una sino muchas confiabilidades, dependiendo de las varias fuentes de error de medición que se toman en consi- deración al calcular un coeficiente de confiabilidad. La muestra particular de reactivos incluidos 94 CAPÍTULO CINCO Confiabilidad y validez en la prueba, las instrucciones de aplicación, las condiciones ambientales (temperatura, ilumina- ción, ruido) en que se aplica la prueba, y las idiosincracias y estados físicos o psicológicos tem- porales de los examinados pueden afectar la confiabilidad estimada de una prueba. Cualquiera de esas condiciones, o todas, puede contribuir a la varianza de error, simbolizada en la fórmula clásica 5.1 de la varianza de la prueba. Los procedimientos matemáticos de análisis factorial (vea el apéndice A) proporcionan una forma de dividir la varianza de la calificación real en la fórmula 5.1 en varianzas común y de factor específico, pero la fórmula no distingue entre varias fuentes de error que contribuyen a la varianza de error. El hecho de que una prueba puede tener muchas confiabilidades, dependiendo de los efec- tos de varias fuentes de varianza de error, o facetas, ha sido incorporado en otros enfoques hacia la teoría de los tests . Uno de esos enfoques, la teoría de la generalización, empieza por concep- tualizar una calificación observada de la prueba como una estimación de un universo de califi- caciones correspondiente. El grado de precisión con el que la puntuación de la prueba estima el universo de puntuaciones depende de la naturaleza del universo, es decir, de las facetas particu- lares que lo definen. Una puntuación de la prueba puede generalizarse a muchos universos diferentes, cada uno definido de acuerdo con cierta combinación de facetas. Las facetas que caracterizan a un universo dado, como las condiciones de aplicación de la prueba y la composición de reactivos o formas de ésta, pueden ser muy diferentes de las que definen a otros universos. Algunas de esas facetas pueden no tener efecto sobre la generalización de las puntuaciones de la prueba, mien- tras que los efectos de otras facetas pueden ser significativos. Los cálculos de la teoría de la generalización implican aplicar las técnicas estadísticas de análisis de varianza para determinar la generalización de las puntuaciones de la prueba como función de los cambios en la(s) persona(s) que la presenta(n), diferentes muestras de reactivos que componen la prueba, las situaciones o condiciones en que se presenta ésta, y los métodos o personas involucrados en su calificación. Luego puede calcularse un coeficiente de generaliza- ción, el cual es similar al coeficiente tradicional de confiabilidad, como la razón de la varianza esperada de las calificaciones en el universo con la varianza de las calificaciones en la muestra. Por último, puede estimarse un valor universal de la calificación, similar a la calificación real de la teoría clásica de la confiabilidad (Cronbach, Gleser, Nanda y Rajaratnam, 1972). Al enfatizar la importancia de las condiciones en que se administra una prueba y los pro- pósitos para los que se diseñó, la teoría de la generalización ha cambiado el enfoque de los usua- rios de las pruebas más allá de la preocupación con la prueba misma como un instrumento psicométrico bueno o malo en general a la pregunta de “¿Bueno o malo para qué propósito?” La teoría de la generalización, la teoría de respuesta al ítem, el análisis de las estructuras de covarianza y otros métodos estadísticos modernos ciertamente tienen mayor complejidad téc- nica que la teoría clásica de los tests. Sea como sea, el desarrollo y las aplicaciones de una prue- ba todavía se basan en gran medida en los conceptos tradicionales de confiabilidad y validez y en los procedimientos derivados de ellos. VALIDEZ De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que está diseñada para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas cla- VALIDEZ 95 ses de validez, dependiendo de los propósitos específicos para los cuales fue diseñada, la pobla- ción objetivo, las condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el conte- nido de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y las califica- ciones en el criterio de interés y (3) investigar las características psicológicas particulares o constructos medidos por la prueba. Todos esos procedimientos son útiles en la medida que mejo- ran la comprensión de lo que mide una prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de interés evaluar la validez creciente de una prueba, es decir, qué tanto añade la prueba a la predicción y comprensión de los criterios que ya son anticipados por otras medidas. A diferencia de la confiabilidad, la cual es influida sólo por los errores no sistemáticos de medición, la validez de una prueba es afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes). Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida sin ser confiable. La confiabilidad es una condición necesaria, pero no suficien- te, para la validez. Validez de contenido La apariencia física de una prueba con respecto a sus propósitos particulares (validez de facie) es ciertamente una consideración importante a tener en cuenta al comercializarla. No obstante, el concepto de validez de contenido se refiere a algo más que a la apariencia. La validez de conteni- do atañe a si éste produce un rango de respuestas que son representativas del dominio entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe medir la prueba. Se supone que las respuestas a la muestra de reactivos de una prueba bien diseñada son indicativas de lo que serían las respuestas al universo entero de conductas de interés. Un análisis de la validez de contenido ocurre más a menudo en conexión con las pruebas de aprovechamiento, para las cuales por lo general no existe un criterio externo especificado. La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad, aun- que quizá menos que la validez de constructo o la relacionada con un criterio. En una prueba de aprovechamiento se evalúa la validez de contenido analizando la composición de la prueba para determinar el grado en que representa los objetivos de la enseñanza. Una forma de lograr esto es comparar el contenido de la prueba con un bosquejo o tabla de especificaciones concernientes a la materia que va a ser cubierta por la prueba. Si expertos en la materia coinciden en que una prue- ba parece y actúa como un instrumento diseñado para medir lo que se supone debe medir, enton- ces se dice que posee validez de contenido. Dichos juicios involucran no sólo la apariencia de los reactivos de la prueba, sino también los procesos cognitivos implicados al responderlos. Es obvio que el proceso de evaluar la validez de contenido no debería esperar hasta que se haya elaborado la prueba. El juicio de los expertos en lo que se refiere a qué reactivos incluir es necesario desde el principio del proceso de elaboración de la prueba. Al definir el universo del contenido de la prueba y la muestra de ese universo que se va a incluir, los diseñadores establecen las condicio- nes indispensables para lograr construir un instrumento con validez de contenido. Validez con relación a criterio La validación de cualquier prueba de habilidad consiste en relacionar las calificaciones en la prueba con el desempeño en medidas o estándares de criterio con los cuales pueden compararse las calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio 96 CAPÍTULO CINCO Confiabilidad y validez hace referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de per- sonas se comparan con las puntuaciones, clasificaciones u otras medidas de desempeño. Algu- nos ejemplos de criterios contra los cuales se validan las pruebas son las notas escolares, calificaciones de un supervisor y número o cantidad de dólares en ventas. Siempre que se dispo- ne de una medida de criterio en el momento de la prueba puede determinarse la validez concu- rrente del instrumento. Cuando las calificaciones en el criterio no están disponibles sino hasta cierto tiempo después de que se aplicó la prueba, se enfatiza la validez predictiva de la prueba. Validez concurrente. Los procedimientos de validación concurrente se emplean siempre que una prueba se aplica a personas clasificadas en varias categorías, como grupos de diagnóstico clí- nico o niveles socioeconómicos, con el propósito de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son significativamente diferentes de las de los indivi- duos que se hallan en otras categorías. Si la calificación promedio varía de modo sustancial de una categoría a otra, entonces la prueba puede usarse como otra forma, quizá más eficiente, de asignar a la gente a esas categorías. Por ejemplo, las puntuaciones en el Inventario Multifásico de Personalidad de Minnesota (MMPI) han sido útiles en la identificación de trastornos menta- les específicos, porque se ha encontrado que los pacientes a quienes los psiquiatras diagnostican trastornos particulares tienden a diferir del resto de la población en las puntuaciones que obtie- nen en ciertos grupos de reactivos (escalas). Validez predictiva. La validez predictiva atañe a la precisión con que las puntuaciones de una prueba predicen puntuaciones de criterio, según lo indica la correlación entre la prueba (predic- tor) y un criterio del desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a me- nudo se correlacionan con las puntuaciones, notas de cursos, calificaciones de pruebas de apro- vechamiento y otros criterios de desempeño. La magnitud de un coeficiente de validez predictiva está limitada por la confiabilidad de las variables de predicción y de criterio; no puede ser mayor que la raíz cuadrada del producto de esas dos confiabilidades. Por ésta y por otras razones, la correlación entre un predictor y una variable de criterio, calculada mediante procedimientos descritos en el apéndice A, varía con el criterio especí- fico, pero rara vez es mayor a .60. Como la proporción de la varianza en la variable de criterio que puede ser explicada por la variación en la variable predictora es igual al cuadrado de la correlación entre las variables predictora y de criterio, por lo general no puede predecirse más de 36% de la va- riación en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una prueba u otro instrumento psicométrico. Esto deja sin explicar o predecir 64% de la varianza de criterio. Consi- derando que la validez predictiva de la mayoría de las pruebas es menor de .60, es comprensible por qué deben hacerse con cuidado las afirmaciones concernientes a la posibilidad de predecir los cri- terios de desempeño a partir de las puntuaciones obtenidas en las pruebas psicológicas. Error estándar de estimación. La sección sobre regresión y predicción en el apéndice A des- cribe el procedimiento a seguir para determinar una ecuación de regresión (ecuación de predic- ción) y pronosticar las calificaciones de criterio de un grupo de personas a partir de sus puntuaciones en pruebas o en otras variables. Sin embargo, ingresar la puntuación de una per- sona en una prueba a una ecuación de regresión sólo produce un estimado de la calificación que la persona obtendrá en realidad en la variable de criterio. Si la calificación de criterio que se pre- dice para una persona se considera como la media de una distribución normal de las calificacio- VALIDEZ 97 nes de criterio obtenidas por un grupo de individuos que obtuvieron la misma calificación que la persona en la variable predictora, entonces la desviación estándar de esta distribución es un ín- dice del error promedio en esas predicciones. Este estadístico, conocido como error estándar de estimación (sest), es aproximadamente igual a: sest ⫽ s兹1 ⫺ r2 (5.11) donde s es la desviación estándar de la calificación de criterio y r es la correlación producto-mo- mento entre el predictor (prueba) y el criterio. Por ejemplo, suponga que la desviación estándar de cierta medida de criterio es 15 y la correla- ción entre las puntuaciones de la prueba y de criterio es .50; entonces sest ⫽ 1521 ⫺ 502 = 13. Si la calificación de criterio que se predice de un sujeto es 50, hay una posibilidad de 68 entre 100 de que la persona obtendrá una calificación de criterio entre 37 y 63 (Ypred ± sest), y aproximadamente 95 de 100 de que obtendrá una calificación de criterio entre 25 y 75 (Ypred ± 1.96 sest). De manera más precisa, las posibilidades son de 68 entre 100 de que la persona forme parte de un grupo de in- dividuos que tienen una calificación de criterio pronosticada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 37 y 63. De manera similar, hay una posibilidad aproximada de 95 entre 100 de que el individuo forme parte de un grupo de personas con una calificación promedio anti- cipada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 25 y 75. Como lo ilustra es- te ejemplo, cuando la correlación entre las calificaciones de la prueba y de criterio es baja, la calificación de criterio obtenida por una persona puede ser muy diferente de la pronosticada. Por esta razón, debe tenerse cautela al interpretar las calificaciones predichas cuando la correlación en- tre la prueba y la medida de criterio es modesta. Entre menor sea el coeficiente de correlación, más grande es el error estándar de estimación y menos precisa es la predicción de la prueba al criterio. Factores que afectan la validez con relación a criterios La validez con relación a criterios de una prueba puede ser influida por una serie de factores, in- cluyendo las diferencias de grupo, la extensión de la prueba, la contaminación del criterio y la tasa base. La validez creciente de una prueba, es decir, la contribución de la prueba que excede a las contribuciones de otras variables, también debería ser considerada al decidir si se va a uti- lizar la prueba con propósitos de selección y ubicación. Diferencias de grupo. Las características de un grupo de personas en quienes se valida una prueba incluyen variables como sexo, edad y rasgos de personalidad. Esos factores, que en este contexto se conocen como variables moderadoras, pueden afectar la correlación entre una prue- ba y una medida de criterio. La magnitud de un coeficiente de validez, como la de un coeficien- te de confiabilidad, también está influida por el grado de heterogeneidad del grupo de validación en lo que mide la prueba. Los coeficientes de validez tienden a ser más pequeños en los grupos más homogéneos, es decir, los grupos que tienen un rango más estrecho de calificaciones. El ta- maño de un coeficiente de correlación es una función de las variables de predicción y de crite- rio, por lo que estrechar el rango de calificaciones en cualquier variable tiende a disminuir el coeficiente de validez predictiva. Como la magnitud de un coeficiente de validez varía con la naturaleza del grupo probado, una prueba recién elaborada que resulte ser un predictor válido de una variable de criterio particu- lar en un grupo de gente debe tener una validación cruzada en un segundo grupo. En la valida- 98 CAPÍTULO CINCO Confiabilidad y validez ción cruzada se aplica una prueba a una segunda muestra de personas para determinar si conser- va su validez entre muestras diferentes. Debido a la operación de los factores del azar, la magni- tud de un coeficiente de validez por lo general se reduce en alguna medida en la validación cruzada. En consecuencia, en la mayor parte de los casos se considera que la correlación entre las calificaciones de predicción y de criterio en la validación cruzada es un mejor indicador de la validez predictiva que la correlación original prueba-criterio. La validación cruzada, que es una manera de determinar la generalización de la validez de una prueba, es decir, si la prueba si- gue siendo válida en situaciones diferentes, también puede involucrar una muestra diferente (pa- ralela) de reactivos. Con diferentes muestras de examinados, diferentes muestras de reactivos de la prueba, o en ambos casos, suele darse alguna reducción del coeficiente de validez en la vali- dación cruzada. Se han propuesto fórmulas para “corregir” dicha reducción, pero implican cier- tas suposiciones que no siempre se cumplen. Extensión de la prueba. Al igual que la confiabilidad, la validez varía directamente con la ex- tensión de la prueba y con la heterogeneidad del grupo de personas examinadas. Hasta cierto punto, las puntuaciones en una prueba más larga y en una prueba administrada a un grupo de in- dividuos que varían de manera considerable en las características a medir tienen varianzas más grandes y, en consecuencia, mayor validez predictiva que las puntuaciones de pruebas más cor- tas o de pruebas aplicadas a grupos más homogéneos. Se han propuesto fórmulas que corrigen los efectos que tienen en la validez la restricción de rangos de calificación y la extensión acorta- da de la prueba, pero sólo son apropiadas bajo ciertas circunstancias especiales. Contaminación de criterios. La validez de una prueba está limitada no sólo por su confiabili- dad y el criterio, sino también por la validez del propio criterio como medida de la variable de in- terés. En ocasiones el criterio se hace menos válido, o se contamina, por el método particular de medir las calificaciones de criterio. Por ejemplo, un psicólogo clínico enterado de que un grupo de pacientes ya ha sido diagnosticado como psicótico puede percibir mal los signos psicóticos en las respuestas de esos pacientes a las pruebas de personalidad. Entonces el método de compa- ración de grupos, en el cual se comparan las calificaciones obtenidas por los psicóticos en la prueba con las obtenidas por los normales, arrojará evidencia falsa a favor de la validez de la prueba. Dicha contaminación del criterio (psicóticos contra normales) puede controlarse por me- dio de un análisis ciego, esto es, haciendo que quien emite el diagnóstico no disponga de infor- mación acerca de los examinados a excepción de sus puntuaciones en la prueba. Sin embargo, muchos psicólogos clínicos sostienen que el análisis ciego no es natural ya que no es la forma en que las pruebas se emplean en realidad en los escenarios clínicos. Validez creciente. Cuando se intenta decidir si la aplicación de un instrumento particular de evaluación con propósitos predictivos o de diagnóstico está justificada por su costo, también de- bería considerarse la validez creciente. La validez creciente se refiere a la cuestión de qué tanta precisión más tienen las predicciones y los diagnósticos cuando se incluye una prueba particu- lar en una batería de procedimientos de evaluación. Es posible que otros métodos de evaluación menos costosos (observación, entrevista, inventario biográfico) puedan satisfacer los propósitos de la evaluación igual de bien sin usar una prueba adicional. La validez creciente se relaciona con el concepto de utilidad, tal como se aplica en los contextos de selección de personal. La uti- lidad de una prueba se define como un incremento medido en la calidad de los empleados que son contratados o promovidos sobre la calidad de los empleados cuando no se usa una prueba u otro procedimiento de evaluación (Cascio, 2000). VALIDEZ 99 Validez de constructo La validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional o educativo. Diferentes tipos de pruebas de habilidad, y en ocasiones pruebas de personalidad y de interés, se utilizan con propósitos de selección y ubicación. La validez de constructo es de un interés mayor aún con respecto a las pruebas de personalidad. La validez de constructo de un ins- trumento de evaluación psicológica se refiere al grado en que el instrumento mide un constructo particular, o concepto psicológico como la ansiedad, la motivación para el logro, la extroversión- introversión o el neuroticismo. La validez de constructo, que es el tipo más general de validez, no se determina de una sola manera o por una investigación. Más bien involucra una red de investi- gaciones y otros procedimientos diseñados para determinar si un instrumento de evaluación que supuestamente mide una determinada variable de personalidad en realidad lo hace. Evidencia a favor de la validez de constructo. Entre las fuentes de evidencia a favor de la validez de constructo de una prueba se encuentran las siguientes: 1. Los juicios de expertos de que el contenido de la prueba corresponde al constructo de in- terés. 2. Análisis de la consistencia interna de la prueba. 3. Estudios, tanto en grupos formados de manera experimental como en grupos que se pre- sentan de manera natural, de las relaciones entre las puntuaciones de la prueba y otras va- riables en las cuales difieren los grupos. 4. Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y va- riables con las cuales se espera que tengan cierta relación, seguidas por un análisis facto- rial de esas correlaciones. 5. Interrogar con detalle a los examinados o a los calificadores acerca de sus respuestas a una prueba o escala de calificación para revelar los procesos mentales específicos implicados al dar respuesta a los reactivos. Como lo revela esta lista, varios tipos de información contribuyen al establecimiento de la vali- dez de constructo de un instrumento psicométrico. La información puede obtenerse de análisis racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su capa- cidad para predecir la conducta en las situaciones en que opera el constructo. Las demostraciones experimentales como las usadas en la validación de constructo de la Es- cala de Taylor de Ansiedad Manifiesta (TMAS) (Taylor, 1953) son particularmente importantes en el establecimiento de la validez de constructo. De acuerdo con la teoría hulliana del aprendizaje, la ansiedad es una pulsión y, por consiguiente, la gente muy ansiosa debe condicionarse con mayor fa- cilidad que la gente menos ansiosa. Suponiendo que esta teoría es correcta, los individuos que tie- nen un alto nivel de ansiedad deben adquirir —con más rapidez que quienes tienen un bajo nivel de ansiedad— un parpadeo condicionado en una situación de condicionamiento clásico donde estén presentes una luz, un soplo de aire y el parpadeo. Por lo tanto, si es una medida válida del construc- to de ansiedad, quienes obtienen puntuaciones altas en la escala TMAS deberían condicionarse con mayor facilidad en esta situación que quienes obtienen bajas puntuaciones. La verificación de esta predicción contribuyó de manera significativa a aceptar la validez de constructo de la TMAS. Validación convergente y discriminante. Un instrumento con validez de constructo debe te- ner correlaciones altas con otras medidas o métodos de medición del mismo constructo (validez convergente), pero correlaciones bajas con las medidas de constructos diferentes (validez discri- 100 CAPÍTULO CINCO Confiabilidad y validez minante). La evidencia a favor de estas validaciones de un instrumento psicométrico puede ob- tenerse comparando las correlaciones entre las medidas de: 1. El mismo constructo usando el mismo método. 2. Diferentes constructos usando el mismo método. 3. El mismo constructo usando métodos diferentes. 4. Diferentes constructos usando métodos diferentes. La validez de constructo de un instrumento psicométrico se confirma por este planteamiento de características y métodos múltiples (Campbell y Fiske, 1959) cuando las correlaciones entre el mismo constructo medidas por el mismo y por diferentes métodos son significativamente mayo- res que las correlaciones entre diferentes constructos medidas por los mismos o por diferentes mé- todos. Por desgracia, los resultados de dichas comparaciones no siempre resultan de esta manera. Ocasionalmente las correlaciones entre diferentes constructos medidas por el mismo método son más altas que las correlaciones entre el mismo constructo medidas por métodos diferentes. Esto significa que el método (inventario de lápiz y papel, técnica proyectiva, escala de calificación, en- trevista, etc.) es más importante que el constructo o rasgo particular en la determinación de lo que está siendo medido que el constructo o rasgo que supuestamente está siendo evaluado. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en determina- dos puestos para realizar varias tareas. Sin embargo, con frecuencia los procedimientos segui- dos para seleccionar, clasificar y ubicar personal han sido azarosos y asistemáticos. Se ha empleado gran variedad de procedimientos para la selección y valoración de personal, muchos de los cuales se basan en la observación casual y la intuición. Por ejemplo, en un tiempo se asig- nó gran importancia a rasgos físicos como la forma de la cabeza, los movimientos oculares y la apariencia corporal general. El origen étnico, la posición social y las conexiones sociales tam- bién influyeron en la determinación de quién era designado para ocupar cierto puesto, contrata- do para un trabajo específico o aceptado en determinado programa educativo. Detección De manera tradicional, la selección de personal se ha interesado en identificar, de entre un grupo de solicitantes, a los que son más capaces de realizar las tareas designadas. En este enfoque se uti- lizan las pruebas psicológicas, junto con información que no proviene de la prueba (historia per- sonal, características físicas, recomendaciones, etc.), para ayudar a seleccionar a los solicitantes que pueden desempeñar trabajos particulares, ya sea de manera inmediata o luego de un entrena- miento apropiado. Un procedimiento de selección de personal puede ser bastante simple o muy complejo, de- pendiendo de la naturaleza de la organización y de la tarea para la cual se están seleccionando los solicitantes. El planteamiento más directo es la estrategia de hundirse o nadar en la cual todos los so- licitantes son seleccionados o admitidos, pero sólo se conserva a quienes tienen un desempeño efec- tivo. En algunas formas ésta es una estrategia ideal de selección, pero también es costosa tanto para la organización como para los solicitantes. En consecuencia, casi todas las organizaciones grandes utilizan actualmente algún tipo de procedimiento de detección por el cual los solicitantes que son UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 101 claramente inadecuados para la tarea (trabajo, programa, etc.) son rechazados de inmediato. Si el instrumento de detección es un instrumento psicométrico de algún tipo, se acepta a los solicitantes que obtienen una calificación mínima especificada (calificación límite) o más alta en la prueba, mientras que se rechaza a los que puntúan por debajo de la calificación límite. Este procedimiento es bastante impersonal, y en ocasiones puede parecer duro desde la perspectiva de los solicitantes. Pero las organizaciones funcionan de manera más eficiente cuando los empleados poseen las habi- lidades indispensables para realizar de manera efectiva las tareas asignadas. Clasificación y ubicación La detección inicial, por lo regular, es seguida por la clasificación y la asignación de los solici- tantes seleccionados a una de varias categorías ocupacionales. Las decisiones de clasificación pueden implicar el agrupamiento de los empleados sobre la base de sus puntuaciones en más de una prueba psicológica, como la asignación de los reclutas militares a especialidades ocupacio- nales de acuerdo con sus calificaciones en la Batería de Aptitudes Vocacionales de las Fuerzas Armadas. La detección y la clasificación con frecuencia son seguidas por la ubicación de los se- leccionados en un nivel particular de determinado trabajo o programa. El proceso de selección de personal consiste usualmente en una secuencia de etapas vincu- ladas a una serie de decisiones de sí-no (pase-fracaso) basadas en la información obtenida de for- mularios de solicitud, cartas de referencia, llamadas telefónicas, entrevistas personales, observacio- nes y pruebas psicológicas. El propósito de recabar dicha información es idéntico al de cualquier otra aplicación de la psicología: hacer mejores predicciones de la conducta futura sobre la base de la conducta pasada y presente. Entre más confiable y válida sea la información, mayor es la pro- babilidad de hacer predicciones precisas de la conducta en el trabajo o en el programa y, por ende, resultan más adecuadas las decisiones de selección. Por supuesto, la confiabilidad y validez de los instrumentos y procedimientos de evaluación psicológica para tomar decisiones de selec- ción no pueden determinarse sólo mediante la inspección de los materiales de evaluación. La con- fiabilidad y la validez deben evaluarse de manera empírica, lo cual es una de las tareas propias de los psicólogos organizacionales. Una tabla de expectativas Cuando se utilizan las pruebas con propósitos de selección no es esencial determinar la correlación prueba-criterio ni la ecuación de regresión que vincula el desempeño en la variable de criterio con las calificaciones en la prueba. Los métodos correlacionales pueden aplicarse a la elaboración de ta- blas de expectativas teóricas, pero es posible elaborar una tabla de expectativas empíricas sin cal- cular un coeficiente de correlación o cualquier otro estadístico a excepción de frecuencias y porcentajes. Suponga, por ejemplo, que la tabla 5.1 fue elaborada a partir de una distribución con- junta de frecuencia de las calificaciones de 250 solicitantes de empleo en una Prueba de Selección Ocupacional (OST), y de las puntuaciones asignadas a los solicitantes por sus supervisores labora- les seis meses después de haber sido contratados. Los intervalos de calificación de la OST se pre- sentan al lado izquierdo de la tabla y las puntuaciones de desempeño (en una escala de 1 a 8) a lo largo de la parte superior. Las frecuencias sin cursivas colocadas en las celdas de la tabla represen- tan la cantidad de empleados que obtuvieron tanto puntuaciones en la OST, dentro de un rango es- pecificado de 5 puntos, como las puntuaciones de desempeño indicadas en la parte superior de la columna. Por ejemplo, 10 empleados cuyas puntuaciones en la OST estuvieron entre 81 y 85 reci- bieron de sus supervisores una calificación de desempeño de 5, mientras que 14 empleados cuyas puntuaciones en la OST cayeron entre 66 y 70 recibieron una calificación de desempeño de 4. 102 CAPÍTULO CINCO Confiabilidad y validez TABLA 5.1 Tabla empírica de expectativas CALIFICACIÓN DEL DESEMPEÑO CALIFICACIÓN EN LA PRUEBA DE SELECCIÓN OCUPACIONAL 1 2 3 4 5 6 7 8 (100) (67) 96–100 1 2 91–95 (100) (82) (36) 2 5 4 (100) (94) (50) (33) (11) 86–90 1 8 3 4 2 (100) (85) (48) (22) (4) 81–85 4 10 7 5 1 (100) (88) (63) (31) (4) 76–80 6 12 16 13 2 (100) (94) (83) (45) (12) (5) 71–75 4 7 25 21 5 3 (100) (87) (61) (24) (5) 66–70 5 10 14 7 2 61–65 (100) (96) (72) (40) (20) (4) 1 6 8 5 4 1 (100) (85) (46) (15) 56–60 2 5 4 2 51–55 (100) 1 Los números en cursivas y entre paréntesis de la tabla 5.1 son los porcentajes de la gente con puntuaciones OST, en un intervalo determinado, cuyas puntuaciones de desempeño fueron iguales o mayores al valor correspondiente en las celdas dadas. De este modo, 85% de los em- pleados cuyas puntuaciones en la OST cayeron en el intervalo 81 a 85 recibieron de desempe- ño de 5 o más altas, y 61% de los que obtuvieron puntuaciones en la OST entre 66 y 70 tuvieron calificaciones de desempeño de 4 o más altas. Para ilustrar cómo se aplica este tipo de información al proceso de selección ocupacional, suponga que Juan, un empleado potencial de un grupo similar al grupo para el cual se elaboró la tabla 5.1, obtiene una puntuación de 68 en la Prueba de Selección Ocupacional. Entonces pue- de estimarse que Juan tiene una posibilidad de 61 en 100 de recibir de su supervisor una califi- cación de 4 o más alta en el desempeño en el trabajo seis meses después de empezar éste, pero sus posibilidades de obtener una calificación del desempeño de 6 o más alta son sólo de 5 en 100. Si una calificación de 4 o más alta es aceptable, es probable que Juan sea contratado. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 103 Factores que afectan la precisión predictiva La precisión con la que puede predecirse la calificación de criterio de un solicitante no sólo de- pende del tamaño de la correlación entre las variables de predicción y de criterio, sino también del número de errores por falsos-positivos y falsos-negativos, la razón de selección, y la tasa ba- se. Si en una prueba se establece una calificación límite muy baja, habrá muchas aceptaciones incorrectas o falsos positivos; esto es, solicitantes que fueron seleccionados pero que no tuvie- ron éxito en el trabajo o en el programa. Por otro lado, si se establece una calificación límite muy alta, habrá muchos rechazos incorrectos o falsos negativos; esto es, solicitantes que no fueron seleccionados pero que de haberlo sido habrían tenido éxito. Como el propósito de la selección de personal es obtener tantos “aciertos” como sea posible (rechazar a los fracasos potenciales y seleccionar a los éxitos potenciales), la calificación límite debe establecerse con cuidado. Para ilustrar estos conceptos, vaya de nuevo a la tabla 5.1. Suponga que la calificación lí- mite en la OST se establece en 66 y que 4 se considera una calificación mínima aceptable de de- sempeño en el trabajo. Entonces 4 + 5 + 6 + 7 + 10 = 32 de los empleados representados en la tabla 5.1 serán clasificados como falsos positivos: tuvieron una calificación de al menos 66 en la OST, pero tuvieron calificaciones de desempeño de menos de 4. Por otro lado, 5 + 2 + 4 + 1 = 12 em- pleados serán falsos negativos: calificaron por debajo de 66 en la OST, pero recibieron califica- ciones de desempeño de 4 o más altas. Observe que al elevar la calificación límite en la OST disminuye el número de falsos positivos, pero incrementa el número de falsos negativos. El efecto opuesto, un incremento en los falsos positivos y una disminución en los falsos negativos, ocurre cuando se baja la calificación límite en la OST. Otro factor importante a considerar al establecer la calificación límite en una prueba o prueba compuesta es la razón de selección, que es la proporción de solicitantes que serán selec- cionados. Entre menor sea la razón de selección, más alta es la calificación límite y viceversa. Como el número de errores por falsos positivos y falsos negativos es afectado dependiendo de dónde se establezca la calificación límite, podemos argumentar que la razón de selección debe- ría ser determinada por la gravedad relativa de esos dos tipos de error. ¿Es el error cometido al aceptar a un solicitante que no logra realizar el trabajo de manera satisfactoria (falso positivo) más o menos grave que rechazar a un solicitante que podría haberlo realizado con éxito si hubie- ra sido seleccionado (falso negativo)? Dichos errores deberían ser tomados en cuenta, pero el número total de solicitantes es al menos igual de importante al determinar la razón de selección. Por ejemplo, cuando el mercado de trabajo es cerrado, el número de solicitantes será pequeño. Entonces la razón de selección necesitará ser alta y, en consecuencia, la calificación límite en la prueba debe ser lo bastante baja como para obtener el número deseado de personas. Por otro la- do, en un mercado laboral libre o abierto, el número de solicitantes es grande, por lo que la ra- zón de selección será baja. Una razón de selección baja significa que será necesario establecer una calificación límite bastante alta en la prueba, lo que dará lugar a un número menor de soli- citantes aceptados y falsos positivos y a un número mayor de solicitantes rechazados y falsos ne- gativos. El porcentaje de solicitantes exitosos varía inversamente con la razón de selección, pero varía directamente con la validez de la prueba u otros instrumentos de selección. En general, una prueba más válida conduce a un porcentaje más grande de aciertos y a un porcentaje más peque- ño de falsos positivos y falsos negativos. Un factor más que también afecta la precisión con que una prueba puede identificar a las per- sonas que se comportarán de cierta manera es la tasa base, esto es, la proporción de solicitantes que se esperaría desempeñaran satisfactoriamente un trabajo incluso si no se hubiera empleado un ins- trumento o procedimiento de selección. Como con la razón de selección, una prueba diseñada para 104 CAPÍTULO CINCO Confiabilidad y validez predecir un tipo particular de conducta es más efectiva cuando la tasa base es 50% y menos efecti- va cuando la tasa base es muy alta o muy baja. Por ello, una prueba diseñada con el propósito de se- leccionar gente para un trabajo muy complejo, en el cual relativamente pocos solicitantes pueden tener un buen desempeño, no sería tan efectiva como una diseñada para seleccionar gente para un trabajo en el cual la mitad de la población de solicitantes puede tener un desempeño satisfactorio. El concepto de tasa base no se limita a la selección de personal; también es importante en el diag- nóstico clínico. Por ejemplo, debido a que la incidencia de suicidios en la población general es muy baja, una prueba diseñada para identificar a personas suicidas no sería muy exacta. Se esperaría un mejor resultado de una prueba diseñada para identificar a neuróticos porque el porcentaje de neu- róticos en la población general es más alto que el de suicidas potenciales. La cantidad de información aportada por una prueba más allá de la tasa base puede ser de- terminada consultando la tabla Taylor-Russell para la tasa base especificada (Taylor y Russell, 1939). La tabla presenta el porcentaje de solicitantes seleccionados que puede esperarse tengan éxito en un trabajo, o en otra situación de selección, como función del coeficiente de validez de la prueba, la tasa base y la razón de selección. La inspección de varias tablas Taylor-Russell pa- ra tasas base específicas muestra que el porcentaje de solicitantes que se espera tengan éxito va- ría directamente con el coeficiente de validez, pero inversamente con la razón de selección. En general, en una tasa base intermedia y con una razón de selección baja, las calificaciones en una prueba que tiene un coeficiente de validez modesto pueden producir un incremento sustancial en el número de aciertos en una situación de selección. El uso de las tablas Taylor-Russell supone una definición clara, discreta y dicotómica del éxito (contra el fracaso) en una situación de selección. Se han elaborado enfoques similares que implican criterios continuos de éxito basados en la teoría de la decisión y la utilidad, pero son complejos y escapan al alcance de este libro (vea Cascio y Ramos, 1986; Cronbach y Gleser, 1965; Raju, Normand y Burke, 1990; Schmitt y Robertson, 1990). Límite múltiple y regresión múltiple Establecer la calificación límite para una prueba de selección o ubicación es un proceso comple- jo de juicio. Además de los factores analizados líneas arriba, la calificación límite y la utilidad de una prueba en general son afectadas por otros tipos de información del solicitante. Con frecuencia, un conjunto de calificaciones de prueba y otras medidas se combinan pa- ra tomar decisiones de selección y clasificación. Un procedimiento para combinar calificacio- nes, conocido como obstáculos sucesivos o límites múltiples, establece calificaciones límite separadas en cada una de varias medidas. Entonces un solicitante debe puntuar en el punto lími- te o por arriba de éste en cada medida separada en una situación donde una alta calificación en una medida no compensa una baja calificación en otra medida. Por ejemplo, la habilidad para di- ferenciar entre tonos de diferentes alturas es esencial para el desempeño efectivo de un director de orquesta. Independientemente de qué tan altas puedan ser sus calificaciones en pruebas de ha- bilidades cognoscitivas, no puede esperarse que las personas sordas a los tonos sean buenos di- rectores de orquesta.1 1Puede desafiar la imaginación, pero han existido algunas excepciones notables al requisito de que los ejecutantes mu- sicales deberían tener buena audición. En música, como en otras actividades profesionales, la gente puede ser capaz de compensar las discapacidades sensoriales o motrices enfatizando otras capacidades que permanecen intactas. Además, al igual que Demóstenes, pueden sobrecompensar. Se dice que Demóstenes superó un defecto del habla al colocar gui- jarros en su boca y rugir a las olas, convirtiéndose en uno de los más grandes oradores de la antigua Grecia. UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL 105 Un enfoque más matemático de la combinación de las calificaciones de una muestra grande de personas en varias medidas es determinar una ecuación de regresión múltiple en la cual se apliquen diferentes pesos asignados estadísticamente a las calificaciones en diferentes pruebas. Una vez que se han determinado los pesos de regresión, puede calcularse para cada solicitante una sola calificación de criterio pronosticada multiplicando la calificación del solicitante en cada variable por el peso apropiado, sumando los productos y restando una constante. Por ejemplo, una ecuación de regresión múltiple empleada para propósitos de admisión en una universidad fue el GPApred = .002(SAT-V) + .001(SAT-M) + .030(HSR) - 2.00, donde SAT-V y SAT-M son las calificaciones del solicitante en las secciones Verbal y Matemática de la Prueba de Evalua- ción Escolar, HSR es una calificación T del rango del solicitante en su clase de graduación de la preparatoria, y GPApred es el promedio académico pronosticado en el primer año del solicitante en la universidad. Si las calificaciones de un solicitante en particular en las dos secciones del SAT son 600 y 500 y su rango en la preparatoria es 70, entonces su promedio académico pronos- ticado es GPApred = .002(600) + .001(500) + .030(70) –2.00 = 1.8, lo cual equivale a una C baja. En el enfoque de regresión múltiple, una calificación alta en una variable predictora puede compensar una calificación baja en otra variable predictora. En consecuencia, este planteamien- to no debería usarse cuando una calificación mínima en cualquiera de los predictores sea esencial para el desempeño efectivo en el criterio. Cuando se utiliza un enfoque de regresión múltiple, de- be calcularse un coeficiente de correlación múltiple (R), el cual es un indicador de la relación de una combinación ponderada de las variables predictoras con la variable de criterio. RESUMEN La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de prueba de los erro- res de medición. En la teoría clásica de las calificaciones de prueba, la confiabilidad se define co- mo la razón de la varianza de la calificación real en una prueba con la varianza de su calificación observada. Dado que la varianza de la calificación real no puede calcularse directamente, la con- fiabilidad debe estimarse mediante uno de varios procedimientos que toman en consideración va- rias fuentes de error de medición. Tres métodos tradicionales para estimar la confiabilidad de una prueba u otro instrumento de evaluación son test-retest, formas paralelas y consistencia interna. El método de formas paralelas, que tiene en consideración los errores debidos a diferentes momentos de aplicación, así como los debidos a diferentes muestras de los reactivos de prueba, es el más sa- tisfactorio. Debido a que la elaboración de las formas paralelas es costosa y consume tiempo, los procedimientos de test-retest y de consistencia interna son las fuentes más populares de eviden- cia de confiabilidad. Los enfoques de consistencia interna, que son menos apropiados para las pruebas de velocidad, comprenden la división por mitades, las fórmulas Kuder-Richardson y el coeficiente alfa. El error estándar de medición, que varía inversamente con la magnitud del coeficiente de confiabilidad, se emplea al calcular intervalos de confianza para las calificaciones reales en una prueba. Entre más grande sea el error estándar de medición, más amplio es el rango de califica- ciones que puede decirse, con un grado especificado de confianza, contiene la calificación real de un examinado en la prueba. 106 CAPÍTULO CINCO Confiabilidad y validez La confiabilidad de una prueba varía directamente con el número de reactivos y la hetero- geneidad del grupo que la presenta. La confiabilidad también varía con el nivel de dificultad de los reactivos que componen la prueba, siendo más alta con reactivos de dificultad intermedia. En este capíulo se analizaron de manera breve los procedimientos para determinar la con- sistencia entre diferentes calificadores (confiabilidad entre calificadores) y la confiabilidad de las pruebas referidas a criterio. También se prestó atención a la teoría de la generalización, la cual conceptualiza la calificación de una prueba como la muestra de una población y, por ende, como el estimado de una calificación real o valor universal. La confiabilidad es una condición necesaria pero no suficiente para lograr la validez, que es el grado en el cual una prueba mide lo que está diseñada para medir. La información sobre la validez de una prueba puede obtenerse de varias maneras: analizando el contenido de la prueba (validez de contenido), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas en un momento posterior (validez predictiva), y por el estudio sistemático de lo adecuado de la prueba para valorar un constructo psicológico especificado (validez de constructo). En las pruebas de aprovechamiento, por lo regular, se va- lida el contenido, mientras que la validez predictiva es de mayor interés con respecto a las prue- bas de aptitud. La validez concurrente y la de constructo son importantes para las pruebas de personalidad. La magnitud de un error cometido al predecir la calificación de criterio de una persona a partir de su calificación en una prueba es calculada mediante el error estándar de estimación, el cual varía inversamente con el tamaño del coeficiente de validez relacionado con el criterio. Tanto el coeficiente de validez relacionado con el criterio como el error estándar de estimación son afectados por varios factores que comprenden las diferencias de grupo, la extensión de la prueba y la contaminación del criterio. Como la magnitud de un coeficiente de validez puede ser afectada por factores aleatorios, las pruebas usadas con propósitos predictivos deberían some- terse a validación cruzada en muestras separadas de personas. También es importante conside- rar cuánto contribuyen las calificaciones de prueba al proceso de tomar buenas decisiones acerca de la gente mucho más allá de las contribuciones de otras variables (validez creciente). La información sobre la validez de constructo de una prueba como medida de una varia- ble o característica psicológica particular puede obtenerse de varias maneras. En particular, es útil un análisis de correlación entre la prueba y otras medidas del mismo constructo obtenidas por el mismo método o por métodos diferentes, así como medidas de diferentes constructos ob- tenidas por el mismo método o por métodos diferentes (matriz de rasgos y métodos múltiples). Las pruebas psicológicas se aplican en escenarios ocupacionales con propósitos de selec- ción, clasificación, promoción y valoración periódica de empleados. Algunos de los procedi- mientos estadísticos que se utilizan con esos propósitos son tablas de expectativas, razones de selección y métodos de límites múltiples y regresión múltiple. P R E G U N TA S Y A C T I V I D A D E S 1. Calcule los coeficientes de confiabilidad de división por mitades (nones y pares) y Kuder-Richard- son (fórmulas 20 y 21) en las siguientes calificaciones de diez examinados a diez reactivos en una prueba de aprovechamiento donde 1 indica una respuesta correcta y 0 una respuesta errónea. RESUMEN 107 EXAMINADO REACTIVO A B C D E F G H I J 1 1 1 0 1 1 0 1 0 1 0 2 1 0 0 0 0 1 0 0 0 1 3 1 1 1 1 1 0 1 0 0 0 4 1 1 1 0 0 1 0 1 0 0 5 1 0 1 1 0 0 0 0 0 0 6 1 1 1 0 1 1 1 0 0 0 7 1 0 1 1 0 0 1 1 0 1 8 1 1 1 0 1 1 0 0 1 0 9 1 1 0 1 1 1 0 1 0 0 10 1 1 1 1 1 0 0 0 1 0 Totales 10 7 7 6 6 5 4 3 3 2 La media ( X ) de las calificaciones totales es 5.30 y la varianza (s2) es 5.21. 2. Calcule el error estándar de medición (serr) de una prueba que tiene una desviación estándar de 10 y un coeficiente de confiabilidad de formas paralelas de .84. Luego use el valor obtenido de serr para encontrar el intervalo de confianza de 95% para las calificaciones reales correspondientes a las ca- lificaciones obtenidas de 40, 50 y 60. 3. Una prueba que consta de 40 reactivos tiene un coeficiente de confiabilidad de .80. ¿Aproximada- mente cuántos reactivos más del mismo tipo general deben agregarse a la prueba para incrementar su confiabilidad a .90? 4. ¿Cuál es la diferencia entre el error estándar de medición y el error estándar de estimación? ¿Cómo se relacionan esos dos estadísticos con los coeficientes de confiabilidad y validez de una prueba? 5. ¿Cuál es el error estándar cometido al estimar los promedios académicos a partir de las calificacio- nes de una prueba de aptitud si la desviación estándar del criterio es .50 y la correlación entre la prueba y el criterio es .60? Si el promedio académico pronosticado de un estudiante es 2.5, ¿cuál es la probabilidad de que su promedio académico obtenido caiga entre 2.1 y 2.9? ¿Entre 1.72 y 3.28? 6. Construya una tabla empírica de expectativas para las calificaciones apareadas X, Y en la tabla A.2 del apéndice A (página 438). Deje que X sea la variable predictora (hilera) y Y la variable de crite- rio (columna). Use un ancho de intervalo de 7 para ambas variables al establecer los intervalos de calificación para X y Y. 7. Describa tres tipos de confiabilidad y tres tipos de validez. ¿Para qué tipos de pruebas y situaciones es más apropiado cada tipo de validez y confiabilidad? CAPÍTULO SEIS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS Las pruebas de aprovechamiento, definido como el nivel de conocimiento, habilidad o logro en un área de desempeño, son los instrumentos psicométricos más populares. Si consideramos to- das las pruebas aplicadas en el salón de clases que elaboran los profesores y todas las pruebas estandarizadas vendidas a las escuelas y a otras organizaciones, el número de pruebas de apro- vechamiento aplicadas sobrepasa con facilidad a todos los otros tipos de pruebas psicológicas y educativas. En Estados Unidos, la mayoría de los 50 estados ha establecido como obligatorio que los estudiantes presenten pruebas de aprovechamiento en algunos grados. La mayoría de las pruebas estandarizadas de aprovechamiento aplicadas en las escuelas estadounidenses corres- ponde a las áreas de lectura y lenguaje, aunque cada año se invierten también millones de dóla- res en pruebas de matemáticas, ciencia, ciencias sociales y otras materias. FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO Cualquier prueba de habilidad (inteligencia general, habilidades especiales, aprovechamiento) en realidad mide lo que la gente ha logrado. Los reactivos de las pruebas de inteligencia y habi- lidades especiales, como los de las pruebas de aprovechamiento, requieren que los examinados demuestren algún logro. Las calificaciones en las pruebas de aprovechamiento se utilizan para muchos de los mismos propósitos que las calificaciones en otras pruebas de habilidades genera- les o específicas. Esos propósitos incluyen evaluación global y diagnóstica de las habilidades del individuo, así como evaluación de la efectividad de los programas educativos y sociales. Las pruebas de aprovechamiento educativo a menudo son mejores predictores de las no- tas escolares que las pruebas de inteligencia y de habilidades especiales, pero no pueden reem- plazarlas por completo. Los logros medidos por las pruebas de inteligencia general son más amplios y son producto de experiencias de aprendizaje menos formales y, por lo regular, menos recientes que los logros medidos por las pruebas estandarizadas de aprovechamiento. La mayo- ría de las pruebas de aprovechamiento evalúa el conocimiento de algo que ha sido enseñado de manera explícita, por lo que las calificaciones en esas pruebas tienden a estar más influidas por la asesoría que las calificaciones en las pruebas de inteligencia y de habilidades especiales. También puede hacerse una distinción entre las pruebas de aprovechamiento y otras me- didas de habilidades cognoscitivas en términos de sus diferentes énfasis. Las pruebas de aprove- chamiento se concentran más en el presente, es decir, en lo que la persona sabe y puede hacer ahora. Por otro lado, las pruebas de inteligencia y de habilidades especiales se concentran en el futuro: miden la aptitud para el aprendizaje, es decir, lo que una persona deberá ser capaz de ha- cer con educación y entrenamiento ulteriores. 108 FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 109 Una serie de pruebas populares de aprovechamiento están vinculadas con pruebas de ap- titud publicadas por la misma compañía y han sido estandarizadas en la misma población de es- tudiantes. El uso combinado de esas medidas de aprovechamiento y aptitud puede facilitar la interpretación de los resultados de la prueba de aprovechamiento, más allá de la información proporcionada por las normas de la prueba sola. Pueden hacerse conclusiones de si los estudian- tes están desempeñándose al nivel de su potencial y en qué áreas de contenido es más probable que se beneficien de la instrucción y estudio adicionales. Panorama histórico Exámenes escritos en forma de composición y poesía, recopiados y juzgados por dos calificadores, se usaron por primera vez en China alrededor del año 1370 d. de C. Luego de la introducción del proceso de elaboración del papel en Europa, una habilidad que los europeos aprendieron de los ára- bes en el siglo XII y que éstos a su vez habían aprendido de los chinos en el siglo VIII, los exámenes escritos empezaron a reemplazar a los orales en algunas universidades europeas. Se sabe que el pri- mer uso educativo de las pruebas escritas en una universidad europea se dio en Cambridge, Ingla- terra, en 1702, y la Universidad de Londres fue acreditada como un centro de exámenes para pruebas escritas en 1836 (Green, 1991). Sin embargo, no fue sino hasta 1845 que los exámenes es- critos se aplicaron a gran escala en Estados Unidos (Greene, Jorgensen y Gerberich, 1954). A principios del siglo XIX, el número de estudiantes en las escuelas de las ciudades esta- dounidenses había crecido demasiado como para que la aplicación frecuente de exámenes ora- les resultara un recurso práctico. La examinación oral continuó siendo el principal método para evaluar el aprovechamiento de los alumnos en Estados Unidos hasta la última mitad del siglo XIX. En 1845, un educador de Boston, Horace Mann, argumentó de manera convincente que los exámenes escritos, aplicados y calificados en condiciones uniformes, eran una mejor medida del aprovechamiento que los exámenes orales. La influencia de Mann llevó a que las escuelas de Boston comenzaran a administrar cada año exámenes escritos a sus alumnos. Se esperaba que esta práctica ayudara a determinar “la condición, mejoría o deterioro de nuestras escuelas” (Fish, 1941, p. 23). A pesar de los esfuerzos de Mann y de otros educadores, durante muchos años los exámenes orales continuaron siendo el método principal para evaluar el aprovecha- miento escolar y sólo gradualmente fueron reemplazados por las pruebas escritas. La califica- ción de las pruebas orales y escritas continuó siendo bastante subjetiva. La primera prueba objetiva de aprovechamiento, una que podía calificarse de manera con- fiable, fue una escala de escritura elaborada por el inglés George Fisher en 1864. Un año des- pués, en un esfuerzo por elevar los estándares educativos, el estado de Nueva York inició los Exámenes Regentes. Otro paso importante en la medición educativa fue dado por J. M. Rice en 1897 en su estudio clásico de las habilidades de ortografía de los escolares. Los resultados obte- nidos al aplicar una prueba de ortografía de 50 palabras a 33,000 niños llevaron a Rice a concluir que se aprendía lo mismo en 15 que en 40 minutos de instrucción diaria en ortografía. En estu- dios posteriores, Rice elaboró pruebas objetivas para evaluar las habilidades de lenguaje y los logros aritméticos de los niños. Las pruebas de Rice por lo general se consideran como precur- soras de las pruebas estandarizadas de aprovechamiento, una base sobre la que luego construye- ron otros pioneros de la medición educativa. Varias pruebas estandarizadas de aprovechamiento fueron publicadas en los primeros años del siglo XX bajo la dirección de E. L. Thorndike, a quien Ross y Stanley (1954) conside- raban padre del movimiento de examinación educativa. Esas pruebas incluían la Prueba de Arit- mética para Operaciones Fundamentales y la Prueba de Razonamiento Aritmético de C. L. Stone (1908), la Serie de Pruebas de Aritmética de S. A. Courtis (1909) y la Escala de Caligrafía para 110 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Niños de Thorndike (1909). Las demostraciones de la falta de confiabilidad de las calificaciones asignadas por los maestros, incluso en las materias más exactas como matemáticas (Starch y El- liot, 1913), aumentaron el interés en las pruebas objetivas estandarizadas. Para el final de la dé- cada de 1920 se disponía de numerosas pruebas estandarizadas de aprovechamiento, incluyendo baterías de medidas como la Prueba de Aprovechamiento de Stanford (1923) para alumnos de pri- maria y el Examen de Contenido de Educación Superior de Iowa (1924). En 1926 la Prueba de Aptitudes Académicas de opción múltiple reemplazó a las pruebas de ensayo que previamente habían sido aplicadas por el Consejo de Examen de Ingreso a la Universidad (Donlon, 1984). El nuevo formato de opción múltiple, junto con la invención de máquinas de calificación automa- tizada, dio lugar a un rápido incremento en el uso de pruebas estandarizadas para la evaluación del aprovechamiento de los alumnos. Más que haber sido motivado únicamente por intereses educativos y científicos, el creci- miento en la producción de exámenes de aprovechamiento en Estados Unidos puede atribuirse en parte al hecho de que ambos lados de un debate público sobre las escuelas públicas encontraron que la defensa y los resultados de la examinación eran políticamente útiles (Levine, 1976). Inclu- so hoy, la administración de pruebas estandarizadas en las escuelas sigue teniendo ramificaciones políticas significativas. El debate sobre las pruebas nacionales en las materias de educación bási- ca (lectura, matemáticas, etc.) es ilustrativo de la política estadounidense contemporánea sobre la examinación. Pruebas de ensayo y pruebas objetivas A pesar de cientos de estudios de investigación, la cuestión de los méritos relativos de las prue- bas de ensayo y las pruebas objetivas nunca se ha resuelto por completo. De hecho, a menudo se afirma que los maestros actuales se han excedido en el uso de las pruebas objetivas hasta llegar al detrimento de las habilidades de composición de los estudiantes. No obstante, es claro que las pruebas objetivas diseñadas con cuidado pueden medir no sólo la memorización de aconteci- mientos, sino también muchos de los objetivos más complejos de la instrucción que en otro tiempo se pensaba sólo podían ser evaluados mediante exámenes de ensayo. En las décadas pa- sadas se ha observado una tendencia notable hacia las pruebas que evalúan la obtención de ob- jetivos instruccionales de orden superior, como la aplicación, el análisis y la evaluación. Otra tendencia ha sido la de alejarse de las pruebas estandarizadas de aprovechamiento que intentan medir el logro individual en objetivos educativos amplios y aproximarse a las pruebas diseñadas de manera específica para textos y programas de enseñanza particulares. Por último, en respues- ta a la crítica de que las pruebas objetivas alientan una redacción deficiente y una autoexpresión inadecuada, ahora se concede mayor énfasis a las pruebas estandarizadas de ensayo de la expre- sión escrita. En un intento por ampliar la evaluación del aprovechamiento del estudiante, tam- bién se utilizan pruebas de respuesta construida en matemáticas y ciencia, protocolos de experimentos de laboratorio y portafolios del trabajo (Aiken, 1998, capítulo 5; Linn,, 1992). Propósitos y funciones de las pruebas de aprovechamiento La función básica de las pruebas de aprovechamiento es determinar cuánto saben las personas acerca de ciertos temas o qué tan bien pueden desempeñar ciertas habilidades. Éste es el primer propósito mencionado en la tabla 6.1. Los resultados de las pruebas de aprovechamiento infor- man a los estudiantes, así como a los maestros y padres, acerca de sus logros y deficiencias es- colares. Otras funciones de las pruebas de aprovechamiento incluyen proporcionar información para la ubicación avanzada, la acreditación de cursos y la certificación. Esas pruebas también FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 111 TABLA 6.1 Los muchos propósitos de las pruebas de aprovechamiento 1. Evaluación de la competencia lograda 2. Diagnóstico de las fortalezas y debilidades 3. Asignación de calificaciones 4. Certificación y promoción 5. Ubicación avanzada y crédito por examinación 6. Evaluación del currículo y el programa 7. Responsabilidad 8. Información para la política educativa Fuente: Linn, R. L. (1992). Achievement testing. En M. C. Alkin (editor), Encyclopedia of educational research (6a edición, págs. 1-12. Nueva York: Macmillan) pueden estimular el aprendizaje de los estudiantes, proporcionar a los maestros y al personal ad- ministrativo información para planificar o modificar el currículo de un estudiante o grupo de es- tudiantes, y servir como medio de evaluación del programa instruccional y el equipo. Las pruebas sólo miden una muestra de los logros educativos, pero se supone que esa muestra es re- presentativa de una materia o grado particular. Es evidente que las pruebas de aprovechamiento no son el único método para determinar la efectividad de la instrucción, pero proporcionan medidas de la calidad de la educación y, por ende, pueden contribuir a su mejoramiento. Por lo menos, las calificaciones en las pruebas de aprovecha- miento sirven como señales para alertar a maestros, personal administrativo y padres acerca de las necesidades instruccionales de los estudiantes a nivel individual y colectivo (Ansley, 1997). Las pruebas de aprovechamiento no pueden evaluar todos los objetivos o metas adopta- das por los filósofos educativos. Esas pruebas no miden de manera directa variables afectivas como el deleite y la confianza en el pensamiento, el interés en la materia educativa, el placer al usar las habilidades, el disfrute de la lectura, el aprender a aprender y a afrontar el cambio o el desarrollo de habilidades interpersonales y sociales. Lo que pueden medir, y con mayor preci- sión que los juicios de los maestros u otras evaluaciones subjetivas, es el grado en el que los es- tudiantes han alcanzado ciertos objetivos cognoscitivos de instrucción (Levine, 1976). Pruebas donde hay mucho en juego y donde hay poco en juego Los resultados de los exámenes pueden usarse con propósitos múltiples que conciernen tanto a individuos como a grupos. Por ejemplo, en los contextos educativos, las pruebas pueden super- visar el aprovechamiento del estudiante y evaluar la efectividad de los programas educativos. El grado en el que las decisiones aportadas por los resultados de una prueba impactan o acarrean consecuencias importantes para estudiantes y grupos se conoce como lo que está en juego en la prueba. Dichas decisiones pueden involucrar el diagnóstico de que un estudiante tiene una dis- capacidad de aprendizaje, el programa educativo apropiado para un estudiante con tal discapa- cidad, la ubicación de un estudiante en un programa para superdotados y talentosos, y la promoción o graduación de un estudiante de bachillerato. Otras decisiones importantes a las que contribuyen las pruebas son la admisión a cierta institución, la ubicación en un programa desea- do, la obtención de una beca y la certificación o licencia profesional (Heubert y Hauser, 1999). En contraste con las pruebas donde hay mucho en juego, las pruebas donde hay poco en juego consisten en la aplicación de un examen sólo con propósitos informativos o para juicios al- 112 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas tamente tentativos. Por ejemplo, los resultados pueden utilizarse sólo para supervisar el progre- so académico y proporcionar retroalimentación sobre ese progreso a los estudiantes, maestros y padres, sin que ello implique tomar una decisión específica (American Educational Research Association et al., 1999). Sea cual sea el propósito para el que puedan usarse y que estén involucradas decisiones donde hay mucho o poco en juego, es importante que todos los instrumentos psicométricos mi- dan lo que están diseñados para medir, y que lo hagan de manera confiable. Sin embargo, cuan- do los resultados de una prueba se utilizan para tomar decisiones en las que hay mucho en juego y pueden tener efectos importantes en la vida de los estudiantes, es particularmente importante que la calidad de la prueba (validez, confiabilidad, estandarización y cosas similares) sea tan al- ta como sea posible. Debe tenerse extremo cuidado al aplicar y calificar la prueba, y los resulta- dos deben interpretarse de manera correcta. También debe tenerse en cuenta el contexto en el cual se toman las decisiones a partir de las calificaciones. Pruebas elaboradas por el maestro y pruebas estandarizadas Las pruebas estandarizadas de aprovechamiento representan sólo una fracción de la cantidad de pruebas aplicadas en la escuela; los estudiantes pasan mucho más tiempo presentando pruebas elaboradas por el maestro que pruebas estandarizadas (Dorr-Bremme y Herman, 1986). Sea co- mo sea, los propósitos o funciones de las pruebas de aprovechamiento descritos en los párrafos precedentes se aplican tanto a las pruebas administradas en el aula y preparadas por los maestros como a las estandarizadas elaboradas por profesionales en la medición educativa. Las pruebas preparadas por el maestro difieren de las estandarizadas en ciertos aspectos im- portantes. Las primeras son más específicas para un maestro en particular, un salón de clases y una unidad de instrucción, y son más sencillas de mantener actualizadas que una prueba estandarizada. En consecuencia, es más probable que una prueba elaborada por el maestro refleje los objetivos educativos vigentes en una escuela o para un maestro en particular. Por otro lado, las pruebas estan- darizadas se elaboran alrededor de un núcleo de objetivos educativos comunes a muchas escuelas diferentes. Esos objetivos representan los juicios combinados de expertos en la materia, quienes cooperan con los especialistas en la elaboración de pruebas para desarrollar estos instrumentos. Las pruebas estandarizadas de aprovechamiento también se interesan tanto o más en la comprensión y los procesos de pensamiento como en el conocimiento factual. De este modo, las pruebas prepara- das por el maestro y las estandarizadas son complementarias más que métodos opuestos de evaluar el aprovechamiento. Miden cosas algo diferentes pero de igual importancia y, dependiendo de los objetivos del aula o escuela en particular, deben emplearse ambos tipos de pruebas. Cuando una prueba estandarizada particular no evalúa las metas educativas de cierto sistema escolar, deben con- siderarse otras pruebas estandarizadas o incluso una prueba elaborada por el maestro. Además de elaborarse con mayor cuidado y de tener una cobertura de contenido más am- plia que las pruebas preparadas por el maestro, las pruebas estandarizadas de aprovechamiento tienen normas y por lo general son más confiables. Por esas razones, las pruebas estandarizadas de aprovechamiento son particularmente útiles al comparar a alumnos de manera individual con el propósito de ubicación en la clase, así como en la evaluación de diferentes programas de es- tudio mediante la valoración de los logros relativos de escuelas y distritos diferentes. La función diagnóstica de una prueba, por medio de la cual se determinan las capacidades y discapacidades de una persona en cierta materia o área, puede ser cumplida por las pruebas preparadas por el maestro y por las estandarizadas. Sin embargo, las pruebas estandarizadas son algo más efecti- vas para este propósito. Las decisiones que atañen a la individualización de la enseñanza, a la ubicación de los estudiantes en niveles particulares de instrucción y a la educación terapéutica, FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 113 por lo general se toman sobre la base de las calificaciones obtenidas en pruebas estandarizadas más que en las preparadas por el maestro. Responsabilidad Las calificaciones de las pruebas se han empleado no sólo para evaluar el desempeño de los estu- diantes, sino también para evaluar a los maestros y las escuelas. El hacer que los maestros rindan cuentas de su grado de éxito al enseñar a los estudiantes, o responsabilidad, ha sido un tema contro- vertido en la educación durante muchos años. ¿Deben los maestros, a quienes por lo general no se les permite seleccionar a sus estudiantes, pero que deben tratar de enseñar a todos los que se les asig- nan, ser recompensados sólo cuando alcanzan los objetivos instruccionales y no ser recompensados o incluso ser penalizados cuando no lo logran? Como resultado de la creciente preocupación públi- ca por el fracaso de las escuelas para hacer un trabajo adecuado al educar a los estudiantes, se ha prestado particular atención a la responsabilidad por la efectividad de la enseñanza. En los sectores público y privado se han hecho intentos por responsabilizar a los maestros del aprendizaje de los estudiantes. De conformidad con esos esfuerzos, se especifican las competencias que los estudian- tes deben alcanzar para completar un grado o curso de estudio o para graduarse del bachillerato. La evaluación de la efectividad de la instrucción se basa luego en la obtención de esas competencias, según lo indican en gran medida las calificaciones en las pruebas de aprovechamiento. Por desgracia, muchos estudiantes y padres ven la educación formal desde una perspecti- va más bien estrecha de vendedor-consumidor, en la cual las escuelas son vistas como mercados que “venden” productos educativos a los clientes estudiantes. Dicha perspectiva hace recaer la responsabilidad del aprendizaje del estudiante casi por completo en los maestros, los materiales educativos y la estructura y dinámicas de las organizaciones en las que tiene lugar el aprendiza- je. Sin embargo, los maestros saben que es difícil, si no imposible, enseñar a estudiantes que no están interesados en aprender la materia y/o que no aceptan parte de la responsabilidad por su propia educación. De este modo, además de la responsabilidad del maestro, es necesario enfati- zar la importancia de la responsabilidad del estudiante y de la responsabilidad de los padres pa- ra hacer efectivo el proceso de aprendizaje. La siguiente carta de un maestro de octavo grado es informativa: Les pedí a los estudiantes de octavo grado en tres clases de matemáticas que levantaran la mano si habían planeado asistir a un colegio o universidad luego de su graduación de bachillerato. Con ex- cepción de dos o tres estudiantes en cada grupo, todos los demás levantaron la mano. Aun así, apro- ximadamente la mitad de quienes dijeron que tenían planeado seguir con la educación superior no se habían molestado en terminar la tarea de matemáticas. Muchos habían estado demasiado ocupados viendo televisión, jugando videojuegos, hablando por teléfono, visitando amigos, haciendo compras o caminando por las calles en busca de algo qué hacer. En lugar de culpar a los maestros, administra- dores y exámenes de ingreso a la universidad por los fracasos personales, es tiempo de que los estu- diantes y sus padres acepten la responsabilidad por sus éxitos o fracasos educativos. Los padres que asignan un gran valor al aprendizaje y enseñan autodisciplina, respeto por los demás, integridad per- sonal y simplemente trabajar duro, tienen hijos con mayor probabilidad de adquirir la autoconfianza y las habilidades necesarias para lograr sus metas futuras (US News, 30 de abril de 2001). Contrato de desempeño La responsabilidad se asocia con el contrato de desempeño, es decir, con hacer que los salarios de los profesores se establezcan en proporción a su efectividad en la enseñanza. Un criterio im- portante de la efectividad en la enseñanza consiste en cambios del pretest al postest en el cono- 114 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas cimiento o la competencia del estudiante. Al usar las pruebas para determinar el grado en que los maestros han cumplido un contrato para enseñar el material educativo a los estudiantes, se apli- can las mismas pruebas u otras equivalentes al inicio y al final de una unidad instruccional o un curso. En consecuencia, entre mayores sean los avances en el aprovechamiento de un estudiante del pretest al postest, mayor será el salario del maestro. Por desgracia, un resultado frecuente de la aplicación de exámenes antes y después es que se presta demasiada atención al contenido de las pruebas a expensas de otros objetivos instruccionales importantes. Cuando se combinan con otras medidas del desempeño, las calificaciones de las pruebas de aprovechamiento pueden y deben contribuir a tomar las decisiones concernientes a la respon- sabilidad y el contrato de desempeño, pero tienen limitaciones definidas cuando se usan con es- te propósito. Puede parecer como si la determinación de la importancia de las diferencias o cambios en las calificaciones de la prueba no presentara problema. Supuestamente, todo lo que necesitamos hacer es restar las calificaciones del pretest a las del postest y analizar las diferen- cias de la manera que se considere apropiada. Sin embargo, un problema con este enfoque es que la diferencia en las puntuaciones crudas puede ser muy poco confiable. Esto es particularmente cierto cuando los coeficientes de confiabilidad de las calificaciones del pretest y del postest son bastante bajos, aunque sean más altos que la confiabilidad de la diferencia de las calificaciones. Otro problema estadístico encontrado al analizar la diferencia de las puntuaciones es la regre- sión hacia la media, que es la tendencia a que los examinados cuyas calificaciones en el pretest son muy bajas o muy altas obtengan en el postest calificaciones más cercanas a la media. El uso de la diferencia regresada de las calificaciones a menudo se recomienda como una forma de tratar con la regresión a la media, pero dicho procedimiento no siempre es aconsejable. Se han propuesto pro- cedimientos estadísticos más complejos para analizar los cambios en las calificaciones de la prueba, pero todos tienen limitaciones de un tipo u otro. Evaluaciones sumatoria y formativa La práctica tradicional demanda aplicar una prueba de aprovechamiento al final de una unidad ins- truccional o de un curso para determinar si los estudiantes alcanzaron los objetivos educativos es- pecificados. En este procedimiento, conocido como evaluación sumatoria, la calificación en una prueba se ve como un producto final, o suma, de unidades extensas de experiencia educativa. En contraste con la evaluación sumatoria, la necesidad de evaluación formativa se deriva de la creen- cia de que la instrucción y la evaluación deberían estar integradas. El propósito de la evaluación formativa es “ayudar tanto al aprendiz como al profesor a centrarse en el aprendizaje particular ne- cesario para avanzar hacia el dominio” (Bloom, Hastings y Madaus, 1971, p. 61). Cuando la eva- luación es formativa, las pruebas y otros métodos de evaluación del progreso educativo se aplican de manera continua durante el proceso de instrucción. Se desarrollan unidades instruccionales que incluyen los exámenes como parte integral y progresiva de la instrucción, en lugar de ser una sim- ple culminación del proceso. De esta forma, el desempeño del aprendiz se supervisa a lo largo de la secuencia instruccional y puede servir para dirigir la revisión y el aprendizaje ulterior. Medición con referencias a normas y a criterio De manera tradicional, la medición educativa no sólo ha sido sumatoria más que formativa, si- no que también se ha referido a normas más que a criterios. La calificación de una persona en un prueba con referencia a normas se interpreta comparándola con la distribución de calificaciones de un grupo de norma (estandarización) particular. Pero la calificación de una persona en una prueba con referencia a criterio se interpreta comparándola con un estándar o criterio estableci- FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO 115 do de desempeño efectivo.1 Este estándar puede ser formulado a partir del consenso de un gru- po de personas relacionadas con todas las carreras de la vida que se interesan en la educación —profesores y personal administrativo, padres, expertos en medición y políticos. En términos del contenido, las pruebas con referencia a normas suelen ser más amplias y contener tareas más complejas que las pruebas con referencia a criterio. En consecuencia, las diferencias individuales en las calificaciones de una prueba con referencia a normas tienden a ser más extensas que las de una prueba con referencia a criterio. A pesar de las diferencias en el propósito y diseño de las pruebas con referencia a normas y con referencia a criterio, una prueba particular de aprovechamiento puede funcionar de ambas ma- neras. Con frecuencia es posible determinar con el mismo instrumento cuánto material ha aprendi- do un estudiante (función referida a criterio) y cómo se compara su desempeño con el de otros estudiantes (función referida a normas) (Carver, 1974). Se dispone de pruebas con referencia a criterio diseñadas para medir el aprovechamiento en una sola materia, digamos lectura o matemáticas, así como de baterías completas de estas pruebas. Otro producto ofrecido por ciertas compañías editoras de exámenes son las pruebas de una sola materia combinadas con estrategias instruccionales adecuadas para cada materia. Varias compa- ñías dedicadas a la examinación también preparan pruebas con referencia a criterio elaboradas se- gún ciertas especificaciones, o tienen disponibles bancos de reactivos con referencia a criterio en diversas materias. Esas pruebas elaboradas según especificaciones tienen la ventaja de estar adap- tadas a los objetivos de un sistema escolar en particular, pero también tienen varias desventajas. Además del problema de decidir sobre una calificación aceptable para aprobar o el nivel de domi- nio en cada prueba, la necesidad de un gran número de subpruebas para medir muchos objetivos educativos diferentes requiere que cada subprueba sea relativamente corta; por ende, su confiabi- lidad es bastante baja. Además, no se ha resuelto del todo el problema de cómo determinar la con- fiabilidad y validez de las diversas subpruebas y de la prueba como un todo (Taylor y Lee, 1995). Evaluación Nacional del Progreso Educativo En Estados Unidos, ciertas pruebas de aprovechamiento se administran sobre una amplia base escolar, distrital o estatal para evaluar el progreso educativo de los estudiantes y supervisar la efectividad a largo plazo de programas educativos particulares. Los resultados de dicho sistema de examinación se presentan en los medios y a menudo se emplean para apoyar la acción legis- lativa y los gastos concernientes a la educación pública. Aunque se administra una serie de prue- bas de aprovechamiento a nivel nacional, de manera periódica se efectúan pruebas distritales de aprovechamiento para evaluar el estatus educativo de muestras representativas de estudiantes en cada estado. Las pruebas administradas por la Evaluación Nacional del Progreso Educativo es- tán próximas a merecer esta distinción. Un enfoque con referencia a criterio ha conducido a la Evaluación Nacional del Progreso Educativo (NAEP), también conocida como La Boleta de Calificaciones de la Nación. La NAEP es un estudio continuo, a nivel nacional, del conocimiento y las habilidades, capacidades inte- lectuales y actitudes de los jóvenes estadounidenses. Su propósito declarado “es mejorar la efec- tividad de las escuelas de nuestra nación al poner a disposición de los responsables de la política a nivel nacional, estatal y local información objetiva acerca del desempeño de los estudiantes en 1Algunos autores (por ejemplo, Anastasi y Urbina, 1997) prefieren el término prueba con referencia al do- minio a prueba con referencia a criterio. Ambos términos indican que el marco de referencia empleado al interpretar las calificaciones de una prueba es el contenido de la prueba, más que la muestra de examina- dos en los que se estandarizó ésta. 116 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas áreas selectas de aprendizaje” (Public Law 100-297, sección 3401). Desde 1969, la NAEP ha evaluado periódicamente las habilidades de grandes muestras de estadounidenses en cuatro gru- pos de edad (9, 13, 17 y de 25 a 35 años) en lectura, matemáticas, ciencia, redacción, historia de Estados Unidos, geografía y artes. En la NAEP nacional se ha utilizado un procedimiento de muestreo aleatorio estratifica- do para seleccionar a cierto número de personas de cada género, nivel socioeconómico y raza de cuatro regiones geográficas y cuatro tipos de comunidades. Aunque se plantean muchas pregun- tas concernientes a cada tema, el hecho de que se muestrean tanto los examinados como los reac- tivos permite que sólo se necesite un periodo de prueba relativamente corto (50 minutos) por persona. A los adultos se les evalúa de manera individual, y a las personas más jóvenes tanto de manera individual como en grupo. Como los resultados se expresan en términos de los porcen- tajes de personas en cada grupo de edad que poseen ciertas habilidades y conocimiento, los nom- bres de esas personas no aparecen en los documentos de la prueba. Los resultados se presentan para la nación como un todo y para regiones geográficas específicas. Los resultados a largo pla- zo en matemáticas, ciencia y lectura se obtienen para las edades de 9, 13 y 17 años, y en redac- ción para los grados cuarto, octavo y undécimo. Desde 1990, las evaluaciones de la NAEP también se han realizado de manera voluntaria a nivel estatal. Se seleccionan muestras separadas representativas de estudiantes para cada jurisdic- ción o estado participante, pero los resultados no son representativos del estado en general. La NAEP fue planificada como un programa continuo para proporcionar al público estado- unidense, y en especial a los legisladores y educadores, información sobre el estado y crecimiento de los logros educativos en Estados Unidos y sobre el grado en que se están alcanzando las metas educativas de esa nación. No fue diseñada, como algunos han temido, para evaluar los logros de escuelas o distritos escolares específicos o como un medio de control federal sobre los programas de las escuelas públicas. Sin embargo, los hallazgos han sido analizados por área geográfica, tama- ño y tipo de comunidad, género, educación de los padres y grupo étnico. De particular interés son los análisis de los efectos del apoyo federal y de tipos específicos de programas sobre los logros educativos.2 TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS Existen cuatro tipos de pruebas de aprovechamiento estandarizadas: baterías de pruebas de es- tudio, pruebas de estudio en materias especiales, pruebas de diagnóstico y pruebas de pronósti- co. Algunas son pruebas individuales diseñadas para aplicarse a una persona a la vez, pero la gran mayoría son pruebas colectivas que pueden aplicarse a cualquier número de personas al mismo tiempo. El mercado para pruebas muy especializadas en un área temática particular es más bien limitado, por lo que las pruebas estandarizadas de aprovechamiento por lo regular cu- bren áreas amplias de contenido y tratan con materias de conocimiento general. Debido a que el currículo se vuelve más especializado en los niveles superiores, la administración de pruebas es- tandarizadas de aprovechamiento es menos común después de la secundaria. 2Es posible obtener informes de la NAEP y publicaciones relacionadas en ED Pubs, P.O. Box 1398, Jessup, MD 20794-1398. Teléfono: 877-4ED-PUBS. FAX: 301-470-1244. Direcciones Web: http://www.ed.gov/pubs/edpubs.html y http://nces.ed.gov/nationsreportcard. TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS 117 Baterías de pruebas de estudio La forma más integral de evaluar el aprovechamiento es aplicando una batería de pruebas de estu- dio, que es un conjunto de pruebas sobre una materia diseñadas para un nivel particular. El propó- sito principal de aplicar una batería de pruebas es determinar la posición general de un individuo en varias materias, más que medir sus fortalezas y debilidades específicas. En consecuencia, cada prueba de una batería de estudio contiene una muestra bastante limitada del contenido y las habi- lidades de una materia en particular. Como todas las pruebas de una batería se estandarizan en el mismo grupo de personas y las calificaciones se expresan en la misma escala numérica, el desem- peño de una persona en diferentes materias puede compararse de manera directa. Aunque las baterías de pruebas proporcionan una evaluación más amplia del aprovecha- miento de los alumnos que las pruebas sencillas, tienen una serie de desventajas. A pesar de que el tiempo total de administración de una batería es más largo, las pruebas son más cortas que las pruebas de estudio sencillas por lo que su confiabilidad suele ser menor. Por supuesto, no es ne- cesario administrar todas las pruebas de una batería a un grupo dado de estudiantes; el examina- dor puede decidir administrar sólo las pruebas que proporcionen información relevante relacionada con las metas específicas de la evaluación. Pruebas de estudio de una sola materia Las pruebas de una sola materia por lo general son más largas y más detalladas que las pruebas comparables en una batería, por lo que permiten una evaluación más pormenorizada del aprove- chamiento en un área específica. Las pruebas de una sola materia arrojan regularmente una ca- lificación global y quizás un par de subcalificaciones, y no fueron diseñadas para identificar causas específicas de alto o bajo desempeño en la materia. Debido a la mayor uniformidad exis- tente entre las diferentes escuelas en lo que toca a la instrucción de la lectura y las matemáticas más que en otras materias, las pruebas estandarizadas en esas dos áreas tienden a ser más váli- das que, por ejemplo, las pruebas en ciencia y ciencias sociales. Pruebas de diagnóstico Estas pruebas tienen la función diagnostica de identificar dificultades específicas en el aprendi- zaje de una materia. Para elaborar una prueba de diagnóstico en una habilidad básica como lectu- ra, aritmética u ortografía, se analiza el desempeño en la materia como un todo en subhabilidades, y luego se elaboran grupos de reactivos para medir el desempeño en esas subhabilidades. A dife- rencia de las pruebas de estudio, que se concentran en las calificaciones totales, las pruebas de diagnóstico generan calificaciones en cada una de varias subhabilidades. Como las diferencias entre calificaciones en las diversas partes de las pruebas se interpretan al hacer diagnósticos, el número de reactivos para medir una subhabilidad particular debe ser suficiente para asegurar que las diferencias entre las calificaciones de las partes sean confiables. Por desgracia, el número de los reactivos que componen las calificaciones de las partes a menudo es pequeño y las calificaciones de las partes se correlacionan, lo que da por resultado que las diferencias de las calificaciones tengan poca confiabilidad. La mayoría de las pruebas de diagnóstico son de lectura, pero también se dispone de estas pruebas en matemáticas, ortografía y lenguas extranjeras. Una prueba de diagnóstico contiene una mayor variedad de reactivos y, por lo general, su administración se lleva más tiempo que una prueba de estudio de la misma materia. Las pruebas de diagnóstico también pueden implicar el uso de aparatos especiales, como un taquitoscopio, para presentar el material de lectura sólo por 118 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas un periodo breve, y la cámara de movimientos oculares para seguir la dirección en que se mue- ven los ojos al leer. Ciertas pruebas de estudio de administración individual, o pruebas globales, también se utilizan con propósitos de diagnóstico educativo. Algunos ejemplos son la Prueba de Aprove- chamiento Educativo de Kaufman y la Prueba de Aprovechamiento Individual de Peabody, Re- visada. Aún más globales en sus propósitos de diagnóstico son las Pruebas de Aprovechamiento de Woodcock-Johnson III, una batería de pruebas de habilidades múltiples de administración in- dividual diseñada para medir la habilidad intelectual general, habilidades cognoscitivas especí- ficas, lenguaje oral y aprovechamiento académico de individuos de entre 2 y 90 años de edad. La administración de una batería de pruebas de estudio es un primer paso razonable en un programa de examinación porque proporciona una imagen global de la posición de una persona en varias materias. Si se necesita una segunda evaluación del aprovechamiento de una persona en un área particular, puede administrarse una sola prueba de la materia específica. Por último, si se requiere hacer un análisis detallado de la discapacidad de una persona en lectura o matemáticas y determinar las causas de la discapacidad, debe administrarse una prueba de diagnóstico. Pruebas de pronóstico Las pruebas de pronóstico, al igual que las pruebas de aptitud, contienen una mayor variedad de reactivos que las pruebas de estudio del aprovechamiento en la misma materia, ya que están di- señadas para predecir el aprovechamiento en materias escolares específicas. Por ejemplo, el pro- pósito de una prueba de preparación para la lectura aplicada a un alumno de jardín de niños o de primer grado es predecir si el niño está preparado para beneficiarse de la enseñanza de la lectu- ra. A un nivel superior, se dispone de pruebas de pronóstico en matemáticas (álgebra, geometría) y en lenguas extranjeras con el fin de predecir la facilidad para el aprendizaje de esas materias. Selección de una prueba estandarizada La selección de una prueba estandarizada de aprovechamiento básicamente es cuestión de en- contrar un instrumento con un contenido que se ajuste a los objetivos instruccionales de una or- ganización, clase, escuela o sistema escolar particular. Esto significa que el nivel de conocimiento o habilidad de los examinados y el contenido y objetivos del currículo deben de- terminarse antes de decidir qué prueba(s) administrar. Además, deberán considerarse las razones para administrar la prueba y la forma en que van a usarse las calificaciones; no tiene sentido ad- ministrar una prueba simplemente porque “parece buena” y luego dejar que los resultados no utilizados se empolven en una gaveta o en un armario. Propósitos y consideraciones prácticas. El manual que acompaña a una prueba por lo regu- lar proporciona detalles sobre sus usos potenciales (evaluación, ubicación, diagnóstico de las discapacidades de aprendizaje, preparación para aprender, evaluación del currículo) y cita evi- dencia de apoyo. En consecuencia, antes de seleccionar una prueba deben aclararse las formas específicas en que van a usarse las calificaciones y consultarse los manuales de la prueba para determinar qué instrumentos son apropiados para esos propósitos. Además de leer el manual, los posibles usuarios deben examinar una copia de la prueba e incluso resolverla para determinar si es adecuada para sus propósitos. Algunas empresas también publican muestras de las pruebas que editan, las cuales constan de un folleto de la prueba, una hoja de respuestas, un manual, una clave de calificación y otros materiales asociados. También pueden solicitarse catálogos de pruebas. Esos materiales son útiles para decidir qué pruebas administrar. La mayoría de las com- TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS 119 pañías de pruebas también tienen sitios Web en los que describen sus propósitos, productos y servicios (vea el apéndice C). Otra cosa que debe considerarse al seleccionar una prueba es el grado de cooperación que puede esperarse de la escuela u otra organización al administrarla e interpretar los resultados. También son de importancia cuestiones prácticas como costo y tiempo de aplicación, calificación y análisis de los resultados. Los servicios de calificación por medio de una máquina proporciona- dos por firmas comerciales de pruebas facilitan en gran medida los procesos de calificación y aná- lisis y, por lo común, son de un costo bastante razonable. Confiabilidad, validez y normas. Las características estadísticas de las pruebas de aprove- chamiento suelen pasarse por alto al momento de seleccionar una prueba de este tipo, pero es crucial atender este aspecto. La confiabilidad de la mayoría de las pruebas de aprovechamiento se ubica entre .80 y .90, pero el significado de esos altos coeficientes depende de los procedi- mientos con que se obtuvieron. Un coeficiente de formas paralelas es preferible a un coeficien- te de test-retest o a uno de consistencia interna porque es más probable que los dos últimos estén inflados por el error de medición. Para decidir si una prueba de aprovechamiento es válida, de- be obtenerse evidencia de su validez de contenido comparando éste con los objetivos del progra- ma instruccional de interés. Un manual de la prueba preparado adecuadamente describe el sistema para clasificar el contenido y los objetivos conductuales utilizados al elaborar la prueba, y los usuarios potenciales deben decidir si esos objetivos corresponden a los suyos. Cuando se administra una prueba con el propósito de predecir el aprovechamiento posterior, como sucede con una prueba de preparación para la lectura u otra prueba de pronóstico, también es importan- te obtener evidencia de su validez predictiva. Además de la confiabilidad y la validez, antes de seleccionar una prueba también debe exa- minarse si las normas son adecuadas y apropiadas. La mayoría de las pruebas de aprovechamien- to bien elaboradas se estandarizaron en muestras (estadounidenses) nacionales representativas, en ocasiones estratificadas de acuerdo con edad, sexo, región geográfica, posición socioeconó- mica y otras variables relevantes. Los compradores de la prueba que planean presentar las cali- ficaciones en términos de esas normas deben asegurarse de que las características del grupo de norma son similares a las de los estudiantes que van a examinarse. Para propósitos de ubicación y otras comparaciones dentro de una escuela o sistema escolar determinado, las normas locales pueden ser incluso más significativas que las nacionales. Los usuarios de las pruebas estandarizadas de aprovechamiento también deben estar al tan- to de que, al trazar el progreso académico de un estudiante por medio de calificaciones normadas en una prueba estandarizada de aprovechamiento aplicada a niveles sucesivos, se asume que los gru- pos de diferentes niveles en los que se estandarizó la prueba son equivalentes. Por ejemplo, los cam- bios demográficos en las comunidades de las que se extrajeron estudiantes de ciertas escuelas pueden producir diferencias significativas en la composición de grupos de estudiantes de diferen- tes niveles. Esto puede suceder debido a la llegada migratoria reciente de personas que difieren en el nivel socioeconómico, nacionalidad o grupo étnico. Si hay razones para creer que existen dife- rencias significativas entre los grupos de norma en variables distintas a las relacionadas con el cre- cimiento, entonces las calificaciones normadas por grado, de rango percentilar o estándar obtenidas por un estudiante en una prueba no pueden compararse con precisión entre los niveles. Al adquirir una prueba es importante no dejarse engañar por su nombre. Los usuarios de pruebas experimentados están bien conscientes de que es un error suponer que instrumentos con el mismo nombre miden la misma cosa e instrumentos que tienen nombres diferentes miden co- sas distintas. Antes de decidir qué pruebas de aprovechamiento adquirir, tanto los usuarios no- 120 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas vatos como los experimentados pueden beneficiarse de consultar The Mental Measurements Yearbook, Test Critiques y las revisiones de pruebas en revistas profesionales y otras fuentes. BATERÍAS DE PRUEBAS DE APROVECHAMIENTO Las baterías de pruebas de aprovechamiento representan esfuerzos por medir las amplias capaci- dades y habilidades cognoscitivas cultivadas por las experiencias educativas en áreas centrales. Estas baterías de pruebas de niveles múltiples evalúan destrezas básicas en lectura, matemáticas, lenguaje y, a los niveles apropiados, habilidades de estudio, ciencias sociales y ciencia. Es posible encontrar descripciones de baterías de pruebas de aprovechamiento que están comercialmente disponibles en las diversas ediciones de The Mental Measurements Yearbook, Tests in Print, Tests y Test Critiques, así como en los catálogos de los editores de pruebas. Tales baterías fueron diseñadas para evaluar el aprovechamiento educativo formal de estudiantes des- de el jardín de niños hasta bachillerato, con énfasis en los años de primaria y secundaria. Los programas de exámenes de muchas escuelas se basan en las baterías de pruebas de apro- vechamiento aplicadas en otoño y primavera a sus alumnos con el propósito de medir el logro y el progreso educativo general. Los resultados de estas pruebas son de interés para los maestros, pa- dres, personal administrativo, miembros de los consejos escolares, líderes políticos y, por supues- to, para los estudiantes. Una limitación del uso de baterías es que algunas de las pruebas pueden no corresponder a los objetivos particulares de la escuela o sistema escolar. Además, no todas las pruebas en una batería determinada tienen igual confiabilidad o la misma validez de contenido. Normas de una batería de pruebas Debido a que las diversas subpruebas de un nivel particular en una batería de pruebas de apro- vechamiento se estandarizaron en el mismo grupo de personas, el conjunto unificado de normas resultantes permite la evaluación directa del aprovechamiento relativo de una persona en varias áreas temáticas. Además, si puede asumirse que diferentes niveles de una batería de pruebas se estandarizaron en grupos comparables de estudiantes, entonces el progreso cognoscitivo del alumnado puede trazarse comparando sus calificaciones en las pruebas que componen la batería a lo largo de un periodo de varios años. Sin embargo, esto no debe hacerse cuando existe algu- na duda acerca de la equivalencia o posibilidad de comparación de las diferentes muestras de ni- vel de los estudiantes en los que se estandarizó la batería. Además, las normas contra las que se comparan las calificaciones de los estudiantes deben haberse obtenido de la aplicación de la(s) prueba(s) al grupo de estandarización en la misma época del año (otoño o primavera) en que se examine a los alumnos cuyas calificaciones están siendo evaluadas. Contenido de las baterías de pruebas de aprovechamiento Nivel de escuela primaria. Debido a la mayor uniformidad del contenido instruccional en la primaria, las baterías de pruebas de aprovechamiento se administran con mayor frecuencia en este nivel para evaluar el desarrollo educativo. Una batería típica para la escuela primaria cons- ta de subpruebas sobre vocabulario de lectura, lectura de comprensión, uso del lenguaje, orto- grafía, aritmética básica y comprensión de la aritmética. También puede incluir subpruebas para medir habilidades de estudio, ciencias sociales y ciencia, pero al nivel de primaria se enfatiza la medición del aprovechamiento en habilidades cuantitativas y verbales básicas. Las baterías po- pulares de pruebas de aprovechamiento para este nivel incluyen la Serie de Pruebas de Aprove- chamiento de Stanford, las Pruebas de Aprovechamiento de California, la Prueba Comprensiva BATERÍAS DE PRUEBAS DE APROVECHAMIENTO 121 de Habilidades Básicas y las Pruebas de Aprovechamiento Metropolitanas. Esas baterías tam- bién contienen pruebas para niveles de jardín de niños y secundaria. Nivel de escuela secundaria. Debido a la variabilidad en los programas académicos de dife- rentes estudiantes de nivel medio, las baterías de pruebas de aprovechamiento son menos útiles a este nivel. Las baterías de pruebas al nivel de escuela secundaria siguen enfatizando las habi- lidades básicas en lectura, lenguaje y aritmética, pero también se incluyen pruebas de ciencias sociales, ciencia y habilidades de estudio. Tanto a nivel de primaria como de secundaria, las pruebas de aprovechamiento enfatizan el desarrollo educativo general y no están vinculadas a cursos específicos en escuelas particulares. Al nivel de la educación media también son de inte- rés baterías como las Pruebas Universitarias Estadounidenses (ACT), las cuales se administran anualmente con propósitos de admisión a la universidad. La ACT es en realidad una batería de pruebas de aprovechamiento, pero es similar a una prueba de aptitud en el hecho de que su am- plio rango de contenido se relaciona menos con experiencias escolares específicas que la ma- yoría de las pruebas de aprovechamiento. Pruebas de educación básica Varias baterías de pruebas de aprovechamiento se han diseñado de manera específica para medir la competencia en las habilidades básicas de los adultos con educación inferior al nivel medio. Un ejemplo son las Pruebas de Educación Básica para Adultos (TABE) (de CTB/McGraw-Hill), las cuales constituyen una prueba de niveles múltiples estandarizada en adultos que destaca las habi- lidades en lectura, matemáticas y lenguaje. Otra prueba para determinar el nivel de desarrollo en lectura y aritmética de empleados o solicitantes en una amplia variedad de ocupaciones y ambien- tes de rehabilitación es el Índice de Lectura-Aritmética (RAI) (de NCS London House). En la fi- gura 6.1 se presentan reactivos de muestra de esta prueba, la cual, si bien no se cronometra, se lleva alrededor de 25 minutos por cada una de sus dos partes. A pesar de la disponibilidad de pruebas de habilidades básicas para adultos, sólo una mi- noría de los negocios y las industrias evalúan en realidad la alfabetización de sus empleados. En consecuencia, muchos trabajadores son funcionalmente iletrados y deben “engañar” al realizar un trabajo que requiere habilidades de lectura. Es de suponer que los ejecutivos de dichas com- pañías se dan cuenta de que algunos de sus empleados no pueden leer, escribir, realizar cálculos o comprender bien el idioma, pero parecen estar limitados en lo que pueden hacer acerca de es- ta situación. Esto es desafortunado porque los empleados analfabetas tienen mayor probabilidad de sufrir accidentes y se ven impedidos en su capacidad para avanzar en una organización. Pruebas GED Las Pruebas de Desarrollo Educativo General (GED) (de GED Testing Service) también son apropiadas para adultos con educación formal limitada, y son presentadas cada año por más de 800,000 adultos. Las pruebas GED fueron diseñadas para medir los logros educativos de perso- nas con educación media o equivalente. La batería completa, que se lleva alrededor de siete ho- ras y media, consta principalmente de reactivos de opción múltiple en cinco áreas: habilidades de redacción, ciencias sociales, ciencia, literatura y arte, y matemáticas. La prueba de habilida- des de redacción también incluye un ensayo que documenta la habilidad del examinado para es- cribir y comunicarse de manera efectiva. En lugar de enfatizar hechos y detalles específicos, los reactivos de la GED tratan sobre conceptos amplios y generalizaciones basadas en competencias y conocimiento enseñados en los programas académicos de la secundaria. Muchas organizacio- nes académicas y de negocios, así como las fuerzas armadas de Estados Unidos, aceptan califi- 122 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Índice de lectura Índice aritmético Esto es un(a) ......1. Sume: niño bote pelota pájaro Un cocinero prepara Reste: azúcar ensalada arena sal Índice de lectura Índice aritmético Esto es un(a) ....1. Sume: vaca caballo cerdo león La gente respira: aire Reste: agua arena comida FIGURA 6.1 Muestra de reactivos del Índice de Lectura-Aritmética. (Copyright © 1968 NCS Pearson, Inc. Todos los derechos reservados. Publicado y distribuido exclusivamente por NCS Pearson, Inc. Reproducido con autorización de NCS Pearson, Inc.) caciones en esas pruebas de diploma de equivalencia general sobre la misma base que el diplo- ma de secundaria (vea el sitio Web www.gedtest.org). PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS La aplicación de una batería de pruebas de aprovechamiento tiene prioridad en un programa es- colar de pruebas típico. Cuando se necesita más información sobre el desempeño del estudiante en una materia particular, el procedimiento usual es administrar una prueba específica en esa materia luego de la batería. Esas pruebas específicas de aprovechamiento tienen ciertas ventajas sobre pruebas comparables en una batería. Por ejemplo, el que una prueba específica contenga más reactivos y una temática más amplia que la prueba de una batería de aprovechamiento, le da mayor probabilidad de representar de manera más adecuada los objetivos instruccionales de una amplia gama de aulas y de escuelas. Además, debido a su extensión, probablemente sea más confiable que una prueba comparable en una batería de aprovechamiento. PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 123 Una línea de una antigua canción inglesa, “Reading and writing and ‘rithmetic, taught to the tune of a hickory stick”, es un testimonio de la relevancia que han tenido esas materias a lo largo del tiempo en el programa de estudios de la escuela primaria. Se dispone de cientos de pruebas pa- ra materias específicas en lectura, matemáticas, lenguaje, ciencia, ciencias sociales, profesiones, ne- gocios y oficios. Otras áreas en las que se han publicado pruebas estandarizadas de aprovechamiento son salud, economía doméstica, artes industriales, uso de las bibliotecas, literatura, la Biblia, músi- ca, oratoria, ortografía y educación vial. Además de las pruebas tradicionales con referencia a nor- mas del tipo de estudio, diagnóstico y pronóstico, hay muchas pruebas con referencia a criterio en materias específicas. Más aún, el énfasis que en las décadas recientes se dio en las secundarias a las pruebas de competencia en habilidades básicas llevó a la publicación de una serie de pruebas de competencia para evaluar el conocimiento y las habilidades de estudiantes de secundaria y prepa- ratoria en lectura, redacción y matemáticas. Esas habilidades de supervivencia se consideran esen- ciales para enfrentar las demandas de la vida diaria. Pruebas de lectura Muchas de las dificultades experimentadas por los niños en el aprendizaje de las materias escola- res se relacionan con problemas en la lectura, una razón común para canalizar a un niño a evalua- ción psicoeducativa. Las dificultades en la lectura son acumulativas y afectan el desempeño en casi todo el trabajo escolar, por lo que es importante evaluar el nivel de lectura y diagnosticar deficien- cias en esta materia de manera oportuna y regular. Debido a sus muchos usos, se administran más pruebas de lectura que cualquier otro tipo de prueba de aprovechamiento. Se dispone de varios ti- pos de pruebas de lectura, siendo las tres categorías principales las pruebas de estudio, pruebas de diagnóstico y pruebas de preparación para la lectura. Otras formas de clasificar las pruebas de lec- tura son con referencia a norma y a criterio (o ambas) y lectura en silencio y lectura oral. Pruebas de estudio de lectura. La razón principal para aplicar una prueba de estudio de lectu- ra es determinar la habilidad general de una persona para la lectura. Las pruebas de este tipo con- tienen secciones de reactivos de vocabulario y secciones de párrafos o pasajes acerca de los cuales se plantean preguntas. Se obtiene una medida del conocimiento de las palabras a partir de los reactivos de vocabulario, mientras que la velocidad y el nivel de comprensión se miden a partir de los párrafos. Algunos ejemplos de las mejores pruebas de este tipo son las Pruebas de Lectura de Gates—MacCinitie (GMRT), cuarta edición. Diseñadas para los grados K—12 y Lectura de Adultos, las dos formas (S y T) de la GMRT contienen cinco niveles: Prelectura (PL), Lectura de Principiantes (LP), 1 y 3, 3—12 y Lectura de Adultos (LA). Las habilidades de lec- tura de principiantes y de nivel primaria se evalúan en los niveles inferiores, y el progreso conti- nuo en la competencia para la lectura se mide en los niveles superiores. La mayoría de las pruebas de estudio de lectura emplean un formato de respuesta de opción múltiple, pero en la Prueba de Lectura Stanford 9 de Final Abierto se utiliza un formato abierto-ce- rrado o de respuesta elaborada. Otros dos ejemplos de pruebas de estudio de lectura son la Prueba de Lectura Oral de Gray, revisada, y la Prueba de Comprensión de Lectura (de pro.ed). Algunas pruebas de estudio de lectura, como el CD-ROM de la Prueba de Lectura de Nelson-Denny, pue- den administrarse por medio de una computadora. Pruebas de diagnóstico de lectura. Las pruebas de diagnóstico de lectura, que son por mucho el tipo más común de pruebas de diagnóstico, pretenden evaluar muchos factores diferentes que afectan la lectura y, por ende, descubrir la fuente de las discapacidades de los estudiantes en la materia. Entre esos factores se incluyen la coordinación ojo-mano, la percepción visual y audi- 124 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas tiva, la comprensión de conceptos e incluso la motivación. Una prueba de diagnóstico de lectu- ra puede contener subpruebas en discriminación visual y auditiva, vocabulario de vista y vocabu- lario en contexto, fonemas/grafemas, vocales y consonantes, lectura en silencio y oral, lectura de comprensión y tasa de comprensión. Como las correlaciones entre esas subpruebas a menudo son sustanciales, las diversas habilidades medidas por las pruebas de diagnóstico de lectura no son ne- cesariamente independientes. Además, la confiabilidad de las subpruebas y de la prueba como un todo frecuentemente no es tan alta como sería deseable. Algunas pruebas representativas de esta categoría son las Pruebas de California para el Diagnóstico de la Lectura (de CTB/McGraw-Hill), las Pruebas de Stanford para el Diagnóstico de la Lectura, cuarta edición (de Harcourt Brace) y la Batería de Diagnóstico de la Lectura de Woodcock (de Riverside Publishing). Pruebas de preparación para la lectura. Como medida del grado en que los niños poseen las habilidades y el conocimiento necesarios para aprender a leer, una prueba de preparación para la lectura con frecuencia permite formular una mejor predicción del aprovechamiento en primer grado que una prueba de inteligencia general, y requiere menos tiempo de aplicación. Las prue- bas de preparación para la lectura contienen muchos de los mismos tipos de reactivos que las pruebas de diagnóstico de lectura, y ciertas pruebas de lectura contienen componentes de diag- nóstico y de pronóstico. Pruebas de matemáticas De manera similar a las pruebas de aprovechamiento en lectura, las de aprovechamiento en ma- temáticas pueden clasificarse como de estudio, diagnóstico y pronóstico. Pruebas de estudio de matemáticas. Diversos enfoques hacia la instrucción están represen- tados por las pruebas actuales de matemáticas, incluyendo el énfasis más tradicional en los pro- gramas de matemáticas así como puntualizaciones más modernas en lo relativo a resolución de problemas, desarrollo de conceptos y razonamiento. Ciertas pruebas están diseñadas para abar- car los énfasis moderno y tradicional en los programas de matemáticas, y se dispone de instru- mentos que reflejan enfoques instruccionales más especializados desde el nivel de primaria hasta el de universidad. En general, las pruebas de matemáticas con referencia a normas del ti- po de estudio requieren que los estudiantes demuestren cierta comprensión de conceptos y ope- raciones cuantitativas y la habilidad para aplicar esta comprensión a la resolución de problemas. Las pruebas de competencia en cursos generales y específicos de matemáticas (álgebra, cálculo, trigonometría) a nivel de secundaria se encuentran disponibles en el Programa de Exámenes de Nivel Universitario (CLEP). Pruebas de diagnóstico en matemáticas. Aunque se aplican menos que las pruebas de diag- nóstico para la lectura, las pruebas de diagnóstico en matemáticas también representan intentos por descomponer una materia compleja que involucra una variedad de habilidades en los elemen- tos que la constituyen. Los reactivos en las pruebas de diagnóstico de aritmética y matemáticas se basan en un análisis de habilidades y errores en la materia. Esas pruebas incluyen el conocimien- to y las habilidades requeridos para aplicaciones que involucran numeración, fracciones, álgebra y geometría. Dos ejemplos de pruebas de diagnóstico en matemáticas son la Prueba de Stanford para el Diagnóstico en Matemáticas, cuarta edición (de Harcourt Brace) y la KeyMath, Revisa- da/NU: Un Inventario de Diagnóstico de Matemáticas Esenciales (de American Guidance Ser- vice). El primer instrumento es una prueba de grupo diseñada para diagnosticar las fortalezas y PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 125 debilidades específicas en conceptos y operaciones matemáticas básicas de niños de primero a doceavo grado. KeyMath es una prueba de administración individual diseñada para medir la comprensión y aplicación de los conceptos y habilidades matemáticas básicas desde el jardín de niños hasta el noveno grado. Pruebas de pronóstico en matemáticas. Se han diseñado varias pruebas para pronosticar el desempeño en cursos específicos de matemáticas, pero en comparación con las pruebas de pro- nóstico de la lectura (pruebas de preparación para la lectura), no son de uso común. Dos ejem- plos son la Prueba de Pronóstico en Álgebra de Orleans-Hanna, tercera edición (de Harcourt Brace) y la Prueba de Aptitud para el Álgebra de Iowa, cuarta edición (de Riverside Publishing). Diseñada para identificar qué estudiantes tendrán éxito y cuáles enfrentarán dificultades al aprender álgebra, la Orleans-Hanna evalúa aptitud y aprovechamiento, así como el interés y la motivación para el álgebra, de estudiantes de secundaria y preparatoria. Se necesitan 40 minutos para resolver el cuestionario y los reactivos de la muestra de trabajo de la prueba. El rango per- centilar y las normas del tipo estaninas se basan en tres grupos de estudiantes: los que terminaron matemáticas de séptimo grado, los que terminaron matemáticas de octavo grado y aquellos de los dos primeros grupos que terminaron un curso de un año en álgebra en el año siguiente. La Prue- ba de Aptitud para el Álgebra de Iowa fue diseñada para evaluar la preparación en Álgebra I de los estudiantes de séptimo y octavo grados. Sus cuatro subpruebas, cuya solución requiere un to- tal de 50 minutos, miden las habilidades de pre-álgebra al interpretar gráficas e información ma- temática escrita, la traducción de problemas en palabras a un formato algebraico o de ecuaciones, la identificación de funciones y el uso de símbolos. Pruebas de lenguaje El lenguaje, tal como suele interpretarse el término, se refiere a cualquier forma de comunicación. Aunque las pruebas de lenguaje consisten principalmente en reactivos de tipo verbal, se han desa- rrollado medidas de comunicación no verbal para usar con personas que tienen problemas de audi- ción e incluso con personas de audición normal. El lenguaje oral y el escrito se enseñan en todos los niveles y se dispone de pruebas apropiadas para todos los grados. El fracaso para entender ciertos conceptos puede actuar como barrera e impedir la comunicación entre los alumnos de preprimaria y primaria y los maestros, y en consecuencia afectar seriamente el aprendizaje de los niños. Como reconocimiento de este hecho, se diseñaron la Prueba Boehm de Conceptos Básicos, tercera edi- ción (para grados K-2) y la Boehm-3 (para edades de tres a cinco años) para medir el dominio que tiene un niño pequeño de los conceptos básicos de espacio, cantidad y tiempo (vea la figura 6.2). A pesar de la disponibilidad de pruebas como la Boehm, la mayoría de las pruebas de aprovechamiento en la categoría de lenguaje se diseñó para estudiantes de secundaria y univer- sidad. Esos instrumentos, que incluyen pruebas en inglés y lenguas extranjeras, con frecuencia se aplican en el bachillerato y en las universidades con el propósito de colocar a los estudiantes en cursos de inglés o de lenguas extranjeras de acuerdo con su nivel de competencia. Pruebas del idioma inglés. Algunas de las críticas más severas a las pruebas objetivas han ve- nido de maestros de inglés, pero por lo general se reconoce que desempeñan un buen trabajo en la medición del conocimiento de gramática y vocabulario, y, en cierto grado, de las habilidades en la expresión oral y escrita. La evaluación de las habilidades en el idioma inglés forma parte de las baterías de pruebas de aprovechamiento, pero también existen otras muchas pruebas dis- tintas para medir la competencia en inglés. 126 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Marque la ventana que está encima de la puerta. Marque la ardilla que está comenzando a trepar. Marque el vestido que está más lejos de los calcetines. Marque el dibujo que muestra parte del gato. FIGURA 6.2 Muestra de reactivos de la Prueba Boehm de Conceptos Básicos, tercera edición. El examinado marca con una ⫻ la opción seleccionada. (Copyright © 2001, 1986 por The Psychological Corporation, una compañía de evaluación de Harcourt. Reproducido con autorización. Todos los derechos reservados.) Como es evidente, escuchar, hablar y escribir forman parte del uso del inglés y se ha dise- ñado una serie de pruebas para medir esas habilidades. Ejemplo de una prueba de este tipo es la serie OWLS: Escala de Comprensión Auditiva, Escala de Expresión Oral y Escala de Expresión Escrita (de American Guidance Service). La resolución de cada una de esas pruebas, las cuales son apropiadas para niños y adultos jóvenes, se lleva menos de 25 minutos. La Escala de Com- prensión Auditiva mide el lenguaje receptivo, la Escala de Expresión Oral mide el lenguaje ex- presivo y la Escala de Expresión Escrita proporciona una evaluación auténtica de las habilidades del lenguaje escrito. Las habilidades de hablar y escuchar en inglés o español pueden medirse PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 127 con las Escalas de Evaluación del Lenguaje Oral (LAS-O) y las Pre-LAS 2000 (de CTB/Mc- Graw-Hill). Las escalas LAS-O se aplican de primero a duodécimo grados y las Pre-LAS a ni- ños preescolares. Algunos ejemplos de pruebas de escritura son la Prueba de Lenguaje Escrito-3 (TOWL-3) (de pro.ed) y el Programa de Stanford de Evaluación de la Escritura, tercera edición (de Harcourt Brace). Diseñada para estudiantes de segundo a duodécimo grados, la TOWL-3 es una medida de muestra de trabajo de respuesta libre en la cual el examinado escribe historias acerca de cier- to conjunto de imágenes (vea la figura 6.3). Las historias pueden calificarse en varias variables, in- cluyendo tema, vocabulario, sintaxis, ortografía y estilo. La Evaluación Stanford de Escritura implica la presentación de una serie de sugerencias escritas diseñadas para provocar determina- da muestra de escritura en cada uno de cuatro modos descriptivos: descriptivo, narrativo, expo- sitor y persuasivo. Una Lista de Verificación del Escritor proporciona recordatorios para elaborar un borrador, componerlo y editarlo. La escritura se califica en ideas y desarrollo, orga- nización, unidad y coherencia; frases y párrafos; gramática y uso, y mecánica. Muchas otras pruebas de aprovechamiento como las Pruebas de Ubicación Avanzada CEEB y los Exámenes del Registro de Graduados también contienen un componente escrito FIGURA 6.3 Muestra de imágenes de la Prueba de Lenguaje Escrito-3. El examinado construye una historia acerca de cada una de las series de imágenes como estas dos. (Reproducidas con autorización de pro.ed, Inc.) 128 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas (ensayo). Los estudiantes de licenciatura y de posgrado cuya lengua nativa no es el inglés pue- den presentar la Prueba de Inglés Escrito (TWE) y la Prueba de Inglés Hablado (TSE). La TWE, que es aplicada por el Servicio de Pruebas Educativas junto con el TOEFL (vea líneas abajo), re- quiere que los examinados escriban un ensayo de 30 minutos en inglés estándar en respuesta a una breve pregunta o tema de ensayo. La TSE, que fue diseñada para medir la habilidad de ha- blantes no nativos del inglés para comunicarse oralmente en ese idioma, requiere que los exami- nados respondan de manera oral bajo condiciones temporales a una variedad de estímulos impresos y auditivos. Los estudiantes de países extranjeros que solicitan admisión a colegios y universidades es- tadounidenses y cuya lengua materna no es el inglés, por lo general presentan la Prueba de Inglés como Lengua Extranjera (TOEFL). El TOEFL, un examen de opción múltiple de tres horas apli- cado por el Servicio de Pruebas Educativas (ETS), consta de tres partes: Comprensión auditiva, que mide la habilidad para entender el inglés hablado; Estructura y Expresión Escrita, que mide la habilidad para reconocer el lenguaje inapropiado para el inglés estándar escrito, y Vocabulario y Lectura de Comprensión, que mide la habilidad para entender material de lectura técnico. Los estudiantes de secundaria cuya lengua materna no es el inglés, pero que desean cursar programas educativos de tiempo completo conducidos en inglés, también pueden presentar la Prueba de Do- minio del Inglés de Nivel Secundaria (SLEP) (del Educational Testing Service). Otra prueba de competencia en el idioma inglés para personas cuya lengua materna no es el inglés es la Prueba de Inglés para la Comunicación Internacional (TOEIC). La prueba TOEIC, que al igual que la TOEFL y la SLEP es diseñada y administrada por el Servicio de Pruebas Educativas (ETS), es el estándar mundial para la evaluación del inglés usado en el lugar de trabajo global. Pruebas de idiomas extranjeros. Las pruebas de estudio de la competencia en un idioma ex- tranjero, por lo regular constan de distintas formas para estudiantes que han completado diferen- tes grados de preparación en ese idioma. Ciertas pruebas reflejan el enfoque gramatical más tradicional a la enseñanza del idioma, mientras que otras enfatizan la comprensión de la comu- nicación hablada y escrita. Las pruebas de estudio más populares de la competencia en idiomas extranjeros son los exámenes de Ubicación Avanzada del Servicio de Pruebas Educativas, los Exámenes de Materia CLEP en francés, alemán y español, y las pruebas SAT II del Consejo Uni- versitario en esas mismas materias. También se dispone de pruebas por separado en varios idio- mas en la Praxis II: Evaluaciones de Materia para Profesores Principiantes. Aunque la mayoría de las pruebas de lenguas extranjeras está limitada a la lectura y la audición, el Centro de Lingüísti- ca Aplicada administra pruebas de la habilidad para hablar chino, hausa, hebreo, indonesio, por- tugués y otros idiomas. Pruebas de ciencias sociales Los temas en ciencias sociales, historia, economía y ciencia política generalmente se consideran en conexión con los programas de estudio de secundaria y universidad. Pero las ciencias socia- les, en un sentido menos restrictivo, también se enseñan en la primaria. Entre las muchas prue- bas de aprovechamiento en ciencias sociales a nivel de secundaria se encuentran los Exámenes de Colocación Avanzada del Consejo Universitario a nivel de secundaria en Economía, Gobier- no y Política, Historia, Geografía Humana e Historia Mundial, y los Exámenes de Materia CLEP en Gobierno Estadounidense, Historia de Estados Unidos I y II, Principios de Macroeconomía, Principios de Microeconomía, Introducción a la psicología, Introducción a la Sociología y Civi- lización Occidental I y II. PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS 129 Pruebas de ciencias La enseñanza de la ciencia, al igual que la de las matemáticas, cambió de manera notoria duran- te las pasadas tres décadas, lo cual volvió obsoletas o inapropiadas para los programas actuales de ciencias muchas pruebas antiguas. El Estudio del Currículo de Ciencias Biológicas (BSCS) y el Comité de Estudio de Ciencias Físicas (PSSC) dieron lugar al diseño de pruebas específicas en biología y física. Otros programas integrales de examinación en otras ciencias, como las Pruebas Cooperativas de Química de la Sociedad Estadounidense de Química, también reflejan enfoques contemporáneos a la educación en ciencias. Esos enfoques ponen de relieve la enseñanza del contenido de la ciencia de modo que pueda ser utilizable e importante como para incidir en la to- ma de decisiones de la vida cotidiana. Con esta meta en mente, las pruebas en ciencias desarro- lladas más recientemente requieren que los estudiantes descubran patrones en conjuntos de datos e interpreten los significados de esos patrones en lugar de limitarse a recordarlos. Muchas pruebas antiguas también han sido revisadas en un intento por evaluar el desempeño en un pro- grama moderno o tradicional de ciencias. Conforme los estudiantes progresan a través de la secundaria y la preparatoria, la instrucción en ciencia general, biología, química y física se vuelve más concentrada. Los Exámenes de Ubica- ción Avanzada del Consejo Universitario en biología, química, ciencia ambiental y física, los Exá- menes de Materia CLEP en biología general, química general y crecimiento y desarrollo humano, y las Pruebas de Materia SAT II son útiles al evaluar el conocimiento y las habilidades de estudiantes de preparatoria en campos específicos de la ciencia. Otras pruebas de ciencias para estudiantes de preparatoria y universidad incluyen los Exámenes ACS y los Exámenes de Competencia ACT. Pruebas para la educación superior y las profesiones Muchas instituciones de educación superior permiten que los estudiantes ganen créditos por cur- sos universitarios al obtener calificaciones aceptables en pruebas estandarizadas de aprovecha- miento como las aplicadas por el Programa de Ubicación Avanzada del Consejo Universitario (APP), el Programa de Exámenes de Nivel Universitario (CLEP) y el Programa de Exámenes de Competencia ACT. Además, colegios, universidades y escuelas profesionales utilizan las califi- caciones en las pruebas estandarizadas de aprovechamiento como criterio para la selección de estudiantes. Esas pruebas, por lo general, son restringidas o seguras en el sentido de que sólo se venden o rentan a ciertas organizaciones para su aplicación relacionada con programas educativos específicos. Un conjunto de pruebas estandarizadas de aprovechamiento utilizadas en la selección de estudiantes para programas de posgrado lo constituyen las Pruebas de Materia de los Exámenes del Registro de Graduados (GRE). Esas pruebas, las cuales están disponibles en ocho áreas te- máticas (bioquímica, biología celular y molecular; biología; química; ciencias de la computa- ción; literatura en inglés; matemáticas; física, y psicología), pueden ser presentadas, junto con la Prueba General GRE, por estudiantes universitarios de último año que intenten solicitar admi- sión a la escuela de posgrado. Otros ejemplos de pruebas estandarizadas utilizadas con propósitos de admisión a escue- las de posgrado o profesionales son la Prueba de Admisión de Administración de Graduados (GMAT), la Prueba de Admisión a la Facultad de Leyes (LSAT), la Prueba de Admisión a la Fa- cultad de Medicina (MCAT) y las Pruebas de Aprovechamiento en Enfermería NLN. La certifi- cación o licencia como abogado, médico, contador público, enfermera registrada, profesor o profesional en algunos otros campos también depende de aprobar una serie de pruebas de apro- vechamiento (exámenes de consejo, exámenes de la barra de abogados) en el campo particular. 130 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas En Estados Unidos, 70% de los estados utiliza la Serie Praxis: Evaluaciones Profesionales para los Maestros Principiantes, como parte de su proceso para otorgar licencias a los maestros principiantes. Consta de tres partes: Praxis I: Evaluación de Habilidades Académicas, para medir las habilidades de lectura, escritura y matemáticas que son vitales para todos los candidatos a ser maestros; Praxis II: Evaluación de Materia, para medir el conocimiento que tienen los candidatos a maestros de las materias que van a impartir, y Praxis III: Evaluaciones del Desempeño en el Sa- lón de Clases, para evaluar el desempeño del maestro principiante en el aula. Praxis I se presenta al ingresar al programa de entrenamiento de maestros, Praxis II se presenta al graduarse de la uni- versidad e ingresar en la profesión, y Praxis III se presenta en el primer año de enseñanza. Pruebas para administración y oficios La administración es una materia escolar en sí misma, y las pruebas de educación en administra- ción están diseñadas para evaluar el conocimiento que una persona tiene de la materia. Además de evaluar el grado de logro en una materia escolar, las pruebas de aprovechamiento se utilizan en la administración y la industria con propósitos de selección, colocación y promoción. Es posible que las medidas más populares sean las pruebas de competencia en mecanografía, archivo, procesa- miento de palabras, cómputo y otras habilidades de oficina. Algunos ejemplos de pruebas en es- ta categoría son las pruebas de Mecanografía 5 y las Pruebas de Habilidades de Oficina (de NCS London House) (vea la figura 6.4). Las pruebas de conocimiento y habilidad en un oficio (pruebas de oficio) se utilizan am- pliamente con propósitos de selección de empleados, colocación y otorgamiento de licencia pro- fesional. Una prueba de oficio puede consistir en una serie de preguntas que deben responderse de manera oral o escrita, o puede ser una tarea de muestra de trabajo que requiera la demostración de una habilidad en particular. Algunos ejemplos de pruebas de oficios, o de competencia ocupa- cional, son las proporcionadas por el programa de Desarrollo de Recursos Humanos del Servi- cio de Pruebas Educativas (Chauncey). Este programa ha sido responsable del desarrollo de docenas de pruebas ocupacionales o de oficios, incluyendo exámenes de competencia para certi- ficación o licencia como inspector de código de construcción, administrador de bases de datos, planificador financiero, funcionario del servicio exterior, arquitecto paisajista, enfermera, asis- tente de enfermera, farmacéutico, ingeniero en plomería, podólogo, entrenador profesional de desarrollo y contador público. Por ejemplo, en la prueba para funcionario del servicio exterior, hay un “día de evaluación” en el cual se evalúa la habilidad del candidato para tomar acciones apro- piadas en cada uno de un conjunto de informes y otras comunicaciones del tipo que suele encon- trarse en la bandeja de un ejecutivo, así como la capacidad para manejar una entrevista de negociación de un grupo sin líder. Es obvio que esos tipos de tareas van más allá del dominio de las pruebas de habilidad y entran en el campo de la evaluación de las actitudes y la personalidad. RESUMEN Se administran más pruebas de aprovechamiento —al nivel de conocimiento, habilidad o logro en un área de esfuerzo— que todos los otros tipos de pruebas combinados. En el siglo pasado ad- quirieron cada vez más popularidad los exámenes escritos de aprovechamiento educativo, en es- pecial los del tipo objetivo. Las pruebas objetivas pueden medir no sólo el conocimiento de hechos, sino también la comprensión y el pensamiento de orden superior. Sin embargo, se les ha criticado por alentar habilidades pobres en la composición escrita. RESUMEN 131 Reactivo muestra Mecanografía A la persona extraviada, Ramona Woodstock, 526 Vine, se le había dicho que regresara a casa, después de visitar a Mary Ly- ne, no después de las 23:00 horas. Se hizo contacto con la familia a las 02:00 y la persona extraviada no había regresado a casa. Reactivo muestra Llenado de formas A las 8:30 am del 15 de octubre de 1977, Today’s Sound Center puerta trasera fue forzada para poder entrar. Es posible que se reportó un robo en su local de 3907 Palm Ave., Wista, California. haya intentado provocar un incendio en la tienda vecina para ale- Teléfono 689-7734. Se reportó la pérdida de cuatro reproductores jar la sospecha de robo. Denuncia número 789A3. de cinta, dos amplificadores y dos cajas de cintas sin grabar. La CIUDAD DE WISTA DEPARTAMENTO DE POLICÍA DENUNCIA Núm. 789A3 FECHA 15 DE OCTUBRE DE 1977 HORA 8:30 AM NOMBRE DE LA VÍCTIMA (RAZÓN SOCIAL SI ES UNA EMPRESA): TODAY’S SOUND CENTER LUGAR DE LOS HECHOS 3907 PALM AVE., WISTA TELÉFONO 689-77-34 PÉRDIDAS 4 REPRODUCTORES DE CINTA, 2 AMPLIFICADORES, 2 CAJAS DE CINTAS SIN GRABAR. Reactivo muestra Archivo Busque el reactivo en la columna “Para archivar” y encuentre el meros que aparecen en un círculo y están a la derecha. Si no hay número que debe tener este nuevo reactivo en la columna “Archi- número para su elección, ponga una X en el círculo en blanco. vo existente”. Marque con una X ese número en el renglón de nú- Archivo existente Para archivar 1. Philip Jenkins 2. J. C. Kile 3. Thomas Morris Company 4. Paulson Company, Inc. 5. Sally White Reactivo Codificación En esta prueba se le darán listas de códigos similares a la siguiente: Debajo de las listas de códigos encontrará una lista de reactivos. Ca- hombre da reactivo está seguido por círculos que contienen cinco códigos mujer posibles. Su tarea es encontrar la combinación de códigos correcta adulto para el reactivo y marcar con una X el círculo apropiado. Observe los adolescente siguientes ejemplos. Se ha colocado una X en la respuesta para el niño ejemplo 1. ¿Qué marcaría usted para el ejemplo 2? Ejemplos: mujer adulta 34U 34M 86Z 21M 21U niño hombre 21Z 34Z 34U 21U 34M FIGURA 6.4 Reactivos de muestra de la Prueba de Habilidades de Oficina. (Copyright © 1977 NCS Pearson, Inc. Todos los derechos reservados. Publicado y distribuido exclusivamente por NCS Pearson, Inc. Reproducido con autorización de NCS Pearson, Inc.) 132 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Las pruebas estandarizadas de aprovechamiento reflejan objetivos educativos generales, mientras que es más probable que las pruebas elaboradas por el maestro reflejen las metas de un maestro o un sistema escolar en particular. Los resultados de las pruebas estandarizadas de apro- vechamiento se utilizan para evaluar a los estudiantes con los propósitos de asignación de cali- ficaciones, promoción, ubicación, diagnóstico de dificultades de aprendizaje, determinación de la preparación para aprender y la evaluación de los programas de estudio y la efectividad de la enseñanza (responsabilidad). De manera tradicional, las pruebas educativas han sido sumatorias y con referencia a nor- mas. El énfasis más reciente en la evaluación formativa, en la cual las pruebas son una parte in- tegral del proceso instruccional, y en las pruebas con referencia a criterio es un indicador de los papeles cambiantes de las pruebas de aprovechamiento educativo. También es de importancia el uso de pruebas en la planeación y evaluación educativa a gran escala, como en la Evaluación Nacional del Progreso Educativo. Cuatro tipos de pruebas de aprovechamiento son: pruebas de estudio de una materia, ba- terías de pruebas de estudio, pruebas de diagnóstico y pruebas de pronóstico. Las pruebas de es- tudio proporcionan una valoración global del aprovechamiento en una materia, mientras que las de diagnóstico analizan las fortalezas y debilidades específicas de una persona en una materia particular. Las pruebas de preparación, aptitud y otras pruebas de pronóstico intentan alentar el aprovechamiento determinando la habilidad de una persona para aprender cierto material. Las fuentes de información relativas a las pruebas de aprovechamiento incluyen catálogos de los editores, reseñas en revistas profesionales, Tests in Print, The Mental Measurements Yearbooks, Tests y Test Critiques, grupos de muestras de pruebas y varios sitios Web (vea el apéndice C). La confiabilidad de la mayoría de las pruebas de aprovechamiento, determinada por pro- cedimientos de test-retest y formas paralelas, por lo general es de .80 o .90. La evidencia de la validez de contenido suele ser de mayor interés que otros tipos de validez al evaluar las pruebas de aprovechamiento educativo. Se dispone comercialmente de varias baterías de pruebas de aprovechamiento de niveles múltiples. Esas baterías suelen aplicarse en las escuelas de primaria y secundaria. También se aplican ampliamente pruebas de una materia en lectura, matemáticas, ciencia, ciencias sociales, inglés, lenguas extranjeras y en otras áreas. Las pruebas de estudio de lectura por lo general mi- den el conocimiento del vocabulario, así como la velocidad y el nivel de comprensión. Las pruebas de diagnóstico, que están diseñadas para evaluar fortalezas y debilidades es- pecíficas en una materia particular, se encuentran en lectura, aritmética y ortografía. También se dispone de varias pruebas de pronóstico en lectura (pruebas de preparación para la lectura), ma- temáticas y lenguaje (pruebas de aptitud para el lenguaje). Se dispone de pruebas de aprovechamiento en ciencias sociales (historia, economía, cien- cia política) y ciencias naturales (ciencia general, biología, química, física) para una amplia ga- ma de grados y tipos diferentes de planes de estudio. También se usan de manera extensa pruebas de admisión a escuelas de enfermería (NTE), medicina (MCAT), leyes (LSAT), admi- nistración (GMAT), enseñanza (Praxis) y otros programas profesionales, y para determinar la competencia en varias ocupaciones de administración y oficios. P R E G U N TA S Y A C T I V I D A D E S 1. Compare las pruebas estandarizadas de aprovechamiento con las pruebas elaboradas por el maestro, mencionando los méritos y las desventajas de cada una. RESUMEN 133 2. ¿Qué es responsabilidad en educación? ¿Cómo se relaciona la responsabilidad con el contrato de desempeño? Mencione argumentos que apoyen y otros que se opongan al contrato de desempeño en las escuelas. 3. ¿En qué difiere la evaluación formativa de la evaluación sumatoria? ¿Cómo se contraponen o se complementan entre sí los dos enfoques hacia la evaluación? ¿De qué manera se relaciona la eva- luación formativa con la medición con referencia a criterio? 4. Distinga entre medición con referencia a normas y medición con referencia a criterio. ¿Cuáles son las ventajas y desventajas de cada una? 5. Compare los propósitos y el diseño de las pruebas de estudio, de diagnóstico y de pronóstico. 6. Compare las pruebas donde hay mucho en juego con las pruebas donde hay poco en juego, inclu- yendo los tipos de prueba y las decisiones tomadas con cada una. 7. ¿En qué niveles y para qué propósitos son más válidas y útiles las pruebas estandarizadas de apro- vechamiento? 8. ¿Cuáles son las ventajas y las desventajas de aplicar una batería de pruebas de aprovechamiento en lugar de una serie de pruebas sencillas de materia? 9. La mayoría de los departamentos de psicología y educación mantienen en sus archivos muestras de pruebas estandarizadas de aprovechamiento, que incluyen los folletos de la prueba, hojas de res- puestas, claves de calificación, manuales y posiblemente otros materiales interpretativos. Seleccio- ne una de esas pruebas para revisión, utilizando un perfil como el que aparece líneas abajo. Siempre que sea posible, usted debe llenar este perfil con la información obtenida al leer el manual de la prueba y examinar ésta. Espere hasta que haya completado su propia revisión antes de consultar re- visiones publicadas de la prueba en The Mental Measurements Yearbooks, Tests Critiques u otras fuentes. PERFIL DE REVISIÓN DE UNA PRUEBA Contenido. Mencione el título, autor(es), editor, fecha y lugar de la publicación, formas dis- ponibles, tipo de prueba y costo. Haga una breve descripción de las secciones de la prueba, de los tipos de reactivos que la componen y de las operaciones mentales o características que su- puestamente mide. Indique cómo se seleccionaron los reactivos de la prueba y si el procedi- miento de elaboración y/o la teoría en que está basada se describen con claridad en el manual. Aplicación y calificación. Describa cualquier instrucción especial, si la prueba tiene límites de tiempo y, de ser así, cuáles son esos límites. Proporcione detalles concernientes a la cali- ficación: como un todo, por secciones o partes y cosas similares. Indique si las instrucciones para la aplicación y la calificación son claras. Normas. Describa el grupo o grupos (características demográficas, tamaño y cosas simila- res) en el o los que se estandarizó la prueba y cómo se seleccionaron las muestras (sistemá- tica, estratificada al azar, por grupos, o de otra manera). ¿Qué tipos de normas se presentan en el manual de la prueba o en los complementos técnicos? ¿Parece ser adecuada la estanda- rización para los usos recomendados de la prueba? Confiabilidad. Describa los tipos de información de confiabilidad presentados en el manual (consistencia interna, formas paralelas, test-retest, etcétera). ¿La naturaleza y los tamaños de las muestras de las que se reporta la información de confiabilidad son adecuados con respec- to a los usos declarados de la prueba? 134 CAPÍTULO SEIS Pruebas de aprovechamiento estandarizadas Validez. Resuma la información disponible sobre la validez (de contenido, predictiva, con- currente, de constructo) de la prueba incluida en el manual. ¿Es satisfactoria la información sobre la validez en términos de los propósitos declarados de la prueba? Comentarios de resumen. Prepare un resumen del diseño y el contenido de la prueba y redac- te un breve comentario sobre lo adecuado de ésta como medida de lo que fue diseñada para medir. ¿Proporciona el manual descripciones satisfactorias de diseño, contenido, normas, confiabilidad y validez de la prueba? ¿Qué otra información y/o datos se necesitan para me- jorar la prueba y sus usos? CAPÍTULO SIETE TESTS DE INTELIGENCIA Durante los inicios del siglo XX, una gran cantidad de aspirantes a psicólogos descubrieron que aplicando pruebas de inteligencia podían ganarse la vida en su profesión con algo distinto a la docencia y la investigación. Por ello, las pruebas de inteligencia en ocasiones han sido llamadas “el pan y la mantequilla de la psicología”. En la actualidad las pruebas de Binet ya no son la única ocupación de los especialistas en psicología aplicada, pero la evaluación de aptitudes cognosci- tivas todavía forma parte de las actividades de los psicólogos en los ámbitos clínicos, educativos y empresariales. HISTORIA, DEFINICIONES Y TEORÍAS El término inteligencia, común ahora en el vocabulario de la mayoría de las personas, era casi desconocido en el habla cotidiana de hace un siglo. Durante la última parte del siglo XIX, muchos académicos y científicos fueron atraídos por la teoría de Charles Darwin de que las diferencias entre las especies evolucionaban mediante selección natural. Dos de estos estudiosos, el filósofo Herbert Spencer y Francis Galton, el científico caballero primo de Charles Darwin, se interesa- ron por las diferencias dentro de las especies en cuanto a características mentales y comportamien- to. Ambos, junto con sus seguidores, sostenían que entre los seres humanos existe un grado innato de habilidad mental general, a la que se refirieron como inteligencia. A diferencia de Spencer, Galton no se contentaba simplemente con especular y discutir sobre la naturaleza de la inteligencia. Intentando demostrar que la inteligencia tiene una base he- reditaria, estudió árboles genealógicos y diseñó varias pruebas de discriminación sensorial y tiempo de reacción para medir sus componentes. Éstas y otras pruebas sensoriomotrices (velo- cidad de movimiento, fuerza muscular, sensibilidad al dolor, discriminación de peso y otras similares) fueron estudiadas ampliamente por el psicólogo estadounidense J. McKeen Cattell. Desafortunadamente, las pruebas resultaron relativamente inútiles para predecir el desempeño en tareas escolares y otras actividades que supuestamente requieren de inteligencia. El enfoque del psicólogo francés Alfred Binet fue radicalmente distinto al procedimiento analítico de tratar de medir los componentes de la inteligencia. Binet sostenía que la inteligen- cia se manifiesta en el desempeño en diversas tareas y que podía medirse mediante respuestas a una muestra de dichas tareas. Debido a que el trabajo de Binet al diseñar las primeras pruebas de inteligencia con éxito fue motivado por el problema de identificar niños con retraso mental en el sistema escolar de París, es natural que la muestra de pruebas seleccionada por él estuviera pla- gada de tareas de tipo escolar. En 1905 Binet y su socio, el doctor Théodore Simon, publicaron su primera serie de prue- bas de inteligencia, 30 pruebas breves ordenadas desde la más sencilla hasta la más difícil. Al 135 136 CAPÍTULO SIETE Tests de inteligencia proseguir su trabajo, publicaron en 1908 una escala modificada Binet-Simon que consistía en 58 tareas dispuestas por niveles de edad de 3 a 13 años. Las tareas se agruparon por edad cronoló- gica de acuerdo con lo que había indicado la investigación que podrían realizar los niños norma- les de una edad determinada. La edad mental (MA [EM]) de un niño se establecía por la cantidad de subpruebas aprobadas en cada nivel, y una edad mental notablemente inferior a la edad men- tal del niño se consideraba indicativa de retraso mental. En 1911 se publicó una última versión modificada de la escala (tabla 7.1), pero después de la muerte prematura de Binet en ese mismo año, la escena de los posteriores desarrollos en cuanto a pruebas de inteligencia se mudó a Esta- dos Unidos y Gran Bretaña. Definición de la inteligencia Desde que Binet y Simon produjeron las primeras pruebas prácticas de inteligencia, los psicólo- gos han intentado formular una definición viable del concepto. La explicación de Binet destaca- ba el juicio, el entendimiento y el razonamiento. Otras definiciones describían la inteligencia como la habilidad de pensar en forma abstracta, la habilidad de aprender o la habilidad de adap- tarse al medio ambiente. Sin embargo, todas estas definiciones fueron criticadas por una u otra razón. La habilidad obviamente es necesaria para la sobrevivencia, pero resulta una definición de la inteligencia demasiado amplia. Por otra parte, la definición de inteligencia de Lewis Ter- man como la habilidad de tener pensamiento abstracto es demasiado estrecha. La habilidad pa- ra el pensamiento abstracto es un aspecto importante de la inteligencia, pero ciertamente no es el único. Por último, la concepción popular de inteligencia como la habilidad de aprender es ina- decuada si se aceptan las pruebas de inteligencia como medida de ésta. Los aciertos en tales pruebas no están correlacionados en alto grado con el ritmo o la velocidad de aprender cosas nuevas, aunque sí están más relacionados con el nivel o la cantidad de aprendizaje. Más que intentar formular una definición universalmente aceptable de la inteligencia, al- gunos psicólogos han sugerido que podría ser mejor abandonar el término por completo. Si se requiere un término alternativo, tal vez sería preferible utilizar habilidad mental general, o ha- bilidad académica. Los dos últimos términos son un reconocimiento al hecho de que las prue- bas de inteligencia tradicional son sobre todo predictores del éxito en el trabajo escolar. Sin importar lo intensa que pueda ser la oposición al término inteligencia, es ciertamente menos fuerte que la oposición al coeficiente intelectual (CI). Debido a la controversia existente sobre el CI y a la implicación de que es una medida fija de habilidad cognoscitiva, ciertos psicólogos que han dedicado gran parte de sus vidas profesionales al estudio de la inteligencia han expresado una disposición a abandonar por completo el término CI (Vernon, 1979). No todos los instrumentos examinados en este capítulo tienen la etiqueta específica de prueba de inteligencia; más bien se han propuesto como medidas de habilidad mental general. En este sentido, deben distinguirse de las medidas de habilidades especiales consideradas en el capítulo 10. Sin embargo, no está clara la distinción entre pruebas de habilidad mental general (inteligencia) y pruebas de habilidades especiales, y ciertas pruebas de habilidad académica ana- lizadas en este capítulo podrían corresponder igualmente bien al capítulo 10. Teorías de la inteligencia Las teorías de la inteligencia, o más bien del comportamiento inteligente, se han basado en mo- delos psicométricos de desarrollo y procesamiento de información. Los primeros dos tipos de teorías son enfoques tradicionales, la tercera teoría es de origen más reciente. HISTORIA, DEFINICIONES Y TEORÍAS 137 TABLA 7.1 Las cincuenta y cuatro subpruebas de la Escala de Inteligencia Binet-Simon de 1911 3 años de edad 9 años de edad Señala sus ojos, nariz y manos. Da cambio de 20 centavos. Repite dos dígitos. Define palabras familiares en términos superiores al uso. Enumera objetos de una imagen. Reconoce todas las monedas (nueve). Dice su apellido. Nombra los meses del año en orden. Repite una oración de seis sílabas. Contesta o comprende “preguntas fáciles”. 4 años de edad 10 años de edad Dice su sexo. Ordena cinco bloques por peso. Nombra llave, cuchillo, dinero. Copia dos dibujos de memoria. Repite tres dígitos. Critica afirmaciones absurdas. Compara dos líneas. Contesta o comprende “preguntas difíciles”. Usa tres palabras dadas en no más 5 años de edad de dos enunciados. Compara dos pesos. Copia un cuadrado. 12 años de edad Repite una oración de diez sílabas. Resiste sugerencias sobre la extensión de líneas. Cuenta cuatro centavos. Compone una oración con tres palabras dadas. Une las mitades de un rectángulo dividido. Menciona 60 palabras en 3 minutos. Define tres palabras abstractas. 6 años de edad Descubre el sentido de una oración desordenada. Distingue entre mañana y tarde. Define palabras familiares en términos de uso. 15 años de edad Copia un rombo. Repite siete dígitos. Cuenta 13 monedas. Encuentra tres rimas para una palabra dada en un minuto. Distingue dibujos de rostros feos y hermosos. Repite una oración de 26 sílabas. Interpreta imágenes. 7 años de edad Interpreta hechos dados. Muestra su mano derecha y su oreja izquierda. Describe un dibujo. Adulto Ejecuta tres órdenes dadas simultáneamente. Resuelve el test del papel cortado. Cuenta el valor de seis centavos, tres Reacomoda un triángulo en la imaginación. de los cuales son dobles. Menciona diferencias entre pares de términos abstractos. Nombra cuatro colores principales. Da tres diferencias entre un presidente y un rey. 8 años de edad Encuentra la idea principal en un párrafo Compara dos objetos de memoria. que ha leído. Cuenta de 20 a cero. Señala omisiones en dibujos. Da el día y la fecha. Repite cinco dígitos. Teorías psicométricas. El método psicométrico, que ha dado origen a muchas pruebas de in- teligencia y diversos métodos estadísticos para analizar las calificaciones de estas pruebas, se centra en las diferencias individuales en cuanto a habilidades cognoscitivas y en la búsqueda de las causas de estas diferencias. Entre las teorías o modelos de habilidades cognoscitivas basadas en el método psicométrico y originadas sobre todo de los resultados del análisis factorial (vea apéndice A), figuran la teoría bifactorial de Spearman (1927) (que consiste en un factor general 138 CAPÍTULO SIETE Tests de inteligencia más varios factores específicos para cada prueba), la teoría multifactorial de siete habilidades mentales básicas de Thurstone (Ekstrom, French y Harman, 1979), el modelo de estructura del intelecto de Guilford (1985) y el modelo jerárquico de Vernon (1960). El modelo de Vernon con- siste en un factor general en el primer nivel, factores verbales-educacionales y práctico-mecáni- co-espaciales en el segundo nivel, y varios factores de un grupo menor en un tercer nivel (vea la figura 7.1). La teoría de Cattell (1963) de dos tipos de inteligencia, fluida y cristalizada, también se basa en los resultados del análisis factorial y se relaciona con la distinción de Hebb (1949) en- tre Inteligencia A e Inteligencia B. Teorías sobre el desarrollo. Las teorías sobre el desarrollo de las habilidades cognoscitivas que provienen de la investigación sobre psicología del desarrollo humano, subrayan la uniformi- dad o las similitudes interindividuales en la evolución cognoscitiva más que las diferencias in- dividuales. Un ejemplo primordial es la idea de Piaget de que la cognición se desarrolla a partir de las acciones de asimilación y acomodamiento en el mundo exterior. La asimilación consiste en ajustar las nuevas experiencias en las estructuras cognoscitivas preexistentes (esquemas sche- mata); el acomodamiento es la modificación de estos schemata como resultado de la experien- cia. Al interactuar con el ambiente, un niño en crecimiento crea schemata de modo que funcionen como mapas explicativos y guías para el comportamiento. De acuerdo con Piaget, por lo regular los niños se desarrollan intelectualmente a través de una serie de etapas progresivas: sensoriomotriz (del nacimiento a 2 años de edad), preoperativa (de 2 a 7 años de edad), operati- va concreta (de 7 a 11 años de edad) y operativa formal (de 11 a 15 años de edad). Piaget pensa- ba que el aumento de la inteligencia se detenía a la edad aproximada de 15 años, pero varios investigadores han objetado esta afirmación. Teorías sobre el procesamiento de información. Las teorías sobre procesamiento de infor- mación, o modelos de resolución de problemas y razonamiento, se ocupan de identificar los pro- cesos cognoscitivos u operacionales mediante los cuales el cerebro maneja la información. La investigación sobre atención y velocidad de procesamiento ha recibido un énfasis particular des- de una perspectiva de procesamiento de información. Resultan ilustrativas de las teorías de pro- cesamiento de información las teorías triárquicas o de proceso componencial de Sternberg General (g) Factores principales Verbal-educativos (v:ed) Prácticos (k:m) Factores Verbales Numéricos De información Espaciales Psicomotores secundarios mecánica Factores específicos FIGURA 7.1 Modelo jerárquico de Vernon de las habilidades intelectuales. (De acuerdo con Vernon, 1960, p. 22. Reproducida con autorización de la editorial Routledge.) HISTORIA, DEFINICIONES Y TEORÍAS 139 (1982), la teoría de inteligencias múltiples de Gardner (1983), y el modelo PASS de Das, Naglie- ri y Kirby (1994). En un principio, Sternberg (1982) formuló la hipótesis de que existen cinco clases de proce- sos componenciales mediante los cuales el cerebro opera sobre la información y resuelve proble- mas, a saber: metacomponentes, componentes de desempeño, componentes de adquisición, com- ponentes de retención y componentes de transferencia. Entre los diversos componentes de estas cinco clases, la codificación y la comparación son especialmente críticas para lograr una resolución efectiva de los problemas. En una extensión de su teoría de procesos componenciales, Sternberg (1985, 1986) propuso una teoría triárquica que incluye tres subteorías: componencial, experiencial y contextual. La subteoría componencial consiste en metacomponentes, componentes de desem- peño y componentes de adquisición de conocimiento. La subteoría experiencial se ocupa de la de formular nuevas ideas combinando factores o información aparentemente no relacionados. La subteoría contextual aborda la de adaptarse a condiciones ambientales cambiantes y confor- mar el entorno de tal modo que nuestras ventajas se incrementen y nuestras desventajas se com- pensen. En una modificación posterior de su teoría, Sternberg (1988) propuso el concepto de autocontrol mental, que representa un intento por combinar el concepto de inteligencia con el de personalidad. Las maneras en que los tres tipos de inteligencia delineados por la teoría triár- quica —componencial, experiencial y contextual— se ponen en práctica en la resolución de los problemas cotidianos, se caracterizan como estilos intelectuales. La efectividad de un estilo in- telectual en particular depende de la medida en que se ajuste a la capacidad intelectual de la per- sona, su estilo preferido y el problema inmediato por resolver. De acuerdo con la teoría de Gardner de inteligencias múltiples, la cognición y el procesa- miento de información en los humanos implica el despliegue de varios sistemas simbólicos que son formas características de percepción, memoria y aprendizaje. Gardner propuso que hay sie- te formas de inteligencia: lingüística, lógico-matemática, espacial, musical, kinestésica corpo- ral, y dos formas de inteligencia personal (intrapersonal e interpersonal). Sostuvo que sólo las primeras tres formas se miden mediante tests de inteligencia convencionales, y que la cultura oc- cidental ha puesto demasiado énfasis en la primera de éstas, la lingüística. Sin embargo, Gard- ner advierte que las otras dos formas de inteligencia (lógico-matemática y espacial) son más valiosas en muchas sociedades y circunstancias. El modelo de inteligencia PASS (planeación, atención, procesamiento simultáneo, proce- samiento sucesivo) se basa en la teoría de Aleksandr Luria de que el cerebro humano está fun- cionalmente dividido en tres unidades. La primera unidad funcional, que se asocia con el tallo cerebral superior y el sistema límbico, es responsable de la estimulación y la atención. La segun- da unidad funcional está asociada con las regiones posteriores de los hemisferios cerebrales, in- cluyendo las áreas visual (occipital), auditiva (temporal) y sensorial general (parietal); es responsable de la recepción, el análisis y almacenamiento de la información mediante procesos de razonamiento simultáneos y sucesivos. La tercera unidad funcional está asociada con las par- tes anteriores del hemisferio cerebral, en particular con la región prefrontal; es responsable de planear, regular y verificar la actividad cognoscitiva. Para efectuar el procesamiento cognosciti- vo de información, la base de conocimiento del individuo debe estar integrada con los procesos de planeación (tercera unidad funcional), atención (primera unidad funcional), y procesos si- multáneos y sucesivos (segunda unidad funcional) como lo requiere una tarea en particular. El resultado de semejante proceso cognoscitivo incluye hablar, escribir u otras actividades motoras (Das, Naglieri y Kirby, 1994). A pesar de éstos y otros intentos interesantes y valerosos, ningún método teórico ha logra- do proporcionar una explicación totalmente satisfactoria sobre cómo la inteligencia se desarro- 140 CAPÍTULO SIETE Tests de inteligencia lla y cambia, las causas de las diferencias individuales en la inteligencia, o los procesos cognos- citivos y fisiológicos específicos que son responsables de la actividad intelectual. Al parecer, to- das las corrientes actuales son correctas en cierta medida, pero de seguro ninguna proporciona una explicación completa, empíricamente verificada, sobre la estructura y el funcionamiento cognoscitivo. Por el momento, parece que las teorías sobre procesamiento de información ofre- cen la mejor oportunidad de lograr una concepción lógica y con base empírica de las habilida- des cognoscitivas, pero la situación podría cambiar al avanzar las investigaciones. De cualquier modo, algo es cierto: surgirán otras teorías sobre la inteligencia, y su valor se determinará por su eficacia para predecir y explicar el aprendizaje y el pensamiento humanos. Aplicaciones de las evaluaciones de inteligencia En contraste con otras definiciones más teóricas, las definiciones operativas de la inteligencia se centran en su medición y en las aplicaciones relacionadas. Tal vez la más operativa de dichas de- finiciones fue la sugerida por E. G. Boring, quien propuso definir la inteligencia como “aquello que se mide por medio de un test de inteligencia”. Lo que sea que midan los tests de inteligen- cia, estas pruebas se han usado para varios fines prácticos, incluyendo (1) el diagnóstico de la habilidad mental alta y baja y la ubicación de los retrasados mentales o los superdotados en pro- gramas o clases especiales; (2) la selección (sondeo), colocación y clasificación de estudiantes en instituciones de educación superior, empleados en organizaciones de negocios o industriales y personal en dependencias militares y gubernamentales; (3) la determinación y el diagnóstico de discapacidades relacionadas con el trabajo por demandas de seguros; (4) la asesoría y rehabi- litación vocacional y educativa; (5) el psicodiagnóstico de niños y adultos en contextos clínicos o psiquiátricos; (6) la evaluación de la efectividad de tratamientos psicológicos e intervenciones en el medio ambiente, y (7) los estudios sobre habilidades cognoscitivas y personalidad. Pruebas individuales colectivas A pesar del objetivo común de medir una habilidad unitaria, los formatos de todos los tests de inteligencia general no son idénticos. En algunos hay reactivos de distintos tipos mezclados o al- ternados, y aumenta su dificultad a lo largo de la prueba. Los reactivos de otros tests de inteli- gencia se agrupan como conjuntos de subpruebas programadas en forma separada. La forma más común de clasificar las pruebas de inteligencia es mediante la dicotomía in- dividual versus colectiva o de en grupo. Los tests de inteligencia individual, que se aplican a una persona a la vez, tienen un enfoque algo distinto que los tests de inteligencia colectiva, los cua- les pueden administrarse a muchas personas simultáneamente. El énfasis de las pruebas indivi- duales es más global u holístico: su principal función es evaluar una habilidad cognoscitiva general. Por otra parte, el enfoque del test colectivo tiende a ser más reducido: a predecir el de- sempeño académico o laboral. Además, administrar un test de inteligencia individual suele ser más laborioso que administrar una prueba . Una ventaja de las pruebas individuales es que los examinadores pueden prestar más atención a los sujetos de examen. El enfoque del examinado a la prueba y otros comportamientos —angustia, confianza, estrategias para resolver problemas, frustraciones, distracción y aspectos similares— pueden observarse más de cerca cuando se examina a una persona a la vez, y el desempeño puede estimularse y recompensarse en forma más efectiva. Asimismo, las calificaciones de pruebas individuales no dependen tanto de la ca- pacidad de lectura como las calificaciones de pruebas aplicadas colectivamente. TESTS DE INTELIGENCIA INDIVIDUALES 141 La mayor economía de administrar una prueba en grupo en ciertas situaciones ocasiona que se administren más pruebas en grupo que individuales. Además, a pesar de lo que en ocasio- nes han sostenido los defensores de las pruebas individuales, ciertas pruebas de inteligencia apli- cadas en forma colectiva grupal pueden incluso tener mayores coeficientes de validez que sus contrapartes individuales. Los tests de inteligencia colectivos grupales se usan con mayor frecuencia para una selec- ción inicial en situaciones educativas y laborales, que es seguida por una evaluación individual cuando el examinado obtiene una calificación deficiente en una prueba colectiva y/o se requie- re más información sobre sus cualidades y fallas cognoscitivas. También es más probable que los tests de inteligencia individuales se usen en clínicas, hospitales y otros sitios donde se reali- zan diagnósticos clínicos. En dichos lugares las pruebas sirven no sólo como medidas de la ha- bilidad mental general, sino también como medio de comprender más a fondo el funcionamiento de la personalidad y las discapacidades cognoscitivas específicas. TESTS DE INTELIGENCIA INDIVIDUALES Los instrumentos que provienen del trabajo de Lewis Terman y David Wechsler han sido las pruebas de inteligencia individuales más comunes. Con el paso del tiempo, estos tests se han usado para evaluar las habilidades intelectuales de niños y adultos en muchos contextos diferen- tes. Otras pruebas individuales, algunas de las cuales constituyen variantes o extensiones de los tests de Terman y de Wechsler, se han diseñado específicamente para evaluar las habilidades menta- les de niños pequeños y personas con desventajas lingüísticas y/o físicas. Otras ediciones de la Escala de Stanford-Binet Hubo tres traducciones y adaptaciones de la escala Binet-Simon en Estados Unidos. Una fue preparada por H. H. Goddard de la Escuela de Capacitación Vineland, otra por Frederic Kuhl- mann de la Universidad de Minnesota, y una tercera por Lewis Terman de la Universidad Stan- ford. La más popular de estas revisiones, la Escala de Inteligencia Stanford-Binet, fue publicada por Terman en 1916. La Escala de 1916. Al igual que las anteriores escalas de Binet-Simon, la Stanford-Binet de 1916 era una escala de edad donde las subpruebas se agrupaban en niveles de edad cronológica. Terman seleccionó reactivos de las escalas de Binet-Simon, así como reactivos totalmente nue- vos que representaban una muestra amplia de las tareas que supuestamente requerían capacida- des intelectuales aprovechadas. También se realizaron esfuerzos para incluir tareas que no eran tan dependientes de experiencias de aprendizaje escolares específicas. Un criterio para incluir un reactivo en la escala de Stanford-Binet era que un porcentaje creciente de niños en niveles de edad sucesivos deberían ser capaces de responder el reactivo en forma correcta. Por algunas razones estadísticas que tienen que ver con mantener una escala de cociente de inteligencia bastante estable a través de los niveles de edad, el porcentaje de aproba- dos requerido se estableció más bajo en reactivos incluidos en subpruebas en niveles de años su- periores que en reactivos de niveles de años inferiores. De cualquier modo, el criterio del porcentaje de aprobados sirvió como un medio objetivo de asegurarse que cada reactivo de la prueba se ubicara en un nivel de edad adecuado. La edad mental (EM) y el cociente de inteligencia de un examinado en la escala Stanford- Binet dependían de la cantidad de subpruebas aprobadas en los niveles de edad sucesivos. El co- ciente de inteligencia se determinaba dividiendo la edad mental del examinado (EM), la cantidad 142 CAPÍTULO SIETE Tests de inteligencia total de crédito de meses obtenida en la prueba, por su edad cronológica (EC) en meses y multi- plicando el cociente resultante por 100. En símbolos, esta razón de CI se calculaba como: MA CI ⫽ 100 (7.1) CS Durante muchos años, la Escala de Inteligencia de Stanford-Binet funcionó como un es- tándar con respecto al cual se evaluaban otros tests de inteligencia. Sin embargo, tenía varias desventajas. Por ejemplo, la versión de 1916 sólo se estandarizó en 1,000 niños y 400 adultos. De acuerdo con las normas actuales, la muestra no se seleccionó con cuidado y no era represen- tativa de la población estadounidense de la época. Otras dos desventajas fueron la inadecuación al evaluar adultos y niños muy pequeños, y la falta de una segunda forma para permitir la reva- luación. Por lo tanto, en 1937, Terman y su socia, Maud Merrill, publicaron una versión revisada, actualizada y reestandarizada de la escala. La Escala de 1937. La versión de 1937 de la Escala de Inteligencia de Stanford-Binet tenía un límite inferior menor y uno superior mayor que la escala de 1916, dos formas paralelas (L y M) y una mejor estandarización. La escala de 1937 fue estandarizada de manera estratificada en 100 niños, con un intervalo por cada medio año de edad, desde el año y medio hasta los cinco y me- dio años; 200 niños con intervalos por cada año de edad desde los 6 hasta los 14 años, y 100 ni- ños con intervalos por cada año de edad desde los 15 hasta los 18 años. Se administró la prueba a un número igual de niñas y niños en 17 comunidades de 11 estados, pero la muestra se limitó a individuos blancos nativos, quienes, como grupo, estaban en cierta medida por encima del pro- medio en cuanto a situación socioeconómica. En consecuencia, la muestra no era verdadera- mente representativa de toda la población de Estados Unidos. Se usaron tres criterios para incluir un reactivo en la escala: (1) el reactivo se consideró como una medida de comportamiento inteligente; (2) el porcentaje de niños que pasaban el reac- tivo aumentaba con la edad cronológica, y (3) los niños que aprobaron el reactivo tenían una edad mental media superior que la de quienes fracasaron en el reactivo. Los reactivos se agrupa- ron en intervalos de medio año (niveles) del Año II al Año V, y en intervalos de un año desde el Año VI hasta el Año XIV; también había nivel Promedio de Adultos y tres niveles Superiores de Adulto (Adulto Superior I, II y III). Cada una de las seis subpruebas por nivel desde el Año II hasta el Año V recibió un mes de crédito, y las seis subpruebas en niveles Superiores de Adulto I, II y III tuvieron 4-, 5- y 6- meses de crédito, respectivamente. Al evaluar a un niño con la Escala Stanford-Binet, el examinador primero determinaba la edad basal del niño. La edad basal era el nivel de años más alto en que el niño pasaba todas las subpruebas. La evaluación continuaba entonces hasta la edad tope, el nivel de años inferior en que el niño fallaba en todas las pruebas. La edad mental se calculaba añadiendo a la edad basal el número de meses de crédito recibido por pasar cada subprueba hasta la edad tope. Entonces de calculaba el CI mediante la fórmula 7.1. La Escala de 1960. La tercera edición de la Escala de Inteligencia de Stanford-Binet, publi- cada en 1960, consistía en una actualización de los mejores reactivos de las formas L y M. Al igual que sus predecesoras, la tercera edición se usaba para medir la inteligencia de individuos desde la edad de dos años hasta la adultez. El procedimiento para administrar la prueba era simi- lar al de la escala de 1937, pero se introdujeron algunos cambios. Uno de éstos consistía en una subprueba alternativa en cada nivel de edad para usarla cuando alguna de las subpruebas no se TESTS DE INTELIGENCIA INDIVIDUALES 143 aplicaba o se aplicaba de modo incorrecto. El tiempo de la prueba también podía reducirse en ciertos casos administrando sólo cuatro subpruebas seleccionadas en lugar de seis en cada nivel de un año. Otro cambio fue la disposición para prevenir desviaciones del CI. La razón del CI, al igual que cualquier otra norma de edad, no satisfizo el requisito de igualdad de unidades de edad. Asimismo, no tenía sentido cuando se aplicaba a adultos, porque no había una respuesta satis- factoria a la pregunta sobre qué edad cronológica debía usarse como denominador de la relación MA /CA al evaluar adultos. Se han propuesto las edades de 14, 16 y 18 años como la edad en que el crecimiento mental se detiene y, por lo tanto, cualquiera de esas edades puede ser un denomi- nador adecuado para calcular el CI. Debido a los problemas para determinar la razón del CI, se tomó la decisión de cambiar de un CI de razón a una calificación estándar escala de desviación CI, con una media de 100 y desviación estándar de 16. Ocasionalmente se siguió reportando la razón de CI antigua y se incluían tablas para calcularla en el manual de Stanford-Binet de 1960. La muestra de estandarización para la Forma 1960 L-M de la Escala Stanford-Binet con- sistió en 4,500 niños, de entre 21/2 y 18 años de edad, que habían tomado cualquiera de las for- mas L o M de la Escala de 1937 entre 1951 y 1954. Tomando en cuenta la necesidad de normas actualizadas, el editor hizo adaptaciones para la prueba al ser administrada en 1972 a una mues- tra nacional estratificada de 2,100 niños (100 niños por cada intervalo de medio año desde los 2 hasta los 51/2 años, y por cada intervalo de un año también 100 niños, éstos de 6 a 18 años). La muestra era más representativa que las anteriores muestras normativas de la población general de Estados Unidos. Con base en la estandarización de 1972, se publicó un manual revisado pa- ra la tercera edición (Terman y Merrill, 1973). El manual incluía coeficientes de confiabilidad de test-retest de más de .90 y, como en las dos primeras ediciones, correlaciones moderadas con grados escolares y calificaciones de pruebas de aprovechamiento (.40 a .75). Cuarta edición de la Escala Stanford-Binet La cuarta edición de la Escala de Inteligencia Stanford-Binet (SB-IV) (por Riverside Publi- shing) se elaboró considerando las necesidades de psicólogos clínicos, escolares y otros psicólo- gos que usan la información de los tests de inteligencia. SB-IV mantuvo la continuidad históri- ca con las versiones anteriores de la escala, pero representó una marcada separación de sus predecesoras en cuanto a sus bases teóricas y psicométricas, su contenido y el procedimiento de administración. Al igual que muchas pruebas modernas, SB-IV fue desarrollada usando proce- dimientos psicométricos complejos, tales como la teoría de respuesta al ítem (escala de Rasch) y análisis de sesgo étnico. Además estaba diseñada no sólo para ayudar a identificar individuos con retraso mental o superdotados, sino también a proporcionar información diagnóstica sobre discapacidades de aprendizaje específicas. Con respecto al sesgo por sexo y etnia, se omitieron los reactivos considerados injustos o que mostraban diferencias estadísticas atípicas entre sexos o grupos étnicos. Modelo teórico y pruebas. Como se diagrama en la figura 7.2, el modelo en que se basó la es- cala SB-IV consiste en una jerarquía de tres niveles con un factor de inteligencia general (g) en el primer nivel, tres factores amplios (habilidades cristalizadas, habilidades fluido-analíticas y memoria de corto plazo) en el segundo nivel, y tres factores (razonamientos verbal, cuantitativo y abstracto-visual) en el tercer nivel. Los factores de razonamiento cuantitativo y verbal com- prenden el factor de habilidades cristalizadas en el segundo nivel, y el factor abstracto-visual en el tercer nivel comprende el factor de habilidades fluido-analíticas en el segundo nivel. 144 CAPÍTULO SIETE Tests de inteligencia Nivel 1 Inteligencia general (g) Nivel 2 Habilidades cristalizadas Habilidades Memoria de corto plazo fluido-analíticas Nivel 3 Razonamiento Razonamiento Razonamiento verbal cuantitativo abstracto-visual Vocabulario Cuantitativo Análisis de patrones Memoria de cuentas Comprensión Series de números Copiado Memoria para enunciados Absurdos Construcción de Matrices Memoria para dígitos Relaciones ecuaciones Doblar y cortar papel Memoria para objetos verbales FIGURA 7.2 Modelo teórico y pruebas para la escala Stanford-Binet IV. (Derechos Reservados 1986 por Riverside Publishing Company. Reproducido de The Stanford-Binet Intelli- gence Scale, cuarta edición, por Robert L. Thorndike, Elizabeth P. Hagen y Jerome M. Sattler, con autorización del editor.) Al igual que sus antecesoras, la escala SB-IV fue diseñada para medir la inteligencia des- de los 2 años hasta la edad adulta. Hay 15 tests: tres o cuatro tests en cada una de las tres catego- rías más amplias del Nivel 3 (Razonamiento Verbal, Razonamiento Cuantitativo, Razonamiento Abstracto-Visual), además de cuatro tests de Memoria de Corto Plazo (vea la figura 7.2). Cada prueba se acomoda en una serie de niveles que consisten en dos reactivos cada uno. Casi todas las pruebas incluyen reactivos de muestra para familiarizar a los examinados con el carácter de la tarea específica. Aplicación. El tiempo de administración para toda la escala SB-IV es de aproximadamente 75 minutos, y varía de acuerdo con la edad del examinado y la cantidad de pruebas administradas. El carácter adaptativo, o de múltiples etapas, de la prueba exige administrar el Test de Ruta (Vo- cabulario) primero para determinar el nivel inicial en los demás tests. El nivel de entrada en el Test de Ruta se determina por la edad cronológica del examinado. La administración del Test de Ruta continúa mientras el examinado no falle en tres o cuatro reactivos en dos niveles consecu- tivos, el más alto de los cuales es el nivel crítico. El nivel inicial para las 14 pruebas restantes se establece a partir de la tabla mediante una combinación del nivel crítico del Test de Ruta y la edad cronológica del examinado (nivel basal) y hacia arriba hasta que falla en tres o cuatro reac- tivos en dos niveles consecutivos. El más alto de estos niveles es la edad tope del examinado pa- ra esa prueba. TESTS DE INTELIGENCIA INDIVIDUALES 145 Calificación. Las puntuaciones crudas en cada una de las 15 pruebas son iguales a la cantidad de reactivos aprobados. Estas puntuaciones se convierten, dentro de cada grupo de edad, en ca- lificaciones normalizadas de escala de edad estándar (SAS) con una media de 50 y desviación estándar de 8. Las puntuaciones crudas en cada una de las cuatro áreas (Razonamiento Verbal, Razonamiento Abstracto-Visual, Razonamiento Cuantitativo, Memoria de Corto Plazo) son iguales a la suma de las puntuaciones crudas en las tres o cuatro pruebas que comprenden esa área. Estas puntuaciones de área se convierten en calificaciones de escala estándar (calificacio- nes de área SAS) con una media de 100 y desviación estándar de 16. Por último, una calificación compuesta que consiste en la suma de las cuatro puntuaciones de área se convierte a una escala de calificaciones estándar con una media de 100 y desviación estándar de 16. El rango de las ca- lificaciones compuestas generales es de 36 a 164, que es el equivalente a un rango de califica- ciones z de ⫺4 a ⫹4. Estandarización. En Estados Unidos, la escala SB-IV fue estandarizada en 5,013 individuos de entre 2 y 23 años 11 meses de edad en 47 estados y el Distrito de Columbia. La muestra de estandarización fue estratificada por género y raza-etnia, y los estudiantes también fueron estra- tificados de acuerdo con la posición relativa en su clase. A pesar de los esfuerzos por seleccio- nar una muestra de estandarización que fuese verdaderamente representativa de la población estadounidense, la muestra contenía cantidades desproporcionadas de individuos de los niveles socioeconómicos y educativos más altos. Se intentó corregir este error al calificar las pruebas, pero el esfuerzo no fue del todo exitoso. Otros problemas son que los factores medidos por la es- cala no son uniformes en todos los niveles de edad y la información de confiabilidad del manual es inadecuada. Sin embargo, los coeficientes de división por mitad y de test-retest, calculados en medidas obtenidas a lo largo de un intervalo de 2 a 8 meses indican que las confiabilidades de las 15 pruebas, las cuatro áreas, y el conjunto son satisfactorias. Las pruebas de Wechsle Aunque las subpruebas en el nivel adulto se han incluido en la escala Stanford-Binet desde la re- visión de 1937, nunca ha habido una medida muy satisfactoria de la inteligencia en adultos. Por consiguiente, en 1939 David Wechsler, un psicólogo del Hospital Bellevue en Nueva York, pu- blicó un test de inteligencia individual diseñado específicamente para adultos. Para esta prueba, la Forma I de la Escala de Inteligencia de Wechsler-Bellevue, Wechsler añadió una segunda for- ma en 1947, la Forma II de la Escala de Inteligencia de Wechsler-Bellevue. Una revisión com- pleta y reestandarización de la Forma I se publicó en 1955 como la Escala de Inteligencia para Adultos de Wechsler (WAIS). La WAIS misma fue modificada, reestandarizada y reeditada por The Psychological Corporation en 1981 como la Escala de Inteligencia para Adultos de Wechs- ler Revisada para evaluar la inteligencia de adultos entre 16 y 74 años de edad. Escala de Inteligencia para Adultos de Wechsler, Revisada. Las seis subpruebas verbales (V) y cinco subpruebas de ejecución (E) de la Escala de Inteligencia para Adultos de Wechsler Revisada (WAIS-R), por orden de administración, se describen en la tabla 7.2. Las subpruebas Verbal y de Ejecución se administran alternadamente, y dentro de cada subprueba los reactivos se presentan en orden de dificultad creciente. Se requieren alrededor de 75 minutos para admi- nistrar las once subpruebas, y la administración en una subprueba en particular se descontinúa cuando el examinado falla en una cantidad específica de reactivos sucesivos. Calificación. Las puntuaciones crudas en las once subpruebas del WAIS-R se convierten a una escala de calificación normalizada con una media de 10 y desviación estándar de 3. Entonces, 146 CAPÍTULO SIETE Tests de inteligencia TABLA 7.2 Subpruebas de la Escala de Inteligencia para Adultos de Wechsler Revisada Información (V): 33 preguntas sobre información general que deben contestarse en pocas palabras o números. Completamiento de dibujos (E): 27 dibujos en tarjetas, cada uno con una parte faltante; el examinado tiene 20 segundos para indicar lo que hace falta en la imagen. Serie de dígitos (V): 7 series de dígitos que deben recitarse hacia adelante y 7 series para repetirse hacia atrás. Ordenamiento de dibujos (E): 10 series de tarjetas, cada una con una pequeña imagen; se pide al examinando que ordene los dibujos de cada serie de tarjetas para construir una historia coherente. Vocabulario (V): se presentan 37 palabras en orden de dificultad creciente que deben definirse. Diseño de cubos (E): 10 diseños geométricos en rojo y blanco en tarjetas y nueve bloques de los mismos colores; se solicita al examinado que copie cada uno de los diseños usando 4 o 9 bloques. Aritmética (V): se presentan 15 problemas aritméticos en orden de dificultad creciente. Ensamble de objetos (E): se presentan 4 rompecabezas de cartón al examinado en un formato preestablecido; se pide al examinado que una las piezas para armar algo. Comprensión (V): 18 preguntas que requieren respuestas detalladas se presentan en orden de dificultad creciente. Símbolos en dígitos (E): 93 casillas que deben llenarse con el símbolo codificado correcto correspondiente al número que aparece sobre la casilla. Semejanzas (V): 14 reactivos del tipo “¿En qué son similares A y B?” V, subprueba verbal; E, subprueba de ejecución. mediante la referencia a una tabla especial que viene dentro del manual de administración, la su- ma de las puntuaciones escaladas de la subpruebas en la Escala verbal puede convertirse en un CI Verbal, la suma de las puntuaciones escaladas de lad subpruebas en la Escala de Desempeño, en un CI de Desempeño, y la suma de las puntuaciones escaladas de las once subpruebas, en una Escala Completa de CI. Éstas son desviaciones CI, expresadas en números en una escala de ca- lificaciones estándar con una media de 100 y una desviación estándar de 15. Estandarización. La escala WAIS-R se estandarizó en una muestra nacional, cuidadosamente seleccionada, de 1,880 adultos “normales” ubicados en nueve grupos de edad (16 a 17, 18 a 19, 20 a 24, 25 a 34, 35 a 44, 45 a 54, 55 a 64, 65 a 69 y 70 a 74) dentro del rango de 16 a 74 años. La muestra de cada categoría de edad se estratificó por sexo, región geográfica, blanco contra no blanco, educación y ocupación. Se controlaron otras características, tales como residencia urba- na contra rural, pero no funcionaron como variables de estratificación. La estandarización de la WAIS-R difirió de la presentada originalmente por la de WAIS en 1955, sobre todo en cuanto a la estratificación de la muestra por grupo étnico y la provisión de muestras más representativas para adultos mayores. Significado diagnóstico de las calificaciones de Wechsler. Al diseñar la escala WAIS, Wechs- ler planeó obtener más de un cálculo de la habilidad mental general de una persona. Se conside- ró que una diferencia significativa entre los CI Verbal y de Ejecución de una persona y el patrón de calificaciones (dispersión) en las once subpruebas era característica de cierto tipo de trastor- nos mentales y, por lo tanto, potencialmente útil para el diagnóstico clínico. Desafortunadamente, la investigación proporciona poco apoyo para las hipótesis de Wechsler en cuanto a la importan- cia diagnóstica de la dispersión de la calificación escalada en las diversas subpruebas. TESTS DE INTELIGENCIA INDIVIDUALES 147 Un problema al tratar de analizar la dispersión de la calificación de las subpruebas en las Escalas de Wechsler es que dichas calificaciones no son muy confiables y algunas subpruebas tienen correlaciones considerables entre sí. En consecuencia, la diferencia entre las calificacio- nes escaladas de una persona en dos subpruebas dadas debe ser muy grande antes de que pueda considerarse significativa. Las diferencias pronunciadas entre las calificaciones escaladas de subpruebas y entre CI Verbales y de Ejecución tienen cierto valor en el diagnóstico de daño ce- rebral orgánico y psicopatología y en la diferenciación entre inteligencia y oportunidad. Un CI Verbal considerablemente inferior al CI de Ejecución, por ejemplo, puede ser resultado de una experiencia lingüística limitada o de carencia cultural. WAIS-III. Así como en otras pruebas de habilidades cognoscitivas, el contenido y las normas de los tests de inteligencia de algún modo pierden actualidad con los años. Por ello, una nueva edición de WAIS-R, la WAIS-III, se elaboró a mediados de la década de 1990 y fue publicada por The Psychological Corporation en 1997. Al elaborar la WAIS-III, se prestó particular aten- ción a las subpruebas verbales, tales como Información, Vocabulario y Comprensión, las cuales, debido a que están más sujetas a cambios culturales, se vuelven obsoletas más pronto que otras subpruebas. Además de las revisiones de las once subpruebas de la WAIS-R, se incluyeron tres nuevas subpruebas en la WAIS-III: Razonamiento de Matriz, Búsqueda de Símbolos y Secuencias de Letras y Números. El Razonamiento de Matriz consiste en una serie de imágenes de cinco for- mas geométricas; se requiere que los examinados nombren o señalen la forma correcta. En esta subprueba se incluyen cuatro tipos de reactivos, Completar Patrones, Clasificación, Razona- miento por Analogía y Razonamiento Serial. La subprueba de Búsqueda de Símbolos compren- de un conjunto de grupos pareados, en el que cada par consiste en un grupo meta y un grupo de búsqueda. Los examinados marcan la casilla adecuada para indicar si cada símbolo meta apare- ce en el grupo de búsqueda. La subprueba de Secuencias de Letras y Números es una serie de le- tras y números presentados oralmente en desorden. Los examinados reordenan y repiten la lista diciendo los números en orden ascendente y repitiendo luego las letras en orden alfabético. El tiempo de aplicación de la WAIS-III es menor que el de la WAIS-R, y el nivel inferior para la mayoría de las subpruebas se ha reducido con el propósito de lograr un mejor cálculo del funcionamiento cognoscitivo de los individuos con retraso mental. Además de los CI tradiciona- les, Verbal, de Ejecución y de Escala Completa, se obtienen cuatro calificaciones de índice de factores (Comprensión Verbal, Memoria de Trabajo, Organización Perceptual y Velocidad de Procesamiento). La WAIS-III se estandarizó en una muestra de 2,450 adultos de edades entre 16 y 89 años. La muestra fue estratificada por raza-etnia (blancos, afroamericanos, latinos, otros), sexo, nivel educativo y región geográfica en cada grupo de edad. Las correlaciones entre las calificaciones WAIS-III y las de otras pruebas de la familia Wechsler, así como la cuarta edición de la Escala Stanford-Binet y las Matrices Progresivas de Raven, se incluyen en el manual. También se pro- porcionan estadísticas basadas en diversos grupos clínicos. Las escalas de la WAIS-III se ajus- taron a las normas de la tercera edición de la Escala de Memoria Wechsler (WMS-III), lo que permite efectuar un examen de la relación entre el funcionamiento intelectual de una persona y su memoria. Escala de Inteligencia para Niños de Wechsler, tercera edición. La Escala de Inteligencia para Niños de Wechsler (WISC), una extensión hacia abajo de la Forma I de la Escala de Wechs- ler-Bellevue, fue publicada por The Psychological Corporation en 1949. En 1974 se publicó una 148 CAPÍTULO SIETE Tests de inteligencia revisión de la WISC, la WISC-R, y en 1991 apareció publicada la Escala de Inteligencia para Ni- ños de Wechsler, tercera edición (WISC-III). Esta prueba, diseñada para niños de entre 6 y 16 años 11 meses, consiste en las siguientes seis subpruebas Verbales y siete subpruebas de Ejecución: SUBPRUEBAS VERBALES SUBPRUEBAS DE EJECUCION Información Completamiento de dibujos e imágenes Semejanzas Codificación Aritmética Acomodamiento de dibujos Vocabulario Diseño de cubos Comprensión Ensamble de objetos Intervalo de dígitos Búsqueda de símbolos (complementaria) (complementaria) Laberintos (complementaria) Las diez subpruebas principales (no complementarias) pueden administrarse en un lapso de en- tre 50 y 70 minutos, y las subpruebas complementarias en otros 10 o 15 minutos adicionales. Así como en la WAIS-R, las subpruebas Verbales y de Ejecución de WISC-III se administran alter- nadamente. Los CI Verbal, de Ejecución y de Escala Completa, basados en la misma escala de calificaciones normalizadas que los de la WAIS-III, se determinan añadiendo la calificación esca- lada de las cinco subpruebas Verbales y las cinco de Ejecución que se aplican. El WISC-III también puede calificarse para cuatro factores: Comprensión Verbal, Organización Perceptual, Libertad y Distracción y Velocidad de Procesamiento. La WISC-III fue estandarizada en muestras representativas de estadounidenses de 100 ni- ños y 100 niñas en cada uno de once grupos de edad de los 6 a los 16 años. Las muestras tam- bién se estratificaron por región geográfica, nivel educativo de los padres y raza. Se evaluaron otras muestras de niños con WISC-III y con la WAIS-R o la WPPSI-R, dependiendo de sus eda- des. Las confiabilidades de test-retest de la WISC-III, obtenidas al readministrar la escala des- pués de 4 a 8 semanas, son satisfactorias. Asimismo, se han llevado a cabo diversos estudios de validación con varios grupos clínicos de niños. Escala de Inteligencia para Nivel Preescolar y Primaria de Wechsler Revisada. Una ter- cera prueba de Wechsler, la Escala de Inteligencia para Nivel Preescolar y Primaria de Wechsler (WPPSI), fue publicada por The Psychological Corporation en 1967 y una revisión, la WPPSI-R, en 1989. Las seis subpruebas Verbales (V) y las seis de Ejecución (E) de la WPPSI-R, en orden de aplicación, son: Ensamble de Objetos (E), Información (V), Diseño Geométrico (E), Com- prensión (V), Diseño de Bloques (E), Aritmética (V), Laberintos (E), Vocabulario (V), Comple- tar Imágenes (E), Semejanzas (V), Piezas con forma de animales (E), y Enunciados (V). Las últimas dos son subpruebas complementarias. Diseñada para niños de entre 3 y 7 años de edad, la WPPSI-R fue estandarizada a fines de la década de 1980 sobre una muestra nacional de ni- ños estadounidenses de entre 3 y 7 años de edad. Estratificar la muestra por género, etnia y ni- vel educativo y ocupacional de los padres, la hizo más representativa de la población de Estados Unidos en este rango de edad. Del mismo modo que la WAIS-R y la WISC-III, la WPPSI-R pro- duce CI Verbal, de Ejecución y de Escala Completa por separado, con base en una escala de ca- lificación estándar con una media de 100 y desviación estándar de 15. Escala de Inteligencia de Wechsler Abreviada. En contextos clínicos y educativos, la nece- sidad de una medición confiable de la inteligencia que pudiera realizarse en forma más rápida que la WAIS-III y la WISC-III condujo a la creación de la Escala de Inteligencia de Wechsler TESTS DE INTELIGENCIA INDIVIDUALES 149 Abreviada (WASI). Las subpruebas de la WASI se construyeron independientemente de las co- rrespondientes subpruebas de la WAIS-III y la WISC-III, pero en forma paralela. La forma de cuatro subpruebas de la WASI consiste en subpruebas de Vocabulario, Semejanzas, Diseño de Cubos y Razonamiento de Matriz. Las primeras dos constituyen la Escala Verbal y las últimas dos la Escala de Ejecución de la WASI. La forma de dos subpruebas de la WASI incluyen Voca- bulario y Razonamiento de Matriz. La forma de cuatro subpruebas requiere de aproximadamen- te 30 minutos y la de dos subpruebas toma alrededor de 15 minutos en administrarse. Otras pruebas de inteligencia individuales de rango amplio Aunque son las pruebas de inteligencia individuales más populares en Estados Unidos, la Stan- ford-Binet y la de Wechsler de ningún modo son las únicas baterías de amplio rango para eva- luar la habilidad mental general. Tampoco son las pruebas más populares de habilidad mental en otros países. De particular relevancia en el Reino Unido son las Escalas de Habilidad Británicas (BAS), que fueron revisadas por The Psychological Corporation y reestandarizadas en Estados Unidos como Escalas de Habilidad Diferencial (DAS). Escalas de habilidad diferencial. El objetivo de las Escalas de Habilidad Diferencial (DAS) (de The Psychological Corporation) es proporcionar perfiles de habilidad para analizar y diag- nosticar problemas de aprendizaje en los niños, evaluar cambios en las habilidades con el tiempo e identificar, seleccionar y clasificar a los niños (de entre 21/2 y 17 años de edad) con problemas de aprendizaje. Las DAS consisten en 20 subpruebas, incluyendo 12 subpruebas principales, 5 subpruebas de diagnóstico y 3 subpruebas de aprovechamiento. Las tres subpruebas de aprove- chamiento (Habilidades Numéricas, Ortografía, Lectura de Palabras) son útiles para evaluar ha- bilidades académicas básicas, pero las subpruebas centrales y de diagnóstico proporcionan el principal medio de evaluar las cognoscitivas. A cada examinando se le aplican de cuatro a seis subpruebas centrales, de los 2 años 6 meses a los 17 años 11 meses. Se combinan las calificacio- nes de varias subpruebas centrales para obtener índices generales de Habilidad Verbal, Habili- dad de Razonamiento No Verbal y Habilidad Conceptual General, en una escala con una media de 100 y desviación estándar de 15. Aunque las subpruebas de diagnóstico no se usan para calcular los índices de habilidad, proporcionan información útil para comprender las ventajas y deficien- cias cognoscitivas del niño. Las normas de las DAS se basan en 3,475 niños estadounidenses; la muestra fue estratifi- cada por edad, sexo, raza-etnia, educación de los padres, región geográfica e inscripción en educa- ción preescolar. Los niños especiales (con trastornos de aprendizaje, dificultades de habla y lenguaje, retrasados mentales susceptibles de ser educados, superdotados, emocionalmente per- turbados, con trastornos sensoriales o motrices) se incluyeron en la muestra. Prueba Detroit de Habilidad de Aprendizaje. Otra batería relevante es la Prueba Detroit de Habilidad de Aprendizaje (de pro.ed). La administración de la principal edición de esta batería (DTLA-P-2), que fue diseñada para niños de entre 3 y 9 años de edad, dura entre 15 y 20 minu- tos. Las subpruebas incluyen Articulación, Compaginación Conceptual, Reproducción de Dise- ños, Secuencia de Dígitos, Dibujar una Persona, Secuencias de Letras, Instrucciones Motoras, Secuencias de Objetos, Instrucciones Orales, Imágenes Fragmentadas, Identificación de Imáge- nes, Imitación de Enunciados y Relaciones Simbólicas. La cuarta edición de la Prueba Detroit de Habilidad de Aprendizaje (DTLA-4) fue diseñada para niños de 6 a 17 años y tarda de 50 a 90 minutos en administrarse. Las subpruebas de la DTLA-4 incluyen Palabras Opuestas, Secuencias de Diseño, Imitación de Enunciados, Letras Invertidas, Construcción de Historias, Reproducción de Diseños, Información Básica, Relaciones Simbó- 150 CAPÍTULO SIETE Tests de inteligencia licas, Secuencias de Palabras y Secuencias de Historias. Calificaciones normalizadas, rangos percentilares y equivalentes de edad pueden determinarse para las diez subpruebas y las pruebas compuestas (General, Nivel Óptimo, Dominio, Teórico). Las pruebas compuestas de Dominio son Verbal, No Verbal, Aumento de la Atención, Reducción de la Atención, Motricidad Aumen- tada, Motricidad Reducida. Las compuestas teóricas son de inteligencia Fluida y Cristalizada, de Asociación y Cognoscitiva, Simultánea y Sucesiva, Verbal y de Ejecución. La DTLA-4 es un me- joramiento sobre sus predecesoras con respecto a la claridad, facilidad de administración, estan- darización, confiabilidad, validez y otras características estadísticas. Pruebas de inteligencia de Kaufman. La Batería de Kaufman de Evaluación para Niños (K- ABC) (del American Guidance Service) fue diseñada por A. S. Kaufman y N. L. Kaufman con el propósito de evaluar las habilidades de niños de entre 21/2 y 121/2 años de edad para resolver problemas que requieren de un procesamiento mental simultáneo y secuencial. La K-ABC tam- bién incluye una Escala de Aprovechamiento para medir habilidades adquiridas en lectura y arit- mética. Basada en una extensa investigación sobre neuropsicología y psicología cognoscitiva, la K-ABC fue diseñada especialmente para niños de edad preescolar, menores de edad, y excep- cionales. 13 de las 16 subpruebas tipo juego que comprende la K-ABC pueden administrarse en un lapso de 35 a 85 minutos. Las calificaciones se obtienen en cuatro áreas globales: Procesa- miento Secuencial, Procesamiento Simultáneo, Compuesta de Procesamiento Mental (Secuen- cial más Simultánea) y Aprovechamiento. La muestra de estandarización para la K-ABC, basada en estadísticas registradas en el censo de Estados Unidos de 1980, se estratificó por raza (blanca, negra, latina, asiática, indígena estadounidense) e incluía un grupo representativo de niños excepcionales. Se establecieron nor- mas de rangos percentilares separados por raza y nivel socioeconómico para niños blancos y ne- gros. Los coeficientes de confiabilidad de división por mitades para las cuatro escalas globales en la K-ABC están en los rangos que van del.80 y el.90. En el manual también se da informa- ción sobre la validez de constructo, concurrente y predictiva de la prueba. Otras dos pruebas de inteligencia relevantes diseñadas por A. S. Kaufman y N. L. Kauf- man, publicadas por el American Guidance Service, son la Prueba de Inteligencia de Kaufman para Adolescentes y adultos (KAIT) y la Prueba Breve de Inteligencia de Kaufman (K-BIT). Ambas pruebas se basan en la teoría de R. B. Cattell sobre la inteligencia fluida y cristalizada. La KAIT se diseñó para edades entre los 11 y 85+ y toma entre 60 y 90 minutos; la K-BIT está diseñada para edades de 4 a 90 años y dura de 15 a 20 minutos. Pruebas Woodcock-Johnson III de Habilidades Cognoscitivas. La Woodcock-Johnson III (WJ III) (de Riverside Publishing) consiste en dos baterías co-normalizadas para medir la habi- lidad intelectual general, habilidades cognoscitivas específicas y el aprovechamiento académi- co. Una batería, las Pruebas de Habilidades Cognoscitivas Woodcock-Johnson III (WJ III), se basa en la teoría de habilidades cognoscitivas de Cattell-Horn-Carroll (CHC) (vea Woodcock, 1998). Esta batería consiste en una Batería Estándar de diez pruebas y una Batería Ampliada de diez pruebas adicionales. Las pruebas tienen un rango amplio de edad y grado (de 2 a 90+ años; desde jardín de niños hasta la universidad) y una duración de evaluación relativamente breve (aproximadamente cinco minutos por prueba). Las calificaciones de seis grupos: Verbal-Estándar, de Pensamiento-Estándar, Eficiencia Cognoscitiva-Estándar, Percepción Fonémica, Memoria Funcional y Recuerdo Demorado, se determinan a partir de la Batería Estándar. Las calificaciones de catorce grupos adicionales se ob- tienen cuando se aplica la Batería Ampliada. Además de las calificaciones en los grupos separa- TESTS DE INTELIGENCIA INDIVIDUALES 151 dos, se calcula una calificación de Habilidad Intelectual General (GIA) al combinar las califica- ciones de las primeras siete pruebas o una calificación GIA (Ampliada) administrando 14 prue- bas cognoscitivas. Puede calcularse una calificación de Habilidad Intelectual Breve (BIA) combinando las calificaciones de las pruebas de Comprensión Verbal, Formación de Conceptos y Compaginación Visual. También pueden determinarse calificaciones en los siguientes factores CHC: Comprensión-Conocimiento (Gc), Recuerdo a Largo Plazo (Glr), Pensamiento Visual- Espacial (Gv), Procesamiento Auditivo (Ga), Razonamiento Fluido (Gf), Velocidad de Procesa- miento (Gs) y Memoria de Corto Plazo (Gsm). Sistema de Evaluación Cognoscitiva Das-Naglieri. Otra prueba de inteligencia reciente es el Sistema de Evaluación Cognoscitiva Das-Naglieri (CAS)(Naglieri y Das, 1997)(de Riverside Publishing). El CAS es similar a la Woodcock-Johnson III en cuanto a que está basado en una teoría cognoscitiva y lo publica la misma compañía (Riverside Publishing Co.). Al orientarse ha- cia niños en edad escolar y adolescentes, el rango de edad del CAS (de 5 años a 17 años 11 me- ses) es más estrecho que el de la WJ III. El CAS se diseñó “para proporcionar una medida del procesamiento cognoscitivo que sea justa para niños menores de edad, eficaz para un diagnóstico diferencial y relacionada con la in- tervención”. Se basa en la teoría PASS (Planeación, Atención, Simultánea, Sucesiva) de Das- Naglieri sobre la cognición, descrita en los inicios de ese capítulo, y es adecuada para niños en edad escolar y adolescentes. El tiempo de evaluación es de 40 minutos para la Batería Básica y de 60 minutos para la Batería Estándar. Las subpruebas se agrupan en los cuatro procesos cog- noscitivos del modelo PASS: PLANEACIÓN SIMULTÁNEA Números Correspondientes Matrices No Verbales Códigos Planeados Relaciones Verbal-Espaciales Conexiones Planeadas Recuerdo de Figuras ATENCIÓN SUCESIVA Atención Expresiva Series de Palabras Detección de Números Repetición de Enunciados Atención Receptiva Velocidad de Habla (de 5 a 7 años de edad) Preguntas de Enunciados (de 8 a 17 años de edad) La Batería Básica consiste en dos subpruebas, y la Batería Estándar en tres subpruebas, a partir de cada una de estas cuatro categorías. Además de las calificaciones en las pruebas separadas, las calificaciones normalizadas con una media de 100 y desviación estándar de 15 se obtienen al combinar las calificaciones de todas las escalas. Como la Woodcock-Johnson III, el CAS se estandarizó cuidadosamente y tiene con- fiabilidades aceptables. Las evidencias de investigación relativas a diversos tipos de validez (de constructo, concurrente, predictiva y discriminante) se registran en el manual de la prueba. Pruebas no verbales para los discapacitados Los instrumentos psicométricos que requieren de señalar, manipular objetos o de otra respuesta no verbal, antes que de hablar o escribir, se conocen como pruebas no verbales. El desempeño en algunas tareas de estas pruebas puede facilitarse con el lenguaje verbal, pero su uso es mínimo. El hecho de que las escalas Wechsler contengan medidas verbales y de ejecución separa- das las hace más adecuadas que las versiones anteriores de Stanford-Binet para examinar perso- 152 CAPÍTULO SIETE Tests de inteligencia nas con diferencias físicas, lingüísticas y culturales. Las subpruebas de desempeño Wechsler tienden a ser medidas más precisas de la habilidad mental en niños con problemas de audición y culturalmente distintos, mientras que las subpruebas verbales son medidas más válidas para los ciegos y débiles visuales. Al evaluar a personas ciegas, en ocasiones se ha aplicado una serie de seis pruebas de desempeño especialmente diseñadas conocidas como la Escala de Inteligencia Haptic para Adultos Ciegos, en conjunto con la Escala Verbal del WAIS, como medida de la in- teligencia de adultos ciegos y débiles visuales. Pruebas de una única tarea. Una de las pruebas no verbales más antiguas, el Tablero de For- mas Seguin, se introdujo en 1866. Sin embargo, no fue sino hasta la primera parte del siglo XX cuando Knox, Kohs, Porteus y otros psicólogos realizaron serios esfuerzos por estandarizar di- chas pruebas. Para medir las habilidades mentales, adicionalmente a muchos tipos de tableros de formas, se han utilizado tareas no verbales como rompecabezas de diversos tipos, el golpeteo se- cuencial de cubos, problemas de emparejamiento, diseños de cubos, laberintos, dibujo de perso- nas y señalamiento de imágenes. Los laberintos se han usado en forma extensa tanto en laboratorios psicológicos y clínicas como en varias pruebas estandarizadas. Los Laberintos de Porteus, publicados inicialmente en 1914 y descritos por su diseñador como una medida de la capacidad de previsión y planeación, consisten en un conjunto de laberintos ordenados por dificultad creciente. En cada laberinto se instruye al examinado para que trace el camino más corto entre el punto de partida y el final, sin levantar el lápiz ni entrar en un callejón sin salida. Para quienes padecen algún trastorno verbal, los Laberintos de Porteus son particularmente adecuados como prueba breve (25 minutos), y se han empleado en varias investigaciones y estudios antropológicos sobre los efectos de las dro- gas y la neurocirugía. Otra prueba de ejecución no verbal para los discapacitados consiste en diseños de cubos tales como los de las escalas de Wechsler y las Escalas de Habilidad Diferencial. Una de las pruebas más antiguas de este tipo es el Diseño de Cubos de Kohs. Los materiales de la prueba de Kohs son 16 cubos de color y 17 tarjetas con diseños coloreados que el examinado debe co- piar. El Diseño de Cubos se consideraba especialmente apropiado para niños con discapacidad de lenguaje y audición, pero ahora su aplicación es muy esporádica. La Escala de Madurez Mental de Columbia (CMMS) es otra prueba de una única tarea que sólo requiere de señalar. Esta prueba se diseñó originalmente para evaluar niños con paráli- sis cerebral, pero puede administrarse a otros niños con verbales y motrices disminuidas (dis- capacidades visuales, trastornos del habla, de la audición, retraso mental) así como a niños hiperactivos. Los materiales de prueba consisten en 92 reactivos (una serie de dibujos) impresos en tarjetas de 15 × 47.5 cm. Se pide al niño (de entre 31/2 y 10 años de edad) que seleccione, a partir de una serie de dibujos presentados en cada tarjeta, la imagen que no pertenece al grupo. Al seleccionar, el niño usa discriminación perceptiva y clasificatoria o habilidades de razona- miento general que incluyen color, forma, tamaño, uso, número, partes faltantes y material sim- bólico. Los 92 reactivos de la CMMS están dispuestos en ocho niveles traslapados, pero sólo entre 51 y 65 reactivos se aplican de hecho a un examinado determinado. La prueba dura entre 15 y 20 minutos, y las instrucciones se dan en inglés o en español. La ejecución se expresa en términos de calificaciones de desviación de edad desde 50 hasta 150, así como en rangos percen- tilares, estaninas e índices de madurez. Baterías de pruebas de ejecución. La primera batería de pruebas de ejecución estandariza- das que se distribuyó comercialmente fue la Escala Pintner-Paterson de Pruebas de Ejecución (1917). Igualmente conocida es la Escala Puntual Arthur de Pruebas de Ejecución, publicada ini- cialmente por Grace Arthur en 1925. Dos baterías de pruebas de ejecución que se han usado am- TESTS DE INTELIGENCIA INDIVIDUALES 153 pliamente en niños con discapacidades de habla y de audición, y que todavía están disponibles, son la Escala Leiter de Desempeño Internacional y las Pruebas Hiskey-Nebraska de Aprendiza- je. También son interesantes algunas baterías recientemente publicadas, tales como la Prueba Comprensiva de Inteligencia No Verbal, la Prueba de Habilidad No Verbal de Naglieri y la Prue- ba Universal de Inteligencia No Verbal. Prueba Hiskey-Nebraska de Habilidad de Aprendizaje. Esta prueba se diseñó específicamente para evaluar las capacidades cognoscitivas de niños con discapacidad auditiva. Consiste en 12 subpruebas no verbales aplicadas mediante instrucciones en pantomima a niños sordos o con instrucciones verbales a niños normales. La prueba se aplica en forma no acelerada y proporcio- na la edad mental y un cociente de inteligencia. En el momento de escribir el presente libro, la prueba Hiskey-Nebraska se estaba reestructurando en cuanto a sus normas por Slosson Educa- tional Publications, de modo que las características demográficas de la muestra de estandariza- ción se ajustaran a las de la población actual de Estados Unidos. Leiter-R. La versión revisada de la Escala Leiter de Desempeño Internacional (Leiter-R) (de Stoelting) se promueve como una medida de las habilidades cognoscitivas que es justa para la cultura y adecuada para personas de varios contextos culturales. Tiene un rango de edad de 2 a 21 años y puede administrarse sin lenguaje verbal a niños con problemas de audición o con otros trastornos lingüísticos de expresión o de recepción y culturalmente diferentes, con discapacida- des motrices, autistas e incluso a niños superdotados. Se solicita a los examinados que unan una serie de cartas de respuesta coloreadas con las ilustraciones correspondientes presentadas en un caba- llete. Las cuatro subpruebas de Razonamiento y las seis de Visualización de la batería de Visua- lización y Razonamiento requieren de un total de 40 minutos para administrar. Las ocho subpruebas de Memoria y las dos de Atención en la correspondiente batería toman 35 minutos. Evaluar el CI o LD/ADHD puede realizarse en 25 minutos administrando una batería incompleta; la Eva- luación de Selección de Superdotados requiere de 35 minutos. La Leiter-R fue estandarizada en 1993 en 1,719 niños típicos y 692 atípicos de entre 2 y 12 años de edad. Las evidencias de con- fiabilidad y validez registradas en el manual indican que Leiter-R es un instrumento bastante se- guro psicométricamente. Prueba Comprensiva de Inteligencia No Verbal. La Prueba Comprensiva de Inteligencia No Ver- bal (CTONI)(de pro.ed) tiene un rango de edad muy amplio (de 6-0 a 90-11) y puede administrar- se en alrededor de una hora. Es particularmente apropiada para calcular la inteligencia de niños y adultos con problemas de lenguaje o de habilidades motoras finas. Pueden ser personas que hablen una lengua distinta al inglés, tengan desventajas socioeconómicas o sean sordos, o que sufran al- gún trastorno del lenguaje, una discapacidad motora o un problema neurológico. Las seis subpruebas de CTONI son Analogías Pictóricas, Categorías de Imágenes, Se- cuencias Pictóricas, Analogías Geométricas, Categorías Geométricas y Secuencias Geométricas. Estas subpruebas se diseñaron para medir el razonamiento analógico, las calificaciones categó- ricas y las habilidades de razonamiento secuencial, como lo revelan las respuestas a las imágenes de objetos familiares (animales, personas, juguetes y reactivos similares) y diseños geométri- cos (dibujos, esbozos inusuales, etc.). Así como en la prueba Leiter-R, en la CTONI los exami- nados indican sus respuestas señalando opciones alternativas. Las respuestas se califican entonces y las calificaciones se combinan para obtener tres cocientes compuestos: Cociente de Inteligen- cia No Verbal (CINV), Cociente de Inteligencia No Verbal Pictórica (CINVP)y Cociente de Inte- ligencia No Verbal Geométrica (CINVG). La CTONI se estandarizó en 25 estados de Estados Unidos, Canadá y Panamá. Aunque bas- tante pequeñas, las muestras se estratificaron por género, regiones geográficas, etnia, raza, residen- 154 CAPÍTULO SIETE Tests de inteligencia cia urbana-rural y discapacidad. Esta prueba reporta coeficientes de confiabilidad de .80 o mayores, y en el manual también se da cierta evidencia para la validez con referencia a criterios, de contenido y de constructo. De especial relevancia son los esfuerzos de los diseñadores de la CTONI para detec- tar y eliminar sesgos culturales, de género, raciales y lingüísticos en los reactivos. Prueba Universal de Inteligencia No Verbal (UNIT). A diferencia de muchas pruebas no ver- bales que se caracterizan por una modalidad no verbal ya sea en la administración o bien en los formatos de respuesta, a fin de garantizar la justicia sin importar la cultura, la etnia, el género o la habilidad auditiva, la UNIT se desarrolló con ambas modalidades simultáneamente. La admi- nistración de esta batería de prueba implica múltiples modos de respuesta, incluyendo el uso de herramientas de manipulación, lápiz y papel así como señalamiento. El examinador usa ocho gestos universales de manos y cuerpo para explicar las tareas de la prueba al examinado. Ade- más de estos gestos, la aplicación de la prueba incluye demostraciones por parte del examinador, reactivos de muestra, respuestas correctoras, reactivos de transición en puntos de verificación y reactivos que no permiten la retroalimentación del examinador. La UNIT (de Riverside Publishing) es adecuada para individuos con impedimentos de habla, lenguaje o audición, así como para aquellos que no son comunicativos verbalmente o pro- vienen de distintos contextos culturales o lingüísticos. Los materiales de la prueba se selec- cionaron considerando que fueran relativamente independientes de las culturas particulares y de interés para niños con distintos ambientes culturales. Hay seis subpruebas en la Batería Ampliada de la UNIT: Memoria Simbólica, Memoria de Objeto, Memoria Espacial, Razonamiento Analógico, Diseño de Cubos y Laberintos. Las puntuaciones crudas de estas subpruebas se convierten en calificaciones escaladas con una me- dia de 10 y desviación estándar de 3. También se definen cinco cocientes, Cociente de Inteligencia de Escala Completa (FSIQ), Cociente de Memoria (MQ), Cociente de Razonamiento (RQ), Co- ciente Simbólico (SQ) y Cociente No Simbólico (NSQ), a partir de la combinación de las califi- caciones obtenidas en seis subpruebas de la Batería Ampliada o en cuatro subpruebas de la Batería Estándar. La Batería Ampliada toma 45 minutos en su administración, mientras que la Ba- tería Estándar sólo 30 minutos. Una Batería Abreviada de dos subpruebas, que puede usarse para seleccionar, tarda de 10 a 15 minutos en completarse. La UNIT se estandarizó hacia mediados de la década de 1990 en una muestra nacional de 2100 niños y adolescentes (de entre 5 años y 17 años 11 meses de edad). Los datos de confiabi- lidad son satisfactorios, y la evidencia de investigación que corresponde a la validez concurren- te, predictiva y discriminativa de este instrumento se proporciona en el manual. TESTS DE INTELIGENCIA COLECTIVOS Durante la segunda década del siglo XX, Lewis Terman impartía habitualmente un curso en la Universidad de Stanford sobre la Escala de Inteligencia de Stanford-Binet. Según se informó, en una sección de este curso un estudiante, Arthur Otis, tuvo la idea de adaptar tareas seleccionadas de la Stanford-Binet a un formato de lápiz y papel. Poco después, muchas de las tareas adapta- das por Otis y otros autores se combinaron como la primera prueba de inteligencia colectiva, el Examen Alfa del Ejército. Los exámenes Alfa y Beta del Ejército, una prueba no verbal lingüística para no anglo- parlantes y analfabetos, se administraron a casi dos millones de reclutas del ejército estadouni- dense durante y después de la Primera Guerra Mundial con propósitos de selección militar y clasificación de puestos. El Examen Alfa del ejército consistía en reactivos que incluían analo- gías, problemas aritméticos, completamiento de series de números, sinónimos y antónimos, aná- lisis de cubos, símbolos en dígitos, información y juicio práctico. Esto propició la aparición de TESTS DE INTELIGENCIA COLECTIVOS 155 otras pruebas colectivas de inteligencia y de aptitudes académicas, y funcionó como su modelo después de la guerra. Arthur Otis y otros psicólogos empezaron a publicar sus propias pruebas de inteligencia colectivas, y hacia la década de 1930 había disponibles comercialmente muchos más instrumentos de este tipo. Una prueba colectiva grupal de inteligencia típica puede constar de un conjunto de pre- guntas de opción múltiple dispuestas en un formato en espiral-ómnibus o de una serie de sub- pruebas en momentos separados. En el formato colectivo en espiral se mezclan los diversos tipos de reactivos que comprende la prueba y se ordenan por dificultad creciente; los reactivos con el mismo grado de dificultad se agrupan juntos. Aplicación, calificación e informes Las pruebas de inteligencia colectivas pueden administrar a pequeñas cantidades de niños desde los 5 o 6 años de edad o a grupos más numerosos de adultos. Al evaluar niños pequeños, los exami- nadores deben tener particular cuidado en asegurarse de que los examinados comprendan las ins- trucciones, pasen a la página correcta, comiencen y terminen a tiempo, entre otros aspectos. Al calificar pruebas de inteligencia colectivas, las puntuaciones crudas, ya sea parciales o globales, pueden convertirse en rangos percentilares, calificaciones estándar y otras unidades numéricas. Incluso más que en pruebas individuales, las calificaciones de pruebas aplicadas de ma- nera colectiva deben interpretarse con precaución, tomando en cuenta otros datos (grados esco- lares e información obtenida mediante entrevistas o la observación) sobre el examinado. El informe 7.1 que aparece en la página siguiente ilustra la manera en que los hallazgos de una prueba colectiva grupal de inteligencia pueden registrarse e interpretarse, junto con más infor- mación relevante sobre el examinado. Asimismo, pueden prepararse perfiles de calificaciones interpretativos a través de un servicio de calificación de pruebas. Los examinados con califica- ciones muy bajas deben ser sometidos a otras pruebas, de preferencia individuales, antes de to- mar decisiones sobre diagnóstico o colocación. Ejemplos de pruebas de inteligencia colectivas Tres de las pruebas de inteligencia colectivas más populares son la Prueba Otis-Lennon de Ha- bilidad Escolar, la Prueba de Aptitudes Cognoscitivas y la Prueba de Personal Wonderlic. Prueba Otis-Lennon de Habilidad Escolar. Esta prueba (de Harcourt Brace) es una revisión de las Pruebas Autoadministrables de Otis de Habilidad Mental (OLSAT), la Prueba Otis-Len- non de Habilidad Mental y las Pruebas Otis de Habilidad Mental de Calificación Rápida. Igual que sus predecesoras, la séptima edición de la OLSAT consiste en diversos reactivos de imáge- nes, verbales, de figuras y cuantitativos, a fin de medir Comprensión Verbal, Razonamiento Ver- bal, Razonamiento de Imágenes, Razonamiento de Figuras y Razonamiento Cuantitativo, desde la etapa preescolar hasta el 12° grado. Hay dos formas y siete niveles de la OLSAT, cada una de las cuales puede administrarse en 60 o 75 minutos. Las normas, que se basan en una muestra na- cional amplia, se expresan como rangos percentilares, calificaciones estaninas y NCE por grado. De igual manera pueden realizarse comparaciones entre la habilidad y el logro cuando se aplica la OL- SAT con la Serie de Pruebas de Aprovechamiento de Stanford, en su novena edición. Prueba de Habilidades Cognoscitivas. La quinta edición de la Prueba de Habilidades Cog- noscitivas (CogAT) (de Riverside Publishing) evalúa las habilidades de los niños para razonar y resolver problemas usando símbolos verbales, cuantitativos y espaciales (no verbales). La CogAT es una prueba de niveles múltiples, con los niveles 1 y 2 para los grados K-3 y niveles de la A a la H para los grados 3-12; su administración dura aproximadamente 90 minutos. Cada ni- 156 CAPÍTULO SIETE Tests de inteligencia REPORTE 7.1 Resultados de una prueba colectiva de inteligencia Nombre del examinado: Jane N. Brown Sexo: Femenino Fecha de nacimiento: 11 de marzo de 1980 Edad: 21 años, 11 meses Dirección: 12449 Mount Olive Street Escolaridad: Licenciatura universitaria Thousand Oaks, CA Fecha de aplicación: 15 de abril de 2002 Prueba aplicada: Prueba Otis-Lennon de Habilidad Escolar, Forma avanzada R Jane Brown, una joven de altura y peso promedios (1.65 m, 60 kg), se ofreció como voluntaria para someterse a la prueba de inteligencia debido a un interés personal en sus habilidades mentales y como un favor hacia el examinador. La prueba se administró como una tarea en Psicología 405 (Evaluación Psicológica) en Western College durante el semestre de prima- vera de 2002. En la época del examen, Jane estaba en su último semestre de la especialización de contabilidad. Informó que su promedio de graduación era de 3.2, y señaló que le gustaría ir a la escuela de posgrado en administración para obtener un grado de maestría, pero que inmediatamente después de su graduación planeaba trabajar de tiempo completo en una em- presa de contabilidad en el área de Los Ángeles. El padre de Jane tiene un grado universitario, y su madre terminó dos años de educación universitaria. Ambos traba- jan en el negocio familiar, una empresa de asesoría fiscal. Jane informa haber obtenido buenas calificaciones (B y A) en to- da su educación escolar, pero confesó que “¡No soy ninguna académica!” Parece ser muy práctica en cuanto a sus intereses, como lo indica no sólo la licenciatura que eligió, sino también sus planes y otros comentarios que hizo al examinador. Jane mostró un interés moderado en las preguntas de la prueba y se mostró relajada pero involucrada durante el proceso de evaluación. Trabajó con atención y sin interrupciones durante todos los 40 minutos. Las condiciones de la prue- ba fueron buenas; no hubo interrupciones ni distracciones. Resultados e interpretación de la prueba Jane terminó todas las preguntas de la prueba durante el tiempo estipulado (40 minutos). Obtuvo las siguientes calificacio- nes en la prueba Otis-Lennon: Puntuación cruda = 65 Índice de habilidad escolar = 116 Rango percentilar (grupo de 18+ años de edad) = 84 Estanina = (grupo de 18+ años de edad) = 7 Estas calificaciones corresponden aproximadamente al promedio para los estudiantes que han completado la licen- ciatura universitaria, e indican una habilidad intelectual general en el rango del “Promedio superior” para la población ge- neral. Un breve análisis de los 16 reactivos que contestó Jane en forma incorrecta indica que en cierta medida tiene mayor dificultad con el razonamiento no verbal que con el verbal. Sin embargo, no hubo ningún patrón significativo en los errores que cometió; en general fueron bastante aleatorios. Conclusiones y recomendaciones En una entrevista posterior al examen, Jane señaló que había realizado su mejor esfuerzo en la prueba y que no tenía pri- sa por terminar a tiempo. Acabó la prueba en 35 minutos y dedicó los restantes 5 a verificar sus respuestas. Afirmó que el Índice de habilidad escolar, que el examinador le comunicó, se encontraba dentro del rango de 5 puntos de una calificación de CI que obtuvo en una prueba de inteligencia que había realizado en la preparatoria. No pudo recordar el nombre de di- cha prueba. Tomando en cuenta las condiciones de la evaluación, el comportamiento que se observó en el examinando y sus afirmaciones después de la prueba, los resultados se consideran válidos en este momento. Los planes y aspiraciones pro- fesionales de Jane parecen adecuados a su habilidad intelectual, aunque tal vez tendrá que esforzarse con diligencia pa- ra obtener una maestría en alguna institución de prestigio. Laura F . G reen Laura F. Green Pasante de la Licenciatura en Psicología Western College TESTS DE INTELIGENCIA COLECTIVOS 157 vel contiene una Batería Verbal, una Batería Cuantitativa y una Batería No Verbal que consisten en dos o tres subpruebas. Las calificaciones separadas obtenidas en las tres baterías y una califi- cación compuesta general pueden convertirse a diversos tipos de calificación normalizadas (ca- lificaciones de edad estándar, rangos percentilares de grado y edad nacionales, calificaciones estaninas de grado y edad, y equivalentes de curva normal) con base en una estandarización na- cional llevada a cabo en 1992. Prueba de Personal Wonderlic. La Prueba de Personal Wonderlic (de Wonderlic) es un ins- trumento breve (12 minutos) de 50 reactivos basada originalmente en la Prueba Autoaplicable de Otis de Habilidad Mental. Las preguntas de la Wonderlic, cuyos ejemplos se muestran en la figura 7.3, consisten en analogías, definiciones, problemas lógicos y aritméticos, relaciones es- paciales, comparaciones entre palabras y ubicación de dirección. Esta prueba se ha usado am- pliamente como herramienta de selección en situaciones laborales durante muchos años, y la Observe la lista de números que se presenta a continuación. ¿Qué número debe seguir? 8 4 2 1 1/2 1/4 ? Suponiendo que las dos primeras afirmaciones son ciertas, ¿la úl- tima de ellas es: (1) cierta, (2) falsa, (3) incierta? El niño juega béisbol. Todos los jugadores de béisbol usan sombrero. El niño usa sombrero. Una de las siguientes figuras numeradas es la que más se diferen- cia de las otras. ¿Qué número tiene dicha figura? 1 2 3 4 5 Un tren recorre 60 metros en 1/5 de segundo. A la misma veloci- dad, ¿qué distancia recorrerá en tres segundos? ¿Cuántos de los seis pares de cifras de la siguiente lista son dupli- cados exactos? 3421 1243 21212 21212 558956 558956 10120210 10120210 612986896 612986896 356471201 356571201 Las horas de luz diurna y de oscuridad en SEPTIEMBRE son más similares a las horas de luz diurna y oscuridad de: (1) Junio (2) Marzo (3) Mayo (4) Noviembre FIGURA 7.3 Muestra de reactivos de la Prueba de Personal Wonderlic. (Reproducida con autorización de Wonderlic Personnel Test, Inc., Libertyville, IL.) 158 CAPÍTULO SIETE Tests de inteligencia investigación indica que es un dispositivo justo y válido para la selección en un amplio rango de puestos. A pesar de la brevedad de la prueba Wonderlic, hay registros de que sus coeficientes de con- fiabilidad y sus correlaciones con calificaciones de otras medidas de inteligencia llegan a .90. Pruebas de inteligencia colectivas grupales no verbales y justas para las culturas Las pruebas de ejecución aplicables individualmente y diseñadas como medidas de las habilida- des intelectuales de personas con desventajas lingüísticas o culturales ya se trataron en este ca- pítulo. Ahora veamos cómo también se han elaborado instrumentos complementarios que pueden administrarse en forma colectiva para evaluar la inteligencia de individuos con desven- tajas físicas o culturales. El antecesor de estas pruebas no verbales fue el Examen Army Beta del Ejército aplicado a los reclutas estadounidenses de la Primera Guerra Mundial, el cual incluía ta- reas como análisis de cubos, símbolos en dígitos, construcciones geométricas, laberintos y com- pletamiento de imágenes. Esta prueba también resultó útil para evaluar a trabajadores civiles no capacitados y fue actualizada, reestandarizada y reeditada, por The Psychological Corporation, en 1978 como Examen Beta Revisado, segunda edición, y de nuevo en 1999 como Beta III. Test de Dibujo de Goodenough-Harris. Otra prueba no verbal adecuada para su administra- ción colectiva (o individual) es el Test de Dibujo Goodenough-Harris (de The Psychological Corporation). A diferencia de Beta III, que es una prueba de tareas múltiples, la Goodenough- Harris sólo requiere que el examinando realice dibujos de un hombre, una mujer y de sí mismo. Más que calificarse por su mérito artístico, los dibujos se evalúan comparándolos con los doce dibujos modelo y por la presencia de 73 características específicas (por ejemplo, detalles corpo- rales y de vestimenta, proporcionalidad de cabeza y tronco). La prueba no tiene límite de tiem- po, pero suele durar entre 10 y 15 minutos. Las normas para niños de entre 3 y 15 años de edad se registran como calificaciones y rangos percentilares, en forma separada por sexo. También es interesante un sistema de calificación cuantitativa, el Dibuja una Persona: QSS, desarrollado por J. A. Naglieri que hace más objetiva la calificación del dibujo de personas. Pruebas justas para las culturas. Durante muchos años, los diseñadores de pruebas de inte- ligencia han sido atacados por la crítica de que estos instrumentos están repletos de sesgos cul- turales de la sociedad occidental de clase media. Goodenough y Harris tenían la esperanza de que su prueba mediría la inteligencia básica relativamente al margen de influencias culturales, pero ha quedado claro que la tarea de dibujar una figura humana está considerablemente altera- da por las experiencias socioculturales específicas. Ha habido varios intentos relevantes por ela- borar una prueba de inteligencia independiente de la cultura, pero esos esfuerzos no han tenido éxito alguno. Por consiguiente, el objetivo se modificó después por el de desarrollar una prueba de inteligencia que resultara justa para las culturas. Al diseñar una prueba de inteligencia justa para las culturas, se intenta usar sólo reactivos relacionados con experiencias comunes a un am- plio espectro de culturas. Se omiten reactivos que incluyan construcciones lingüísticas particu- lares y otras tareas embebidas de cultura, tales como la velocidad de respuesta. En este sentido, el test de Goodenough-Harris es culturalmente justo. Otras pruebas muy utilizadas que proba- blemente también están cerca de resultar justas para la cultura son las Matrices Progresivas de Raven y la prueba de Inteligencia Justa para la Cultura. Matrices Progresivas de Raven. Esta prueba, que puede administrarse ya sea en forma indivi- dual o colectiva, demanda al examinado indicar cuál de diversas figuras o diseños pertenece a TESTS DE INTELIGENCIA COLECTIVOS 159 una matriz dada. Desarrollada en Gran Bretaña como una medida del factor de inteligencia ge- neral de Spearman, la prueba de Raven está disponible en The Psychological Corporation en for- mas de matrices progresivas Estándar, Coloreada y Avanzada. La Forma Estándar, para edades de 6 a 80 años, incluye cinco conjuntos en blanco y negro de 12 problemas cada uno y se termi- na en un lapso de 20 a 45 minutos. La Forma Coloreada, para niños de 5 a 11 años, individuos de edad avanzada y personas mental y físicamente impedidas, toma de 15 a 30 minutos en ter- minarse. La Forma Avanzada tiene un rango de los 11 años a la edad adulta y dura entre 40 y 60 minutos. Las normas más recientes, basadas en muestras británicas y estadounidenses, están dis- ponibles en la Forma Avanzada, pero las tres formas requieren de reestandarización. Una prueba similar, pero más reciente que las Matrices Progresivas de Raven, es la Prueba de Analogías de Matriz-Forma Ampliada. Consiste en reactivos de razonamiento no verbal en cua- tro categorías: Completamiento de Patrones, Razonamiento por Analogía, Razonamiento en Serie y Visualización Espacial. Los examinados (de entre 5 y 17 años de edad) son evaluados en un lap- so de 20 a 25 minutos con 64 diseños abstractos del tipo de la matriz progresiva estándar, con un diseño por página. Las normas están basadas en una muestra representativa numerosa de indivi- duos de 5 a 17 años de edad, residentes en Estados Unidos. Las puntuaciones crudas se convierten en calificaciones estándar, rangos percentilares y estaninas por intervalos de medio año y en equi- valentes de edad de los 5 años a los 17 años 11 meses. The Psychological Corporation también tie- ne disponible una Prueba de Analogías de Matriz-Forma Abreviada, que consiste en 34 reactivos. Pruebas de Inteligencia Justas para las Culturas. Estas pruebas (de IPAT) están compuestas por tres escalas: la Escala 1, para niños de 4 a 8 años de edad y adultos retrasados mentales; la Escala 2, para niños entre 8 y 14 años y adultos de inteligencia promedio, y la Escala 3 para es- tudiantes universitarios, ejecutivos y otras personas de inteligencia superior al promedio. Cada escala contiene cuatro subpruebas (Series, Clasificaciones, Matrices y Condiciones) para medir la habilidad para percibir relaciones. Además de estas cuatro subpruebas justas para las culturas, la Escala 1 contiene cuatro subpruebas para evaluar información cultural y comprensión verbal. La Escala 1 no tiene límite de tiempo, pero toma alrededor de 22 minutos resolverla; las escalas 2 y 3 se llevan 121/2 minutos cada una. Prueba Naglieri de Habilidad No Verbal. La Prueba Naglieri de Habilidad No Verbal-Forma Multinivel (NNAT) (The Psychological Corporation) es similar a la de Raven en cuanto a su di- seño de matrices. En la figura 7.4 se presentan ejemplos de los reactivos de la NNAT. El objeti- vo de esta prueba, así como el de otras pruebas no verbales, es proporcionar una medida no sesgada de la habilidad mental general de individuos con habilidades limitadas para la lengua in- glesa o con otros problemas de aprendizaje. La NNAT-Forma Multinivel es adecuada para alum- nos desde preescolar hasta el 12° grado, y tarda aproximadamente 30 minutos en completarse. Se proporcionan las Calificaciones del Índice de Habilidad No Verbal y otras calificaciones es- tablecidas basadas en una muestra de estandarización de más de cien mil alumnos. Instrumentos tales como las Matrices Progresivas de Raven, las Pruebas de Inteligencia Justas para las Culturas, la Prueba Naglieri de Habilidad No Verbal y la Prueba de Inteligencia No Verbal Universal, representan esfuerzos encomiables por elaborar pruebas en que los distintos grupos culturales obtengan calificaciones iguales. No obstante, ahora se reconoce que tal vez sea imposible construir una prueba que mida las habilidades cognoscitivas independientemente de la experiencia. En cualquier caso, los resultados de la investigación realizada en países en vías de desarrollo indica que las diferencias en cuanto a los índices generales de alfabetismo y esco- laridad son más importantes que la lengua, el país, la raza o la etnia para determinar diferencias “culturales” en las calificaciones de pruebas de inteligencia (vea Frisby, 1999). 160 CAPÍTULO SIETE Tests de inteligencia ? ? 1 2 3 4 5 1 2 3 4 5 Completar el patrón Razonamiento por analogía ? ? 1 2 3 4 5 1 2 3 4 5 Razonamiento en serie Visualización espacial FIGURA 7.4 Ejemplos de reactivos de la Prueba Naglieri de Habilidad No Verbal-Forma Multinivel. (Derechos Reservados © 1996 por Harcourt, Inc. Reproducido con autorización. Reservados todos los derechos, “Na- glieri Nonverbal Ability Test” y “NNAT” son marcas registradas propiedad de The Psychological Corporation e inscri- tas en Estados Unidos de Norteamérica y otras jurisdicciones.) Como se observa en la Prueba de Inteligencia No Verbal Universal, continúan los esfuer- zos por desarrollar pruebas de habilidades cognoscitivas que sean justas para personas de distin- tas culturas, pero ello no significa que muchas antiguas pruebas de inteligencia muy sesgadas culturalmente deban abandonarse. Es digno de mención que en otros países el mercado de prue- bas de inteligencia tradicionales es mucho mayor que el de pruebas justas para las culturas (Oakland y Hu, 1993). ¡Aparentemente, las personas de países no occidentales se preocupan me- nos que los estadounidenses de clase media por lo justo para las culturas que resulten las pruebas tradicionales de inteligencia tipo Binet! Pruebas de aptitud académica y de admisión Muchas pruebas de inteligencia colectivas se han diseñado específicamente con el propósito de medir la aptitud para el trabajo académico y se conocen como pruebas de aptitud académica. Al- gunas pruebas de inteligencia en grupo tienen un enfoque más amplio que éste, pero aun así su contenido es similar al de las medidas de habilidad académica: tienen un gran contenido de reac- tivos verbales, numéricos y otros de tipo escolar. A lo largo del tiempo se han usado muchas pruebas distintas con propósitos de admisión a las universidades, incluyendo el Examen Psicológico del Consejo Estadounidense sobre Educación TESTS DE INTELIGENCIA COLECTIVOS 161 (ACE), las Pruebas de Habilidad Universitaria y Escolar (SCAT), la Prueba de Habilidad Académi- ca del Consejo de Exámenes de Ingreso a la Universidad (ahora denominada Prueba de Evaluación Académica, o SAT), y la Evaluación del Programa de Pruebas Universitarias Estadounidenses (ACT). Debido a su extenso uso, se describirán con cierto detalle las últimas dos de estas baterías. Prueba de Evaluación Académica (SAT). Antes de 1994, la SAT, anteriormente denomina- da Prueba de Habilidad Académica, consistía en dos secciones que producían dos calificaciones: Verbal (SAT-V) y Matemática (SAT-M). La sección verbal estaba compuesta por reactivos de analogías verbales, antónimos, información, comprensión de lectura y completamiento de enun- ciados; la sección matemática consistía en reactivos de aritmética, álgebra, geometría, cuadros y gráficas y razonamiento lógico. Ambas secciones se calificaron en una escala estándar con una media de 500 y desviación estándar de 100, con las calificaciones en un rango de 200 a 800. Aunque cada año se desarrollaron versiones nuevas de la SAT, las calificaciones de cada nueva forma se escalaron hacia el grupo de estandarización de 1941. Este grupo estuvo constituido por diez mil alumnos del noreste de Estados Unidos, en su mayoría varones de raza blanca y con ni- vel de ingresos alto, los cuales estaban solicitando su admisión a las escuelas de la Ivy League. Como es comprensible, los estudiantes de preparatoria de principios de la década de 1990 obtu- vieron calificaciones algo inferiores a la media de 500 lograda por este grupo. La versión actual de la SAT, que se administró primero a nivel nacional en marzo de 1994, es- tá compuesta por dos partes, SAT I: Razonamiento, y SAT II: Pruebas de Materia. SAT I consiste en secciones de Razonamiento Verbal y Razonamiento Matemático con una duración de 75 minutos cada una. La sección de Razonamiento consta de 78 reactivos de opciones múltiples en Analogías, Completamiento de Enunciados y Lectura Crítica. La sección de Razonamiento Matemático está formada por 60 reactivos en Matemáticas Regulares, Comparaciones Cuantitativas y Respuestas Producidas por el Alumno. Se pide a los examinados que lleven al examen su propia calculadora de bolsillo, de modo que puedan calcular las respuestas de las subpruebas matemáticas. Así como en versiones anteriores de la SAT, las puntuaciones crudas de las Pruebas de Ra- zonamiento se convierten a una escala de calificación estándar que tiene una media de 500 y una desviación estándar de 100. La calificación de la versión revisada de la SAT, la Prueba de Evalua- ción Académica, se basa en el desempeño de más de un millón de estudiantes que se sometieron a la prueba en 1994. Las calificaciones se recalcularon para reflejar la población estudiantil ma- yor y más diversa de la actualidad, lo que dio como resultado un aumento de la calificación pro- medio de Razonamiento Verbal de aproximadamente 80 puntos, y de la calificación promedio del Razonamiento Matemático en alrededor de 20 puntos. Además de las calificaciones estándar en las Pruebas de Razonamiento Verbal y Matemático, un informe de calificaciones de SAT da pun- tuaciones crudas y rangos percentilares para cada subprueba, rangos de calificaciones basadas en error estándar de medida de las pruebas y equivalentes de percentiles nacionales y estatales para estudiantes universitarios del último año. Los resultados de múltiples estudios indican que la SAT-I es un predictor válido para el desempeño en la universidad, específicamente de los prome- dios de grado durante el primer semestre universitario, pero también predice con eficacia los pro- medios posteriores y el desempeño en otros exámenes académicos. Las 20 Pruebas de Materia SAT pertenecen a cinco áreas generales: Inglés, Historia y Es- tudios Sociales, Matemáticas, Ciencias y Lenguas. Se obtiene una muestra directa de las de re- dacción del examinado, y también se administran preguntas de opción múltiple sobre inglés escrito, dicción y expresión lógica. Así como sucede con las calificaciones de la SAT-I, las cali- ficaciones de la SAT-II se registran en una escala de calificación estándar con una media de 500 y desviación estándar de 100. 162 CAPÍTULO SIETE Tests de inteligencia Pruebas Universitarias Estadounidenses. El segundo examen de admisión a la universidad más usado es el constituido por las Pruebas Universitarias Estadounidenses (ACT), el cual se aplica cinco veces al año tanto en Estados Unidos como en otros países. Hay cuatro subpruebas en las ACT: Inglés, Matemáticas, Lectura y Razonamiento Científico. A quienes se someten a este examen se les entregan calificaciones de las cuatro subpruebas, así como una calificación compuesta (el promedio de las cuatro subpruebas redondeado al entero más cercano) y siete sub- calificaciones. Las calificaciones compuestas y las de las subpruebas van de 1 a 36, con una me- dia de 18; las siete subcalificaciones están entre 1 y 18, con una media de 9. Las confiabilidades de las cuatro subpruebas van desde .78 para Razonamiento Científico hasta .91 para Inglés, con coeficientes de consistencia interna algo más elevados que los coeficientes de formas paralelas. Co- mo podría esperarse debido a su extensión más corta, las confiabilidades de las subcalificacio- nes son inferiores a las de las subpruebas, y están entre .67 para Geometría Plana/Trigonometría y .85 para Uso/Mecánica del Inglés. Exámenes del Registro de Graduados. La prueba más popular para admisión en una escue- la de posgrado es el Examen del Registro de Graduados (GRE). Consiste en una Prueba General que mide la aptitud para el trabajo de posgrado y una serie de Pruebas de Materia que miden el aprovechamiento en una materia en particular. La Prueba General contiene tres secciones califi- cadas: una sección Verbal (V) de 30 minutos con 30 preguntas, una sección Cuantitativa de 45 minutos con 28 preguntas, y una sección Analítica (A) de 60 minutos con 35 preguntas. Los reactivos de la sección Verbal consisten en analogías, antónimos, completamiento de enuncia- dos y comprensión de lectura. Los reactivos de la sección Cuantitativa incluyen comparación cuantitativa, cuantitativa discreta y problemas de interpretación de datos. Los reactivos de las pruebas analíticas constan de ejercicios de razonamiento analítico y de razonamiento lógico. La Prueba General produce calificaciones separadas: Verbal (GRE-V), Cuantitativa (GRE-Q), y Análisis (GRE-A), con la misma escala de calificación estándar que la SAT. Las Pruebas de Ma- teria GRE son exámenes de tres horas sobre materias en particular (vea el capítulo 6). RESUMEN Las definiciones y teorías de inteligencia, un antiguo término latino reintroducido durante el si- glo XIX, se dieron en abundancia en el siglo pasado. Entre las teorías más prominentes sobre la inteligencia figuran las relacionadas con el enfoque psicométrico (Spearman, Thurstone, Guil- ford, Vernon, Cattell), el enfoque del desarrollo (Piaget), y el enfoque del procesamiento de infor- mación (Sternberg, Gardner, Das y Naglieri). Varias pruebas sensoriomotrices se usaron en los primeros intentos por evaluar la inteli- gencia, pero la primera prueba práctica de inteligencia fue elaborada por Alfred Binet y Théo- dore Simon durante la primera década del siglo XX. La Escala Binet-Simon, una serie de tareas relacionadas con la escuela y ordenadas por dificultad creciente, proporciona una calificación de edad mental para cada examinando. Entre las múltiples traducciones y revisiones de la Escala Binet-Simon, la más popular fue la Escala de Inteligencia Stanford-Binet, que fue publicada por primera vez en 1916 y revisada en 1937 y 1960, y cuyo autor fue Lewis Terman. La prueba pro- ducía un valor llamado razón de CI, definida como MA CI ⫽ 100 冢 CA 冣 aunque una desviación del CI podía también calcularse en la revisión de 1960. RESUMEN 163 La cuarta edición de la Escala Stanford-Binet representó un considerable alejamiento de las ediciones previas. La elaboración de la cuarta edición, que incluía una teoría y una metodo- logía psicométrica más complejas, proporcionaba calificaciones separadas en 15 pruebas y cua- tro áreas, así como una calificación compuesta. El énfasis al diseñar la cuarta edición residía no sólo en identificar el retraso mental, sino también en proporcionar información para diagnosti- car causas específicas de problemas de aprendizaje. Durante muchos años, las primeras ediciones de la Escala Stanford-Binet funcionaron como un patrón contra el cual se comparaban otras pruebas de inteligencia. Sin embargo, en la segun- da mitad del siglo pasado, las escalas de inteligencia de Wechsler se volvieron más populares. A diferencia de las subpruebas de la Stanford-Binet, que se agrupan de acuerdo con niveles de edad, las subpruebas de las escalas Wechsler se dividen en aproximadamente diez categorías de acuerdo con su contenido. Asimismo, las calificaciones de las escalas Wechsler proporcionan tres tipos de CI de desviación: Verbal, de Ejecución y de Escala Completa. Sumado a los tres CI, el patrón de calificaciones escaladas de las subpruebas en las pruebas de Wechsler puede propor- cionar información clínica útil para el diagnóstico de ciertas características y trastornos de la personalidad. Entre otras pruebas de inteligencia de rango amplio se encuentran las Escalas de Habilidad Diferencial (DAS), la Prueba Detroit de Habilidad para el Aprendizaje (DTLA), la Batería de Eva- luación para Niños de Kaufman (K-ABC), las Pruebas de Habilidades Cognoscitivas de Wood- cock-Johnson III (WJ III) y el Sistema de Evaluación Cognoscitiva de Das-Naglieri (CAS). Las últimas tres merecen especial mención por sus bases en la teoría psicométrica y neuropsicológica. Como representantes de las múltiples pruebas de inteligencia con fines específicos que se aplican individualmente figuran las pruebas pictóricas como la Escala de Madurez Mental de Co- lumbia y otras pruebas de tarea única como los Laberintos de Porteus y los Diseños de Cubos de Kohs. Las pruebas de inteligencia no verbales de aplicación individual, diseñadas para personas con desventajas lingüísticas o físicas incluyen las baterías de pruebas de ejecución como las Prue- bas Hiskey-Nebraska de Habilidad de Aprendizaje, la Escala Leiter de Desempeño Internacional, la Prueba Comprensiva de Inteligencia No Verbal y la Prueba Universal de Inteligencia No Verbal. De uso más extenso que las pruebas de inteligencia individuales en escuelas y otras orga- nizaciones, son las pruebas de inteligencia de aplicación colectiva. Estas pruebas provienen de los Exámenes Army Alfa y Army Beta del Ejército, que se basan en el trabajo pionero de Arthur Otis y otros psicólogos durante la Primera Guerra Mundial. Como ejemplos de las pruebas de in- teligencia colectivas actuales están disponibles también la Prueba de Habilidad Escolar de Otis- Lennon, la Prueba de Habilidades Cognoscitivas y la Prueba de Personal Wonderlic, así como las pruebas en grupo supuestamente justas para las culturas, tales como la Prueba de Dibujo de Goodenough-Harris, las Matrices Progresivas de Raven, las Pruebas de Inteligencia Justas para las Culturas y la Prueba de Habilidad No Verbal de Naglieri. Algunas pruebas de habilidad académica, como la Prueba de Evaluación Académica (SAT), las Pruebas Universitarias Estadounidenses (ACT) y los Exámenes del Registro de Gra- duados (GRE), en particular, se usan ampliamente para el ingreso a universidades e institucio- nes profesionales. P R E G U N TA S Y A C T I V I D A D E S 1. Elija una de las teorías sobre la inteligencia examinadas en este capítulo para efectuar un análisis más profundo y escriba un breve ensayo sobre su investigación. 164 CAPÍTULO SIETE Tests de inteligencia 2. ¿Cuál es la razón CI para un niño de 8 años 9 meses si su calificación en la Escala de Inteligencia Stanford-Binet es igual a la edad mental de 6 años 5 meses? 3. ¿Por qué las calificaciones del CI de desviación se consideran psicométricamente superiores a las de la razón CI? 4. Explique el desarrollo de la Escala de Inteligencia de Stanford-Binet desde las primeras pruebas de Binet hasta la cuarta edición de la escala. 5. Enumere y describa las ediciones actuales de la serie de pruebas de inteligencia de Wechsler, inclu- yendo el rango de edad apropiado para cada una así como las subpruebas que abarcan. 6. Compare las escalas Wechsler con las ediciones anteriores y recientes de la escala Stanford-Binet en términos de rango de edad, tipos de habilidades medidas, justicia de las pruebas para las perso- nas con desventajas físicas o culturales, y otras características relevantes. 7. ¿Qué pruebas de inteligencia recomendaría para administrar en cada uno de los siguientes indivi- duos? (a) Un niño de 5 años de edad en quien se sospecha retraso mental; (b) un grupo de aboríge- nes de las Islas del Sur; (c) un niño de 10 años con parálisis cerebral; (d) un adulto normal angloparlante; (e) un niño de 7 años totalmente ciego; (f) un adulto esquizofrénico, y (g) un grupo de alumnos de la escuela elemental con desventajas culturales. 8. Elija una de las siguientes categorías de pruebas de inteligencia analizadas en este capítulo y un ins- trumento publicado que sea representativo de esa categoría: pruebas pictóricas individuales; esca- las de desarrollo para niños pequeños; pruebas de inteligencia colectivas grupales de multinivel; pruebas de inteligencia colectivas grupales no verbales. Obtenga tanta información como le sea po- sible sobre dos pruebas de los libros de texto sobre evaluación The Mental Measurements Year- books, Tests, Test Critiques y otras fuentes (consulte The Psychological Abstracts y Education Index en particular). Escriba una reseña comparativa de esas pruebas centrándose en el diseño y el forma- to, los procedimientos de administración y calificación, las normas, la confiabilidad, la validez y la investigación relacionada (vea la pregunta 8 de la sección de Preguntas y Actividades en el capítu- lo 6). Deduzca conclusiones apropiadas en cuanto a los méritos relativos de las dos pruebas que ha- ya seleccionado. 9. ¿Cuál es la diferencia entre una prueba independiente de la cultura y otra justa para las culturas? ¿Es posible desarrollar una prueba de alguno de estos dos tipos y, de ser así, para qué se usaría? CAPÍTULO OCHO DIFERENCIAS INDIVIDUALES Y DE GRUPO EN LAS HABILIDADES MENTALES Este capítulo hace una pausa en la descripción de la multiplicidad de instrumentos de evaluación cognoscitiva y se concentra más bien en tratar acerca de las diferencias individuales y de grupo detectadas en las habilidades mentales. La investigación y las aplicaciones que conciernen a las diferencias en las habilidades humanas caen en el terreno de la picología diferencial. El pre- sente capítulo se limita a la descripción e interpretación de los hallazgos empíricos que concier- nen a las diferencias en inteligencia y variables cognoscitivas relacionadas. Los lectores que estén interesados en un tratamiento más comprensivo de la psicología diferencial encontrarán un buen punto de partida en el libro del propio autor de la presente obra Human Differences (Aiken, 1999). RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD Los niños y los adultos que tienen habilidades muy altas o muy bajas son de particular interés pa- ra los psicólogos y educadores preocupados por identificar a individuos situados en todos los ni- veles de habilidad —y por diseñar programas para tratarlos, entrenarlos y educarlos. Por supuesto, las diferencias entre las habilidades de un solo individuo pueden ser tan grandes como las detectadas entre un grupo. Por ejemplo, los niños que obtienen puntuaciones muy altas o muy bajas en las pruebas de inteligencia no por fuerza califican alto o bajo en cada medida de una ha- bilidad cognoscitiva específica. Una persona puede ser buena en una habilidad cognoscitiva, deficiente en otra y promedio en otras más. En cualquier caso, se ha dedicado mucha atención profesional y popular a los individuos que obtienen puntuaciones muy bajas o muy altas en las prue- bas de habilidad mental general. Se trata de personas retrasadas mentales o superdotadas que, de- pendiendo de circunstancias particulares y del punto de vista, pueden ser una pesadilla o una bendición para la sociedad. Retraso mental La razón principal de Alfred Binet para elaborar la primera prueba práctica de inteligencia fue identificar a los niños que tenían poca oportunidad de lograr un progreso razonable en las clases 165 166 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales regulares de la escuela. Por ende, no es sorprendente que uno de los usos más populares de las pruebas de inteligencia general haya sido el diagnóstico del retraso mental. Diagnóstico y clasificación. La administración de una prueba de inteligencia no es obligato- ria en el diagnóstico del retraso mental, pero, por lo general, al hacer el diagnóstico se tienen en cuenta las calificaciones obtenidas en la prueba de inteligencia junto con medidas de logro aca- démico y vocacional, habilidades psicomotrices, madurez socioemocional y otras conductas adaptativas. Las conductas adaptativas pueden evaluarse mediante un análisis informal de la historia de la persona y su conducta presente, o mediante la administración de un instrumento estandarizado como las Escalas de Conducta Adaptativa de Vineland (del American Guidance Service) o las Escalas de Conducta Adaptativa AAMR (de pro.ed). El examinador llena las Es- calas de Conducta Adaptativa de Vineland o AAMR con la información proporcionada por un padre, maestro u otra persona que esté familiarizada con la conducta del niño.1 Las etiquetas socialmente despectivas como tarado, imbécil e idiota, que se emplearon en los primeros años del siglo XX para designar a los grados alto, medio y bajo de la “debilidad mental” ya no son utilizadas por los psicólogos profesionales y educadores de Estados Unidos. Al inicio de la década de 1980, la Asociación Estadounidense de la Deficiencia Mental cambió su nombre por el de Asociación Estadounidense del Retraso Mental, y desde entonces se han hecho esfuerzos por reemplazar el término retraso mental con un término quizá menos estigma- tizante como deterioro mental o discapacidad del desarrollo. En cualquier caso, se han reco- mendado varios sistemas para la clasificación del retraso mental que hacen uso de las calificaciones de CI. Entre éstos se encuentran los sistemas de clasificación de la Asociación Na- cional para los Niños Retrasados (NARC) y la Asociación Psiquiátrica Estadounidense (APA). El sistema NARC consta de las siguientes categorías: marginalmente independiente (CI = 50 a 75), semidependiente (CI = 25 a 50) y dependiente (CI = 0 a 25). La Asociación Psiquiátrica Es- tadounidense (1994) menciona tres requisitos para diagnosticar el retraso mental: 1. Un funcionamiento intelectual significativamente inferior al promedio; un CI aproximado de 70 o menos en una prueba de CI administrada de manera individual (para los infantes, un juicio clí- nico de funcionamiento intelectual significativamente inferior al promedio). 2. Déficits o deterioros concurrentes en el comportamiento adaptativo presente (es decir, la efecti- vidad de la persona para cumplir los estándares que su grupo cultural espera para su edad) al me- nos en dos de las siguientes áreas: comunicación, autocuidado, vida en el hogar, habilidades sociales/interpersonales, uso de recursos de la comunidad, autodirección, habilidades académi- cas funcionales, trabajo, tiempo libre, salud y seguridad. 3. El inicio es antes de los 18 años. (p. 50). Los cuatro niveles de severidad en el sistema de clasificación del retraso mental de la APA son retraso mental leve (nivel CI de 50-55 a aproximadamente 70); retraso mental moderado (ni- vel CI de 35-40 a 50-55); retraso mental severo (nivel CI de 20-25 a 35-40); retraso mental pro- fundo (nivel CI por debajo de 20 o 25). Los individuos con retraso mental leve requieren apoyo intermitente, los de retraso moderado requieren apoyo limitado, los de retraso severo requieren 1El reconocimiento de la importancia de los logros académicos y vocacionales, las habilidades motrices, la madurez so- cioemocional y otros indicadores del funcionamiento independiente, y el mantenimiento y la habilidad para cumplir las demandas culturales en cuanto a la conducta personal y social, ha llevado a la inclusión de la conducta adaptativa en el diagnóstico y clasificación del retraso mental. RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 167 considerable apoyo, y los que presentan retraso profundo necesitan apoyo sólido en sus activi- dades constructivas y funcionamiento social. En las escuelas se usa en ocasiones otro sistema de clasificación que enfatiza la conducta adaptativa en lugar de la deficiencia mental: deterioro mental susceptible de recibir educación, para niños que tienen retraso leve; deterioro mental susceptible a recibir capacitación, para ni- ños con retraso moderado; entrenable (dependiente), para niños con retraso severo, y custodial (apoyo para la vida), para los que tienen retraso profundo (Sattler, 1988). La definición del retraso mental propuesta por la Asociación Estadounidense para el Re- traso Mental (1992) se basa menos en el concepto de CI. Esta definición describe el retraso men- tal en términos de limitaciones sustanciales en el funcionamiento manifiesto caracterizadas por un funcionamiento intelectual significativamente inferior al promedio, el cual se presenta antes de los 18 años, y que existe de manera concurrente con limitaciones relacionadas en dos o más de las siguientes áreas de habilidades adaptativas: comunicación, vida en el hogar, uso de la comu- nidad, salud y seguridad, tiempo libre, autocuidado, habilidades sociales, autodirección, funcio- nalidad académica y trabajo. Sin embargo, esta definición ha sido criticada por algunos profesionales (por ejemplo, Jacobson y Mullick, 1992) y no se ha usado de manera amplia. En la tabla 8.1 se presentan descripciones de las conductas características de los niños en las cuatro categorías designadas por la Asociación Psiquiátrica Estadounidense para tres perio- dos del desarrollo. Como se describe en esa tabla, las conductas esperadas varían con el grado de retraso y la edad cronológica del individuo. Por supuesto, esas conductas son normas o pro- medios, y el grado en que la conducta de un individuo en particular corresponda a las normas va- ría con sus antecedentes socioculturales, otras habilidades o características, y circunstancias adicionales. Incidencia y causas del retraso. Se estima que entre 2 y 21/2% de la población de Estados Unidos sufre retraso mental, con un porcentaje menor de mujeres que de hombres.2 El número de retrasados mentales es mayor entre los blancos que en todos los otros grupos étnicos, pero el porcentaje de escolares negros identificados como retrasados mentales es más alto que para cualquier otro grupo étnico, seguido de los indígenas estadounidenses, los blancos, los hispanos, y los asiáticos/isleños del Pacífico, en ese orden (U.S. Department of Education, 1997). Si bien tanto los factores genéticos como los ambientales participan en su etiología, en tres cuartas partes de los casos se desconoce la causa exacta del retraso mental (Zigler y Hodapp, 1986). En Estados Unidos el retraso mental leve está asociado con una serie de variables demo- gráficas relacionadas con la baja posición socioeconómica: nivel educativo bajo, pertenencia a un grupo minoritario, desempleo o niveles bajos de empleo, mala nutrición, mala salud, y con- diciones de vida que suelen estar por debajo del estándar. También contribuyen al grado de re- traso mental el descuido, los bajos niveles de estimulación intelectual, la escasez de experiencias formales de aprendizaje, modelos inadecuados de lenguaje y los ambientes no estructurados e impredecibles en que viven muchos niños. El CI de los niños con retraso mental que al parecer están libres de patología orgánica, por lo común está mucho más cerca del CI promedio de la población general que el de quienes pa- 2Sin embargo, el porcentaje exacto varía con la calificación CI límite y las pruebas y normas específicas a partir de las cuales se determinó. Flynn (2000) afirma que, debido a que el criterio CI de 70 para un diagnóstico de retraso mental ha cambiado de las normas basadas sólo en los blancos a normas basadas en todos los estadounidenses, la proporción de in- dividuos a quienes puede clasificarse como retrasados mentales ha fluctuado de una alta de 1 en 23 a una baja de 1 en 213 durante los pasados 50 años. 168 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales TABLA 8.1 Cambios conductuales relacionados con la edad en las personas con retraso mental RETRASO MENTAL LEVE (CI = 50-70) Edad preescolar (0-5): más lentos que el promedio para caminar, comer por sí mismos y hablar, pero el observador casual puede no advertir el retraso. Edad escolar (6-21): aprenden las habilidades perceptuales-motrices y cognoscitivas (lectura y aritmética) en niveles de tercero a sexto grado al final de la adolescencia; pueden aprender a adaptarse a la sociedad. Adulto (21 en adelante): por lo general alcanzan las habilidades sociales y vocacionales que necesitan pa- ra cuidar de sí mismos; requieren orientación y ayuda cuando se encuentran bajo estrés económico o so- cial inusual. RETRASO MENTAL MODERADO (CI = 35-49) Edad preescolar (0-5): retraso perceptible en la mayor parte del desarrollo, sobre todo en el habla; pue- den ser entrenados en una variedad de actividades de autoayuda. Edad escolar (6-21): aprenden a comunicarse y a encargarse de las necesidades elementales de salud y segu- ridad; aprenden habilidades manuales sencillas, pero logran poco o ningún progreso en lectura y aritmética. Adulto (21 en adelante): bajo condiciones de supervisión, realizan tareas sencillas que requieren poca o ninguna habilidad; participan en juegos sencillos y se trasladan solos en lugares familiares; son incapaces de lograr su propia manutención. RETRASO MENTAL SEVERO (CI = 20-34) Edad preescolar (0-5): demora pronunciada en el desarrollo motriz; no hablan o hablan poco; se benefi- cian del entrenamiento en autoayuda (por ejemplo, a comer por sí mismos). Edad escolar (6-21): por lo general caminan a menos que esté presente una discapacidad psicomotriz; pueden entender y responden al habla; pueden beneficiarse del entrenamiento en hábitos de salud y otros hábitos aceptables. Adultos (21 en adelante): siguen rutinas diarias y contribuyen a su cuidado; necesitan dirección y super- visión cercanas en un ambiente controlado. RETRASO MENTAL PROFUNDO (CI INFERIOR A 20) Edad preescolar (0-5): retrasos extremos en todas las áreas; habilidades sensoriomotrices mínimas; re- quiere cuidado de una enfermera. Edad escolar (6-21): es obvio que están demorados en todas las áreas del desarrollo; responden con emo- ciones básicas y pueden beneficiarse del entrenamiento del uso de las extremidades y la boca; requieren de supervisión cercana. Adulto (21 en adelante): pueden ser capaces de caminar y hablar de manera primitiva; se benefician de la actividad física regular; no pueden cuidarse por sí mismos y requieren del cuidado de una enfermera. decen trastornos orgánicos demostrables, es decir, en el rango del retraso leve. El retraso extre- mo de las personas que caen en las categorías severa y profunda, y en algunos casos en la cate- goría moderada, se debe a una variedad de trastornos que llevan al daño del sistema nervioso central: problemas genéticos importantes como galactosemia, gargolismo, fenilcetonuria y la enfermedad de Tay-Sachs; condiciones dependientes de la genética como cretinismo, hidrocefa- lia y microcefalia; anormalidades cromosómicas como el síndrome de Down y el síndrome de RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 169 Klinefelter; infecciones intrauterinas; trauma del nacimiento (lesiones en la cabeza, privación o exceso de oxígeno); y enfermedades contraídas durante la infancia (meningitis, encefalitis, en- venenamiento con plomo, y otras). La causa genética más común del retraso mental es el síndro- me de Down, y la segunda causa más común es el síndrome del X frágil. En muchos casos, los niños retrasados en los que se desconoce la base orgánica para su condición resultan tener el sín- drome del X frágil (Dykens, Hodapp y Leckman, 1994). Es probable que la investigación futu- ra revele otras causas genéticas del retraso mental. Los factores biológicos también pueden desempeñar un papel en las diferencias cultura- les en el retraso mental. Por ejemplo, las condiciones mencionadas en el párrafo anterior expli- can un porcentaje relativamente pequeño del número total de niños retrasados en los países más desarrollados, donde el cuidado adecuado de la salud de la madre y el infante es la regla. En los países menos desarrollados, donde la desnutrición es más común y el cuidado de la salud menos adecuado, los trastornos de desnutrición explican una alta proporción de los casos de retraso mental. Tratamiento del retraso mental. En ocasiones el retraso mental puede recibir tratamiento médico cuando la causa se identifica de manera oportuna. Sin embargo, en la mayoría de los ca- sos la condición es incurable, y se prescriben entrenamiento y educación en lugar de tratamien- tos físicos o químicos. Las personas retrasadas que reciben apoyos educacionales y sociales apropiados a lo largo de un periodo sostenido por lo general mejoran. Ese cuidado se proporcio- na principalmente en el hogar, aunque también se dispone de instalaciones residenciales priva- das y de instituciones operadas por el Estado. En Estados Unidos la educación especial para los retrasados mentales y otros niños discapacitados es un mandato legal (Acta de Educación para todos los Niños Discapacitados, P.L. 94-142) y está disponible en todo el país. Sin embargo, di- cha educación no es verdaderamente “especial”, más bien consiste en procedimientos instruc- cionales estándar combinados con una mayor atención a las necesidades de los estudiantes. Proyectos de alcance nacional como el Proyecto Abecedarian (Campbell y Ramey, 1994; Ramey et al., 2000), el Proyecto Ypsilanti (Schweinhart y Weikart, 1997) y el Head Start se basaron en la idea de modificar y mejorar el desarrollo intelectual y social (Zigler, 1988). Dichos programas de intervención produjeron una eficiencia algo mayor en el aprendizaje y la adaptación social, pero las ganancias a largo plazo en las habilidades cognoscitivas fueron mínimas (Robinson, Zi- gler y Gallagher, 2000). Superdotados En el otro extremo del continuo de inteligencia del retraso mental se encuentran los superdota- dos. El estudio longitudinal más comprensivo de personas con CI elevado fue conducido por Le- wis Terman y sus asociados (Terman y Oden, 1959). Varios cientos de niños que calificaron en el 1% superior de la distribución de CI en la Escala de Inteligencia de Stanford-Binet fueron segui- dos a lo largo de sus vidas a intervalos de cinco años a partir de 1921. Después de la muerte de Terman en 1956, el estudio fue continuado por M. H. Oden (1968) y Robert Sears (1977). El pro- pósito del estudio era obtener información sobre el éxito ocupacional, la salud física y mental, la adaptación social y otras variables asociadas con la inteligencia elevada. A partir de cuestiona- rios se obtuvieron detalles de la niñez, educación, personalidad, carrera(s), familia, salud física y mental, tensiones vitales de los participantes y sobre su adaptación a la vejez. 170 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Características de los niños de Terman. Los resultados del estudio de Terman parecen con- tradecir una serie de mitos populares concernientes a los superdotados: que los niños brillantes son enfermizos, que se acaban pronto (“maduran pronto, se pudren pronto”) y que el genio es cerca- no a la demencia. Esos niños mentalmente superdotados, o “termitas”, eran físicamente superio- res a otros niños: pesaron más al nacer y siguieron pesando más que el promedio; caminaron y hablaron más pronto y maduraron a una edad más temprana que el promedio, y su salud general era mejor. Además, cuando adultos mantuvieron su superioridad mental y física. Los datos de seguimiento revelaron que, en comparación con los adultos promedio, los superdotados obtuvie- ron más grados, alcanzaron mayor éxito ocupacional y mayores salarios, tenían un personal y social equivalente o mejor, lograron mayor éxito matrimonial y disfrutaban de mayor salud físi- ca. Sin embargo, el mayor éxito ocupacional de las “termitas” pareció deberse a sus mayores lo- gros educativos más que a su CI superior per se. Cuando se controlaba estadísticamente el nivel educativo, las CI obtenidas en la niñez no tenían relación con el logro ocupacional. Muchas de las “termitas” no lograron vivir de acuerdo con su potencial y cuando adultos expresaron pesar por no haberlo hecho (Gardner, 1997). Los hallazgos de Terman de una mejor adaptación y menor tasa de trastornos mentales en- tre los superdotados no dejaron de ser cuestionados. Hughes y Converse (1962) sugirieron que el hecho de que en principio los niños hubieran sido seleccionados sobre la base de las de los maestros, así como por el CI, puede haber sesgado la muestra a favor de los niños con buen com- portamiento. Los niños superdotados de Terman también tendían a tener una posición socioeco- nómica por encima del promedio, lo cual también se asocia con una mejor adaptación personal. Personalidad de los superdotados. La investigación subsecuente ha planteado también pre- guntas concernientes a los ajustes de personalidad de los superdotados. Webb y Meckstroth (1982) caracterizaron a los niños superdotados como más inquisitivos, activos y llenos de ener- gía, pero también percibidos por los otros como odiosos, indisciplinados, de fuerte voluntad, traviesos, difíciles de manejar y rebeldes. Esos investigadores advirtieron que los niños super- dotados a menudo son problemáticos para sus padres y se sienten atribulados. Esto parece ser más el caso de los niños enormemente talentosos con CI por encima de 150 que de niños mode- radamente talentosos con CI entre 130 y 150. Los niños sumamente talentosos, por lo general, pueden leer antes de la edad para ingresar al jardín de niños y son superiores en la resolución de problemas y en otros tipos de pensamiento abstracto. Muchos se fascinan con los patrones nu- méricos y musicales y con la creación de nuevos enfoques y soluciones (Jackson, 1992). Pueden memorizar una partitura musical entera, averiguar cómo identificar todos los números primos o descubrir por sí mismos las reglas algebraicas (Feldman y Goldsmith, 1991; Winner, 1996). Al igual que otros niños y adultos, los individuos superdotados son susceptibles a los trastornos psicológicos (Silverman, 1995). Al darse cuenta de que son diferentes a los otros ni- ños, quienes son extremadamente superdotados pueden volverse independientes, inconformes, introvertidos y muy egocéntricos acerca de sus habilidades. Supuestamente conscientes de la en- vidia de sus compañeros de juegos y abrumados por las altas expectativas, tienden a tener una tasa más alta de problemas socioemocionales. Quienes son particularmente sensibles y están ba- jo gran presión para desempeñarse en público pueden deprimirse, usar drogas, no lograr desem- peñarse al nivel de su habilidad y, en ocasiones, marginarse por completo de la sociedad (Janos y Robinson, 1985; Ochse, 1991). Niños superdotados para las matemáticas. Se han conducido muchas investigaciones de ni- ños con habilidades especiales altamente desarrolladas. Por ejemplo, Julian Stanley y sus coin- vestigadores (Keating, 1976; Stanley, Keating y Fox, 1974) condujeron una serie de estudios de RETRASO MENTAL, SUPERDOTADOS Y CREATIVIDAD 171 preadolescentes que obtuvieron calificaciones estándar de 700 y superiores en la Prueba de Ap- titud Escolar-Matemáticas (SAT-M). Los niños fueron sometidos a varias pruebas psicológicas y supervisados mientras participaban en cursos universitarios de matemáticas. Como sucede con otros niños superdotados, los niños con talento para las matemáticas a menudo aprenden asun- tos complejos sin que se les enseñen de manera explícita. Los investigadores encontraron que esos niños no sólo se benefician de la instrucción a nivel universitario en matemáticas, sino que, a pesar de las preocupaciones iniciales de que pudieran ser incapaces de adaptarse al ambiente uni- versitario, la mayoría de ellos de hecho se adaptó bien. A diferencia de otros hallazgos que con- ciernen a las personas superdotadas y creativas, los adolescentes con talento para las matemáticas —en el estudio de Stanley— tendieron a mostrar buena adaptación personal y alta motivación (sobre todo en matemáticas). Educación de los niños superdotados y talentosos. Los maestros y el personal administra- tivo escolar utilizan el término “superdotados y talentosos” para designar a los niños con altas habilidades intelectuales u otras habilidades cognoscitivas. Por lo general, los niños en esta ca- tegoría tienen cocientes intelectuales aproximados de 130 y más altos, pero las clasificaciones y recomendaciones de los maestros, y otros criterios, también pueden contribuir a la designación de un niño como superdotado o talentoso. De acuerdo con la Ley Pública 95-561: Niños superdotados y talentosos significa niños, y siempre que sea aplicable, jóvenes, a quienes se identifica al nivel de preescolar, primaria o secundaria como poseedores de habilidades demostra- das o potenciales que dan evidencia de una alta capacidad de desempeño en áreas como la intelec- tual, creativa, académica específica o de liderazgo, o en las artes visuales o interpretativas y quienes por esa razón requieren servicios o actividades que por lo general no son proporcionadas por la escuela.3 De acuerdo con los datos publicados por la Oficina para los Derechos Civiles del Depar- tamento de Educación de Estados Unidos (1997), aproximadamente 6% de los escolares esta- dounidenses son superdotados o talentosos. Porcentajes algo más altos de mujeres que de hombres y porcentajes mayores de asiáticos/isleños del Pacífico y blancos que de indígenas americanos, hispanos y negros son clasificados como superdotados o talentosos. Algunos son excepcionales en matemáticas, otros en razonamiento verbal, otros en música o arte y otros más en liderazgo social. Las estrategias para educar a los niños superdotados y talentosos incluyen la admisión temprana a la escuela, aceleración y salto de grados, estudio avanzado, estudio independiente, uso de mentores, enriquecimiento, clases especiales, recintos con recursos especiales y escuelas especiales. En la actualidad casi todos los sistemas escolares en Estados Unidos tienen algún tipo de programa instruccional especial para los niños superdotados. Los estudiantes inscritos en esos programas pasan la mayor parte de su tiempo escolar en las aulas regulares, pero cada semana son sacados de clase para participar en actividades especiales para los superdotados. A lo largo de Estados Unidos también se han establecido centros regionales para los niños superdotados y talentosos, así como otras instituciones dedicadas a los estudiantes con habilidades superiores. En general, a los estudiantes superdotados les va bien en lo intelectual, social y emocional en esos programas. Sin embargo, los críticos a menudo caracterizan los programas especiales para los superdotados como elitistas o antidemocráticos y recomiendan que sean suspendidos. 3Congressional Record, 10 de octubre de 1978. Enmiendas educativas de 1978, 20 USC 2701 (1978); 92 STAT.2143. 172 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Creatividad Las pruebas de inteligencia o de aptitud escolar administradas a los niños de edad escolar, por lo general, dan buenos resultados en la predicción del aprovechamiento escolar a corto plazo y cri- terios relacionados. Sin embargo, esas pruebas no fueron diseñadas para medir variables situa- cionales, determinación de toda la vida, motivación o talento no escolar del tipo que influye en el desempeño creativo. Llama la atención que pocos, si es que hubo alguno, de los individuos in- telectualmente superdotados estudiados por Terman (Terman y Oden, 1959) alcanzaron la emi- nencia de un Winston Churchill, un Albert Einstein o un Ernest Hemingway. Ninguno de ellos se convirtió tampoco en un compositor, artista o poeta famoso. Características de la gente creativa. Thomas Alva Edison poseía 1093 patentes, Albert Eins- tein publicó 248 trabajos, Pablo Picasso promedió más de 200 obras de arte en un año, y Wolf- gang Amadeus Mozart compuso más de 609 piezas musicales durante su corta vida; murió a los 35 años. Esos casos ilustran la elevada pulsión interna que poseen muchas personas creativas (Haney, 1985). Otros rasgos afectivos y cognoscitivos que se dice caracterizan a las personas crea- tivas son la fluidez de ideas, la flexibilidad, la falta de convencionalismos, la sensibilidad social, no estar a la defensiva, una mayor voluntad para concederse fallos y vínculos cercanos con los padres (MacKinnon, 1962). De acuerdo con los resultados de las investigaciones de MacKinnon (1962) y Wallach y Kogan (1965), parecería que la creatividad, en especial cuando se acompaña por una inteligen- cia elevada, no es una mala característica desde el punto de vista de la salud mental. Sin embar- go, en un estudio de artistas británicos destacados (novelistas, pintores, dramaturgos, poetas y escultores), Jamison (1989, 1993) encontró que esos individuos tenían una probabilidad mucho mayor que la gente menos creativa de haber sido tratados por trastornos del estado de ánimo (manía y depresión). Andreasen (1987) encontró resultados similares en un estudio de 30 miem- bros del cuerpo docente en un taller para escritores: 80% exhibió depresión o alguna otra forma de trastorno del estado de ánimo y a 43% se le diagnosticó como maniaco-depresivos. El signi- ficado de esos hallazgos no es del todo claro, pero al menos sugiere que los adultos creativos, como los niños superdotados, no desconocen la infelicidad y la mala adaptación (vea también Ludwig, 1995). Pruebas de creatividad. En ocasiones se afirma que la inteligencia por arriba del promedio es necesaria pero no suficiente para la productividad creativa. Más allá de un nivel mínimo de inteligencia, el desempeño creativo parece depender más de la motivación y las habilidades especiales que de la habilidad mental general (MacKinnon, 1962). Por consiguiente, las investi- gaciones de la creatividad conducidas durante los pasados 40 años se han concentrado en iden- tificar otras características cognoscitivas y afectivas que distinguen a la gente creativa de la no creativa. Por ejemplo, se han hecho esfuerzos por desarrollar medidas de la habilidad de pensa- miento divergente en oposición al convergente (Guilford, 1967). En las medidas de pensamien- to convergente, como los problemas del tipo que se encuentra en las pruebas de inteligencia, hay una sola respuesta correcta. En contraste, en las pruebas de pensamiento divergente, a los suje- tos se les presentan problemas flexibles que tienen varias soluciones posibles y se califica la ori- ginalidad de sus respuestas. Por desgracia, esta flexibilidad crea dificultades en la calificación y en la determinación de la confiabilidad y la validez de esas pruebas. Entre los procedimientos de calificación propuestos está la evaluación de acuerdo con el número de respuestas dadas por el examinado (fluidez) y su originalidad o singularidad (novedad). INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 173 Los siguientes son ejemplos de reactivos de pruebas de creatividad: Prueba de consecuencias. Imagine todas las cosas que podrían suceder si, de repente, se abolieran todas las leyes nacionales y regionales (Guilford, 1954). Prueba de asociaciones remotas. Encuentre una cuarta palabra que se asocie con cada una de estas tres palabras: (a) rata-azul-casita, (b) fuera-perro-gato, (c) rueda-eléctrico-alto, (d) sorpresa-línea-cumpleaños (Mednick, 1962). Prueba de usos poco comunes. Mencione tantos usos como pueda pensar para (a) un mon- dadientes, (b) un ladrillo y (c) un clip para papel (Guilford, 1954). Prueba de asociación de palabras. Escriba tantos significados como pueda para cada una de las siguientes palabras: (a) pato, (b) costal, (c) resina y (d) justo (Getzels y Jackson, 1962; copyright © 1962, John Wiley & Sons, Inc. Reproducido con autorización de John Wiley & Sons, Inc.). Las baterías de pruebas de creatividad, como las Pruebas de la Estructura del Intelecto (de Consulting Psychologists Press) y las Pruebas Torrance de Pensamiento Creativo (TTCT) (de Scholastic Testing Service), representan una combinación de medidas de creatividad. La TTCT consta de tres ejercicios basados en ilustraciones (TTCT Figurativo: Pensamiento Crea- tivo con ilustración) y seis ejercicios basados en palabras (TTCT Verbal: Pensamiento Creati- vo con Palabras). Un ejemplo de los tipos de reactivos en la TTCT verbal es “Escriba todas las preguntas en las que pueda pensar” acerca de una determinada ilustración. En una parte de la TTCT figurativa se pide al examinado que elabore un guión a partir de una línea básica. La TTCT verbal, cuya solución se lleva 45 minutos, se califica en tres variables: fluidez, flexibilidad y ori- ginalidad. La TTCT figurativa, cuya terminación requiere 30 minutos, se califica en cinco varia- bles: fluidez, originalidad, elaboración, abstracción de los títulos y resistencia al cierre prematuro. La TTCT se reestandarizó en 1980, y en el manual se proporcionan los rangos per- centilares nacionales y las estándar desde el primer grado hasta los niveles universitario y adulto. Aunque una serie de investigaciones concluyó que la TTCT es un indicador no sesgado de la ge- nialidad (por ejemplo, Esquivel y Lopez, 1988; Torrance, 1988), las confiabilidades de las pruebas varían mucho y los resultados de los estudios de validez no son concluyentes (Hattie, 1980). Evaluación de las pruebas de creatividad. Las pruebas que han sido diseñadas para evaluar la creatividad son fascinantes, pero es importante considerar las críticas hechas por McNemar (1964) y otros psicólogos. Las pruebas de creatividad con frecuencia tienen correlaciones signi- ficativas con las pruebas de CI, y al parecer las primeras no son más efectivas que las últimas pa- ra predecir el desempeño creativo. Considerando todas las cosas, una conclusión razonable es que todavía queda por demostrar si es posible construir medidas efectivas de la creatividad. Has- ta que se diseñe una prueba que haga una predicción precisa del desempeño en un criterio de creatividad de aceptación general, sería conveniente seguir el consejo de McNemar (1964) de no deshacernos de nuestras pruebas de inteligencia general. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES Desde el momento de su aparición en la primera década del siglo XX, las pruebas de inteligencia han formado parte de numerosas investigaciones interesadas en las características, causas y efectos de las diferencias individuales en las habilidades cognoscitivas. Por desgracia, esas in- vestigaciones, las cuales fueron iniciadas por Francis Galton en la última parte del siglo XIX, con 174 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales mucha frecuencia han sido asistemáticas y son reflejo de métodos correlacionales convenientes en lugar de un diseño de investigación sólido. Aunque los resultados de dichos estudios pueden ser difíciles de interpretar, provocan la reflexión y deben ser tomados en cuenta por cualquiera que decida teorizar acerca de la naturaleza y el desarrollo de la cognición humana. Diferencias de edad en las habilidades mentales Debido a que la confiabilidad de todas las pruebas de inteligencia es menos que perfecta, la cali- ficación de una persona en una prueba particular cambiará algo de acuerdo con el momento y las condiciones de la examinación. No obstante, dada una situación de vida relativamente estable y condiciones óptimas de examinación, las calificaciones en las pruebas de inteligencia son bastan- te estables en los años escolares. Las calificaciones tienden a ser menos estables en la niñez tem- prana y media, pero son más consistentes durante la adolescencia. El CI de un niño en una prueba individual de inteligencia varía unos cinco puntos en promedio, y los cambios de 20 puntos o más son raros. Las fluctuaciones grandes en el CI, por lo general, pueden rastrearse hasta variaciones bastante considerables en la salud o las condiciones de vida, así como remitir a problemas y expe- riencias emocionales graves. La antigua definición del cociente de inteligencia como 100 veces la razón entre la edad mental y la edad cronológica implica que, para que el CI permanezca estable de un año a otro, la edad mental debe cambiar de manera proporcional a la edad cronológica. La misma suposición se aplica a las pruebas que no arrojan CI de razón: en las pruebas de inteligencia las puntuaciones crudas y la edad mental deben aumentar con la edad durante la niñez. La forma exacta de la fun- ción que relaciona las puntuaciones crudas de la prueba o edad mental con la edad cronológica depende, por supuesto, de la prueba específica y de los componentes intelectuales que ésta mide. Estudios transversales y longitudinales. Las conclusiones de los primeros estudios de los cambios con la edad en la inteligencia que por lo general están basados en datos transversales (Doppelt y Wallace, 1955; Jones y Conrad, 1933; Yerkes, 1921). En un análisis de las califica- ciones en el Examen Army Alfa aplicado a soldados estadounidenses durante la Primera Guerra Mundial, Yerkes (1921) encontró que las calificaciones promedio en la prueba declinaban de manera estable de finales de la adolescencia hasta la sexta década de la vida. En otro estudio temprano, Jones y Conrad (1933) encontraron que las puntuaciones promedio del Examen Alfa del ejército aumentaban linealmente de los 10 a los 16 años, pero luego declinaban gradualmen- te hasta llegar al nivel de los 14 años a la edad de 55 años. Las normas de la Escala de Inteligen- cia para Adultos de Wechsler también indicaban que la inteligencia alcanza su punto máximo en la juventud, aunque a una edad algo mayor de lo que se encontró en los primeros estudios. Las puntuaciones promedio de la escala completa en la WAIS-R alcanzan su punto máximo al prin- cipio de los 20 años, permanecen bastante constantes desde ese punto hasta finales de los 20 o principios de los 30 años, y luego declinan de manera estable a lo largo de la vida posterior. En contraste con los estudios longitudinales, que comparan el desempeño del mismo grupo de personas en diferentes edades, los estudios transversales comparan el desempeño de grupos de personas (cortes) que crecieron bajo circunstancias ambientales diferentes. Las diferencias en- tre las cortes en factores como la oportunidad de educación, la cual mantiene una relación estre- cha con las calificaciones en las pruebas de inteligencia, hacen difícil igualar a personas de diferentes edades. En consecuencia, es imposible comparar los niveles de inteligencia de perso- nas de edades distintas sin confundir los efectos de la educación con los de otras experiencias re- lacionadas con la prueba. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 175 El aumento estable en los niveles educativo y socioeconómico promedio de los estadou- nidenses durante el siglo XX debe tomarse en consideración al interpretar la declinación aparen- te con la edad en las habilidades cognoscitivas. Debido a que las calificaciones en las pruebas de inteligencia tienen una relación positiva con el nivel educativo y la posición socioeconómica, los adultos mayores, quienes tuvieron menos educación formal y una posición socioeconómica por lo general más baja, tienden a obtener puntuaciones de prueba significativamente más bajas que los adultos más jóvenes. Dado que los estudios longitudinales de inteligencia han sido realizados más a menudo con graduados universitarios y otros grupos favorecidos en lo intelectual, puede argumentarse que los hallazgos no por fuerza se aplican a la población general (Bayley y Oden, 1955; Camp- bell, 1965; Nisbet, 1957; Owens, 1953, 1966). Sin embargo, las investigaciones longitudinales conducidas en personas de inteligencia promedio (Charles y James, 1964; Eisdorfer, 1963; Tud- denham, Blumenkrantz y Wilkin, 1968) y en adultos con retraso mental no institucionalizados (Baller, Charles y Miller, 1967; Bell y Zubek, 1960) han arrojado resultados similares. Las cali- ficaciones promedio en las pruebas de inteligencia se incrementan en pequeñas cantidades du- rante la adultez temprana y se estabilizan entre los 25 y 30 años. La inteligencia de las personas que están por debajo del promedio o que no hacen un uso adecuado de sus habilidades declina un poco durante la adultez temprana. Por otro lado, los individuos de inteligencia por arriba del promedio pueden no mostrar declinación o incluso continuar mejorando bien avanzada la edad madura. Aunque los resultados de los estudios transversales y longitudinales revelan disminu- ciones sustanciales en las habilidades cognoscitivas durante la octava y la novena décadas, se ha encontrado que dichas habilidades pueden incrementarse incluso después de los 70 años (Baltes y Schaie, 1974; Busse y Maddox, 1985; Schaie y Hertzog, 1983). Se ha interpretado que esos es- tudios indican que la magnitud de la disminución intelectual con el envejecimiento varía tanto con la naturaleza de la tarea de la prueba como con el individuo. Habilidades específicas. Las pruebas de inteligencia general miden una combinación de varias habilidades cognoscitivas, y el patrón de cambio en el desempeño con la edad varía según la habi- lidad específica. Como se ve en el patrón relacionado con la edad de las calificaciones escaladas del subtest en el WAIS-R (Wechsler, 1981), las calificaciones en las pruebas de vocabulario e informa- ción por lo general no muestran cambios apreciables con el envejecimiento, pero las habilidades perceptual-integrativa y de comprensión de símbolos numéricos declinan con mayor rapidez. Tanto los métodos transversales como los longitudinales tienen desventajas y se requieren investigaciones que combinen los dos enfoques para alcanzar conclusiones válidas acerca del crecimiento intelectual con la edad. En los Estudios Longitudinales de Seattle, Schaie (1990, 1994) y sus colaboradores condujeron una serie de estudios transversales y longitudinales para analizar cambios con la edad en cinco habilidades medidas por las Pruebas de Habilidades Men- tales SRA: significado verbal, orientación espacial, razonamiento inductivo, número, y fluidez de palabra. Los hallazgos demostraron que la naturaleza de la relación entre la calificación ob- tenida en la prueba y la edad cronológica variaba con la habilidad específica y la metodología de investigación. Sin embargo, los resultados globales demostraron que durante la madurez la ta- sa de declinación era mayor para orientación espacial y razonamiento inductivo y menor para flui- dez de palabra, significado verbal y número. Durante la vejez la mayor caída fue en las calificaciones de significado verbal, una prueba ligeramente acelerada. Otros investigadores han en- contrado una mayor declinación relacionada con la edad en la habilidad para razonar y resolver pro- blemas que impliquen estímulos visuales y geométricos (inteligencia fluida) que en las habilidades verbales (inteligencia cristalizada) (Christensen et al., 1994; Horn, 1982; Horn y Hofer, 1992). 176 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Schaie y sus coinvestigadores (Baltes y Willis, 1982; Schaie y Willis, 1986; Willis, 1990) concluyeron que las habilidades cognoscitivas muestran cierto deterioro con el envejecimiento, pero enfatizaron que esas habilidades son plásticas y que el deterioro en las mismas puede ser detenido e incluso revertido. Sostienen que proporcionar oportunidades variadas para la estimu- lación intelectual y un estilo de vida flexible puede contribuir al mantenimiento de un nivel óptimo de funcionamiento cognoscitivo en la vejez. Como un programa de demostración, elaboraron un conjunto de procedimientos de entrenamiento para que los adultos mayores mejoraran sus cali- ficaciones en las pruebas de inteligencia. Dicho entrenamiento implicaba no sólo instrucción en habilidades cognoscitivas específicas, sino también reducción de la ansiedad y motivación. También se alentó a los participantes en las sesiones de entrenamiento a compensar la disminu- ción que percibieran en ciertas habilidades cognoscitivas concentrándose menos en esas habili- dades y más en las que sus déficit cognoscitivos fueran menos pronunciados. En resumen, el hecho de que se observe con la edad una disminución, ningún cambio o in- cluso un incremento en las habilidades cognoscitivas depende no sólo de la metodología de investigación (longitudinal, transversal o de variaciones en esos métodos), sino también de la habilidad específica y de la persona probada. Las variaciones en las habilidades cognoscitivas durante la adultez también dependen en cierta medida de las experiencias de la persona relacio- nadas con la prueba. La gente que permanece activa en lo intelectual muestra a menudo menor deterioro en las calificaciones de pruebas de inteligencia que quienes no lo hacen. E incluso cuando los adultos mayores tienen un mal desempeño en las pruebas de inteligencia, pueden po- seer conocimiento y habilidades muy especializadas en áreas no cubiertas por los instrumentos. Dichas habilidades pueden ayudar a los adultos mayores a ser hasta más competentes que los adultos jóvenes al tratar con los problemas de la vida cotidiana. Caída terminal. Una excepción aparente a la conclusión de que el deterioro en las habilida- des cognoscitivas en la vejez es gradual y varía con la habilidad específica es un fenómeno co- nocido como caída terminal. Este concepto se refiere a un deterioro en el funcionamiento cognoscitivo (CI, memoria, organización cognoscitiva), el tiempo de reacción y en otras habili- dades sensoriomotrices y características de personalidad como la asertividad durante los últimos meses o años de vida. Un impulso para la investigación sobre la caída terminal fue la afirmación hecha por una enfermera de un asilo en el sentido de que podía predecir qué pacientes iban a mo- rir pronto por la simple observación de que “parecían actuar de manera diferente” (Lieberman, 1965, p. 181). Los hallazgos de la investigación subsecuente revelaron deterioros en varias áreas del funcionamiento cognoscitivo y sensoriomotriz y en la habilidad para afrontar las deman- das ambientales en los pacientes que murieron en el curso de un año posterior a la prueba (Gra- nick y Patterson, 1972; Lieberman y Coplan, 1969; Reimanis y Green, 1971, y Riegel y Riegel, 1972). Riegel y Riegel (1972) advirtieron que la caída terminal era evidente hasta cinco años antes de la muerte, pero los resultados de la investigación subsecuente indicaron que tal caída puede no comenzar hasta alrededor de dos años antes de la muerte y que sólo ocurre en ciertas habili- dades (White y Cunningham, 1988). Los estudios de hombres viejos que participaron en un estudio longitudinal del envejeci- miento conducido por investigadores de la Universidad de Duke no encontraron caída terminal en pruebas de funcionamiento físico, pero las calificaciones en las pruebas de inteligencia ten- dían a caer de manera pronunciada unos cuantos meses o años antes de la muerte (Palmore, 1982; Palmore y Cleveland, 1976; Siegler, McCarty y Logue, 1982). Era más probable que los deterioros ocurrieran en pruebas no aceleradas como las de vocabulario, el cual al parecer es po- co afectado por la edad hasta tarde en la vida, que en pruebas aceleradas de naturaleza percep- INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 177 tual o de resolución de problemas. Por otro lado, los pacientes que no mostraron dichos deterio- ros en el funcionamiento cognoscitivo y la conducta no murieron sino hasta después de transcu- rrido un periodo significativamente más largo de haber sido probados. Efecto Flynn. Otro fenómeno que tiene que ver con los cambios en la inteligencia relaciona- dos con la edad, pero en este caso cambios a lo largo de generaciones, es el efecto Flynn. A par- tir de un análisis sobre calificaciones CI en países desarrollados a lo largo de tres generaciones, el científico político James Flynn (1987) concluyó que el CI promedio de las personas comunes de 20 años en la década de 1980 era 15 puntos más alto que el de una persona comparable en 1940, y que continuaba creciendo en un estimado de .33 puntos de CI por año. Las diferencias generacionales en el CI promedio eran mayores en pruebas como la de Matrices Progresivas de Raven, una medida de habilidad visoespacial, que en las pruebas de Wechsler y de Stanford- Binet, las cuales son medidas de vocabulario, información general, aritmética y otros conoci- mientos adquiridos, así como de habilidad visoespacial. Flynn concluyó que el incremento generacional observado en las calificaciones promedio de las pruebas de inteligencia se debe más a incidencias ambientales que a factores genéticos, pero que las calificaciones no podían atribuirse sólo a mejoras en la escolaridad formal. Otros factores que posiblemente contribuyen son los mayores logros educativos de los padres, la mayor atención de los padres a los niños, el progreso en la posición socioeconómica, la mejor nutrición, la disminución de las enfermedades en la niñez y una sociedad cada vez más compleja en lo tecnológico. De acuerdo con Greenfield (1998), buena parte del incremento en el CI informado por Flynn se debe a los efectos visuales especiales proporcionados por la televisión, las computadoras, los juegos de vídeo y otros ins- trumentos tecnológicos. También se ha notado que en las últimas décadas han disminuido de manera notable la desnutrición severa y las deficiencias en yodo, hierro y otros nutrientes aso- ciados con menores CI, así como con menor estatura. Lynn (1998) y Sigman y Whaley (1998) encontraron que la evidencia que vincula a la inteligencia con la mejor nutrición es convincen- te, pero Martorell (1998) concluyó que la mejor nutrición probablemente no es responsable del efecto Flynn. Por último, debe advertirse que, si bien las puntuaciones crudas promedio en las pruebas de CI han estado aumentando por décadas, sigue siendo controvertida la cuestión de si la inteligencia de la población en realidad está aumentando (vea Howard, 2001). Otros correlatos de las habilidades mentales En cientos de estudios se ha examinado la relación de las calificaciones en las pruebas de inteli- gencia con una multitud de variables demográficas, incluyendo el tamaño de la familia, el orden de nacimiento, la ocupación, la posición socioeconómica, la educación, la nacionalidad y la cul- tura. La metodología y los hallazgos de esas investigaciones constituyen parte sustancial de los temas de cursos sobre psicología diferencial. Tamaño de la familia y orden de nacimiento. En muchos estudios se ha documentado la re- lación inversa entre tamaño de la familia e inteligencia (Lancer y Rim, 1984; Steelman y Doby, 1983; Wagner, Schubert y Schubert, 1985). La tendencia a que las personas mentalmente más torpes provengan de familias más grandes no se debe por completo a las diferencias socioeco- nómicas entre las familias grandes y pequeñas, ya que sigue siendo significativa incluso cuando se consideran dichas diferencias. La relación entre el tamaño de la familia y la inteligencia es ciertamente multicausal, pero no necesariamente bidireccional. Los padres con CI bajos tienden a tener un mayor número de hijos que el promedio, pero las familias grandes no por fuerza pro- ducen hijos con bajos CI. Aunque puede ser razonable suponer que en las familias más grandes se concede menos atención al desarrollo cognoscitivo de los hijos, esto no por fuerza es cierto en la sociedad estadounidense moderna (Rodgers, Cleveland, van den Oord y Rowe, 2000). 178 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Desde la época de Francis Galton se ha observado que los primogénitos tienen mayor pro- babilidad de alcanzar grandes logros que los hijos nacidos después. Resumiendo los resultados de estudios realizados hasta mediados de la década de 1960, Altus (1966) concluyó que los pri- mogénitos constituyen un porcentaje mayor de la porción intelectualmente superior de la pobla- ción que de la población como un todo. Los primogénitos también hablan antes y de manera más clara, aprenden a leer más pronto y son mejores en la resolución de problemas y tareas percep- tuales que los nacidos más tarde. Una posible explicación de esas diferencias es que los padres por lo regular tratan a los primogénitos (en particular a los varones) de manera diferente a los ni- ños que nacen después. Ambos padres tienden a prestar más atención y estimulación a sus hijos primogénitos, pasan más tiempo con ellos y los alientan y ayudan más para caminar, hablar, leer a la edad apropiada y en otras tareas del desarrollo (Altus, 1966; Lewis y Jaskir, 1983; MacPhee, Ramey y Yeates, 1984). El hallazgo de que la relación entre el tamaño de la familia, el orden de nacimiento y las habilidades intelectuales es más evidente en las medidas verbales que en las no verbales de habilidad es congruente con el énfasis de los padres en el desarrollo del lenguaje de esos niños (Lancer y Rim, 1984). También se ha pensado que las diferencias en el trato que dan los padres a los primogénitos y a los niños que nacen después son responsables de que los pri- mogénitos sean más serios, responsables, estudiosos y competitivos, mientras que los nacidos más tarde son más sociables, relajados, imaginativos y atléticos. Posición ocupacional. En una sociedad abierta y competitiva como la nuestra, es razonable es- perar que las personas más inteligentes ingresen en ocupaciones que requieren habilidades cog- noscitivas más altas. Del mismo modo, las personas de menor inteligencia tienden a entrar en ocupaciones para las cuales se necesita de menor habilidad. Uno de los hallazgos más citados en las pruebas mentales se relaciona con este punto: las diferencias en las calificaciones prome- dio de la Prueba de Clasificación General del Ejército (AGCT) de reclutas militares de la Segunda Guerra Mundial que habían sido empleados en varias ocupaciones civiles (Harrell y Harrell, 1945). Las calificaciones promedio en la AGCT calculadas en más de 70 grupos ocupacionales de- mostraron que los contadores, abogados e ingenieros estaban en la parte superior. Los conductores de camiones, mineros y granjeros se encontraban en la parte inferior, y los otros grupos ocupacio- nales estaban arreglados en el medio de una jerarquía de acuerdo con sus calificaciones promedio en la AGCT. Como era de esperar, hubo un amplio rango de calificaciones dentro de cada ocupación. Por ejemplo, algunos conductores de camiones calificaron más alto que algunos maestros, lo que prueba que los primeros no por necesidad son lo opuesto de los “chicos sabios”. No obstante, los da- tos demuestran con claridad la importancia de la variable inteligencia en la predicción de la perte- nencia a una ocupación. En general, las calificaciones de las pruebas de inteligencia hacen una predicción bastante buena del desempeño en una variedad de ocupaciones (Brody, 1992). El papel de la educación, la cual tiene una relación significativa tanto con la inteligencia como con el estatus ocupacional, no está del todo claro en la determinación de la relación entre las dos últimas variables. Cronin, Daniels, Hurley, Kroch y Webber (1975) sostenían que la co- rrelación entre la inteligencia y el estatus ocupacional se debe al hecho de que ambas variables están correlacionadas con los antecedentes de clase social. Concluyeron que los hogares de cla- se media o superior tienen mayor probabilidad que los hogares de clase baja de preparar a los ni- ños para hacer un buen papel en las pruebas de inteligencia y en el trabajo escolar, pavimentando así el camino para que ingresen en ocupaciones de estatus superior. La secuencia causa-efecto también puede ser la siguiente: calificar alto en una prueba de inteligencia o de aptitud escolar, por lo general, es un requisito para la admisión a un buen colegio, y la graduación de un buen co- legio o universidad (y/o de alguna escuela profesional en algunos casos) es un requisito para in- gresar a una ocupación de mayor prestigio. INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 179 Posición socioeconómica. Uno de los hallazgos más consistentes sobre las diferencias indivi- duales y de grupo en las características psicológicas es la correlación positiva entre el CI y la po- sición socioeconómica (PSE), donde la PSE se define en términos del ingreso, la educación y la ocupación de los padres. En esos estudios se han encontrado a menudo CI superiores al prome- dio entre los niños de las clases sociales más altas, una distinción que se mantiene tanto en las pruebas convencionales como en las pruebas justas para la cultura (Speath, 1976). Que las dife- rencias de clase social en la habilidad sean sobre todo el resultado de la herencia o del ambien- te es tema de debate, pero generalmente se acepta que un ambiente familiar donde se brinde apoyo puede ejercer un efecto significativo sobre las habilidades cognoscitivas. Debido a la estrecha relación entre la posición socioeconómica y el nivel educativo, es di- fícil concluir si las diferencias observadas en los CI se deben a diferencias en la educación o a alguna otra variable asociada con la posición socioeconómica. Los niños que califican bajo en las pruebas de inteligencia no sólo tienden a tener menos educación formal, sino que también provienen de hogares enajenados por la cultura dominante y que están bajo mayor presión eco- nómica que el promedio. En esos hogares suele emplearse como medio principal de comunica- ción un idioma distinto al inglés estándar y los padres no enfatizan la importancia de las habilidades académicas ni saben cómo ayudar a sus hijos a adquirirlas. A pesar de la correlación positiva significativa entre las calificaciones en las pruebas de inte- ligencia y la posición socioeconómica, las dos variables están lejos de ser intercambiables. Consi- dere, por ejemplo, los resultados de un estudio conducido por Thomas, Alexander y Eckland (1979) de las relaciones de esas variables con las notas escolares: se encontró que la correlación positiva entre CI y logro educativo seguía siendo significativa incluso cuando se controlaba de manera esta- dística la posición socioeconómica. Por otro lado, cuando el CI se controlaba de manera estadística, la correlación entre la posición socioeconómica y el logro educativo era ligeramente negativa. Esos hallazgos sugieren que la correlación entre el CI y las notas escolares no se debe, como creen algu- nos psicólogos, sobre todo a las diferencias en los antecedentes de clase social. Más bien, parece que la habilidad intelectual afecta tanto a la posición socioeconómica como al nivel educativo. Por ello, puede argumentarse que una razón por la cual los estudiantes de clase media tienen mayor probabi- lidad que los de posición socioeconómica baja de estar en la mitad superior de sus grupos escolares es porque poseen mayor habilidad intelectual (Thomas, Alexander y Eckland, 1979). Residencia urbana y rural. El lugar de residencia (urbano contra rural) se relaciona con la pertenencia ocupacional, la posición socioeconómica y las calificaciones en las pruebas de in- teligencia. Estudios realizados en Estados Unidos en la primera mitad del siglo XX (vea McNemar, 1942) encontraron que los niños que vivían en áreas rurales tenían CI promedio significati- vamente menor al de quienes vivían en áreas urbanas. Aunque la diferencia urbana-rural en las calificaciones de las pruebas de inteligencia ha persistido, no es tan pronunciada como en las ge- neraciones previas. Debido a la televisión, al mejor acceso a las escuelas, a otras fuentes de in- formación y estimulación intelectual y a los avances en la tecnología agrícola, en la actualidad los niños del campo están expuestos a una gama más amplia de estímulos ambientales y tienen mayores oportunidades de aprender que sus padres y sus abuelos. La mayor exposición a la cul- tura más amplia ha mejorado el vocabulario, el nivel de conocimiento y la conciencia intelectual general de los niños del campo. Reynolds, Chastain, Kaufman y McLean (1987) estimaron que las mejoras en los servicios de comunicación y transporte produjeron una caída de la diferencia promedio entre los niños urbanos y rurales desde 6 puntos CI hace una generación hasta alrede- dor de 2 puntos en la década de 1980. Además, estudios conducidos entre los venda de Sudáfri- ca, los malayos y chinos de Malasia y los nigerianos apoyan la conclusión de que las diferencias de grupo en el desempeño en las pruebas de inteligencia reflejan diferencias en la clase social y 180 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales la educación más que del ambiente urbano contra el rural per se (Cronbach y Drenth, 1972; Scribner y Cole, 1973). Lo mismo puede decirse de las diferencias en las calificaciones obteni- das en las pruebas por niños que viven en diferentes secciones de las áreas metropolitanas. La dinámica del ambiente familiar va más allá de variables como el tamaño de la familia, el orden de nacimiento y la posición socioeconómica. El estilo de crianza, el proporcionar un ambiente familiar que ofrezca apoyo y otras medidas de tratamiento dentro del hogar son pre- dictores todavía más importantes de las calificaciones obtenidas en las pruebas de inteligencia por los niños pequeños (Hunt, 1961; Molfese, DiLalla y Bunce, 1997). Sea como sea, no está del todo clara la magnitud de esos efectos en las calificaciones de los niños en las pruebas de inteli- gencia. Por ejemplo, los hallazgos de las investigaciones de Baumrind (1993), Jackson (1993) y Scarr (1992, 1993) indican que, si bien las características del hogar y de los padres tienen una re- lación significativa con las puntuaciones en las pruebas de inteligencia en la niñez temprana, pa- ra la adolescencia esos efectos se han vuelto muy pequeños. Expectativas del maestro. Las habilidades cognoscitivas influyen ciertamente en el logro educativo, pero la educación también influye en la habilidad . Los efectos de la educación sobre las habilidades cognoscitivas en ocasiones son indirectos, como lo revelan los estudios de las expectativas del profesor. El sociólogo C. H. Cooley (1922) propuso la teoría del espejo, por la cual afirma que las personas tienden a adaptar su conducta y la forma en que se perciben a la ma- nera en que creen ser percibidas por los demás. Algunos años después, las investigaciones sur- gidas de la observación de que los hallazgos de los investigadores a menudo se relacionan con sus expectativas se extendieron a la situación del salón de clases. Esas investigaciones, que con frecuencia implicaban a niños con desventajas sociales, se interesaban en la influencia de las ex- pectativas y actitudes de los maestros sobre los cambios observados en las calificaciones en las pruebas y las conductas de los estudiantes. Un famoso, aunque algo controvertido, experimento de este tipo fue conducido por Rosenthal y Jacobson (1968) en las escuelas primarias del distri- to escolar sur de San Francisco. El propósito del experimento era determinar los efectos de decir a los maestros que ciertos alumnos mostrarían una “aceleración potencial” en su habilidad intelectual en el año escolar si- guiente. En septiembre se obtuvieron calificaciones de CI verbal, de ejecución y total para todos los niños de la escuela al hacerlos presentar una prueba de inteligencia no verbal, las Pruebas de Habilidad General (TOGA). Luego, en un informe para los maestros, se etiquetó a 20% de los ni- ños como “aceleradores potenciales”, supuestamente sobre la base de sus calificaciones en la TO- GA, pero en realidad se hizo al azar. La TOGA volvió a administrarse a todos los niños un semestre, un año y dos años más tarde. Se hicieron entonces comparaciones entre las ganancias en el CI de los grupos experimentales (“aceleradores potenciales”) y las de los grupos control de niños que no fueron etiquetados como aceleradores potenciales. Las ganancias en el CI de los grupos experimentales de primero a tercer grado fueron significativamente mayores que las de los controles, pero las diferencias CI entre los grupos experimentales y los controles de cuarto a sexto grado no fueron significativas. Los niños de origen mexicano y los de habilidad media mos- traron mayores ganancias iniciales en el CI total. Los varones mostraron ganancias promedio más grandes en el CI verbal y las niñas en el CI de razonamiento. Los niños experimentales también mostraron mayores ganancias en lectura y fueron calificados por sus maestros como más felices, intelectualmente más curiosos y menos necesitados de aprobación social que los controles. Rosenthal y Jacobson no pudieron identificar las conductas específicas del maestro que producían los cambios en el CI para los grupos experimentales, pero especularon que las mayo- res expectativas de los maestros para esos niños fueron comunicadas por medio de expresiones INVESTIGACIÓN SOBRE LOS CORRELATOS DEMOGRÁFICOS DE LAS HABILIDADES MENTALES 181 faciales, posturas, tacto y otras señales no verbales. Los hallazgos de este experimento no fue- ron replicados completamente por otros investigadores, y se le criticó por una serie de defectos metodológicos. Además, un meta-análisis subsecuente de los estudios sobre el efecto de las ex- pectativas dio firme apoyo a la hipótesis de que entre más familiarizados estén los maestros con sus alumnos menor es el efecto de las expectativas del maestro sobre las calificaciones CI de los niños (Raudenbush, 1984). Nacionalidad. De acuerdo con el dogma popular, ciertas nacionalidades y grupos étnicos po- seen características específicas de conducta y personalidad que los distinguen de otros grupos de personas. Aunque esos estereotipos contienen un elemento de verdad, por lo regular son genera- lizaciones excesivas que pueden servir como justificaciones para el tratamiento diferencial o in- cluso para el maltrato de grupos nacionales y étnicos particulares. No obstante, los científicos sociales han mostrado un interés considerable en las relaciones de las variables cognoscitivas con la nacionalidad, el grupo étnico y la cultura. Varias investigaciones tempranas interesadas en las diferencias de grupo que probable- mente inciden en la inteligencia se concentraron en la nacionalidad. Un estudio influyente reali- zado en la década de 1920 concluyó que los inmigrantes judíos, escandinavos y alemanes (junto con los estadounidenses nativos) obtenían en las pruebas de inteligencia calificaciones prome- dio superiores a las de otros grupos de inmigrantes en Estados Unidos (Hirsch, 1926). Esos re- sultados, los cuales sugerían que los inmigrantes de países del norte y el occidente de Europa eran más inteligentes que los de otros países, causaron tal impresión en el psicólogo H. H. God- dard que cabildeó a favor de leyes de inmigración que restringieran la admisión a Estados Unidos de todos los inmigrantes a excepción de los del norte y el occidente de Europa (Gould, 1981). Más tarde se interpretó que los hallazgos de Hirsch (1926), combinados con los de Yerkes (1921), Brigham (1923) y otros, se debían a la migración selectiva; no se encontraron diferen- cias significativas de nacionalidad cuando se probó a las personas en sus países nativos y en su lengua materna. En particular, Brigham (1930) repudió sus afirmaciones concernientes a las di- ferencias de nacionalidad en el Examen Army Alfa, y concluyó que los métodos utilizados fueron erróneos y que las pruebas medían la familiaridad con el lenguaje y la cultura estadounidenses más que la inteligencia innata. En otros estudios de inmigrantes se encontró que las calificacio- nes en las pruebas estadounidenses de inteligencia variaban con la semejanza entre la cultura na- tiva de los examinados y la cultura estadounidense dominante. Ciertos rasgos de las pruebas de inteligencia pueden contribuir a las calificaciones más ba- jas de diferentes nacionalidades y culturas. Por ejemplo, las sociedades analfabetas no siempre comparten el énfasis de las sociedades occidentales en cuanto a la velocidad, el resolver un proble- ma con el menor número de pasos, la superioridad de las manipulaciones mentales en comparación con las físicas, o que la originalidad es mejor que la conformidad (Gill y Keats, 1980). A diferen- cia de la orientación más centrada en el tiempo y en sí mismas de las culturas occidentales, es más probable que las personas de sociedades muy tradicionales asocien la inteligencia con la graduali- dad y la paciencia y que enfaticen la cooperación, la sociabilidad y el honor (Wober, 1974). Entre otras diferencias culturales que pueden tener cierto efecto sobre las calificaciones de las pruebas se encuentra la perspectiva confuciana de la cultura china tradicional, la cual ve a la inteligencia como benevolencia y hacer lo correcto, y la perspectiva taoísta de la inteligen- cia que incluye la humildad, la libertad de estándares convencionales de juicio, y el conocimien- to de uno mismo y de las condiciones externas (Yang y Sternberg, 1997). Los materiales de las pruebas de inteligencia también pueden ser percibidos de manera diferente por culturas distin- tas. Por ejemplo, Ortar (1963) encontró que cuando se les mostraba una ilustración de una cabe- 182 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales za sin boca los niños inmigrantes orientales en Israel tenían mayor probabilidad que los niños nativos de Israel de decir que faltaba el cuerpo. Y cuando se pidió a la gente de las tierras altas de Nueva Guinea que usaran un conjunto de cubos para copiar un diseño de dos dimensiones, muchos intentaron usar tanto la parte superior como los lados de los cubos. Raza y grupo étnico. Uno de los temas más controvertidos en la medición de las habilidades cognoscitivas atañe a las diferencias raciales en el CI. Un hallazgo general de la investigación en este tema es que, aunque por lo regular se ha encontrado que el CI de los asiáticoamericanos es igual o mayor que el de los caucásicos, los CI promedio de los nativos americanos, los hispa- noamericanos y los afroamericanos son significativamente menores. Entre las varias comparacio- nes de grupo, la atención se ha concentrado en las diferencias entre blancos y negros, una cuestión que se relaciona con la controversia herencia-ambiente. Diferencias entre negros y blancos. Muchos científicos sociales (Klineberg, 1963; Lee, 1951) han atribuido los resultados de la investigación sobre las diferencias raciales en las habilidades cognoscitivas a las diferencias en los ambientes culturales de los niños negros y blancos; otros creen que las diferencias tienen una base genética (Eysenck, 1971; Jensen, 1969). Después de analizar los hallazgos de la investigación sobre las diferencias entre negros y blancos en la inte- ligencia, Jensen (1969) concluyó que la frecuencia de los genes que portan mayor inteligencia es menor en la población negra como un todo que en la blanca. La consecuencia, sostenía, era que los negros, aunque iguales a los blancos en la habilidad para la memorización, son más po- bres en el razonamiento abstracto y la resolución de problemas. Un conjunto de hallazgos empíricos citados por Jensen (1981) para refutar una explicación ambientalista estricta de las diferencias raciales en la inteligencia es que los niños hispanoameri- canos e indios americanos que viven en condiciones ambientales aún peores que los negros tie- nen calificaciones promedio más altas en las pruebas de inteligencia no verbal. Además, a pesar de que sus padres y abuelos fueron sometidos a una severa discriminación en los siglos XIX y XX, las personas de origen chino y japonés en Estados Unidos superaban a los caucásicos en las cali- ficaciones promedio de las pruebas no verbales de inteligencia, así como en los logros educativos y ocupacionales, y los igualaban en las calificaciones en pruebas de inteligencia verbal. Por últi- mo, los judíos, para quienes la discriminación social no es desconocida, de manera consistente han calificado más alto que otros grupos en medidas de inteligencia verbal (Vernon, 1985). Sin embargo, en muchos de esos grupos las tradiciones culturales y las características familiares alientan el alto rendimiento incluso cuando el legado nativo no sea necesariamente superior. A pesar de los argumentos de Jensen (1980, 1981), Herrnstein y Murray (1994) y otros, la cuestión de las diferencias raciales en la inteligencia está lejos de ser resuelta. Los hallazgos de la investigación indican que los blancos superan a los negros en alrededor de una desviación es- tándar tanto en la WAIS-R (Reynolds et al., 1987) como en la Stanford-Binet: cuarta edición (Thorndike, Hagen y Sattler, 1986). Sin embargo, existe un traslape considerable entre las dis- tribuciones de CI de los dos grupos étnicos: se estima que 15% de los negros obtiene CI más al- tos que los de los blancos promedio, y 15% de los blancos califica más bajo que la persona negra promedio (Vernon, 1985). Esas diferencias raciales en las calificaciones en las pruebas de inte- ligencia son atribuibles a una combinación interactiva de factores, incluyendo las deficiencias de las pruebas, diferencias en los entornos y diferencias genéticas, pero no se ha determinado la importancia relativa de cada una de esas tres fuentes de variabilidad. Es de notar que la diferencia promedio entre las calificaciones de los blancos y los negros en las pruebas de inteligencia y aprovechamiento académico disminuyó casi la mitad de 1970 a FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 183 1990. Las explicaciones posibles para el estrechamiento de la brecha racial son los incremen- tos en el gasto en educación y la mayor educación de los padres, sobre todo entre los negros en los años recientes (Williams y Ceci, 1997). Diferencias entre japoneses y estadounidenses. También relevante para la cuestión de las dife- rencias de nacionalidad y grupo étnico en la inteligencia es el hallazgo de CI promedio más altos en los niños japoneses que en los estadounidenses (Lynn, 1982). Durante muchos años se ha sabido que los hijos de inmigrantes asiáticos a Estados Unidos tienden a calificar al menos tan alto como los niños caucásicos en este país. Lynn (1982) informó que la diferencia en el CI promedio entre estadounidenses y japoneses criados en sus propios países era de alrededor de 11 puntos a favor del último grupo. De hecho, se ha estimado que al menos 10% de la población japonesa, en com- paración con sólo 2% de los estadounidenses y europeos, tiene CI de 130 o mayores. Se han ofrecido varias explicaciones posibles para tratar de comprender la diferencia en los CI promedio de niños japoneses y estadounidenses, una diferencia que se ha informado au- menta de manera gradual desde la Segunda Guerra Mundial. Suponiendo que las muestras de ni- ños japoneses y estadounidenses a los que se examinó fueran igualmente representativas de las poblaciones específicas y que las pruebas fueran apropiadas por igual, la explicación más obvia tiene que ver con las diferencias entre las dos culturas en cuanto a las prácticas de crianza y edu- cación formal de los niños. Una explicación biológica del aumento en el CI entre los japoneses es que, debido a las mejoras en salud y nutrición, los niños japoneses de la actualidad están me- jor física y mentalmente que sus contrapartes en los días previos a la Segunda Guerra Mundial. Otra sugerencia es que los incrementos en el CI han sido causados por la heterosis (vigor híbri- do) resultante de cierta disminución en los matrimonios consanguíneos (de parentesco) a medida que después de la Segunda Guerra Mundial grandes cantidades de japoneses se mudaron de peque- ñas aldeas a grandes ciudades. Por último, Lynn (1987) propuso que las diferencias en inteligencia entre los caucásicos y las personas con antecedentes asiáticos se deben a diferencias genéticas en el funcionamiento del cerebro. Sostenía que en las personas de antecedentes asiáticos el he- misferio cerebral izquierdo evolucionó a estructuras capaces de procesar información visoespa- cial. El resultado de esta evolución, de acuerdo con Lynn, es que en los asiáticos una proporción mayor del tejido cortical se dedica al procesamiento de la información espacial y una proporción más pequeña está disponible para la información verbal. En consecuencia, la comunicación lingüís- tica, como en la lectura y escritura de kanji, involucra habilidades espaciales que de manera nor- mal dependen del hemisferio cerebral derecho. Por muy razonable que pueda parecer esta explicación de las mayores calificaciones obtenidas en las pruebas por los niños japoneses, Brody (1992) concluyó que la evidencia a favor de la teoría de Lynn no es convincente. FACTORES BIOLÓGICOS Y HABILIDADES MENTALES Los científicos modernos reconocen que el cerebro es el órgano de la actividad mental, pero los esfuerzos por identificar estructuras o áreas cerebrales específicas que son responsables de las habilidades cognoscitivas no han tenido mucho éxito. Con respecto al tamaño global del cere- bro, algunos de los cerebros más pequeños de los que se tiene registro han sido de genios reco- nocidos (por ejemplo, Walt Whitman y Anatole France), y algunos de los cerebros más grandes han pertenecido a individuos con retraso severo. Aun así, varias revisiones de investigaciones han concluido que el tamaño global del cerebro tiene una pequeña correlación positiva con la habi- lidad intelectual (Broman, Nichols, Shaughnessy y Kennedy, 1987; Jensen y Sinha, 1991; Stott, 1983; Willerman, Schultz, Rutledge y Bigler, 1989). En un estudio de 139 infantes que tuvieron 184 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales bajo peso al nacer (menos de 1.5 kilogramos) se encontró que la circunferencia de la cabeza era un predictor importante del CI en la escala Stanford-Binet a los tres años de edad (Hack y Bres- lau, 1985). Esto siguió siendo cierto aun cuando se controlaron de manera estadística variables médicas y sociodemográficas, las cuales tenían relaciones significativas pero menores que la circunferencia de la cabeza con el CI posterior. Aunque el crecimiento compensatorio del cere- bro durante los primeros ocho meses después del nacimiento compensó la disminución de los CI posteriores en algunos infantes, después de los ocho meses se observó poco crecimiento del ce- rebro. De este modo parecería que, al menos en los infantes, el tamaño de la cabeza puede anti- cipar la condición intelectual posterior (vea Wilson, 1985). Localización cerebral de las funciones cognoscitivas Podríamos desear que fuera posible hacer mejoras significativas en la inteligencia empleando técnicas quirúrgicas o químicas, pero en el presente eso es sólo ciencia ficción. Una hipótesis po- pular, que los procesos mentales de orden superior tienen lugar en los lóbulos frontales del cere- bro, ha recibido cierto apoyo de los datos de los exámenes PET (tomografía por emisión de positrones) (Haier, 1991). El hallazgo temprano de que los pacientes sometidos a lobotomías prefrontales mostraban cierto deterioro postoperatorio en habilidades intelectuales específicas es congruente con dicha hipótesis (DeMille, 1962). Los cambios en habilidades cognoscitivos específicas también están asociados con lesio- nes en otras áreas del cerebro. Por ejemplo, el daño del lóbulo temporal izquierdo —el hemisfe- rio dominante en la mayoría de la gente— deteriora el desempeño verbal-simbólico más que el perceptual-espacial. Sin embargo, el daño del lóbulo temporal derecho afecta el desempeño per- ceptual-espacial más que el verbal-simbólico. Al evaluar los efectos del daño cerebral también debe considerarse la edad del paciente. El desarrollo intelectual de un niño pequeño puede resul- tar mucho más afectado por el mismo tipo de lesión cerebral que no tiene efecto mensurable en las habilidades intelectuales de una persona mayor. Diferencias sexuales En ocasiones se encuentran diferencias entre las calificaciones promedio de las pruebas de inte- ligencia de hombres y mujeres, pero por lo regular son intrascendentes. Sin embargo, los resul- tados de la investigación indican que hay diferencias sexuales en habilidades cognoscitivas y perceptual-motrices específicas. Halpern (1997) concluyó que a las mujeres les va mejor que a los hombres en tareas que requieren acceso y uso rápido de información fonológica, semánti- ca y de otro tipo en la memoria a largo plazo. También destacan en tareas que requieren destreza motriz fina, velocidad perceptual y decodificación de información no verbal; tienen mejor articu- lación del habla y menores umbrales perceptuales para el tacto, el sabor y el olor. Por otro lado, los hombres se desempeñan mejor que las mujeres en tareas que involucran el razonamiento fluido, transformaciones en la memoria de trabajo visual o mover objetos, y en tareas motrices que requieren puntería. En lo que respecta a lo académico, las mujeres obtienen mayores califi- caciones en la escuela, en particular en literatura y lenguas extranjeras. Los hombres se desem- peñan mejor que las mujeres en pruebas de conocimiento en general y en geografía, matemáticas y ciencia. Esos hallazgos son, al menos en parte, función de las diferencias en la forma que nues- tra sociedad trata a los niños y a las niñas. Por ejemplo, por lo regular se espera que las niñas ten- gan más logros en habilidades sociales y lingüísticas, mientras se supone que los niños deben desempeñarse mejor en matemáticas, mecánica y tareas con problemas relacionados. FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 185 Se ha encontrado que no sólo el sexo (género) sino también las hormonas sexuales están relacionadas con las habilidades cognoscitivas. Por ejemplo, Hier y Crowley (1982) encon- traron una correlación positiva entre la habilidad espacial y las hormonas sexuales masculinas durante la pubertad. Los hallazgos de la investigación también sugieren que la testosterona vuel- ve más lento el desarrollo del hemisferio izquierdo y facilita el desarrollo del hemisferio dere- cho del cerebro, el cual está asociado con los tipos de habilidades de razonamiento que se necesitan para resolver problemas matemáticos (Christiansen y Knussmann, 1987). También es de interés el hallazgo de que las mujeres tienen un mejor desempeño en las pruebas de coordi- nación motriz y destreza verbal, pero un desempeño más pobre en las pruebas de razonamiento espacial, durante los momentos del mes en que los niveles de estrógeno en la sangre se encuen- tran en su punto máximo (Hampson, 1990; Kimura y Hampson, 1993). Las calificaciones de los hombres en las habilidades espaciales también fluctúan con sus niveles de testosterona: son más altas en la mañana que en el transcurso del día, y más altas en otoño que en primavera (Kimura y Hampson, 1994; Moffat y Hampson, 1996). Se han ofrecido varias explicaciones neuropsicológicas para las diferencias sexuales en habilidades cognoscitivas específicas. Un conjunto de tales explicaciones apunta hacia el dimor- fismo sexual en las estructuras nerviosas del hipotálamo, la amígdala y la corteza cerebral. Las mujeres tienen áreas de lenguaje que en proporción son más grandes que las de los hombres (Ha- rasty, Double, Halliday, Kril y McRitchie, 1997), y se reporta que la densidad de las neuronas en las áreas de lenguaje de las mujeres es mayor que en los hombres (Witelson, Glezer y Kigar, 1995). Los cerebros de las mujeres también están organizados de una manera más bilateral que en los hombres, ya que en las mujeres las funciones cognoscitivas son menos específicas a un hemisferio cerebral particular. Además, el cuerpo calloso es más grueso en las mujeres que en los hombres, lo que permite una mejor conductividad entre los dos hemisferios cerebrales (In- nocenti, 1994; Jancke y Steinmetz, 1994; Johnson, Pinkston, Bigler y Blatter, 1996). Por último, los datos de exámenes de tomografía por emisión de positrones (PET) indican que las áreas del cerebro en las que tiene lugar la mayor actividad mientras el individuo realiza funciones cognos- citivas específicas son diferentes en las mujeres y los hombres (Shaywitz et al., 1995). Dieta y sustancias químicas Desnutrición. La suposición de que la desnutrición fetal e infantil tiene efectos persistentes en la inteligencia es apoyada por numerosas investigaciones (por ejemplo, Lucas, Morley, Cole, Lis- ter y Leeson-Payne, 1992; Zeskind y Ramey, 1981). Los intentos por revertir los déficit en la inteli- gencia relacionados con la desnutrición complementando las dietas de los niños desnutridos y exponiéndolos a un ambiente que les ofrezca cuidados no han tenido éxito del todo, aunque dicha intervención puede ayudar a detener esos déficit (Barba, 1981; Zeskind y Ramey, 1981). Trastornos genéticos y dieta. La inteligencia muy baja se encuentra en individuos que pade- cen ciertos trastornos genéticos raros que son afectados por la dieta. En la fenilcetonuria (PKU), un trastorno genético causado por la falta de un gen que dirige la producción de una enzima respon- sable de oxidar la fenilalanina, la fenilalanina se acumula en la sangre y da lugar a una disminución drástica de las habilidades intelectuales. La PKU puede detectarse al momento del nacimiento con una prueba médica sencilla y, en consecuencia, el deterioro de la inteligencia puede ser pre- venido cuando se coloca al niño en una dieta libre de fenilalanina. La PKU y otros trastornos genéticos caracterizados por baja inteligencia, por ejemplo la enfermedad de Tay-Sachs y la galactosemia, se transmiten por genes recesivos. La enfermedad 186 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales de Tay-Sachs se asocia con una acumulación de una sustancia grasosa en el sistema nervioso central, mientras que la galactosemia se asocia con una acumulación de galactosa en la sangre. Al igual que la PKU, la galactosemia puede tratarse colocando al paciente en una dieta especial libre de galactosa. Alcohol. Existen muchos teratógenos diferentes, drogas que pueden cruzar la barrera placen- taria en una mujer embarazada y afectar el crecimiento y funcionamiento del cerebro del feto. El alcohol es una de esas drogas que, incluso cuando es consumido por una mujer embarazada en cantidades relativamente moderadas, puede contribuir a generar problemas de atención y tiem- po de respuesta en los niños pequeños. Los efectos de la exposición prenatal a grandes cantida- des de alcohol son todavía más graves, y dan por resultado una condición conocida como síndrome fetal de alcohol (SFA). Además del retraso en el crecimiento, apariencia facial distor- sionada y malformaciones del cerebro y el cráneo, se presenta retraso mental en un gran porcen- taje de los casos de SFA. De hecho, una de las causas más importantes de retraso mental en el mundo occidental es la exposición prenatal al alcohol. Por esta razón, se considera aconsejable que las mujeres embarazadas se abstengan por completo de beber alcohol (vea Spohr y Stein- hausen, 1996; Streissguth, Bookstein y Barr, 1996). Plomo. Otra sustancia que se ha demostrado tiene un efecto deteriorante en la inteligencia de los niños pequeños es el plomo, el cual existe en las viviendas, la comida, la tierra y el aire (Needleman, Gunnoe, Leviton y Perie, 1978; Needleman, Schell, Bellinger, Leviton y Allred, 1990; Thatcher, Lester, McAlaster, Horst e Ignasias, 1983). Needleman et al. (1990) demostra- ron la persistencia del defecto mental relacionado con el plomo en la adultez al reexaminar a 132 de 270 jóvenes adultos que habían sido examinados inicialmente cuando estaban en la escuela primaria. Se encontró que los individuos con mayores niveles de plomo con más frecuencia no habían logrado graduarse de secundaria y presentaban un ausentismo elevado; también tenían una incidencia más alta de problemas con la lectura y bajas calificaciones en las pruebas que mi- den vocabulario, razonamiento gramatical, habilidades motrices finas y coordinación ojo-mano. Esos hallazgos, combinados con los de otros investigadores (por ejemplo, Fulton et al., 1987; McMichael et al., 1988) apoyan la hipótesis de que la exposición a niveles elevados de plomo durante la niñez temprana tiene un efecto adverso sobre el desarrollo intelectual. La buena noti- cia es que los niveles de plomo en sangre de niños de uno a cinco años disminuyeron de mane- ra considerable en las dos o tres décadas pasadas, una disminución atribuible en gran medida a la legislación que prohíbe el uso de plomo en las pinturas y tuberías y a la retirada progresiva del plomo en la gasolina (America’s Children, 1998). Herencia La creencia en la determinación genética de la inteligencia se remonta al menos hasta la época de Francis Galton a finales del siglo XIX. Alfred Binet no rechazaba la idea de que la inteligen- cia estuviera genéticamente determinada, pero estaba más interesado en la posibilidad de modi- ficar las habilidades intelectuales por medio de la educación, el entrenamiento y la intervención ambiental (Eysenck, 1984). Uno de los defensores más francos de la noción de que la inteligen- cia es determinada en gran medida por la herencia fue el psicólogo H. H. Goddard, quien defendía la reconstrucción de la sociedad a lo largo de las líneas del CI (Goddard, 1920). La mayoría de los psicólogos, especialistas en el desarrollo infantil e investigadores edu- cativos, probablemente estarían de acuerdo en que la inteligencia general, o al menos una pre- disposición al desarrollo cognoscitivo, es hasta cierto punto heredada (Snyderman y Rothman, FACTORES BIOLÓGICOS Y HABILIDADES MENTALES 187 1987). Algunos investigadores genetistas consideran a la inteligencia como una característica poligénica, es decir, que es determinada por la interacción de muchos genes menores en lugar de un solo gen importante. Quizá el método menos ambiguo de obtener información concerniente a los efectos am- bientales sobre las habilidades cognoscitivas sea el de conducir un experimento con pares de ge- melos monocigóticos (idénticos), quienes tienen herencias idénticas. Algunos pares de gemelos serían separados al nacer asignándolos a ambientes diferentes, mientras que otros pares se man- tendrían juntos en el mismo ambiente. El hallazgo de mayores diferencias en las habilidades me- didas entre los pares de gemelos criados en ambientes diferentes que entre los criados en el mismo ambiente sería un apoyo para la hipótesis de que el ambiente influye en las habilidades cognoscitivas. Debido a que la sociedad no permitiría que científicos incluso bien intencionados movieran a los niños como piezas de ajedrez, se han diseñado métodos no experimentales para evaluar los efectos relativos de la herencia y el ambiente. Un enfoque consiste en comparar, en diversas eda- des cronológicas, los CI de gemelos monocigóticos que han sido criados por separado. De esta ma- nera, la herencia se mantiene efectivamente constante mientras que el ambiente varía, aunque de una manera asistemática y no controlada. Además, pueden compararse los CI de individuos que tienen diferentes herencias pero que viven en ambientes similares, como los hermanos no idénti- cos o niños no relacionados a los que se cría juntos. También pueden hacerse comparaciones entre los CI de personas que tienen diferentes relaciones hereditarias y a quienes se cría en ambientes di- ferentes, como los hermanos no idénticos e individuos no relacionados criados aparte. A pesar de la dificultad para localizar pares de gemelos monocigóticos que hayan sido cria- dos por separado, se dispone de resultados de una serie de investigaciones de este tipo (encontrará resúmenes en Bouchard, Lykken, McGue, Segal y Tellegen, 1990; Bouchard y McGue, 1981; Plo- min y Foch, 1980). En general, se ha encontrado que las correlaciones entre los CI de gemelos mo- nocigóticos criados juntos son casi siempre más altas que las de gemelos monocigóticos criados por separado. Por ejemplo, Bouchard et al. (1990) informaron de correlaciones entre los CI obte- nidos en la Escala de Inteligencia para Adultos de Wechsler (WAIS) por gemelos monocigóticos de .88 para la escala verbal, .79 para la escala de desempeño y .88 para la escala completa; los va- lores correspondientes para los gemelos monocigóticos criados aparte fueron de .64, .71 y .69. Además, entre más cercana fuera la relación genética entre los individuos, más altas eran las corre- laciones entre sus calificaciones en las pruebas de inteligencia. Bouchard y McGue (1981) men- cionaron las correlaciones medianas entre los CI de personas con diferentes grados de parentesco que vivían juntas, siendo de .86 para gemelos monocigóticos, .60 para gemelos dicigóticos, .47 para hermanos, .42 para padres e hijos, .33 para cónyuges y .29 para hermanos adoptados/naturales. En lo que se supone es un reflejo de la influencia del ambiente en el CI, las correlaciones fueron más bajas para pares correspondientes de gemelos a los que se crió por separado. Los genetistas poblacionales a menudo expresan los resultados de los estudios de las di- ferencias hereditarias en términos de un índice de heredabilidad (h2), definido como la razón de la varianza de la calificación en la prueba debida a la herencia con la varianza de la calificación en la prueba debida a una combinación de herencia y ambiente. Aunque se ha informado de es- timados de heredabilidad de hasta .72 (Plomin, 1990), los estimados promedio de h2 para la in- teligencia en la población general son de alrededor de .50. Esto significa que un estimado de 50% de la varianza en las calificaciones CI puede atribuirse a factores genéticos. Sin embargo, debe advertirse que esos números no dicen nada acerca de la importancia relativa de la herencia o el ambiente en la determinación de la inteligencia de un individuo específico; los coeficientes de heredabilidad sólo se aplican a las poblaciones. 188 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales Incluso el más ávido defensor de una base genética de la inteligencia por un lado, o el más acérrimo ambientalista por el otro, reconocen que tanto la herencia como el ambiente son impor- tantes en la formación de las habilidades cognoscitivas. En este contexto el ambiente no sólo se refiere al ambiente psicosocial o de experiencia de la persona, sino también al ambiente biológi- co prenatal y posnatal (nutrición, accidentes y cosas similares). Una interpretación de los datos de investigación que tienen que ver con esta materia es que la herencia establece una especie de límite superior a la inteligencia, un límite que sólo puede alcanzarse en las condiciones ambien- tales óptimas (Weinberg, 1989). Un corolario de esta proposición es que entre más alto sea el lí- mite superior determinado por la herencia para la inteligencia de una persona, mayores serán los efectos potenciales del ambiente. Otra manera de evaluar los efectos diferenciales de la herencia y el ambiente en las habi- lidades cognoscitivas está representada por la investigación de la adopción, como puede apre- ciarse en los Estudios de Adopción de Minnesota (Scarr y Weinberg, 1983) y el Proyecto de Adopción de Texas (Horn, 1983). En esas investigaciones se compararon los CI de grandes muestras de niños adoptados con los de sus hermanos no adoptados y los de sus padres adopti- vos y biológicos. Los hallazgos de Horn (1983) son típicos en que los CI de los niños adoptados (de tres a diez años de edad) a los que estudió estaban mucho más cercanos a los de sus madres biológicas, de quienes habían sido separados casi desde el nacimiento, que de los CI de sus pa- dres adoptivos. Los CI de los adolescentes en el estudio de Scarr y Weinberg (1983) también mostraron una correlación más alta con los CI de sus madres biológicas que con los de sus ma- dres adoptivas. Otro hallazgo interesante es que los efectos de la herencia sobre la inteligencia tienden a au- mentar con la edad, mientras que los efectos del ambiente, y en particular del ambiente comparti- do, tienden a disminuir con la edad (McGue, Bouchard, Iacono y Lykken, 1993). Un factor que contribuye a ello es que, a medida que los niños y los adultos envejecen, la parte del ambiente que tuvo más influencia al principio de la vida es reemplazada por otras experiencias no compartidas en la escuela, en las interacciones sociales con los compañeros, en el trabajo y en otras situaciones. El hecho de que las influencias genéticas se vuelven incluso más significativas con la edad fue subrayado por los resultados del Estudio de Gemelos de Louisville (Wilson, 1983). En esta investigación de 500 pares de gemelos, los CI de gemelos monocigóticos se hicieron más similares, pero los de gemelos dicigóticos se hicieron menos similares, de la infancia a la ado- lescencia. Los resultados de los Estudios de Adopción de Minnesota (Scarr y Weinberg, 1983) son congruentes con los del Estudio de Gemelos de Louisville en el descubrimiento de que el ambiente familiar tiene cierto impacto en el CI, en particular durante la niñez temprana, pero que los efectos del ambiente familiar son sustancialmente menores que los de la herencia. Otro ha- llazgo, aquel de un coeficiente estimado de heredabilidad de .80 para las calificaciones en pruebas de inteligencia en una muestra de adultos con una edad promedio de 66 años (Pedersen, Plomin, Nesselroade y McClearn, 1992), indica que la herencia continúa ejerciendo una influencia pro- funda en las calificaciones CI obtenidas tarde en la vida. RESUMEN A los individuos con calificaciones en los extremos bajo y alto de la distribución de inteligencia se les conoce, respectivamente, como retrasados mentales o superdotados. Tanto las calificacio- nes en las pruebas de inteligencia como la conducta adaptativa son importantes en el diagnósti- co del retraso mental. El retraso mental se clasifica, de acuerdo con su gravedad, en tres o cuatro RESUMEN 189 categorías. Tanto la genética como la experiencia son factores determinantes en el retraso men- tal, pero en la mayoría de los casos se desconoce la causa exacta. El estereotipo tradicional de que los niños superdotados son físicamente débiles, poco sa- nos, con probabilidades de consumirse pronto e inestables en lo emocional es incorrecto para la mayoría de esos niños, sobre todo para los que son moderadamente superdotados. Sin embargo, se ha informado que los niños extremadamente superdotados presentan mayor probabilidad que el promedio de tener problemas sociales y emocionales. La aceleración, el uso de mentores, el enriquecimiento, las clases especiales y las escuelas especiales se encuentran entre los procedi- mientos empleados en la educación de los niños superdotados. El desempeño creativo no es sólo una función de una inteligencia relativamente alta, sino también de la elevada motivación, el entrenamiento especial y quizá de otras capacidades psico- lógicas. Un problema importante en el desarrollo de medidas útiles de la creatividad es la defi- nición de criterios adecuados para inducir el desempeño creativo. Las baterías de pruebas como las Pruebas de la Estructura del Intelecto de Guilford y las Pruebas Torrance de Pensamiento Creativo son ejemplos notables de instrumentos diseñados para evaluar la creatividad. Los re- sultados de la investigación reciente sugieren que ciertas clases de desempeño creativo están asociadas con trastornos del estado de ánimo, como la psicosis maniaco-depresiva. Dado un ambiente familiar relativamente estable, nutrición adecuada y experiencias edu- cativas apropiadas, las calificaciones de CI permanecen bastante estables después de la niñez temprana. Los resultados de estudios transversales describen que la inteligencia aumenta en la juventud y luego declina de manera gradual en la vejez; los estudios longitudinales encuentran menos declinación con la edad. La tasa de deterioro, o incluso de aumento en algunos casos, es una función de los tipos de actividades a los que se dedica la gente a lo largo de su vida: quienes continúan comprometidos en actividades intelectuales muestran menor declinación intelectual que quienes manifiestan menos interés en el aprendizaje continuo. La cuestión de si la inteligen- cia disminuye de manera abrupta en las últimas semanas o meses antes de la muerte en la vejez, la caída terminal, no se ha resuelto de manera concluyente. Un tamaño grande de la familia se asocia con menores CI promedio, y los primogénitos tienden a ser superiores en lo intelectual a los que nacen después. El estatus ocupacional y la po- sición socioeconómica tienen una correlación positiva entre sí y con la inteligencia, pero no que- da claro si las ventajas de pertenecer a una clase social más alta den por resultado niños con CI más elevados o si los CI más altos y la posición social elevada son consecuencias de factores ge- néticos. Otras variables demográficas asociadas con las calificaciones CI son la residencia urba- na contra la rural, el nivel educativo, la nacionalidad y el grupo étnico. En lo que respecta a la educación, las actitudes o expectativas de los maestros concernientes a qué niños son capaces de tener logros también pueden jugar cierto papel en si los niños alcanzan su potencial. No se ha encontrado un área específica del cerebro que se considere el asiento de la inte- ligencia. Sin embargo, la investigación sobre la localización cerebral de las funciones cognosci- tivas ha encontrado que ciertas estructuras desempeñan papeles importantes en los procesos mentales de orden superior. Los estudios no han revelado diferencias de género consistentes en la habilidad mental ge- neral, aunque cada sexo tiende a ser superior al otro en ciertas habilidades específicas. Las niñas son mejores en memorización, tareas lingüísticas, velocidad perceptual y precisión y cálculos numéricos. Los varones destacan en razonamiento matemático, capacidad visoespacial, habilidad mecánica y velocidad y coordinación de los movimientos corporales grandes. Las bases fisioló- gicas de esas diferencias no se entienden bien, pero parecen estar relacionadas con diferencias en el desarrollo y funcionamiento de los hemisferios izquierdo y derecho del cerebro. Las dife- 190 CAPÍTULO OCHO Diferencias individuales y de grupo en las habilidades mentales rencias en otras estructuras cerebrales y en el nivel de testosterona también parecen estar rela- cionadas con las diferencias de género en las habilidades cognoscitivas. Se ha encontrado que varias hormonas y drogas están relacionadas con las habilidades mentales. En particular, llaman la atención los estudios del síndrome fetal de alcohol y los efec- tos de los altos niveles de plomo en la inteligencia de los niños. La desnutrición, en especial du- rante el último periodo prenatal o el periodo posnatal temprano, puede producir un menor CI. Además, ciertos trastornos con base genética (por ejemplo, PKU, enfermedad de Tay-Sachs y la galactosemia) asociados con bajos CI pueden ser tratados con dietas especiales si se detectan con la oportunidad suficiente. Entre los varios problemas y controversias que rodearon a las pruebas de inteligencia du- rante buena parte del siglo XX, la cuestión más debatida ha sido la de las contribuciones relati- vas de la herencia y el ambiente al moldeamiento de las habilidades cognoscitivas. La evidencia de docenas de investigaciones destaca la relación de la herencia con la habilidad mental general, aunque no niega que la herencia y el ambiente son importantes e interactivos en sus efectos sobre la conducta inteligente. Este tema ha resultado particularmente controvertido por su asociación con la problemática de las diferencias raciales en la inteligencia. Aunque los hallazgos de numerosas investigaciones han llevado a concluir que en una po- blación con apareamiento clasificado el coeficiente de heredabilidad (la proporción de varianza en las calificaciones de las pruebas de inteligencia de la población general explicada por la he- rencia) es hasta de .70, también está claro que los ambientes biológico y psicosocial tienen in- fluencias importantes en la inteligencia. P R E G U N TA S Y A C T I V I D A D E S 1. Describa los sistemas de clasificación para el retraso mental propuestos por la Asociación Estadou- nidense del Retraso Mental, La Asociación Nacional para los Niños Retrasados y la Asociación Psi- quiátrica Estadounidense. 2. Dado que en Estados Unidos el método para diagnosticar el retraso mental, incluyendo el CI límite, varía de un estado a otro, ¿es posible que un niño sea retrasado mental en un estado y “limítrofe” o de “bajo promedio” en otro? ¿Qué consecuencias podría tener esto? 3. Se invierten más fondos del gobierno en la educación de los retrasados mentales que en la de los su- perdotados. ¿Está esto justificado? ¿Por qué sí o por qué no? 4. Para “probar” su habilidad creativa, trate de resolver los siguientes ejercicios: a. ¿Cuántos usos puede imaginar para un clip, una pelota de goma, un ladrillo, una percha de alam- bre, una regla de un pie de longitud o un mondadientes? b. Trate de imaginar cómo cambiarían las cosas si: Todos tuvieran tres brazos. Todos tuvieran seis dedos y no tuvieran pulgar en cada mano. Lloviera de manera constante durante seis meses al año y no lloviera los seis meses restantes. Compare sus respuestas con las de sus amigos y condiscípulos. 5. ¿Qué variables demográficas están relacionadas con las calificaciones obtenidas en las pruebas de inteligencia? ¿Cuáles de esas variables parecen ser más importantes? ¿Cuáles tienen una relación causal con la inteligencia? RESUMEN 191 6. ¿Qué factores biológicos se ha demostrado que afectan la inteligencia? ¿Cuáles de esos factores son los más importantes? 7. Diseñe un estudio para probar la hipótesis de que la diferencia entre los CI promedio de negros y blancos no es significativa. No se preocupe demasiado con la posibilidad real de efectuar su estu- dio, pero asegúrese de controlar las variables extrañas (de confusión). 8. En un resumen de las correlaciones promedio entre los CI de personas que tienen diferentes grados de parentesco, Bouchard y McGue (1981) mencionaron que la correlación mediana entre los CI de gemelos fraternos del mismo sexo criados juntos era de .60, y que la correlación mediana entre los CI de gemelos idénticos criados juntos era de .86. Una fórmula sugerida para calcular el índice de heredabilidad es: ri – rf h2 = , l – rf donde ri es la correlación entre los CI de gemelos idénticos (monocigóticos), y rf es la correlación entre los CI de gemelos fraternos (dicigóticos) del mismo sexo criados juntos. Utilice esta fórmula para calcular h2 e interprete el resultado. CAPÍTULO NUEVE EVALUACIÓN DEL DESARROLLO Y NEUROPSICOLÓGICA Durante casi 100 años, las pruebas de inteligencia se han usado con el propósito de identificar las habilidades que niños y adultos poseen para entender y realizar tareas educacionales y ocu- pacionales, entre otras. Estas pruebas resultaron bastante efectivas con niños de edad escolar, pero han probado ser menos útiles para evaluar las habilidades de infantes y preescolares. Ade- más, las pruebas de inteligencia general no fueron diseñadas para medir más que habilidades motrices, sensorial-perceptuales, lingüísticas y otras habilidades específicas o para proporcionar otra cosa que índices crudos de habilidades cognoscitivas específicas como memoria, atención- concentración y pensamiento abstracto. Las dificultades y demoras en el aprendizaje pueden deberse a una baja habilidad mental, a impedimentos sensoriales y motrices o a trastornos neurológicos de varios tipos. En conse- cuencia, además de las medidas de habilidad mental general, a menudo se aplican pruebas espe- ciales de memoria, percepción, habilidades psicomotrices y otras habilidades para proporcionar una imagen diagnóstica más detallada de los individuos que no presentan un funcionamiento efectivo en la escuela, el trabajo o en otros lugares. La mayoría de los instrumentos expuestos en este capítulo no se aplican tan a menudo co- mo las pruebas estándar de inteligencia, pero proporcionan fuentes adicionales de información para entender a niños y adultos y planear programas y tratamientos especiales dirigidos a quie- nes experimentan dificultades para adaptarse a las demandas de la vida cotidiana. Este capítulo y el siguiente se interesan en los instrumentos psicométricos que se aplican con frecuencia para obtener información más detallada sobre las habilidades humanas que la pro- porcionada por las pruebas de inteligencia general. Las pruebas descritas en este capítulo se usan más a menudo en contextos clínicos, educativos y de investigación, mientras que los instrumen- tos analizados en el capítulo 10 se aplican sobre todo en los contextos de negocios e industrias. EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS Los estudios sistemáticos del desarrollo humano, iniciados hacia finales del siglo XIX, fueron impulsados gracias a la preocupación expresada por escritores y reformadores sociales acerca del bienestar de los niños, en particular por lo concerniente a su salud y educación, y sobre todo 192 EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 193 por la explotación a que eran sometidos en los lugares de trabajo y en otras partes. Esta preocu- pación dio lugar a un movimiento por el bienestar infantil y a una legislación y programas pú- blicos dirigidos a proporcionar un trato más humano a los niños. Asociadas con el movimiento por el bienestar infantil estaban la nueva ciencia de la psicología del desarrollo y la investiga- ción sobre las características físicas, cognoscitivas, emocionales y sociales de los niños. Para contribuir a esta investigación se diseñaron instrumentos y procedimientos con los cuales medir el desarrollo cognoscitivo, motriz, perceptual, emocional y social. Problemas en la examinación de infantes y niños pequeños Examinar a infantes (0 a 11/2 años) y a preescolares (11/2 a 5 años) puede ser difícil debido a que mantienen la atención por periodos cortos y tienen mayor susceptibilidad a la fatiga. Los niños pequeños también pueden carecer de la motivación necesaria para seguir las tareas de una prue- ba, las cuales con frecuencia evalúan características que son más bien inestables durante la niñez temprana. Por esas razones, la confiabilidad y la validez de las pruebas aplicadas a preescolares tienden a ser menores que las resultantes de pruebas diseñadas para escolares. Las pruebas de in- teligencia infantil también tienden a presentar bajas correlaciones con las calificaciones obteni- das en pruebas de inteligencia aplicadas a los mismos niños años después, y no proporcionan una predicción muy precisa del desarrollo intelectual posterior. Una razón de la baja correlación que se da entre las calificaciones en las pruebas de inte- ligencia infantil y las calificaciones en pruebas como la Escala de Inteligencia de Stanford-Bi- net aplicadas a una mayor edad estriba en las diferencias existentes en los tipos de tareas que se realizan en las dos clases de pruebas. Las pruebas de inteligencia infantil son, sobre todo, medi- das del desarrollo sensoriomotriz, como la habilidad para levantar y voltear la cabeza, seguir con la mirada un objeto en movimiento y alcanzar o agarrar un objeto. En contraste, los reacti- vos de las pruebas de inteligencia del tipo Binet son de naturaleza más lingüística o verbal. Los niños preescolares, que tienen un repertorio conductual mayor que el de los infantes, pueden ca- minar y sentarse en una mesa mientras manipulan los materiales de la prueba, y se comunican mejor con el examinador. Las pruebas de inteligencia infantil no sólo tienen una validez predictiva relativamente ba- ja, sino que su confiabilidad también es menor que la de las pruebas aplicadas más tarde durante el periodo preescolar. Aunque la mayor tendencia a la distracción de los infantes en situación de prue- ba contribuye a la baja confiabilidad de los instrumentos que se les aplican, de buena fe se afirma que al parecer también ocurren cambios en las habilidades cognoscitivas de los niños pequeños. Los niños no sólo se muestran más atentos y motivados que los infantes en las situaciones de prueba, sino que sus habilidades cognoscitivas parecen ser de una calidad diferente. Por ejemplo, los preescolares se interesan mucho más en las palabras y las interacciones sociales que los infantes. A pesar de sus bajas correlaciones con los resultados de pruebas posteriores, las pruebas aplicadas durante la infancia son útiles para diagnosticar el retraso mental y los trastornos cere- brales orgánicos, y en la detección de las discapacidades del desarrollo. Los hallazgos de la in- vestigación han revelado que las calificaciones obtenidas en las pruebas durante la infancia proporcionan una predicción significativa de la condición intelectual posterior de niños con retraso mental y con daño neurológico (Ames, 1967; McCall, 1979). Aunque los resultados de dichos estudios indican que el desempeño en las pruebas infantiles puede contribuir a la com- prensión del desarrollo del niño y a tomar decisiones prácticas acerca de este grupo de edad, los datos de prueba deben combinarse e interpretarse a la luz de otra información acerca del exami- nado y teniendo conciencia de las limitaciones de las pruebas. 194 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica Programas de Desarrollo de Gesell La investigación iniciada por Arnold Gesell en la Clínica Yale de Desarrollo Infantil durante la década de 1920 dio lugar a una serie exhaustiva de investigaciones sobre la infancia y la niñez temprana que continuaron durante 40 años. Una suposición que guiaba esos estudios era que las funciones motrices gruesas y finas, de lenguaje, personal-sociales y de conducta adaptativa de los niños seguían una secuencia ordenada de maduración. Se obtuvieron datos normativos sobre el desarrollo de las habilidades motrices, lingüísticas y personal-sociales, así como de la conduc- ta adaptativa desde el nacimiento hasta los seis años. Se obtuvo información detallada de cada niño siguiendo diversos métodos: registros en el hogar, historia médica, registros diarios, medi- ciones antropométricas, observaciones materiales, informes del comportamiento del niño en la clínica, examinación normativa y calificaciones del desarrollo. El siguiente extracto es caracte- rístico de las descripciones conductuales normativas proporcionadas por Gesell y sus colabora- dores (Gesell y Amatruda, 1941, p. 41): El bebé puede alcanzar con sus ojos antes de poder alcanzar con su mano; a las 28 semanas un be- bé mira un cubo; lo agarra, siente la superficie y el borde conforme lo empuña, lo lleva a su boca, donde siente sus cualidades de nuevo, lo aparta, lo mira al alejarlo, lo hace girar mientras mira, mi- ra mientras lo hace girar, lo regresa a su boca, lo retira de nuevo para inspeccionarlo, lo regresa una vez más a la boca, lo cambia a la otra mano, lo golpea, lo toca con la mano libre, lo cambia, lo lleva de nuevo a la boca, lo deja caer, lo recupera, lo lleva otra vez a la boca, repitiendo el ciclo con varia- ciones —todo en el tiempo que se lleva leer esta frase. Las calificaciones en los Programas de Desarrollo de Gesell, determinadas por la presen- cia o ausencia de conductas específicas características de los niños a ciertas edades, se resumie- ron en términos de la edad de desarrollo (ED). La ED podía ser convertida luego a un cociente de desarrollo (CD) mediante la fórmula CD = 100 (ED/EC). Sin embargo, Gesell no consideró que el CD fuera equivalente a un CI. Es probable que los Programas de Desarrollo de Gesell fueran más usados por los pedia- tras que por los psicólogos de la década de 1920 hasta la de 1940. Los psicólogos, en particular los que tenían una orientación psicométrica fuerte, criticaban la subjetividad y la mala estanda- rización de los programas de Gesell. Sin embargo, una versión posterior de las escalas incluía procedimientos observacionales más objetivos. Knobloch (Knobloch y Pasamanick, 1974; Kno- bloch, Stevens y Malone, 1987) proporcionó instrucciones detalladas para efectuar observacio- nes e interpretarlas en la revisión de los Programas de Desarrollo de Gesell. También se publicaron normas para preescolares (21/2 a 6 años) con intervalos de medio año, pero no para infantes (Ames, Gillespie, Haines e Ilg, 1979). Los Programas de Desarrollo de Gesell fueron populares, sobre todo entre los pediatras, y todavía están en uso revisiones de los programas originales (Ireton, 1992, 1998). Sin embargo, los psicólogos del desarrollo perseveraron para elaborar instrumentos con mejores característi- cas psicométricas que las de los programas de Gesell. Algunos ejemplos son la Escala Mental de California para el Primer Año, la Prueba de Inteligencia Northwestern, la Escala Griffith del De- sarrollo Mental, la Escala Merrill-Palmer y la Escala Cattell de Inteligencia Infantil. Sólo las dos últimas siguen imprimiéndose, y en su mayor parte el contenido ha sido reemplazado. Un derivado más reciente de los Programas de Desarrollo de Gesell es el programa Den- ver-II, (de W. K. Frankenburg et al.; Denver Developmental Materials). El Denver-II fue dise- ñado para evaluar las habilidades personales, sociales, motrices finas y gruesas, de lenguaje y EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 195 adaptativas de los niños desde el nacimiento hasta los seis años, y funciona como instrumento de detección de las demoras del desarrollo. Los 125 reactivos del Denver-II se administran de manera individual en 20 a 25 minutos, o en 10 a 15 minutos en la versión abreviada. Se califica en cuatro áreas: personal-social, motriz fina-adaptativa, lenguaje y motriz gruesa. También se obtienen calificaciones en cinco conductas: típica, docilidad, interés en los alrededores, timidez y lapso de atención. El Denver-II es fácil de administrar y de calificar, pero se le ha criticado por la poca representatividad de su muestra de estandarización (Hughes, 1995). Escala Brazelton de Evaluación Conductual Neonatal A lo largo de su vida, la gente es evaluada de muchas maneras, formales e informales, y en oca- siones incluso antes de nacer. Por ejemplo, la Escala Obstétrica Rochester consta de una escala prenatal, una escala para el parto y una escala infantil. Otra medida, la calificación Apgar, se de- riva de mediciones del ritmo cardiaco, la respiración, el tono muscular, los reflejos y el color ob- tenidas al minuto y a los cinco minutos del nacimiento (Chinn, Drew y Logan, 1975). Sin embargo, es posible que la prueba neonatal más popular sea la Escala Brazelton de Evaluación Conductual Neonatal (NBAS) (Brazelton, 1973, 1984). La NBAS, que tiene un rango de edad de tres días a cuatro semanas, se califica en 26 reac- tivos conductuales y 20 respuestas provocadas, incluyendo medidas del funcionamiento neuro- lógico, conductual y social. Los reactivos miden la coordinación mano-boca, la habituación a los estímulos sensoriales, las respuestas de sobresalto, reflejos, respuestas a la tensión, madurez mo- triz y caricias . A pesar de ciertos defectos, por ejemplo, pocos datos normativos o de validez y coeficientes de confiabilidad bastante bajos, la NBAS sigue siendo usada por los pediatras y los psicólogos infantiles en la práctica y la investigación. Escalas de Bayley del Desarrollo Infantil Las Escalas de Bayley del Desarrollo Infantil, segunda edición (BSID-II) (The Psychological Corporation), están basadas en el Estudio de Crecimiento de Berkeley, un programa de investi- gación dirigido por Nancy Bayley. La BSID-II fue diseñada para niños de entre uno y 42 meses de quienes se sospeche que están en riesgo de presentar discapacidades cognoscitivas y consta de tres partes: una Escala Mental que arroja un Índice de Desarrollo Mental, una Escala Motriz que produce un Índice de Desarrollo Psicomotriz y una Escala de Calificación de la Conducta que complementa la información de las escalas mental y motriz. La Escala Mental mide las habilidades sensorial-perceptuales, discriminaciones y la habilidad de responder a ellas; la adquisición de constancia del objeto; memoria, aprendizaje y resolución de problemas; vocali- zación, inicio de la comunicación verbal, evidencia temprana de la base del pensamiento abs- tracto, habituación, mapeo mental, lenguaje complejo y formación de conceptos matemáticos. La Escala Motriz mide el grado de control corporal, coordinación de los músculos grandes, habili- dades manipulatorias finas de las manos y los dedos, movimiento dinámico, práctica dinámica, imitación postural y estereognosis. La Escala de Calificación de la Conducta mide atención-ac- tivación, orientación-compromiso, regulación emocional y calidad motriz. La prueba entera puede administrarse en 25 a 35 minutos a niños menores de 15 meses y en un máximo de 60 mi- nutos a niños mayores de esa edad. (Vea la figura 9.1.) La BSID-II fue estandarizada a principios de la década de 1990 en 850 niños y 850 niñas, de 1 a 42 meses de edad, seleccionados de manera aleatoria estratificada de cuatro regiones geo- 196 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica FIGURA 9.1 Reactivos para las Escalas de Bayley de De- sarrollo Infantil, segunda edición. (Copyright © 1993 por The Psychological Corporation, una Harcourt Assessment Company. Reproducido con autorización. Todos los dere- chos reservados. “Escalas de Bayley de Desarrollo Infantil” es una mar- ca registrada de Psychological Corporation inscrita en Estados Unidos y otras jurisdicciones.) gráficas y por edad, género, grupo étnico y educación de los padres. El manual de la BSID-II proporciona datos sobre niños que nacieron de manera prematura, en quienes la prueba de VIH resultó positiva, que fueron expuestos a drogas durante el periodo prenatal, que fueron asfixia- dos al nacer, que presentan demoras en el desarrollo o tienen infecciones frecuentes del oído me- dio, que son autistas o tienen síndrome de Down. Un instrumento acompañante, el Examen de Bayley de Neurodesarrollo Infantil (BINS), fue diseñado para evaluar las funciones neurológi- cas básicas, las funciones receptivas auditivas y visuales, y los procesos sociales y cognoscitivos en niños de 3 a 24 meses. La MSCA y la MST Las Escalas McCarthy de las Habilidades de los Niños (MSCA) (The Psychological Corpora- tion), que comienzan donde terminan las escalas de Bayley, fueron diseñadas para niños de 21/2 a 81/2 años de edad. Estas escalas producen seis medidas de desarrollo intelectual y motriz: ver- bal, perceptual-desempeño, cuantitativo, cognoscitivo general, memoria y motriz. La MSCA fue estandarizada en muestras de alrededor de 100 niños en cada uno de diez grupos de edad, estra- tificados por raza, región, posición socioeconómica y residencia urbana-rural. Los datos sobre la validez de la MSCA, publicados después de la muerte de la autora, siguen siendo escasos. La Prueba de Detección de McCarthy (MST), publicada años después de la MSCA, pro- porciona un medio para identificar a niños (de 4 a 81/2 años) que pueden estar en riesgo de pre- sentar problemas de aprendizaje. Las seis escalas componentes de la MST se inspiraron en las de la MSCA. EVALUACIÓN DEL DESARROLLO DE INFANTES Y NIÑOS PEQUEÑOS 197 FirstSTEP y el ESP Las pruebas psicológicas usadas para detectar demoras en el desarrollo en grandes cantidades de niños y la subsecuente examinación diagnóstica a profundidad deberán cumplir con los criterios mencionados en el Acta para la Educación de Individuos con Discapacidades (IDEA) (Ley pú- blica 101-476). Aunque la MSCA cumple los criterios de la IDEA, dos instrumentos diseñados específicamente con esas consideraciones en mente son la Prueba de Detección FirstSTEP para la Evaluación de Preescolares (The Psychological Corporation) y los Perfiles de Detección Tem- prana AGS (ESP) (American Guidance Service). Las características psicométricas de FirstSTEP y del ESP son aceptables para los instrumentos de detección del desarrollo, pero ningún instru- mento ha sido usado de manera extensiva con fines de investigación. FirstSTEP es una prueba rápida (15 minutos) para detectar demoras en el desarrollo en ni- ños de 2.9 a 6.2 años de edad. Las 12 subpruebas, que fueron diseñadas para crear una atmósfe- ra de “juego” en el examen, se clasifican en tres de los cinco dominios de la IDEA: cognición, comunicación y motriz. El desempeño del niño en las 12 subpruebas del FirstSTEP se expresa como una calificación compuesta interpretada en términos de tres categorías de clasificación; “dentro de límites aceptables”, “precaución” (demoras en el desarrollo de leves a moderadas), o “en riesgo” (de sufrir demoras en el desarrollo). Las Escalas de Calificación Social-Emocional y Padres/Maestro son opcionales y se utilizan para evaluar el cuarto dominio de la IDEA (nive- les de atención/actividad, interacciones sociales, rasgos personales, y problemas de conducta se- rios), y una Lista de Verificación de Conducta Adaptativa, también opcional, evalúa el quinto dominio de la IDEA (actividades de la vida cotidiana, autocontrol, relaciones e interacciones, y funcionamiento en la comunidad). Los Perfiles de Detección Temprana AGS (ESP) son un inventario breve para determinar demoras en el desarrollo de los preescolares (de 2 años a 6 años 7 meses). Consta de tres com- ponentes básicos (perfiles) y cuatro estudios complementarios. La aplicación de los perfiles se lleva menos de 30 minutos y los estudios necesitan de 15 a 20 minutos. El Perfil Cognoscitivo/ Lenguaje consta de tareas para evaluar habilidades de razonamiento, organización visual y dis- criminación, vocabulario receptivo y expresivo, y destrezas escolares básicas. El Perfil Motriz evalúa habilidades motrices gruesas y finas (por ejemplo, caminar por una línea recta, imitar movimientos de brazo y pierna, trazar laberintos, dibujar formas). El Perfil de Autoayuda/So- cial, un cuestionario que es llenado por uno de los padres o por otro cuidador del niño, se intere- sa en el desempeño típico del niño en la comunicación, habilidades de la vida cotidiana, socialización y habilidades motrices. Los cuatro estudios del ESP son el Estudio de Articulación (el niño pronuncia 20 palabras), el Estudio del Hogar (los padres responden a preguntas acerca del ambiente familiar del niño), la Historia de Salud (los padres verifican los problemas de sa- lud que ha tenido el niño) y el Estudio de Conducta (el examinador califica el lapso de atención, la tolerancia a la frustración, el estilo de respuesta y otras conductas del niño durante la aplica- ción de los perfiles Cognoscitivo-Lenguaje y Motriz). Las calificaciones en el ESP se convierten a índices de detección al nivel I o a calificaciones estándar, rangos percentilares y equivalentes de edad al nivel II, indicando si el niño requiere evaluación posterior. Otras pruebas del desarrollo Se dispone de otras baterías y pruebas específicas, nuevas o revisadas, para evaluar el desarrollo motriz, perceptual, cognoscitivo, emocional y social durante la infancia y la niñez temprana. Al- gunos de estos instrumentos son simples formas en las que un padre, tutor u otra persona fami- liarizada con el niño efectúa y registra observaciones de su conducta y sus características 198 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica cotidianas. Otros instrumentos implican la presentación de materiales al niño, a quien por lo ge- neral se le pide que haga algo con los materiales; las respuestas del niño se anotan y evalúan. Cier- tos instrumentos psicométricos, como las Escalas de Desarrollo Motriz de Peabody, la Prueba del Desarrollo del Lenguaje-Primario, tercera edición, y la Prueba del Desarrollo de la Percepción Visual, segunda edición, todos los cuales pueden encontrarse en pro.ed, fueron diseñados para evaluar el desarrollo en dominios específicos. Otros instrumentos, como los que se describen a con- tinuación, son baterías de pruebas para evaluar el desarrollo de un niño en varios dominios. Evaluación del Desarrollo de Niños Pequeños (DAYC). La DAYC (pro.ed) identifica posi- bles demoras en el desarrollo cognoscitivo, comunicativo, social-emocional, físico y de conduc- ta adaptativa durante los primeros seis años de vida. Esos cinco dominios reflejan áreas en las que el Acta para la Educación de Individuos con Discapacidades (IDEA) de 1990 ordena la eva- luación e intervención. A cada uno de los cinco dominios corresponde una subprueba que, de- pendiendo de la edad del niño, puede aplicarse en 10 a 20 minutos. Las calificaciones de los cinco dominios proporcionan información sobre fortalezas y debilidades específicas, y distingue entre los niños que se desarrollan de manera normal y quienes presentan un desarrollo significa- tivamente por debajo del normal. Las calificaciones también pueden usarse para documentar el progreso en las habilidades del desarrollo como resultado de programas específicos de interven- ción. Los datos de confiabilidad y validez para los cinco dominios de la DAYC y las calificacio- nes compuestas dadas en el manual (Voress y Maddox, 1998) son muy alentadoras con respecto a la DAYC como medida del desarrollo. Evaluación del Desarrollo de Infantes y Niños Pequeños. La Evaluación del Desarrollo de Infantes y Niños Pequeños (IDA) (Riverside Publishing) es otro enfoque centrado en el dominio para la identificación de niños, desde el nacimiento hasta los 36 meses, que están en riesgo. Más que ser una batería de pruebas per se, IDA es un procedimiento comprensivo, multidisciplinario, centrado en la familia, que involucra a un equipo de profesionales para obtener, revisar e integrar datos de múltiples fuentes. El proceso de evaluación consta de seis fases, cada una de las cuales se desarrolla a partir de la precedente y es completada luego de ser analizada y revisada por el equipo. La fase 4 de los procedimientos de IDA, Fase de Observación y Evaluación del Desarro- llo, hace uso del Perfil Provence de Desarrollo desde el Nacimiento hasta los Tres. La evaluación es- tandarizada del desarrollo proporcionada por el Perfil Provence emplea la observación naturalista e incorpora informes de los padres sobre el desarrollo del niño en ocho dominios: motriz gruesa, motriz fina, relación con objetos inanimados (cognoscitiva), lenguaje/comunicación, autoayu- da, relación con personas, emociones y estados de ánimo (afectos), y afrontamiento. Los coefi- cientes de confiabilidad para las calificaciones en esos dominios fluctúan de la parte superior de .70 a la parte media de .90, dependiendo de la edad del niño. También se han presentado varios ti- pos de evidencia a favor de la validez de IDA (vea Erikson, 1995; Meisels y Fenichel, 1996). DISCAPACIDADES DE APRENDIZAJE Las dificultades para aprender a leer, escribir, deletrear o realizar operaciones aritméticas y otras habilidades académicas, de manera tradicional habían sido atribuidas a retraso mental, impe- dimentos físicos, problemas emocionales graves o falta de motivación. Pero incluso cuando se eliminan esas fuentes como posibles explicaciones, sigue existiendo un grupo considerable de niños que experimentan problemas en el aprovechamiento escolar. Se dice que esos niños tienen una discapacidad específica de aprendizaje o simplemente una discapacidad de aprendizaje DISCAPACIDADES DE APRENDIZAJE 199 (DA). Las discapacidades de aprendizaje pueden ocurrir en individuos de cualquier nivel de in- teligencia, pero, en contraste con el retraso mental, los logros de los niños con DA están signifi- cativamente por debajo de su capacidad cognoscitiva general. Demografía y definiciones Las discapacidades de aprendizaje constituyen la mayor condición de impedimento entre los ni- ños de todo el mundo (Stanford y Oakland, 2000). A mediados de la década de 1990, un estimado de cinco millones o más de escolares y jóvenes estadounidenses tenían una o más discapacidades. A la mitad de esos estudiantes se les diagnosticó una discapacidad de aprendizaje. Entre los que tienen discapacidades de aprendizaje, los varones superan a las mujeres por dos a uno. Dentro de los grupos raciales-étnicos, el porcentaje de niños con discapacidades de aprendizaje es ma- yor para los indios americanos y más bajo para los asiáticos/isleños del Pacífico (U. S. Depart- ment of Education, 1997). La estadounidense Ley Pública 101-476, Acta para la Educación de Individuos con Dis- capacidades (IDEA), de 1990, define las discapacidades de aprendizaje como: El término “niños con discapacidades específicas de aprendizaje” se refiere a aquellos niños que tie- nen un trastorno en uno o más de los procesos psicológicos básicos involucrados en la comprensión o en el uso del lenguaje, hablado o escrito, trastorno que puede manifestarse en una habilidad im- perfecta para escuchar, pensar, hablar, leer, escribir, deletrear o para hacer cálculos matemáticos. Dichos trastornos incluyen condiciones como impedimentos perceptuales, lesión cerebral, disfunción cerebral mínima, dislexia y afasia del desarrollo. Dicho término no incluye a niños con problemas de aprendizaje que resultan sobre todo de impedimentos visuales, auditivos o motrices, de retraso mental, de perturbación emocional o de desventaja ambiental, cultural o económica. El tipo más común de discapacidad para el aprendizaje es la dislexia, en la cual la perso- na tiene dificultades para leer en silencio o en voz alta. Cuando se le pide que lea en voz alta, un niño disléxico lo hace de manera lenta, vacilante y laboriosa. Los niños disléxicos experimentan dificultades en la lectura debido a problemas con la codificación fonológica (es decir, decodifi- car las letras impresas en sonidos mezclados). La dislexia, que es de tres a cuatro veces más co- mún entre los varones que entre las mujeres, puede deberse a una incapacidad para procesar los sonidos (dislexia auditiva), a la dificultad para procesar la información que ha sido vista (disle- xia visual) o a trastornos de comprensión o problemas con la producción escrita. Instrumentos como la Prueba de Detección de Dislexia y las Pruebas de Detección Temprana de Dislexia (de R. Nicholson y A. Fawcett; The Psychological Corporation) son útiles para identificar a escola- res y preescolares disléxicos. Los problemas de aprendizaje no verbal en matemáticas (discalculia), escritura (disgra- fia) y cognición espacial son menos comunes que los problemas de aprendizaje verbal (Rourke, 1989). La dificultad en el aprendizaje de la aritmética puede estar relacionada con problemas de lenguaje o de lectura, así como con perturbaciones en el pensamiento cuantitativo, la visualiza- ción o escritura de números, y el recuerdo de instrucciones (Johnson y Myklebust, 1967). Sólo alrededor de 1 a 10% de las personas con discapacidades de aprendizaje presentan dichos pro- blemas, en comparación con .1 a 1% de la población general. Los niños con DA verbales, por lo general, tienen un mejor desempeño en las pruebas de ejecución, las cuales requieren destrezas visoespaciales y visomotrices, que en las pruebas ver- bales, las cuales miden las habilidades de lenguaje. Sucede lo opuesto en niños con DA no verba- les: se desempeñan mejor en las pruebas verbales que en las de ejecución. 200 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica Causas de las discapacidades de aprendizaje Existe un debate considerable acerca de si las DA son causadas por factores neurológicos, del de- sarrollo, de la experiencia o de una combinación de estos. Las condiciones neurológicas asocia- das con las DA pueden atribuirse a influencias prenatales como los virus, el alcohol, a fumar cigarrillos o a drogas como la cocaína, a la radiación y a otros teratógenos que pueden cruzar la barrera placentaria y dañar al embrión o feto. El nacimiento prematuro, el bajo peso al nacer y el uso de fórceps también pueden participar en las discapacidades de aprendizaje (Bender, 1995). Los factores posnatales que han sido investigados como causas posibles de las DA son las con- vulsiones inducidas por fiebres altas o la inhalación de contaminantes con plomo (Needleman, Schell, Bellinger, Leviton y Allred, 1990); la diabetes, la meningitis, las lesiones en la cabeza y la desnutrición también han sido implicadas en ciertos casos (Hallahan, Kauffman y Lloyd, 1996). Existe evidencia de una base genética para ciertas DA (por ejemplo, Oliver, Cole y Ho- llingsworth, 1991). Una línea relacionada de investigación neuropsicológica se ha centrado en déficit en el lóbulo temporal izquierdo del cerebro de la gente con discapacidades de aprendiza- je verbal. Una estructura cerebral de interés es el plano temporal, un área en ambos lados del ce- rebro que se conoce por participar en el desarrollo del lenguaje. En los no disléxicos el plano temporal del lado izquierdo del cerebro es notablemente más grande que el del lado derecho, pe- ro en los disléxicos no hay diferencia en el tamaño de los planos temporales en los dos lados del cerebro (Leonard et al., 1996). Diagnóstico y tratamiento En las aulas, los maestros pueden identificar las discapacidades de aprendizaje en los niños me- diante la observación cuidadosa. También pueden aplicar pruebas colectivas de inteligencia y/o instrumentos más especializados como el Procedimiento de Calificación de la Discapacidad de Aprendizaje (Academic Therapy Publications), la Escala de Evaluación de Discapacidades de Aprendizaje (Hawthorne Educational Services), la Prueba de Detección de McCarthy y las Pruebas de Detección Slingerland para la Identificación de Niños con Discapacidad Específica de Lenguaje (Educators Publishing Service). Sin embargo, la administración de una batería de pruebas psicológicas requiere los servicios de un psicólogo escolar o un psicólogo clínico. El diagnóstico efectivo y la planeación del remedio en las discapacidades de aprendizaje son una empresa multidisciplinaria que incluye al maestro regular del niño, a especialistas que tienen conocimientos relacionados con el impedimento sospechado y a personas experimenta- das en el uso de instrumentos psicométricos para hacer evaluaciones diagnósticas. De acuerdo con las directrices proporcionadas por la Ley pública estadounidense 94-142, Acta de Educación para Todos los Niños con Impedimentos, de 1975, sólo se hace un diagnóstico de una discapaci- dad de aprendizaje específica cuando se encuentra una diferencia significativa entre la habilidad y el aprovechamiento en una o más de las siguientes áreas: expresión oral, comprensión auditi- va, expresión escrita, habilidad básica de lectura, lectura de comprensión, cálculos matemáticos o razonamiento matemático. Una vez que se cuenta con diagnóstico de una discapacidad de aprendizaje, debe prepararse un plan de educación individualizada (PEI) que consta de objetivos a corto y largo plazos y pro- cedimientos para alcanzarlos. Además de un plan para remediar los déficit relacionados con la es- cuela, un PEI efectivo incluye medidas para tratar los problemas conductuales acompañantes. En Estados Unidos, los criterios de elegibilidad para proporcionar servicios a los niños con discapacidades de aprendizaje varían de un estado a otro, pero, en general, el diagnóstico de una discapacidad de aprendizaje sólo queda justificado cuando la calificación global de un niño TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 201 en una prueba estandarizada de aprovechamiento está al menos una desviación estándar por de- bajo de su calificación en una prueba de inteligencia co-normada. Las pruebas individuales de inteligencia, como SB-IV, WPPSI-R, WISC-III y K-ABC, y las pruebas estandarizadas de apro- vechamiento como la Prueba Peabody de Aprovechamiento Individual, revisada, el test Kauf- man de Rendimiento Educativo y la Prueba Wechsler-II de Aprovechamiento Individual son apropiadas. Es factible que para este propósito se haya aplicado de manera más amplia la prue- ba Woodcock-Johnson III, la cual incluye una batería de pruebas de inteligencia (pruebas WJ-R de habilidad cognoscitiva) y una batería co-normada de pruebas de aprovechamiento (pruebas WJ-R de aprovechamiento). En los capítulos 6 y 7 se proporcionan descripciones de esas prue- bas. Además de las baterías de pruebas de inteligencia y aprovechamiento, en ciertos casos es conveniente aplicar pruebas más especializadas de desarrollo neuropsicológico, mental e inclu- so pruebas de personalidad. Se ha utilizado una variedad de procedimientos de instrucción en los niños con DA, inclu- yendo el análisis conductual e intervención, el aprendizaje cooperativo, la tutoría de pares y agre- siva, y la asesoría en habilidades de razonamiento (Bender, 1995; Kirk, Gallagher y Anastasiow, 1997; Sullivan, Mastroipieri y Scruggs, 1995). Los resultados de esas y otras estrategias de intervención (por ejemplo, biorretroalimentación, entrenamiento de relajación, instrucción mul- tisensorial, dietas especiales) han sido mixtos. TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN En tiempos antiguos el oráculo de Delfos recomendaba a quienes buscaban su consejo que em- pezaran por conocerse a sí mismos, pero a pesar de la búsqueda e investigación continuas por ca- si dos siglos, esta tarea ha demostrado no ser sencilla. El funcionamiento del casi kilo y medio de tejido esponjoso que compone el cerebro humano en ocasiones parece ser casi tan complejo como el universo mismo. Con todo, ahora sabemos bastante acerca del funcionamiento de los cua- tro lóbulos de la corteza cerebral (frontal, parietal, occipital, temporal) y las estructuras subcor- ticales del cerebro. Si bien el pensamiento y la acción por lo regular involucran muchas áreas diferentes del cerebro, existe cierto grado de especificidad o localización en su funcionamiento. Por ejemplo, sabemos que en la mayoría de las personas un área del lóbulo frontal izquierdo (área de Broca) desempeña un papel importante en la producción del lenguaje gramatical, y que un área del ló- bulo temporal izquierdo (área de Wernicke) le da significado al lenguaje. También sabemos que el lóbulo parietal izquierdo es importante en la orientación visoespacial, que los lóbulos frontales desempeñan un papel importante en el pensamiento abstracto y la resolución de problemas, y que el hipocampo participa en el almacenamiento de los recuerdos. Sin embargo, dependiendo de la edad del individuo y de otros factores, cuando un área particular del cerebro es lesionada, otras áreas pueden asumir el control de las funciones del área lesionada o compensar su pérdida. Modelo Reitan-Wolfson La figura 9.2 es un esbozo del marco de referencia conceptual del funcionamiento neuropsico- lógico propuesto por Reitan y Wolfson (1993) para la organización de los correlatos conductua- les del funcionamiento cerebral y la descripción de medidas de esas funciones. El proceso comienza con la entrada de la información sensorial al cerebro. Esto es seguido por el primer paso 202 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica Salida Formación de conceptos Razonamiento Análisis lógico Habilidades Habilidades de lenguaje visoespaciales Atención, concentración, memoria Entrada FIGURA 9.2 Modelo Reitan- Wolfson del funcionamiento neu- ropsicológico Vea la explicación en el texto. (Reproducido con autorización de R. M. Reitan.) en el procesamiento central, la fase de registro, la cual consiste en la alerta, atención, observa- ción continua y detección de la información que llega contra el telón de fondo de la experiencia previa. El proceso de detección involucra a las memorias inmediata, intermedia y de largo pla- zo. El registro de la información sensorial que llega es seguido por el procesamiento de la infor- mación verbal en el hemisferio izquierdo y de la información visual-espacial en el hemisferio derecho. El siguiente nivel superior en el procesamiento central consiste en la formación de con- ceptos, razonamiento y análisis lógico, funciones que generalmente tienen lugar por toda la cor- teza cerebral. La etapa final del modelo de Reitan-Wolfson es la salida —acciones motrices verbales y no verbales que resultan del procesamiento cognoscitivo de la entrada sensorial. Etiología y sintomatología Los trastornos neuropsicológicos pueden ser causados por anomalías genéticas, de desarrollo, envejecimiento o por trauma, tumores, abuso crónico del alcohol, dieta, drogas, microorganis- mos u otras condiciones físicas o químicas que afectan el funcionamiento del cerebro. Esos tras- tornos pueden afectar la atención, las habilidades motrices, habilidades visoespaciales, la memoria a corto y a largo plazos, el lenguaje y habilidades de pensamiento abstracto. También causan que el individuo se vuelva hiperactivo, impulsivo, fácil de distraer y emocionalmente inestable. TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 203 Cuando las áreas cerebrales del lenguaje están afectadas, pueden presentarse dificultades para entender el lenguaje hablado o escrito (afasia), así como deterioros en la habilidad para la lectura (alexia) y la escritura (agrafia). La agnosia, dificultad para reconocer objetos, puede ocurrir cuando se afectan las áreas sensoriales del cerebro. Y cuando se lesionan áreas motoras puede presentarse apraxia, la incapacidad para realizar movimientos propositivos, falta de coor- dinación e incluso parálisis. Trastornos en los niños. Aunque existen múltiples causas de daño cerebral en todas las eda- des, los problemas que se derivan de la exposición prenatal al alcohol, las drogas y otros terató- genos, complicaciones durante el embarazo y el parto, y otros problemas del desarrollo temprano son causas comunes de daño cerebral en los niños pequeños. Rara vez resulta senci- llo determinar las causas precisas de trastornos neuropsicológicos particulares en los niños de- bido a que ellos pasan por muchos otros cambios en esta época de la vida, y a que intentan adaptarse a muchas experiencias y acontecimientos nuevos. Además, los niños suelen ser menos cooperativos que los adultos durante los exámenes, y sus síntomas a menudo son más variables que los de los adultos. Trastornos en los adultos mayores. Dos de los trastornos neuropsicológicos más relevantes en los adultos mayores son la demencia vascular y la enfermedad de Alzheimer. Los síntomas de esos trastornos incluyen confusión mental, pérdida de memoria, habla incoherente, mala orientación en el ambiente y, en algunos casos, falta de coordinación motriz, agitación, depresión y delirio. Los síntomas se vuelven más evidentes después de los 65 años, su frecuencia alcanza un punto máximo alrededor de los 70 años y después declina un poco. Los síntomas están asociados con degenera- ción neuronal, lo cual conduce a la atrofia (encogimiento) y a cambios degenerativos relacionados en el cerebro. El encogimiento ocurre sobre todo en la corteza frontal, la corteza temporal y la ma- teria blanca asociada y puede reducir el cerebro de 15 a 30% de su peso previo. En los años recientes se ha incrementado el uso de pruebas neuropsicológicas con el pro- pósito de hacer diagnósticos diferenciales de pérdidas de memoria causadas por demencia, deli- rio y depresión. Los psicólogos que se especializan en el diagnóstico y tratamiento de los adultos mayores y en la investigación sobre este grupo de edad emplean muchas pruebas de este tipo. Por ejemplo, las pruebas de memoria, capacidades perceptuales y razonamiento abstracto se uti- lizan para diferenciar entre la demencia y la pseudodemencia de la depresión. Pruebas neuropsicológicas En años recientes, los avances tecnológicos en la imagenología cerebral (exámenes CT, MRI y PET) y otras técnicas de diagnóstico cerebal han sido impresionantes, pero el lugar, la extensión y los efectos del daño cerebral rara vez se identifican por completo sólo con procedimientos no psicológicos. Específicamente con propósitos de detección neuropsicológica, diagnóstico clínico detallado y planeación de intervención profesional, es que se han diseñado pruebas neuropsico- lógicas de sensación, velocidad y fuerza motriz, percepción e integración perceptual-motriz, lenguaje, atención, capacidad de abstracción, orientación y memoria. En la tabla 9.1 se presentan ejemplos de pruebas específicas que se aplican para evaluar funciones cognoscitivas y conduc- tuales específicas que pueden ser afectadas por los trastornos neurológicos. Además de propor- cionar una base para el tratamiento o la intervención profesional, los resultados obtenidos al aplicar pruebas neuropsicológicas contribuyen a la determinación de discapacidad en reclamacio- nes por accidentes ocupacionales, adjudicación de pensiones y otras circunstancias que implican compensación financiera. Las pruebas neuropsicológicas también se aplican en evaluaciones del 204 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica TABLA 9.1 Ejemplos de pruebas para evaluar déficit en ciertas funciones neuropsicológicas Atención Funcionamiento intelectual global WAIS-III Subprueba de retención de dígitos Escala de Inteligencia para Adultos de Wechsler III WMS-III Retención espacial Escala de Inteligencia para Niños de Wechsler III Woodcock-Johnson III Funciones ejecutivas: habilidad de abstracción Prueba de categorías Instrumentos de detección WAIS-III Subprueba de semejanzas Prueba Rápida de Detección Neurológica II Prueba Wisconsin de Clasificación de Tarjetas Prueba de Detección para la Batería Neuropsicológica de Luria-Nebraska Lenguaje Prueba Stroop de Detección Neuropsicológica Evaluación Boston de Afasia Severa Examen Boston de Diagnóstico de Afasia Funciones emocional-conductuales WAIS-III Subprueba de vocabulario Inventario Beck de Depresión Lista de Verificación de la Conducta Infantil Funciones de aprendizaje y memoria Escala Hamilton de Depresión Test Benton de Retención Visual Inventario Multifásico de Personalidad Escala de Memoria para Niños de Minnesota II Prueba Rey de Aprendizaje Verbal Auditivo Inventario de Personalidad para Niños Escala de Memoria de Wechsler III Evaluación de Rango Amplio de la Memoria Aprovechamiento académico y el Aprendizaje Prueba de Aprovechamiento Individual de Wechsler, segunda edición Habilidades Visoespaciales Prueba de Aprovechamiento de Rango Amplio 3 WAIS III Subprueba de diseño con cubos Prueba de Figura Compleja y Reconocimiento Adaptado en parte de la Tabla 1 (p. 425) de Delis y Jacobson, 2000. estado mental que contribuyen a tomar decisiones relacionadas con asuntos como la determina- ción de competencia, responsabilidad, demencia y otros asuntos legales. La adquisición de competencia en la aplicación de las pruebas apropiadas y en el diagnós- tico y tratamiento de los déficit en las capacidades neuropsicológicas requiere un largo progra- ma de entrenamiento y experiencia intensiva. Incluso entonces, el diagnóstico y la intervención en materia neuropsicológica tienen tanto de arte como de ciencia y son procesos sujetos a nume- rosos escollos. Para un diagnóstico comprensivo, la información obtenida de la aplicación de pruebas neuropsicológicas debe ser complementada con una historia de caso detallada, observa- ciones cuidadosas, calificaciones de la conducta del paciente y varias pruebas médicas. Para evaluar los efectos del trauma o de otras causas de lesión al cerebro es importante ob- tener un estimado del funcionamiento cognoscitivo premórbido del sujeto. Esto puede lograrse de varias maneras, quizá con mayor precisión de las calificaciones obtenidas en pruebas estan- darizadas de inteligencia o aprovechamiento aplicadas antes de que ocurriera la lesión. Otros in- dicadores del funcionamiento premórbido, aunque menos precisos, son el nivel educativo y la posición socioeconómica. Además, debe tenerse en mente que las funciones en diferentes áreas del cerebro varían no sólo con su localización, sino también con la edad cronológica, el género y otros factores demográficos. La WCST y otras pruebas de detección. Dado que un examen neuropsicológico completo es un proceso que consume tiempo, se ha elaborado una serie de pruebas de detección cortas como preliminares a la aplicación de una batería más extensa. Algunos ejemplos son: Examen Cog- TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 205 noscitivo Neuropsicológico Breve, Prueba Rápida de Detección Neurológica, Detector Bayley del Neurodesarrollo Infantil, Prueba de Detección para la Batería Neuropsicológica Luria-Ne- braska, Prueba Stroop de Detección Neuropsicológica y Prueba Wisconsin de Clasificación de Tarjetas. La última es quizá la que se aplica con mayor frecuencia y la más investigada de todos los instrumentos de detección neuropsicológica. La Prueba Wisconsin de Clasificación de Tarjetas (WCST) (de PAR) evalúa la persevera- ción y el pensamiento abstracto. Es sensible en particular a la disfunción del lóbulo frontal y útil para diferenciar entre lesiones frontales y no frontales. No se cronometra (20 a 30 minutos) y es apropiada para un rango amplio de edad (de 6.5 a 80 años). La WCST consta de cuatro tarjetas de estímulo y un paquete de 64 tarjetas de respuesta. Cada tarjeta de respuesta contiene uno de cuatro símbolos (triángulo, estrella, cruz o círculo) en uno de cuatro colores (rojo, verde, amari- llo o azul). Se indica al examinado que clasifique las tarjetas de respuesta por debajo de las cua- tro tarjetas de estímulo de acuerdo con cierto principio (color, forma o número). No se informa al examinado del principio de clasificación, sino sólo si sus respuestas son correctas o equivoca- das. Después de que se han dado diez respuestas correctas consecutivas, el examinador cambia el principio de clasificación sin advertencia (digamos de “color” a “forma”). La calificación sue- le hacerse en términos del número de ensayos necesarios para dar un cierto número de respues- tas correctas consecutivas usando cada principio de clasificación. Tanto las 64 tarjetas como versiones para computadora de la WCST se encuentran disponibles en Psychological Assess- ment Resources. El manual revisado proporciona información normativa, de confiabilidad y de validez de la prueba, que está basada en muestras de niños y adolescentes. Sin embargo, Egeland (1985) recomendó cautela al usar esta prueba con propósitos clínicos, y Mountain y Snow (1993) cuestionaron su sensibilidad diferencial al daño del lóbulo frontal. WAIS-R y WAIS-III como pruebas neuropsicológicas. Los cambios en la habilidad mental general que resultan de trastornos neuropsicológicos pueden ser detectados mediante la aplica- ción de pruebas de inteligencia como la WAIS-R, la WAIS-III y la WISC-III. Diferencias signi- ficativas (de 10 puntos o más) observadas en esas pruebas entre las calificaciones en los CI verbal y de desempeño, además de una dispersión pronunciada de la calificación escalada de subprueba, pueden ser indicadores de trastorno cerebral traumático e incluso proporcionar indi- cios sobre la localización del daño nervioso. Un CI verbal significativamente menor al CI de desempeño sugiere un daño bien definido en el hemisferio izquierdo, mientras que un CI de de- sempeño significativamente menor que el CI verbal sugiere un daño bien definido en el hemis- ferio derecho. Sin embargo, un desempeño significativamente inferior al CI verbal también se asocia con daño difuso del cerebro. La necesidad de obtener una definición más clara de los efectos del daño cerebral orgáni- co en el funcionamiento cognoscitivo y conductual llevó al desarrollo de una modificación de la WAIS-R denominada WAIS-R como Instrumento Neuropsicológico (WAIS-R NI). A excepción de algunas modificaciones, como en los rompecabezas del Ensamble de Objetos, las subpruebas de la WAIS-R fueron conservadas en la WAIS-R NI. Además, se proporcionaron las siguientes subpruebas: Información Opción Múltiple, Vocabulario Opción Múltiple, Aritmética Lápiz y Papel, Semejanzas Opción Múltiple, Ordenamiento de Frases, Retención Espacial y Copia de Símbolos. Es posible obtener una mejor evaluación de las funciones cognoscitivas deterioradas y no deterioradas comparando los resultados obtenidos del foco en la memoria de recuerdo de las subpruebas convencionales con el foco en la memoria de reconocimiento de las nuevas sub- pruebas y los procedimientos convencionales de aplicación de las viejas subpruebas con los pro- cedimientos alternativos de aplicación de las nuevas subpruebas. Además de las comparaciones 206 CAPÍTULO NUEVE Evaluación del desarrollo y neuropsicológica de calificaciones, un análisis de los errores y las estrategias empleadas por los examinados arro- ja información útil para el diagnóstico y la rehabilitación. Pruebas perceptivas-memoria. La observación de que en el caso de daño cerebral ocurren distorsiones en la percepción y la memoria llevó al desarrollo de pruebas especiales de diagnós- tico como el Test Gestáltico Visomotor de Bender (WPA) y el Test de Benton de Retención Vi- sual (The Psychological Corporation). Esas dos pruebas se administran con frecuencia como complemento a pruebas individuales de inteligencia y a otros exámenes psicológicos. El Test Gestáltico Visomotor de Bender consta de 9 diseños geométricos en tarjetas blan- cas, de 4 × 6 pulgadas, las cuales se muestran una a la vez al examinado y se le pide que las co- pie. Las distorsiones significativas en el copiado de los diseños se interpretan como déficit en la percepción. Los niños de ocho años y mayores de inteligencia promedio o superior al promedio, por lo general, no cometen más de dos errores en la prueba Bender. Los errores que se conside- ran indicadores de daño cerebral orgánico incluyen distorsiones de forma; rotación del diseño; problemas para integrar el diseño; dibujos desproporcionados, traslapados o fragmentados; y perseveraciones (Lacks, 1984). El Test de Benton de Retención Visual consiste en diez diseños presentados de manera in- dividual al examinado. A diferencia del Bender, en el cual el examinado hace un dibujo mientras mira la tarjeta correspondiente, en el Benton se muestra al examinado cada diseño y luego él tra- ta de copiarlo de memoria. Las formas pequeñas incluidas en la periferia de la mayoría de los di- bujos se consideran importantes para determinar la habilidad del examinado para mantener la integridad del campo visual. El Benton se califica, al igual que el Bender, de acuerdo con el nú- mero y tipo de errores. La investigación con el test de Benton ha proporcionado apoyo a su sen- sibilidad al daño cerebral traumático, al trastorno por déficit de atención y a varios tipos de demencia. Déficit de memoria y pruebas. Los problemas con la memoria de corto y largo plazos no só- lo son indicadores de retraso mental, sino de discapacidades específicas de aprendizaje, trauma cerebral, trastornos neurológicos, trastorno por déficit de atención con hiperactividad (TDAH), envejecimiento e incluso trastornos emocionales. Las deficiencias en la memoria de recuerdo, y en particular el recuerdo libre, son más pronunciadas que los deterioros en la memoria de reco- nocimiento en las personas con daño cerebral. Por lo regular, los pacientes muestran menos dé- ficit en las pruebas de reconocimiento o memoria de identificación que en las de memoria de recuerdo, menos déficit en la memoria implícita que en la explícita, y menos déficit en la me- moria de habilidades que en la de acontecimientos. Debido a que las pruebas individuales de inteligencia como las de la serie Wechsler generalmente enfatizan el recuerdo libre, los pacien- tes con lesiones cerebrales pueden estar en mayor desventaja y aparecer más dañados en esas pruebas. Dado que la memoria y el aprendizaje no son habilidades unitarias, a menudo se necesi- ta una batería de pruebas para identificar la presencia de déficit específicos. Dichas baterías no pueden tomar el lugar de las pruebas de inteligencia, las cuales evalúan un rango más amplio de funciones cognoscitivas, pero pueden proporcionar datos complementarios e indicios para el diagnóstico. Cuatro baterías populares para la evaluación de la memoria son la Escala de Memo- ria de Wechsler, tercera edición (WMS-III), la Prueba de Memoria y Aprendizaje (TOMAL), la Evaluación de Rango Amplio de la Memoria y el Aprendizaje (WRAML) y las Escalas de Eva- luación de la Memoria (MAS). La WMS-III mide la memoria para estímulos auditivo-verbales y visuales-no verbales, material significativo y abstracto, para modos de recuerdo inmediato y TRASTORNOS NEUROPSICOLÓGICOS Y EVALUACIÓN 207 demorado, en individuos de 16 a 89 años. La TOMAL (pro.ed), la WRAML (Wide Range) y la MAS (The Psychological Corporation) miden funciones de memoria verbal y no verbal (visual). Las dos primeras pruebas están diseñadas para niños y adolescentes y la última para adultos. Las tres baterías son medidas de alta confiabilidad para las funciones de memoria y aprendizaje. El manual de la MAS proporciona perfiles de calificaciones para pacientes con trastornos neuro- lógicos como la demencia, daño interno de la cabeza, y lesiones de los hemisferios izquierdo y derecho. Baterías de pruebas neuropsicológicas. Aunque las pruebas convencionales de inteligencia, como las de la serie Wechsler, son útiles para identificar déficit neuropsicológicos, por tradición se ha aplicado una batería de pruebas, como las que componen la Batería Halstead-Reitan de Pruebas Neuropsicológicas y la Batería Neuropsicológica de Luria-Nebraska, para medir las ha- bilidades adaptativas de base neuropsicológica que no son evaluadas por las pruebas de inteli- gencia. Las respuestas a los materiales de esas baterías proporcionan información útil a los psicólogos a quienes se pide evaluar relaciones cerebro-conducta, proporcionar opiniones sobre la presencia de enfermedad o daño cerebral, planear programas de rehabilitación y dar testimo- nio legal concerniente a sus evaluaciones neuropsicológicas. Batería Halstead-Reitan de Pruebas Neuropsicológicas. En la tabla 9.2 se describen los ma- teriales que constituyen la Batería Compuesta de la Batería Halstead-Reitan de Pruebas Neuro- psicológicas (Reitan Neuropsychology Laboratory). Diferentes formas de esas pruebas se incluyen en la Batería para Adultos (para edades de 15 años en adelante), la Batería para Niños Mayores (edades de 9 a 14 años)