Elementos de muestreo schaffer et al by Héctor M. De los Santos-Posadas

ELEMENTOS DE MUESTREO

SCHEAFFER

MENDENHALL

Grupo EdifDria1 Iberoamérica -

OTT

e •.

ELEMENTOS DE MUESTREO RICHARD RlCHAR0 L. SCHEAFFER University of Florida

WILLIAM MENDENHALL OTT LYMAN OTT Merrell Research Center

Traductores:

SÁNCHEZ Dr. GILBERTO GILBERTO RENDÓI\J RENDÓIV SÁNCHEZ Dr. JosÉ JOSÉ ROBERTO GÓMEZ GÓNIEZAGUILAR AGUllAR Colegio de Postgraduados Centro de Estadística y Cálculo - Sección de Muestreo Chapingo, México Revisor Técnico y Consultor Editorial:

M. en C. SERGIO SERGIO VARGAS GALlNDO GALINDO Instituto Tecnológico Autónomo de México (ITAM) - México

Iberoamérica Grupo Editorial ~i~ lbwoadrica ~ Rio A toyar p Mk&q DF Td 2IIJI2S 21.7128 Aflljl1c J2 - a@ ~Mroa:¡ DE - Td.

ELEMENTOS DE MUESTRE0 Elementary Sumey Versión en español de la obra Elementary Suruey Sampling Samfiling - Third Edition, por Richard L. Scheaffer, William Mendenhall Mendenhaii & Lyman Ott Publishen, Edición original en inglés publicada por PWS Publishers. O 1986, en Estados Unidos de América. Copyright © 0-87150-943-1 ISBN 0-87150-943-1 D. R. © 0 1987 por Grupo Editorial Iberoamérica, S.A. de C.V. y/o Internacional/Iberoamérica. Belmont, California 94002.

Wadsworth Intemacional/lberoamérica. Ninguna parte de este libro puede ser reproducida, archivada o transmitida

en forma alguna o mediante algún sistema, ya sea electrónico, medinico, mec&nico, de fotorreproducci6n. fotorreproducción. de almacenamiento en memoria o cualquier otro,

sin el previo y expreso permiso por escrito de Grupo Gmpo Editorial Iberoamérica y/o Intemacional/lberoamérica, división de Wadsworth, Inc. Wadsworth Intemacional/Iberoamérica, 7270-20-9 ISBN 968968-7270-20-9 Impreso en México Edüor: Nicol~s Nicolas Grepe P . Editor:

Oswaldo Oniz R. Productor: Oswaldo Cubierta: Elise Eüse Kaiser Pintura Pmtura de la cubierta: "Visitation"© "V¡itation"@ por Michael Lasuchin, D.R. Reproducida con autorización autorizacibn del artista.

Grupo Editorial Iberoamérica, rberoamérica, S.A. de C.V. Río Atoyac No. 32 - Col. Cuauhtémoc -. 06500 México, D.F. Apdo. 5-192 •- Tels. Tels. 2113128, 5530798 Reg. CNIEM 1382

PRÓLOGO La obra Elementos de Muestreo es un texto introductorio sobre el diseño y análisis de encuestas por muestreo, dirigido a estudiantes de administración, ciencias sociales y ciencias biológicas. El único requisito es haber tomado un curso elemental de estadística. La gran cantidad de ejemplos, con soluciones, lo hace también adecuado para usarse como un texto adicional para cursos de mayor nivel. Ya que el texto está dirigido a estudiantes con limitada preparación en matemáticas, se hace hincapié en los aspectos prácticos de los problemas de las encuestas. Cada capítulo presenta un diseño de muestreo de encuestas o un método viable de estimación, mediante la descripción de un problema practico pertinente, y luego explica la conveniencia de la metodología propuesta. Esta introducción va seguida de un procedimiento de estimación apropiado y de una presentación resumida de las fórmulas, para luego resolver un problema práctico. La naturaleza de este texto no es en su totalidad un recetario de cocina. Se presentan explicaciones que apelan a la intuición de los estudiantes para justificar muchas de las fórmulas y para fundamentar la elección de un diseco diseño de muestreo particular. Se han seleccionado ejemplos y ejercicios de muchos campos de aplicación. Las respuestas, dadas para algunos ejercicios seleccionados, pueden estar sujetas a pequeños errores de redondeo debido a la complejidad de algunas de las fórmulas. Las secciones de "Experiencias con datos reales", que se encuentran al final de la mayoría de los capítulos, sugieren maneras de cómo puede el estudiante resolver problemas de muestreo reales. Los proyectos de estos problemas pueden ser grandes o pequeños; algunos requieren cálculos por computadora. Hemos visto que son expe. expe· muestreO", Ef El riencias de aprendizaje valiosas para estudiantes que toman un curso de rnuestreo~ aspe€t{)5 dc de la'eto:= trabajo en proyectos reales obliga al estudiante a considerar todos los aspectos

v--

--. -

PRÓLOGO

cuesta y le motiva a percatarse de que ciertos conceptos que parecen simples en el libro de texto, no son tan fáciles de llevar a cabo en la práctica. El texto incluye una revisión de conceptos elementales (Capítulos 1 y 2) y una descripción de términos relacionados con muestreo de encuestas, aunado a un análisis 3). Los de los diseños de'cuestionarios y métodos metodos de recolección de datos (Capítulo 3). Capftulos 4, 5, 7 y 8 presentan los cuatro diseños de muestreo de encuestas más comunes -es decir, muestreo irrestricto aleatorio, muestreo aleatorio estratificado, muestreo sistemático y muestreo por conglomerados, respectivamente-. El Capítulo 6 presenta la estimación de razón y de regresión. Los capítulos restantes tratan de muestreo por conglomerados en dos etapas, muestreo de poblaciones animales y otros problemas especializados que ocurren en muestreo de encuestas. La tercera edición de este texto destaca los aspectos prácticos en la realización de encuestas por muestreo, con nuevas secciones sobre fuentes de error en las encuestas, métodos de recolección de datos, diseño de cuestionarios y sugerencias en la planeaplaneación de encuestas. Casi todos los capítulos contienen ahora más ejemplos de cómo los diversos diseños de muestreo son usados en la práctica. Se han incluido en tres capítulos muchas aplicaciones prácticas de encuestas que emplean muestreo con probabilidades proporcionales a los tamaños y discusiones de este método. Otros temas nuevos en la tercera edición incluyen estratificación después de la selección de la muestra, determinación del tamaño de muestra en muestreo por conglomerados en dos etapas y un estudio más amplio sobre la estimación de tamaños de población. Se han añadido ejercicios nuevos a casi todos los capítulos, y el Capítulo 12 tiene ahora un conjunto de ejercicios que puede requerir atención cuidadosa en la selección del análisis apropiado. Estos ejercicios pueden servir como una revisión de los métodos principales presentados en el libro. Se incluye en el Apéndice gran cantidad de datos reales que sirven de base a muchos ejercicios. Se tiene en preparación un manual de soluciones. El Apéndice incluye también las deducciones matemáticas de muchos de los resultados principales del texto. El entendimiento de muchas de estas deducciones requiere un conocimiento a buen nivel de la teoría elemental de probabilidad. Deseamos expresar nuestro sincero reconocimiento a muchas de las personas que han ayudado en la preparación de esta obra. En particular queremos dar las gracias a los revisores por sus atinados comentarios, que fueron de mucha ayuda en esta labor. Se agradece también al profesor A. Hald por su amable autorización para usar la tabla de áreas de la curva normal que se reproduce en el Apéndice. Estamos también profundamente agradecidos con las mecanógrafas que dedicaron gran parte de su tiempo en la preparación del original: Judith Donnelley, Mary Jackson, Catherine Kennedy y Morley. Finalmente, agradecemos a nuestras familias su asistencia y estímulo Shirley Morley. durante la realización de esta obra. Richard L. Scheaffer William Mendenhall Lyman Ott

PRÓLOGO LA EDICiÓN EN ESPAÑOL Hasta ahora el empleo del muestreo probabilistico ha requerido especialistas muy bien preparados en la estadística matemática, con amplio dominio de los aspectos teóricos y con una gran intuición derivada de la práctica y experiencia profesionales. Sin embargo, la correcta utilización de las técnicas del muestreo se ha hecho indispensable para los profesionales de las ciencias sociales, la administración, las ciencias biológicas y otras en donde cada día aumenta la necesidad de diversificar y profundizar los estudios, y donde el muestreo juega un papel de gran importancia y utilidad por su c a r & ~ ter de rapidez y economía. Este libro es un intento afortunado de proporcionar una conexión entre el análisis de la información estadística para la toma de decisiones y el problema práctico de la obtención de datos, al que necesariamente se enfrenta el estudiante y el investigador en las diversas áreas del conocimiento. El lector quedará convencido de la importancia de la correcta aplicación de las diferentes técnicas del muestreo probabilístico para obtener los datos necesarios para hacer inferencias estadísticas correctas, es decir, con una validez científica sólida. Los autores presentan las técnicas y los problemas del muestreo con ejemplos y aplicaciones en una gran variedad de disciplinas, lo 10 cual estimula al estudiante y le _5proporciona una idea clara sobre qué hacer en la vida real para llegar a soluciones -,p.roporciona prácticas, económicas y eficientes. El libro es entonces un valioso complemento de consulta para otros que tratan el muestreo con mayor profundidad y formalidad teórica. teórica. La presentación del contenido, con poca profundidad matemática, es clara y hace el mayor énfasis en los aspectos prácticos que se deben resolver en las encuestas por muestreo. El tratamiento de los temas es gradual; inicia con los conceptos conceptos demel1.~ d-ctl- . . ~~~: -+ tales, continúa con la presentación de los diferentes diseños generales del mu~H!l:~:;-.:;;-¿ muestds=d_-rz --

--L-

vi¡¡ viii

PROLOGO A LAEDIClON EDICI~N ENESPAÑOL ESPAÑOL PROLOGO

irrestricto aleatorio, el estratificado, el sistemático, el de conglomerados, y una buena exposici6n acerca de los estimadores de razón y de regresión. Otra virtud del libro es la exposición de incluir algunas técnicas desarrolladas recientemente, como la de respuestaaleatorialeatorizada y la descripción de otros diseños relativamente complejos. Al final presenta un rezada sumen que resulta de gran utilidad, pues revisa tanto las técnicas como las estrategias para la selección del método adecuado a cada caso. La obra es motivante para el estudiante y para el investigador; invita a dejar a un lado el muestreo muestreo no probabilistico al contar con la opción de los diferentes diseños probabillsticos que producen resultados cuya precisión precisi6n puede ser medida estadlsestadísprobabillsticos ticamente. Grufio Editorial Iberoamérica, Iberoamérica, al publicar este libro en español, contribuye a la Grupo difusión eficaz del del conocimiento del muestreo muestreo entre los eiendficos cientlficos sociales y administradores y, por lo tanto, a la solución eficiente de muchos problemas que se presentan en la vida diaria profesional. La publicación ha sido posible gracias a la dedicación y esfuerzo de los doctores Gilberto Rendón y Roberto Gómez, quienes han hecho un trabajo de traducción de Gilberto excepcional calidad. El dominio del lenguaje, para la corrección del estilo, a cargo de la maestra Ana María Varela, Varela, ha sido definitivo para la presentación de las ideas de la manera más clara y comprensible. Para mi m1 ha sido un privilegio y una gran satisfacción participar en la producción de esta obra.

Sergio Vargas Vargas Calinda Galindo Consultor Editorial

CONTENIDO

Prólogo Al estudiante

xiv xlv

INTRODUCCiÓN INTRODUCCION

REVISiÓN REVISION DE CONCEPTOS BÁSICOS BASICOS

2.1 2.2

Introducción Resumen de la información en poblaciones y muestras Distribuciones de muestreo Covarianza y correlación Estimación Resumen Ejercicios

2.3 2.4

2.5 2.6

5 6 9 13 14 16 16

ELEMENTOS DEL PROBLEMA DE MUESTRE0

3.1 3.2 3.3

Introducción Términos técnkos tecnicos Cómo seleccionar la muestra: el diseño de la encuesta por muestreo muestreo Fuentes de error en las encuestas Métodos de recolección de datos Diseño de un cuestionario Planeación de una encuesta Resumen Ejercicios

3.4

3.5 3.6

3.7 3.8

20 22 24

27 29 35

&'k.' .R'.~- ----c-.

~J1ÍL.-

II ~

••.r

CONTENIDO

MUESTREOIRRESTRICTO IRRES'TRICTO ALEATORIO MUESTREO

39 40 42 43

MUESTREO ALEATORIO ESTRAnFICADO ESTRATIFICADO MUESTREO

5.1

Introducción Cómo seleccionar una muestra aleatoria estratificada Estimación de una media y un total poblacionales Selección del tamaño de muestra para estimar las medias y totales poblacionales Asignación de la muestra Estimación de una proporción poblacional Selección del tamaño de muestra y asignación de la muestra para asignar proporciones Comentarios adicionales sobre muestreo estratificado Una regla óptima para formar los estratos Estratificación después de seleccionar la muestra Resumen Ejercicios Experiencias con datos reales

78 80 82

4.5 4.6 4.7

5.2 5.3 5.4 5.5

5.6

5.7 5.8 5.9 5.10 5.11

6 6.1 6.2 6.3 6.4 6.5 6.6

52 55 60 66 67 74

85 88 96 98 103 107 109 111 112 118

ESTIMACION ESTIMACiÓN DE RAZON, RAZÓN, REGRESION Y DIFERENCIA Introducción Encuestas que requieren el uso de estimadores de razón Estimación de razón usando muestreo irrestricto aleatorio Selección del tamaño de la muestra Cuándo usar estimación de razón Estimación de razón en muestreo aleatorio estratificado

I".

Introducción Cómo seleccionar una muestra irrestricta aleatoria Estimación de una media y un total poblacionales Selección del tamaño de muestra para la estimación de las medias y totales poblacionales Estimación de una proporción poblacional Muestreo con probabilidades proporcionales al tamaño Resumen Ejercicios Experiencias con datos reales

4.1 4.2 4.3 4.4

I..

123 124 125 127 135 143 144

"lI

•

i f i

í le

CONTENIDO

6.7 6.9

Estimación de regresión Estimación de diferencia Estimaciún Resumen Ejercicios Experiencias con datos reales

MUESTREO SISTEMÁTICO

7.1

Introducción Cómo seleccionar una muestra sistemática Estimación de una media y un total poblacionales Estimación de una proporción poblacional Selección del tamaño de muestra Muestreo sistemático replicado Resumen Ejercicios Experiencias con datos reales

6.S

7.2 7.3 7.4

7.5 7.6 7.7

MUESTREO POR CONGLOMERADOS

S.l

Introducción Cómo seleccionar una muestra por conglomerados Estimación de una media y un total poblacionales estimaci6n Selección del tamaño de muestra para la estimación de medias y totales poblacionales Estimación de una proporción poblacional Selección del tamaño de muestra para la estimación de proporciones Muestreo por conglomerados combinado con estratificación Muestreo por conglomerados con probabilidades proporcionales al tamaño Resumen Ejercicios Experiencias con datos reales

S.2 S.3 S.4

S.5 S.6 S.7 S.S

S.9

xl X¡ 147

150 153 155 163

167 168 171 172 178

180 182 186 187 193

195 196 198 200 207 211 213 214 217 220 221 229

MUESTREO MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

231

Introducción Cómo seleccionar una muestra por conglomerados en dos etapas

2% 232 DS=· " 23511 --

9.1 9.2

--= --

? ; r

-~~

CONTEI\JIDO

9.3 9.4 9.5 9.6 9.7 9.8

Estimación insesgada de una media y un total poblacionales Estimación de razón de una media poblacional Estimación de una proporción poblacional Selección de tamaños de muestra Muestreo por conglomerados en dos etapas con probabilidades proporcionales al tamaño Resumen Ejercicios Experiencias con datos reales

ESTIMACiÓN DEL TAMAÑO DE LA POBLACiÓN

10.1 10.2 10.3 10.4

Introducción Estimación del tamaño de la población usando muestreo directo Estimación del tamaño de la población usando muestreo inverso Selección de tamaños de muestra para muestreo directo y para muestreo inverso Estimación de la densidad y el tamaño de la población usando muestreo por cuadros Estimación de la densidad y el tamaño de la población usando cuadros cargados Resumen Ejercicios Experiencias con datos reales

10.5 10.6 10.7

11 11 TEMAS COMPLEMENTARIOS 11.1 11.2 11.3 11.4 11.5 11.6

Introducción Submuestras interpenetrantes Estimación de medias y totales en subpoblaciones Modelo de respuesta aleatorizada Selección del número de reentrevistas Resumen Ejercicios Experiencias con datos reales

RESUMEN

12.1 12.2

Resumen de los diseños y métodos Comparación entre los diseños y métodos Ejercicios

234 238 240 243 245 248 249 253

255 256 257 259 260 264 267 269 270 273

275 275 275 278 282 284 286 287 289

291 291 293 294

CONTE~IIDO

ApÉNDICE Bibliografía Tablas Deducción de algunos resultados importantes Respuestas seleccionadas

-íNDICE INDICE

xiii

303 303 305 312 318

320

A L ESTUDIANTE

Grupo Editorial Iberountérica Iberoamérica en su esfuerzo permanente por producir cada vez mejores textos, pone en tus manos esta nueva obra en la que se ha puesto la más alta teóT1:Co y didáctico, así como en dicalidad en los aspectos teónco seño y presentación, con el objetivo de proporcionarte la mejor herramienta, no sólo para facilitarte el aprendzkaje aprendz'zaje sino también para hacerlo más estimulante. Este, como cualquiera de nuestros libros, ha sido cuidadosamente seleccionado para que encuentres en él u n pilar de t u preparación, y u n complemento ideal a la enseñanza del maestro. Lo didáctico de la presentación de sus temas hace que lo consideres el mejor auxiliar, y el que llevas a todas partes. Lo anterz'or anten'or es parte de nuestro propósito de ser partícipes en una mejor preparación de profesionales, contribuyendo asia la urgente necesidad de u n mayor desarrollo de nuestros paises hispano hkpano ha blantes. Sabemos que esta obra será fundamental en t u biblioteca, y tal vez la más inmediata y permanente fuente de consulta. Como uno de nuestros intereses principales es hacer mejores libros en equzpo equipo con profesores y estudiantes, agradeceremos tus comentarios y sugerencias o cualquier observación que contribuya al enriquecimiento de nuestras publicaciones.

Grupo Editorial Iberoamérica Iberoadrica . . . presente en t u formación profesional xiv

1 INTRODUCCiÓN Los cursos introductorios enfatizan que la estadística moderna es una teoría de la información con la inferencia como su objetivo. El objetivo de nuestra curiosidad es un conjunto de mediciones, una población, que de hecho existe o que puede ser generada por experimentación repetida. El medio para la inferencia es la muestra, la cual es un subconjunto de mediciones seleccionadas de la población. Deseamos hacer una inferencia acerca de la población sobre la base de las características de la muestra -o, equivalentemente, la información contenida en la muestra-. Por ejemplo, supóngase que una cadena de tiendas mantiene un registro de las cuentas de sus clientes. La cantidad que se adeuda a la compañía va a variar día a día, conforme se efectúen nuevos cargos y se paguen algunas cuentas. Ciertamente, el conjunto de cantidades que se deben a la compañía en un determinado día representan una población de mediciones de considerable interés para la gerencia. La característica poblacional de interés es el total de todas las mediciones en la población o, equivalentemente, la carga total de crédito diario. El mantener actualizados los créditos totales diarios asociados con las cuentas, puede ser una tarea simple para una computadora electrónica. Sin embargo, los datos deben ser actualizados diariamente y esta actividad consume tiempo. Un método más sencillo para determinar la carga total de crédito asociada con las cuentas es muestrear aleatoriamente la población de cuentas en un determinado día, estimar el importe promedio adeudado por cada cuenta y multiplicar por el número de cuentas. En otras palabras, empleamos un estimador estadístico para hacer una inferencia acerca del total de la población. La estadística elemental nos dice que esta estimación se simplemente al incrementar el tamaño de la puede hacer tan exacta como queramos simpleme~ite muestra. La estimación resultante puede ser acompañada por un límite para el error de estimación (Mendenhall, 1983, Capítulo 8) o bien expresada como un intervalo de confianza. Entonces la información en la muestra se utiliza para hacer una inferencia acerca de la población. La información obtenida de las encuestas por muestre0 muestreo afecta casi todos los aspectos de nuestra vida cotidiana. Tal información determina las políticas del gobierno

INTRODUCCIÓN

respecto, por ejemplo, al control de la economía y la promoción de programas sociales. Las encuestas de opinión son la base de muchas de las noticias que divulgan los diversos medio noticiosos. El número de personas que ven los programas de televisión determina cuáles programas serán presentados en el futuro. Comúnmente se piensa que el Censo de E.U. de Norteamérica establece contacto con cada uno de los hogares en el pals. país.Realmente, en el censo de 1980 solamente se hicieron 14 preguntas a todos los hogares. La información sobre 42 preguntas adicionales fue obtenida únicamente de una muestra de hogares. La información resultante la utiliza el gobierno federal para determinar la asignación de fondos a los estados y ciudades. Esta información la utiliza el comercio para el pronóstico de ventas, manejo de personal, y para determinar los domicilios de futuros establecimientos. La utilizan los planificadores urbanos y regionales para programar el uso de la tierra; agencias de transporte, y consumo de energía. Es usada por científicos sociales para estudiar condiciones económicas, balance racial y otros espectos de calidad de la vida. La Oficina de Estadísticas del Trabajo de E.U.A. realiza rutinariamente más de 20 encuestas. Algunas de las más conocidas y más ampliamente utilizadas son las encuestas que establecen los índices de precios al consumidor (IPC). El IPC es una medida del cambio del precio en el tiempo de una canasta de mercado fija de bienes y servicios. Es usado como una medida de inflación y sirve como un indicador económico para las políticas del gobierno, Las empresas tienen tasas de salarios y planes de pensión basados en el IPC. Los programas federales de salud y bienestar públicos, así como muchos programas estatales y locales, ajustan sus bases de elegibilidad al IPC. Las cláusulas de contratos en rentas e hipotecas están basadas en el IPC. Así, podemos ver que este índice, determinado sobre la base de una encuesta por muestreo, desempeña un papel importante en nuestra sociedad. Muchas otras encuestas realizadas por la Oficina de Estadísticas del Trabajo (OET) son cruciales para la sociedad. La encuesta de población continua mensual establece información básica sobre la fuerza de trabajo, empleo y desempleo. Las encuestas sobre gastos del consumidor recolectan datos sobre gastos de la familia en bienes y servicios usados en el consumo diario. La encuesta de establecimientos reúne información sobre horas trabajadas y percepciones para establecimientos en negocios no agrícolas. La encuesta sobre aspectos ocupacionales proporciona información sobre futuras oportunidades de empleo para una diversidad de ocupaciones, proyectadas aproximadamente para los siguientes diez años. Otras actividades de la OET se encuentran en el Manual de Métodos de la OET (1982). Las encuestas de opinión están constantemente en las noticias, y los nombres de Harris han llegado a ser muy conocidos por todos. Estas encuestas por Gallup y Harris muestreo reflejan las actitudes y opiniones de ciudadanos en aspectos que van desde política y religión a deportes y entretenimiento. Las clasificaciones Nielsen determinan el éxito o fracaso de programas de TV. Los comercios realizan encuestas por muestreo para sus operaciones internas, además de utilizar las encuestas del gobierno para decisiones administrativas cruciales. Los auditores estiman balances de cuentas y verifican el cumplimiento con reglas de operación por medio del muestreo de cuentas. El control de calidad de procesos de manufacturareCae recae fuertemente en las técnicas de muestreo. Un área particular de actividad comercial que depende de actividades de muestreo detalladas es el análisis de mercados. Las decisiones sobre qué productos comerciar, dónde comerciarlos y cómo anunciarlos son frecuentemente hechas sobre la

INTRODUCCIÓN

base de información de encuestas por muestreo. Los datos pueden venir de encuestas efectuadas por la firma que manufactura el producto o pueden ser adquiridos de empresas que realizan encuestas especializadas sobre información de mercados. Las actividades de tres de tales empresas son esbozadas a continuación.. El índice de precios al menudeo de Nielsen es menos conocido que las clasificaciones de programas de televisión de Nielsen, pero es muy importante para las empresas que comercian con productos para la venta al menudeo. Este índice suministra información constante sobre ventas de alimentos, cosméticos, productos farmacéuticos, bebidas y muchas otras clases de productos. Puede proporcionar estimaciones de ventas totales para una clase de productos, ventas para los clientes de una marca particular, ventas para una marca competidora, información sobre precios al menudeo y mayoreo y el porcentaje de tiendas que venden un determinado producto. Los datos proceden de auditorías de inventarios y ventas en 1600 tiendas distribuidas en todo Es. Estados Unidos cada 60 días. Selling Areas -Marketing, Iné. lnc. (SAMI), reúne información sobre el movimiento de productos de almacenes y vendedores al mayoreo. mayoreo. La información es obtenida en 36 grandes áreas de mercado de televisión, que contienen el 74% de las ventas nacionales de alimento y comprende 425 categorías de productos. La Corporación de Investigación de Mercados de América proporciona muchos tipos de información de mercado a través del uso de encuestas, pero alguno de los resultados más interesantes proviene de su Censo de Menú Nacional. Esta encuesta muestrea familias y estudia sus costumbres alimenticias por dos semanas. Tantas como cuatro mil familias pueden participar durante un año. Se obtiene información sobre el número de veces que un determinado alimento es servido, cómo es servido, cuántas personas lo comen y muchos otros detalles, incluyendo qué pasa con los sobrantes de comida. Tales detalles son importantes para el desarrollo y publicidad de los productos. Muchos ejemplos interesantes de los usos prácticos de la estadística en general y Statistics: A Guide to the Unknown del muestreo en particular, pueden consultarse en Statistics: (véase la Bibliografia en el Apéndice). En este libro usted puede encontrar algunos de los métodos y usos de las encuestas de opinión discutidos en los artículos "Opinion George Gallup y "Election Night on Television" por R. F. Polling in a Democracy" por George Link. Quienes se interesen en ecología silvestre deberían leer "The Plight of the Whales" por D. G. Chapman. Descubra cómo se manejan en forma económica las ventas de boletos entre las líneas de ferrocarriles y líneas aéreas, a través de muestreo, con la lectura de "How Accountants Save Money by Sampling", por John Neter. Ya que el objetivo de la estadística moderna es la inferencia, usted puede preguntar qué aspecto particular de la estadística se tratará en un curso sobre diseño de encuestas por muestreo. La respuesta a esta pregunta cubre dos aspectos. Primero, nos abocaremos a la economía de adquirir una cantidad específica de información. Más específicamente, ¿cómo ¿cómopodemos diseñar procedimientos de muestreo que reduzcan el costo de una cantidad fija de información? Aunque los cursos introductorios en estadística reconocen la importancia de esta materia, destacan los conceptos básicos y cómo hacer inferencias en situaciones específicas después de que los datos han sido recolectados. La segunda característica distintiva de nuestro tema es que está dirigido a los tipos particulares de situaciones de muestreo y problemas de inferencia que se encuentran más frecuentemente en el comercio, las ciencias sociales y la administración de recursos naturales (madera, vida silvestre y recreación), más que en las ciencias fisicas.

1 INTRODUCCIÓN

Aun la terminología de los ciendficos cientificos sociales difiere de la de los científicos físicos. Los científicos sociales realizan encuestas para recolectar una muestra, mientras que los científicos físicos llevan a cabo experimentos. Entonces reconocemos que existen diferencias de un campo a otro de la ciencia en la naturaleza de las poblaciones y la manera en que una muestra puede ser extraída. Por ejemplo, poblaciones de votantes, cuentas financieras, o animales de una especie particular pueden contener únicamente un pequeño número de elementos. En contraste, las poblaciones conceptuales de respuestas generadas por la medición del producto de un proceso químico son ciertamente muy grandes. (Usted puede recordar que las propiedades de los estimadores y pruebas esadisticas tratadas en la mayoría de los cursos introductoriossuponen que la población de interés es grande con respecto a la muestra.) Las limitaciones establecidas en el procedimiento de muestreo también varían de un área de la ciencia a otra. El muestreo en las ciencias biológicas y fisicas fisicas puede ser frecuentemente ejecutado bajo condiciones experimentales controladas. Tal control es frecuentemente imposible en las ciencias sociales, comercio y manejo de recursos naturales. Por ejemplo, un investigador en medicina puede comparar el crecimiento de ratas sometidas a dos fármacos diferentes. Para este experimento los pesos iniciales de las ratas y la ingesta diaria de alimento pueden ser controlados para reducir una variación indeseable en el experimento. En contraste, muy pocas variables pueden ser controladas al comparar el efecto de dos diferentes anuncios de televisión sobre ventas para un determinado producto. No es posibles ningún control al estudiar el efecto de las condiciones ambientales sobre el número de focas en el Océano Pacífico Norte. En resumen, este texto trata de las peculiaridades de muestreo e inferencia comúnmente encontrados en el comercio, las ciencias sociales y la administración de recursos naturales. Específicamente, consideraremos métodos para la selección de la muestra de una población existente y maneras de evitar las diversas dificultades que surjan. Los métodos para diseñar encuestas que toman en cuenta las características de la población se presentarán junto con los estimadores asociados para reducir el costo de una estimación con exactitud especificada. El Capitulo 2 revisa algunos de los conceptos básicos tratados en la estadística elemental, incluyendo el papel fundamental que desempeña la probabilidad al hacer inferencias. El Capítulo 3 presenta algo de la tenninologia básica del muestreo, asi así como una discusión de problemas que aparecen en el diseño de encuestas por muestreo. El muestreo irrestricto aleatorio, que ya conoce el estudiante novel, es presentado cuidadosamente en el Capitulo 4; el cual incluye procedimientos físicos para la selección real de la muestra. Los siguientes capítulos abarcan métodos económicos para seleccionar una muestra y métodos asociados para la estimación de parámetros poblacionales. Al leer este texto, tenga presente que el objetivo primordial de cada capítulo es la inferencia. Identifique el procedimiento de muestreo asociado con cada capítulo, los parámetros poblacionales de interés, sus estimadores y los límites asociados a los errores de estimación. Desarrolle una comprensión intuitiva y una apreciación de los beneficios que se derivan de los procedimientos de muestreo especializados. Ponga atención en los conceptos generales, y no se desconcierte por las fórmulas de los esti· estimadores y varianzas que algunas veces son inevitablemente complicadas. En concreto, ponga atención en el bosque más que en los árboles. Resuelva algunos ejercicios y los detalles tomarán su lugar respectivo.

2 REVISiÓN DE CONCEPTOS BÁSICOS BASICOS 2.1 INTRODUCCIQN El conocimiento de los conceptos básicos de estadística es un requisito para el estudio de los diseños de encuestas por muestreo. Es por eso que en este capítulo revisaremos algunos de estos conceptos básicos. El objetivo fundamental de la estadística es hacer inferencias acerca de una población con base en la información contenida en una muestra. El objetivo de nuestra inferencia, la población, es un conjunto de mediciones, finito o infinito, real o conceptual. Es por eso que el primer paso en estadística estadlstica es encontrar una manera de expresar una inferencia acerca de una población o, equivalentemente, describir un conjunto de mediciones. Entonces, distribuciones de frecuencia y medidas descriptivas numéricas son el primer tema de nuestra revisión. El segundo paso en estadística es considerar la forma en que se puede hacer la inferencia acerca de la población con base en la información contenida en la muestra. Para este paso debemos considerar distribuciones de probabilidad de cantidades muestrales o distribuciones derivadas del muestreo. El conocimiento de distribución de probabilidad asociada con la muestra nos permite seleccionar los procedimientos adecuados para hacer la inferencia y asignar medidas de bondad a tales inferencias. El método de inferencia empleado principalmente en el comercio y las ciencias sociales es la estimación. Es posible estimar el total de activos de una corporación, la fracción de votantes que está a favor del candidato Garcfa, o el número de excursionistas que utilizaron un parque del gobierno durante cierto periodo. Es por eso que debeselecci6n de un estimador de mos entender los conceptos básicos que fundamentan la selección un parámetro poblacional, el método de evaluar su bondad y los conceptos relacionaestimados con la estimación por intervalo. Debido a que el sesgo y la varianza de los estimabásicos relacionados dores determinan su bondad, necesitamos revisar los conceptos biísicos con la esperanza de una variable aleatoria y las nociones de varianza y covarianza.

2 REVISION REVISION DE CONCEPTOS BÁSICOS BÁSICOS

Las secciones subsecuentes siguen el plan general que se acaba de presentar. ErnEm· pezamos con una revisión del problema primario, es decir, cómo describir un conjunto de mediciones. Enseguida se da una revisión rápida del modelo probabilhtico para la repetición de un experimento. Explicamos cómo puede ser usado el modelo para inferir las características de una población y discutimos variables aleatorias, distribuciones de probabilidad y esperanzas. Finalmente, presentamos los conceptos básicos asointerva!~. ciados con estimación puntual y estimación por interva!o.

2.2 RESUMEN DE LA INFORMACiÓN INFORMACIONEN POBLACIONES Y MUESTRAS '' Debido a que es diftcil dificil percatarse de las características esenciales de un conjunto grande de mediciones al observar un listado de números, usualmente debemos resumir las mediciones a través del uso de gráficas o técnicas numéricas. Aun cuando no es posible contar con todas las mediciones para una población en estudio, podemos ser capaces de suponer alguna forma razonable para realizar la gráfica de la distribución de frehiscuencias relativas de esta población. Por supuesto, podemos siempre construir un histograma de frecuencias o de frecuencias relativas para una muestra, ya que las mediciones de la muestra son conocidas, y usar éste para hacer una estimación empírica dé la forma de la población. Una vez que se ha establecido una distribución de frecuencia relativa para una población, podemos, mediante argumentos probabilísticos, calcular medidas numériestáncas que nos resuman la información, tales como la media, varianza y desviación estándar. Cantidades similares pueden ser calculadas directamente de las mediciones en la muestra. Con fines de ilustración, supongamos que una población consiste en una gran cantidad de números enteros, 0, 1, 2, . . . , 9, en proporciones iguales. Podemos pensar que esos números han sido escritos en pequeñas hojas de papel y mezclados en caja, que han sido escritos en una tabla (como una tabla de números aleatorios) o que dígitos ocurren en han sido generados en un archivo de computadora. Ya que todos los dfgitos

()

FIGURA 2.1 2.1 frecuencia

Distribución de una población que contiene los números O a 9 con la misma

2.2 RESUMEN DE LA INFORMACIÓN INFORMACIONEN POBLACIONES Y MUESTRAS

igual proporción, el histograma de frecuencia relativa, el cual muestra la distribución población, es como se muestra en la Figura 2.1. de las mediciones de la poblaci6n, Estas frecuencias relativas pueden ser interpretadas en términos probabilísticos. Si se selecciona un número al azar (por ejemplo si alguien extrae una pieza de papel de la caja, sin ejercer ninguna preferencia), entonces la probabilidad de que el número I extrddo extratdo sea un 4 es &. TO· Suponga que un número se va a seleccionar al azar de una población en estudio, y denote su valor por y. Entonces los posibles valores para y (O, 1, 2, . . . , 9, en este caso) y las probabilidades asociadas con tales valores (& (10 para cada uno en este caso) constituyen la distribución de probabilidad para la variable aleatoria aleatok y. La probabilidad asociada con y es denotada algunas veces por p(y). p(y). Entonces, para esta población ce,

p(O)

= p(l) =... = peS) = p(9) = lo

Las medidas numéricas usadas para resumir las características de una población son definidas como valores esperados de y o una funcion funciÓn de y. Por definición, el valor E(y),está dado por esperado de y, B(y), B(y)

= L yp(y) y

p(y) > donde la sumatoria incluye todos los valores de y para los cuales p(y) > O. Para la población y variable aleatoria y en estudio, B(y)

= L yp(y) y

= Op(O)

+ lp(l) + 2p(2) + ... + Sp(S) + 9p(9)

= 10(45) = 4.5

$e puede ver que E (y) es igual al valor promedio, o valor medio, de todas las meSe sera de. diciones de nuestra poblaci6n conceptual. En general, una media poblacional será de· notada por p , por lo que JL

= B(y)

donde y es el valor de una medición individual seleccionada de la población al azar. La variabilidad de las mediciones en una población puede ser medida por la varianza, rianza, la cual se define como el valor esperado, o valor promedio, del cuadrado de la desviación entre una medición y seleccionada aleatoriamente y su valor medio p . Enestá dada por tonces la varianza de y, V(y), V(y), esta V(y),= B(y - JL)2 =

L (y -

JL)2p(y)

Para la población usada como ejemplo en esta sección, V(y) = B(y - JL)2 =

L (y -

J.L)2p (y)

+ (1 - 4.5)2(10) + ... + (9 - 4.5)2(10) 4.5)2 + (1 - 4.5)2 + ... + (9 - 4.5)2]

= (O - 4.5)2(10) = 10[(0 -

= 10(82.5) = 8.25 La varianza V(y) es comúnmente denotada por aZ

2 REVISIÚN R E V I S I ~ NDE CONCEPTOS BÁSICOS BÁSICOS

La desviación desvisción estándar se define como la raíz cuadrada de la varianza y se denota por U a = Ja'. R. Para la población específica en estudio,

=v'S.25 = 2.9

En estudios estadísticos la población de interés consiste pn mediciones desconocidas; es por eso que únicamente podemos especular acerca de la naturaleza del histograma de frecuencia relativa o del tamaño de p y (T.Para obtener alguna inforhistograma mación acerca de la población, seleccionamos una muestra de n mediciones y estudiamos las propiedades de esta muestra. A partir de lo que observamos en la muestra inferimos infen'mos las características de la población. Las mediciones en la muestra serán seran denotadas en general por y,, y,, . . , y,. Siguiendo el patrón establecido para resumir la información en una población, podemos calcular la media, la varianza y la desviación estándar de una muestra. Estas están dadas, respectivamente, por medidas descriptivas numéricas estan

y=-n i=1 L Yi n

L (Yi - y)2 52

que Si sZtiene

= ;=1

n-l

=.fl

Nótese divisor n - 1 en lugar de n. Para la población de enteros O, 1, , 9 en igual proporción, se seleccionó una muestra de n = 10 mediciones. Cada una de las 10 mediciones fue seleccionada al azar con reemplazo. (Piense en la selección de 10 papeletas de una caja conteniendo una gran cantidad de ellas, cada una marcada con un entero entre O y 9.) Las mediciones muestrales fueron

...

6,9,3,8,1, 6 , 9 , 3 , 8 , 1 ,7,S, 7 , 8 ,8,4,0 8,4,0

Para esta muestra 1

y=-n i=1 L Yi = to(6

+ 9 + 3 + ... + 4 + O)

= 110 (54) = 5.4 5

1 ~ =- '- (Yi - y) 2 n - 1 = ~[(6 - 5.4)2 + (9 - 5.4)2 + ... + (O = ~(92.4) = 10.27 5 =.J1 = v'10.17 = 3.2 2

i=1

5.4)2]

La utilización de estas cantidades muestrales se tratará en las siguientes dos secciones, pero podemos ver que Y podría ser una aproximación razonable para p si p

2.3 DISTRIBUCIONES DE MUESTREO

fuera desconocida. De la misma manera, sP podría ser una aproximación razonable para u2si u2fuera desconocida, y s podría ser una aproximaci6n aproximaci6n razonable para a.

2.3 DISTRIBUCIONES DE MUESTREO

En los siguientes capltulos, cantidades muestrales -tales como Yy- serán utilizadas extensivamente para realizar inferencias acerca de cantidades poblacionales desconocidas; por ello debemos estudiar las propiedades de ciertas funciones de las observaciones muestrales. Este estudio empieza con una ilustración numérica, la cual va a ser generalizada para incluir una amplia variedad de situaciones de muestreo. Considérese la población discutida en la Sección 2.2, en la cual los enteros O, 1, . . . , 9 estuvieron representados en la misma proporción. Se seleccionan cincuenta muestras de tamaño n = 10 de esta población; cada muestra es seleccionada de una manera similar al método utilizado al final de la Sección 2.2. Las medias muestrales y' para estas 50 muestras se presentan en orden numérico ascendente en la Tabla 2.1.

TABLA 2.1 2.1 2.3 2.6 2.6 3.2 3.3 3.4 3.5 3.5 3.6 3.6

Medias muestrales de 50 muestras, cada una de tamano n = 10

3.6 3.7 3.7 3.7 3.8 3.9 4.0 4.1 4.1 4.1

4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.3 4.3 4.3

4.3 4.3 4.4 4.5 4.7 4.7 4.7 4.8 4.8 4.8

4.8 4.8 4.8 4.9 5.0 5.1 5.3 5.5 6.0 6.6

Un histograma de frecuencias para las 50 medias muestrales es presentado en la teÓn·· Figura 2.2. Esta distribución es una aproximación a la distribución de muestreo teóri. ca de y, y, ya que nos muestra la manera en que las y tienden a distribuirse cuando se todistribuci6n de muestreo puede ser considerada como una man muestras repetidas. La distribucion y. Nótese que la distribución de las y tiende a condistribución de probabilidad para F. centrarse cerca de la media poblacional p = 4.5, con mucha menor dispersión (o monti· variabilidad) que las mediciones originales de la población, y tiene una forma monticular, en lugar de una forma plana como la de la distribución poblacional. Desde el punto de vista de un curso elemental de estadística (véase Mendenhall, 1985), sabemos que la distribución de muestreo de jy debe tener una media p j.L,, una 1983), curva normal (una curva sidesviacián desviaci6n estándar u/&, u / ,;;, y una forma como la de una cuma métrica en forma de campana). Esta distribución de 50 medias muestrales tiene un j.L= promedio de 4.22 (el cual está cercano a p = 4.5) y una desviación estándar de 0.79 (la cual está cercana a u/& u/';; = = 2.9/& 2.9/M = 0.92). El histograma de frecuencia tiene simétrica. Estos también una forma aproximada de campana, aunque no es muy simctrica.

2 REVISiÓN REVISIÓNDE CONCEPTOS BÁSICOS BÁSICOS

25 .Q

f6 ~ u..

FIGURA 2.2

Distribución de 50 medias muestrales con n = 50 para cada muestra

hechos concernientes al comportamiento de las medias muestrales serán importantes en el desarrollo de los procedimientos de inferencia. De propiedades conocidas de la curva normal se deduce que aproximadamente 68% de los valores de iy,, en muestreo repetido, debe caer dentro de una desviación estandar tándar de la media de la distribución de muestreo de las F. y. Aproximadamente, 95% de los valores de y, y, en muestreo repetido, debe caer dentro de dos desviaciones estándar de la media.-Para media.'Para verificar estas aseveraciones en la muestra observada de SOy. 50j, vemos que

4.11 ± f 0.79

o sea

(3.43,5.01)

contiene 39 de 50 (78%) de los valores de y en la muestra, y

4.22 ± f 2(0.79) Z(0.79) o sea

(2.64,5.80) (2.64,5.80)

contiene 45 de 5e 54 (90%) de las y. Estos porcentajes están razonablemente cerca de los valores teóricos teóricos de 68% y 95%. (Recuérdese que estamos considerando únicamente una aproximación, basada en 50 muestras, con respecto a la verdadera distribución de muestreo de y.) Si la distribución de muestreo de alguna cantidad muestra1 no sigue una distribución normal, al menos aproximadamente, aproximadamente, entonces la interpretación de la frecuencia relativa puede aún ser obtenida considerando el teorema de Tchebysheff. Este teorema establece que para cualquier k 1 1 al menos (1 - 1/k l / k z2 )) de las mediciones en ~1 cualquier conjunto deben caer dentro de k desviaciones estándar de su media. Por ejemplo, haciendo k = y )= ( 1 - ~) = f~ de cualquier = 2 se obtiene que al menos (1 - !2) conjunto de mediciones debe caer dentro de 2 desviaciones estándar de su media. Usualmente. esta fracción es mucho más grande que f.

DISTRIBUCIONES DE MUESTREO

El alto procentaje de mediciones que cae dentro de dos desviaciones estándar estándar de la media, considerando la distribución normal o el teorema de Tchebysheff, sugiere que' la amplitud de cualquier conjunto de mediciones contiene poco más que cuatro desviaciones estándar, usualmente. En otras palabras, la desviación estándar de un conjunto de mediciones puede ser aproximada como 1 14 /4 de la amplitud de ese conjunto de mediciones. La discusión de las distribuciones de muestreo muestre0 hasta este punto se ha basado en que las muestras fueron seleccionadas de una población esencialmente infinita. Pero nosotros podemos desear trabajar con poblaciones de N mediciones, donde N puede ¿Se mantiene aún bajo estas circunstancias la normalidad ser relativamente pequeña. ¿Se aproximada de la distribución de ji? A continuación presentarnos los resultados de dos investigaciones empíricas sobre esta cuestión. Una población de N ;:: = 100 mediciones fue generada por computadora y presentó una distribución como la que se muestra en la Figura 2.3. Se seleccionó una muestra

15 1-

10 1-

r---

100

FIGURA 2.3 Distribución de una población oblación con N = 100

de n = 20 mediciones de esta población, de tal manera que cada muestra posible de tamaño 20 tuviera una misma probabilidad de ser seleccionada (véase Capítulo 4). Este proceso se repitió hasta que fueron seleccionadas 50 de tales muestras. Se calculó la media y para cada muestra; la distribución de estas medias muestrales se indica en la Figura 2.4. Nótese la tendencia de este histograma a la forma de campana, aunque no perfectamente simétrica. Una población de N = 20 mediciones fue generada posteriormente, presentando la distribución que se indica en la Figura 2.5. Se seleccionaron 50 muestras de tamaño n = 15 cada una, siguiendo la metodología esbozada anteriormente. La distkibución de las 50 medias muestrales se presenta en la Figura 2.6. Nótese nuevadistribución mente una tendencia hacia una distribución en forma de campana un tanto simétrica. Sin embargo, esta distribución difiere considerablemente de la presentada en la Figura 2.4. Aquí, las medias muestrales están agrupadas muy cerca alrededor de la media poblacional, como debía esperarse, ya que el tamaño de muestra de 15 es muy similar al tamaño de la población de 20. Se podría sugerir que la distribución en ll~g Figura 2.6

2 REVISION REVlSl6N DE CONCEPTOS BÁSICOS BÁSICOS

.Q Q

~ u-

100

}'I

FIGURA 2.4

.!2

Distribución de medias muestrales para N = 100 y n = 20

FIGURA 2.5

Distribución de una población con N = 20

15 .Q

&i:l 10 ~ u-

r--

r. O

9 10 11 12

u" Y FIGURA 2.6 Distribución de medias muestrales para N = 20 y n = 15

24 COVARIANZA y CORRELACIÓN

no se asemeja tanto a la distribución normal como en la distribución de la Figura 2.4. En resumen, la distribución de yi debe tener una distribución muy semejante a la distribución normal, si n no es mayor que 20% de N. Esta observación es especialmente cierta si I'l~ n 2 30. Cuando n es un porcentaje muy alto de N, la distribución de muestre0 de yy está agrupada alrededor de la media poblacional aún más de lo que se muestreo podría esperar.

2.4 COVARIANZA y CORRELACION Frecuentemente, en un experimento se obtiene información acerca de más de una variable aleatoria de interés. interes. Por ejemplo, el psicólogo mide más de una característica por individuo en un estudio sobre el comportamiento humano. Variables típicas y,, y otras vapueden ser una medida de inteligencia, y,, una medida de personalidad,Y2. riables que representan el valor obtenido en ciertas pruebas o medidas de caracterlsticaracterfsticas fisicas. fisicas. Generalmente estamos interesados en la simple dependencia de un par de variables, tal como la relación que existe entre personalidad e inteligencia, o entre el aprendizaje y las calificaciones en la escuela. En particular, nos interesa saber si los datos que representan observaciones pareadas de y , y y, en un cierto número de gente implican una dependencia entre las dos variables. Si es así, ¿qué ¿qué tan intensa es la de: de: pendencia? Intuitivamente, concebimos la dependencia de dos variables, y , y y,, indicando que una de ellas, digamos y,, se incrementa o disminuye como una consecuencia de un cambio en y,. Vamos a confiar nuestra atención a dos medidas de dependencia, la cov a k n z a y el coeficiente simple de correlación lineal, y vamos a utilizar las Figuras varümza 2.7(a) y 2.7(b) para justificar la elección de ellas como medidas de dependencia. Estas figuras nos representan puntos graficados para dos muestras (aleatorias) de n = 10 unidades experimentales seleccionadas de una población. Las mediciones de y, y y, fueron hechas en cada unidad experimental. Si todos los puntos caen sobre una línea y, son obviamente dependientes. En recta, como se indica en la Figura 2.7(a), 2.7(a). y, y Y2 contraste, la Figura 2.7(b) 2.7(b) nos indica poca o nula dependencia entre y , y y,. Supóngase que conocemos p, JLl y p,, JL2. las medias de y, y y,, respectivamente, y lográficas de la Figura 2.7. Ahora se localiza un punto en la calizamos este punto en las graficas

•

T Y Ytl

(a)

FIGURA 2.7

• •

Puntos graficados para dos muestras

Y l

(b) (b)

2 REVISiÓN REVISIÓNDE CONCEPTOS BÁSICOS BÁSICOS

gráfica de la Figura 2.7(a) 2.7(a) y se miden las desviaciones (Yt (y, - JLt) p l ) y (yz (y2- JLz). p,). Nótese que ambas desviaciones van a tomar el mismo signo algebraico para un punto deter(y, - JLt)(Yz p1)(y2- JLz), p,), es positivo. Este resultado se manminado; por eso su producto, (Yt tiene para todos los puntos en la Figura 2.7(a). Los puntos a la derecha de (/-k (p.,, p2) I , JLz) van a producir pares de desviaciones positivas, los puntos a la izquierda van a producir - JLt)(Yz (y, desviaciones negativas, y el promedio de los productos de las desviaciones (Yt ~1)(y2 - p,) va a ser "grande" y positivo. Si la relación lineal indicada en la Figura 2.7(a) 2.7(a) tuviera una pendiente negativa hacia la derecha, todos los pares correspondientes de desviaciones serían de signo opuesto, y el valor promedio de (Yt (y, - JLt)(Yz p1)(y2- JLz) p,) seria serfa un número negativo grande. 2.7(b), donde La situación que se acaba de describir no ocurrir5 en la Figura 2.7(b), existe poca o nula dependencia entre Yt y, y Y~· yZ. Las desviaciones correspondientes (y, - p , ) y (yZ- p,), van a tomar el mismo signo algebraico para algunos puntos, y signo opuesto para otros puntos. Entonces, el producto (yl pl)(y2- p 2 )será positivo para algunos puntos y negativo para otros, y el promedio de estos productos será un valor cercano a cero. Así, se tiene que claramente el valor esperado (promedio) de (y, pi)(y2- p 2 ) nos proporciona una medida de la dependencia lineal de y, y y,. Esta medida, definida covarz'an· para las dos poblaciones correspondientes asociadas a y, y y,, se denomina la covarianxa de y, y y,. Ahora, vamos a denotar la covarianza entre y, y y, por: za

A mayor valor absoluto absoIuto de la covarianza de y, y Yz,se y,,se tendrá una mayor dependencia lineal entre y, y y,. Valores positivos indican que y, se incrementa cuando y, se incrementa; valores negativos indican que Yt 7, disminuye cuando y, se incrementa. Un valor cero de la covarianza indica que no hay dependencia lineal entre y, y y,. Desafortunadamente, el uso de la covarianza como una medida absoluta de dependencia es dificultosa porque su valor depende de la escala de medición. Es por eso que a primera vista sea difícil saber si una covarianza es "grande". Esta dificultad se puede eliminar estandarizando su valor por medio del coeficiente simple de correlación lineal. Luego el coeficiente de correlación lineal de la población,

(donde a, y u, son las desviaciones estándar de y, y y,, respectivamente) está relacionado a la covarianza y toma valores en el intervalo -1 r p r 1. El coeficiente de correlación muestra1 se usa como un estimador de p y se estudia en la mayoría de los cursos introductorios. Para mayor información sobre esta materia se puede consultar Mendenhall(1983, Mendenhall (1983, Capítulo 10).

2.5

ESTIMACiÓN iníerencias,acerca de una poEl objetivo de cualquier encuesta por muestreo es realizar inferencias-acerca blación de interés, partiendo de la información obtenida en una mvestra m\lestra de dicha

25 ESTIMAClON

población. Las inferencias en las encuestas por muestreo son usualmente dirigidas a la estimación de ciertas características numéricas de la población, tales como la media, el total o la varianza. Estas medidas descriptivas numéricas de la población se denominan parámetros. Un estimador es una función de variables aleatorias observables y quizás otras constantes conocidas, usado para estimar un parárnetro. Por ejemplo, la media muestral jy puede ser usada como un estimador de la media poblacional p . La media jy es un estimador, ya que es una función de las observaciones en la muestra. Sin embargo, nótese que yi es una variable aleatoria y tiene una distribución de probabilidad o distribución de muestreo que depende del mecanismo muestral, como se ha señalado en la Sección 2.3. Algunos de los posibles valores que jy puede tomar estarán cercanos a p ¡.L,, y otros pueden estar bastante alejados de p en cualquiera de los lados positivo o negativo. Si nosotros tomamos una muestra y calculamos un valor especifico especlfico como nuestro mejor estimador de 1,desearíamos saber que en promedio yy nos genera valo¡.L.. Enres concentrados alrededor de p y que en general están bastante próximos a p tonces queremos seleccionar un plan de muestreo que nos asegure que E(y) E(?) = ¡.L p y que V(y) V(3)es "pequeña". En general, suponga que (J8 es un estimador del parámetro (J. 8. Dos propiedades deseables para 8 son las siguientes: A

1. E(O)

= (J.

2. V(8) ~ ( 6=)~ es pequeña. insesgado. Con respecto a la proUn estimador que posee la propiedad 1 se dice que es t'nsesgado, piedad 2, no se tratarán estimadores insesgados de mínima varianza en este texto, pero se compararán estimadores insesgados sobre la base de sus varianzas. Si podemos contar con dos estimadores insesgados de 8, generalmente daremos preferencia al que tenga la menor varianza. Aunque la distribución de probabilidad de y, i,un estimador común, dependerá del mecanismo de muestreo y los tamaños de la muestra y la población, en muchas situaciones la media muestral tiende a presentar una distribución simétrica en forma de campana, conocida como distN'budón distribución normal. Esta obseryación obseryación es especialmente cierta si n es grande, digamos n r 30. Una vez que sabemos qué estimador 8 estamos usando en una situación y conocemos algo acerca de su distribución de probabilidad, podemos evaluar la magnitud del error de estimación. Definimos el error de estimación como i(J 18 - 01. 81. ¿Qué (Qué tan bueno será un estimador? No podemos establecer que un estimador observado estará dentro de una distancia especificada de 8 8,, pero podemos, al menos aproximadamente, encontrar un límite B tal que A

P(i8 - (JI :5 B) = 1 -

<a < < 1. Si 6 tiene una distripara cualquier probabilidad deseada 1 - a,donde O < bución normal, entonces B = z,/,~,j, donde z,,, es el valor que separa un área de ( ( ~ 1 2en ) la cola del lado derecho de la distribución normal estándar. La tabulación (a/2) de valores de z,/, se presenta en la Tabla 1 del Apéndice. Si 1 - a = =0.95, entonces, = 1.96, o sea aproximadamente 2. Ya que muchos estimadores que usamos a lo ZO.025 = largo del texto no van a tener una distribución precisamente normal para muchos va-

2 R E V I S I Ó NDE CONCEPTOS BÁSICOS

lores de n y N, y ya que el teorema de Tchebysheff establece que al menos 75% de las observaciones para cualquier distribución de probabilidad estará dentro de dos desviaciones estándar de su media, vamos a usar como un limite para el error de estimación. Este valornos da una p(1 = 0.95 para los casos aproximadamente normales y B) 0.75 en cualquier caso. Nótese que para un 8 normalmente distribuido, un límite que satisfaga cualquier probabilidad deseada (1 - u ) puede ser encontradoa través del uso de la Tabla 1. B)= 1 - entonces -B B) = 1 - u. En esta forma + se denomina i n t e r v a l ode confianza para con coeficiente de confiabilidad (1 - a).La cantidad 8 - B , esllamada el límite inferior de confianza (LIC), y 8 B es llamada el límitesuperior de confianza (LSC).

El Capitulo 2 presenta una breve revisión de los conceptos básicos de la estadística. Para hacer inferencias acerca de una población, se requiere un método de descripción de un conjunto de mediciones y, consecuentemente, se requiere una discusión de histogramas de frecuencias y medidas descriptivas numéricas. Dos medidas numéricas muy útiles son la media y la desviación estándar. Aunque la media es una medida de, tendencia central que se interpreta fácilmente, la desviación estándar adquiere relevancia como una medida de variación únicamente cuando se le interpreta mediante el teorema de Tchebysheff o alguna distribución específica tal como la normal. Otro concepto importante es el papel que desempeña la probabilidad al hacer inferencias acerca de la población. El probabilista razona de una población conocida a una muestra. En contraste, el estadístico usa la probabilidad como el instrumento para hacer inferencias acerca de una población, con base en la información contenida en una muestra. Aunque es deseable una buena formación en probabilidad, el conocimiento de los conceptos básicos de probabilidad y el uso de la probabilidad en el proceso de inferencia proporcionan una formación suficiente para la comprensión de este texto. Las variables aleatorias y sus distribucionesde probabilidad se presentan a fin de proporcionar un fundamento para la descripción de las propiedades de los estimadores de parámetros poblacionales. Las nociones de esperanzas, covarianza y correlación nos ayudan en la evaluación de las propiedades de los estimadores. La estimación de parámetros poblacionales es el método principalmente usado para hacer inferencias en métodos de encuestas por muestreo. El concepto de estimador puntual, con su correspondiente medida de bondad (limite en el error de estimación), es presentado y usado como el método de inferencia en todos los capítulos subsecuentes.

2.1 2.2

¿Cuál es el objetivo de la estadística? En qué se diferencia un curso sobre diseño de encuestas por muestreo del curso introductorio es-

tándarsobre estadística?

¿Por qué es esencial el conocimiento de cómo describir un conjunto de mediciones? {Cómo puede usted describir un conjunto de mediciones? ¿Qué es un parámetro? Enuncie el teorema de Tchebysheff. Muestre que la varianza muestral sZ,dada en la Sección 2.2, es equivalente a

La última forma es usualmente más facil para el c&lculonumerico. Dadas las siguientes n = 20 mediciones muestrales: 1, 2, 0, 2, 2, 4, 0, 3, 1, 2, 3, 2, 0, 1, 2, 2, 4, 2, 1, S.

(a) Calcule la media muestral 7. (b) Calcule S'. (c) <Quéfracción de las mediciones cae dentro de una desviación estándar de la media?, <dos?, {tres? <En qué concuerdan estas fracciones con las dadas por el teorema de Tchebysheff? (Este ejercicio ilustra la efectividad de la desviaci6n estandar como una medida de la variabilidad de un conjunto de mediciones.) Dadas n = 10 mediciones muestrales: 5, 2, 4, 4, 3, 4, 1, 3, 5, 4. (a) Calcule la media muestral. (b) Calcule la varianza muestral. (c) Encuentre la fracción de mediciones que caen dentro de una desviación estándar. Compare ésta con la correspondiente fracción dada por el teorema de tchebysheff y la distribución normal. Explique cuál es el significado del termino distribución de muestreo de la variable aleatoria Y. En la distribución de muespeo de y, <&nose deben relacionar la media y la varianza con la media y la varianza de la población de donde se seleccionb la muestra? {Que es un estimador? {Cómo se evalúa la bondad de un estimador? Describa dos propiedades deseables de un estimador. {Qué es un estimador insesgado? C' {CuPl es el error de estimación? <Cuales un límite razonable para el error de estimación? <Cuáles la importancia del teorema de Tchebysheff al hacer aseveraciones acerca del error de estimación? Suponga que una población consta de las mediciones denotadas por u,, u*, . . . , uN. Una simple observación y es seleccionada aleatoriamente de esta población. Muestre que 1

a 2= ~ ( y ) = -

N 1 (u, - p ) 2

N r=i

donde p es la media poblacional. Genere una distribución de muestreo aproximada de 7 seleccionando 25 muestras del mismo tamaño de una población de mediciones de interés para usted. (Reemplace la primera muestra antes de seleccionar la segunda, de tal manera que cada muestra provenga de la misma población). <Estánde acuerdo las medias muestrales con los resultados discutidos en este capltuio para distribuciones de muestreo?

ELEMENTOS DEL PROBLEMA DE MUEST,REO

Usted recordará que el objetivo de la estadística es hacer inferencias acerca de una población con base en la información contenida en una muestra. Este mismo objetivo motiva el estudio del problema de muestreo. Vamos a considerar el problema particular del muestreo de una colección finita de mediciones (población). Nos referiremos ocasionalmente a poblaciones compuestas de un número infinito de mediciones. En la mayorla de los casos, la inferencia estará en la forma de una estimación de un parámetro poblacional, tal como una media, un total o una proporción con un l h i t e para el error de estimación. Para aquellos más interesados en la metodologfa que en la teoría, se darán argumentos intuitivo5 donde sea poBible justificar el uso de estimadores. La primera parte de nuestra discusión del problema de muestreo introduce ciertos términos técnicos comunes a las encuestas por muestreo. Enseguida trataremos la forma de seleccionar una muestra de la poblaci6n. Cada observación o elemento tomado de la población contiene cierta cantidad de información acerca del parámetro o parámetros de interés. Ya que la información cuesta dinero, el experimentador debe determinar qué tanta información debe comprar. Demasiado poca información impide al experimentador realizar buenas estimaciones; mientras que mucha información ocasiona un despilfarro de dinero. La cantidad de información obtenida en la muestra depende del número de elementos muestreados y de la cantidad de variación en los datos. Este último factor puede ser controlado por el método de selección de la muestra, llamado el dzkeño de Irr encuesta por muestreo. El diseño de la encuesta y el tamaño de la muestra determinan la cantidad de información pertinente a un parámetro poblacional, siempre y cuando se obtengan mediciones exactas en cada elemento muestreado. En la Sección 5.5 se presentan varios diseños de encuestas por muestreo.

3 ELEMENTOS DEL PROBLEMA DE MUESJREO

Si no se obtienen mediciones exactas en cada uno de los elementos de la encuesta, entonces se introducen otros errores. Estos errores se explican en la Sección 3.4. La exactityd de las mediciones puede mejorarse mediante métodos adecuados de recolección de datos, discutidos en la Sección 3.5, y por una buena elaboración del cuestionario, tratado en la Sección 3.6. La Sección 3.7 presenta los principales elementos que uno debe verificar cuidadosamente cuando se planea una encuesta.

La terminología técnica se mantiene en un mínimo en este texto; sin embargo, ciertos términos comunes deben ser definidos. Vamos a explicar estos términos por medio de un ejemplo. En cierta comunidad se realizó una encuesta de opinión para determinar la actitud del público hacia una emisión de bonos en vísperas de una elección próxima. El objetivo de la encuesta fue estimar la proporción de votantes en la comunidad que favorecieron la emisión de bonos.

DEFINICION3.1

Un elemento es un objeto en el cual se toman las medi-

ciones. En nuestro ejemplo, un elemento es un votante registrado en la comunidad. La medición tomada en un elemento es la preferencia del votante respecto de la emisión de bonos. Ya que las mediciones son comúnmente consideradas como números, el experimentador puede obtener datos numéricos registrando un 1 para un votante a favor de la emisión de bonos y un O para un votante que no está a favor.

DEFINICION3.2 Una población es una colección de elementos acerca de los cuales deseamos hacer alguna inferencia. La población en nuestro ejemplo es la colección de votantes en la comunidad. La característica (medición numérica) de interés, para cada miembro de esta población, es su preferencia respecto de la emisión de bonos. Una tarea importante para el investigador es definir cuidadosa y completamente la población antes de recolectar la muestra. La definición debe contener una descripción de los elementos que serán incluidos y una especificación de las mediciones que se van a considerar, ya que estos dos componentes están interrelacionados. Por ejemplo, si la población en el estudio de la emisión de bonos consiste en votantes registrados, entonces uno puede querer recolectar información sobre si cada persona muestreada planea votar o no en la próxima elección. El muestreo de la población objetivo deseada no es siempre posible, y el investigador puede tener que reunir información adicional de tal manera que se obtengan respuestas a las preguntas de interés. Si en nuestro ejemplo la única población disponible para el muestreo es una lista de residentes de la comunidad, entonces se debe recolectar información acerca de si cada persona muestreada es realmente un votante registrado.

DEFINICION3.3 Las unidades de muestreo son colecciones no traslapadas de elementos de la población que cubren la población completa.

En el ejemplo de emisión de bonos, una unidad de muestreo puede ser un votante registrado en la comunidad. Sin embargo, un proceso más eficiente puede ser muestrear hogares, los cuales son colecciones de elementos, para obtener información acerca de las preferencias de los votantes. Si los hogares son las unidades de muestreo, estos deben ser definidos de tal manera que ningún votante en la población pueda ser muestreado más de una vez y que cada votante tenga una oportunidad de ser seleccionado en la muestra. Como la definición lo establece, las unidades de muestreo no deben traslaparse. No obstante, ocurren ocasiones en que la condición de no traslape es prácticamente imposible de lograr. Las muestras de parcelas tomadas, por ejemplo, en estudios de la región donde vive un animal, son frecuentemente circulares. El patrón circular es una forma conveniente en su trazo y tiene ciertas ventajas en términos de la distancia necesaria que se debe caminar para estudiar la parcela. Obviamente, las parcelas circulares no pueden cubrir un campo sin que ocurra algún traslape. La intención en este caso es sugerir que el traslape debe ser lo más pequeño posible para lograr un muestreo eficiente. Si cada unidad de muestra contiene uno y solamente un elemento de la población, entonces una unidad de muestreo y un elemento de la población son idénticos. Esta situación ocurre si muestreamos votantes individuales, en lugar de hogares dentro de la comunidad.

DEFINICION3.4

Un marco es una lista de unidades de muestreo.

Si especificamos al votante individual como la unidad de muestreo, una lista de todos los votantes registrados puede servir como el marco para una encuesta de opinión pública. Nótese que este marco no incluye todos los elementos en la población, porque actualizar la lista diariamente es imposible. Si tomamos el hogar como la unidad de muestreo, entonces un directorio telefónico, un directorio de la ciudad o una lista de jefes de familia, obtenida de los datos del censo, puede servir como un marco. Todos estos marcos presentan inconveniencias. Las listas no estarán actualizadas, y contendrán muchos nombres de jefes de familia no registrados y, por lo tanto, una muestra seleccionada de las listas contendrá muchas unidades que no están en la población. Además, algunos votantes registrados pueden no aparecer en cualquiera de estas listas. Sin embargo, se espera que la separación entre el marco y la población sea lo bastante pequeña como para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. Algunos esquemas de muestreo pueden requerir marcos múltiples. Para muestrear votantes se podría empezar muestreando unidades habitacionales o manzanas de la ciudad, y después muestrear votantes dentro de las unidades habitaciones o manzanas seleccionadas. Por lo tanto, un marco es una lista de unidades habitacionales o una lista de manzanas de la ciudad, y el segundo marco es una lista de los votantes dentro de esas unidades mayores. El segundo marco puede no estar disponible hasta

3 ELEMENTOS DEL PROBLEMA DE MUESTREO

que las unidades habitacionales o manzanas sean seleccionadas y estudiadas con cierto detalle. En otro ejemplo, la estimación de rendimientos de un cultivo en un estado puede involucrar el muestreo de una lista de productores a ser entrevistados y una lista de parcelas para ser medidas objetivamente.

DEFINICIÓN3.5 Una muestra es una colección de unidades seleccionadas de un marco o de varios marcos. Los datos son obtenidos de los elementos de la muestra y usados para describir a la población. Considérese al votante individual como la unidad de muestreo y la lista de votantes registrados como el marco. En la encuesta de opinión pública, cierto número de votantes (la muestra) va a ser entrevistado para determinar su preferencia en la próxima emisión de bonos. Podemos usar la información obtenida de estos votantes para hacer inferencias acerca de la preferencia de los votantes en toda la comunidad.

3.3 COMO SELECCIONAR LA MUESTRA: EL DISENO DE LA ENCUESTA POR MUESTREO El objetivo del muestreo es estimar parámetros de la población, tales como la media o el total, con base en la información contenida en una muestra. Como se ha establecido previamente, el experimentador controla la cantidad de información contenida en la muestra por medio del número de unidades muestrales que incluye en la muestra y por el método usado para seleccionar los datos muestrales. ¿Cómo podemos determinar cuál procedimiento usar y el número de observaciones (unidades muestrales) a incluir en la muestra? La respuesta depende de cuánta información se desee comprar. Si O es el parámetro de interés y 0 es un estimador de O, debemos ~pecificarun límite para el error de estimación; esto es, debemos especificar que 8 y O difieran en valor absoluto en una cantidad menor que B. Representado simbólicamente, error de estimación'= 19 -

Debemos establecer también una probabilidad (1 - a),que especifica la fracción de las veces en muestreo repetido en que requerimos que el error de estimación sea menor que B. Esta condición puede ser establecida como

P [error de estimación

< B] = 1 - cr

Usualmente seleccionamos B = 2ug, y por esto (1 - a)será aproximadamente 0.95 para distribuciones en forma de campana. La mayoría de los estimadores en este libro presentarán una distribución en forma de campana para tamaños de muestra razonablemente grandes, aun cuando la distribución original sea asimétrica. Después de obWner un límite específico con su probabilidad asociada (1 - a), podemos comparar diseños diferentes (métodos de selección de la muestra) para determinar cuál procedimiento proporciona la precisión deseada al mínimo costo. El

3.3 CÓMO SELECCIONAR LA MUESTRA, EL DISENO DE LA ENCUESTA POR MUESTRE0

problema de la selección del tamaño de muestra para obtener un cierto límite para el error de estimación se trata en Mendenhall (1983, Capítulo 8). El diseño básico (muestreo irrestricto aleatorio) consiste en seleccionar un grupo de n unidades muestrales de tal manera que cada muestra de tamaño n tenga la misma oportunidad de ser seleccionada. Entonces, podemos obtener una muestra aleatoria de n votantes elegibles en la encuesta de emisión de bonos, a través de la extracción de nombres de la lista de votantes registrados, de tal manera que cada muestra de tamaño n tenga la misma probabilidad de selección. Los detalles de muestreo irrestricto aleatorio son explicados en el Capítulo 4. Por ahora, simplemente señalamos que una muestra irrestricta aleatoria va a contener tanta información sobre la preferencia de la comunidad como cualquier otro diseño de muestreo, siempre y cuando todos los votantes en la comunidad tengan características socioeconómicas similares. Sin embargo, supóngase que la comunidad consta de personas de dos diferentes grupos de ingresos, alto y bajo. Los votantes en el grupo alto pueden tener opiniones sobre la emisión de bonos que sean muy diferentes de las opiniones de los votantes en el grupo bajo. Es por esto que para información exacta acerca de la población, queremos muestrear votantes de cada grupo. Podemos dividir los elementos de la población en dos grupos o estratos, de acuerdo al ingreso, y seleccionar una muestra irrestricta aleatoria de cada grupo. A la muestra resultante se le llama muestra aleatoria estratijkada. Nótese que la estratificación es llevada a cabo usando el conocimiento de una variable auxiliar, es decir, ingreso personal. Mediante la estratificación en valores alto y bajo del ingreso, incrementamosla exactitud de nuestro estimador. La estimación de razón es un segundo método que usa la información contenida en una variable auxiliar. Los estimadores de razón usan no solamente las mediciones en la respuesta de interés, sino que incorporan mediciones sobre una variable auxiliar. La estimación de razón puede también utilizarse con muestreo aleatorio estratificado. Aunque se desean preferencias individuales en la encuesta, un procedimiento más económico, especialmente en áreas urbanas, puede ser el muestrear familias específicas, edificios de departamentos o manzanas de la ciudad, en lugar de votantes individuales. Las preferencias individuales pueden ser obtenidas de cada votante elegible dentro de cada unidad muestreada. Esta técnica es llamada muestreo por conglomerados. Aunque la población ha sido dividida en grupos, tanto en muestreo por conglomerados como en muestreo aleatorio estratificado, las técnicas son diferentes. En muestreo aleatorio estratificado tomamos una muestra aleatoria simple en cada estrato; mientras que en muestreo por conglomerados tomamos una muestra aleatoria simple de grupos y entonces muestreamos todos los elementos de los grupos seleccionados (conglomerados). Algunas veces, los noybres de las personas en la población de interés se encuentran en un listado, tal como una lista de registro, o en tarjetas de archivo almacenadas en un tarjetero. Para esta situación, una técnica económica es extraer la muestra mediante la selección de un nombre cerca del principio de la lista y luego seleccionar cada diez o quince nombres después del anterior. Si el muestreo es conducido de esta manera, obtenemos una muestra sistemática. Como puede esperarse, el muestreo sistemático ofrece un medio conveniene de obtener información muestral; desafortunadamente, no necesariamente obtenemos la mayor información con una cantidad de dinero especificada. $ Sabemos que las observaciones cuestan dinero. Nótese que el costo de una observación puede variar de un diseño a otro, aun dentro de un mismo diseño, dependiendo

3 ELEMENTOS DEL PROBLEMA DE MUESTRE0

del método de recolección de la información. El experimentador debe elegir el diseño que proporcio$ el límite deseado de error con el menor número de observaciones (suponiendo el midmo costo por observación). Sin embargo, si el costo por observación varía de un diseño a otro, el experimentador debe elegir el diseño que proporciona el límite deseado del error de estimación al mínimo costo.

3.4 FUENTES DE ERROR EN LAS ENCUESTAS El error de estimación estudiado en la Sección 3.3 se debe a que una muestra no proporciona información completa sobre una población. Esta clase de error es llamada error de muestreo. El error de muestreo puede ser controlado por un diseño cuidadoso de la encuesta, tema que se tratará en los capítulos subsecuentes de este libro. Sin embargo, otro tipo de errores puede introducirse imperceptiblemente a la encuesta y éstos son más difíciles de controlar. Estos errores, llamados errores no de muestreo, son debidos principalmente a la no respuesta, respuesta inexacta y sesgo de selección. La primera causa de error, no respuesta, es importante, ya que la no respuesta a una pregunta hecha a un individuo seleccionado para ser incluida en la muestra puede introducir un sesgo en los datos muestrales. Las personas que responden en la muestra pueden no representar la población acqca de la cual deseamos hacer inferencias. Por ejemplo, en una encuesta para determinar la aceptación de los empleados del pago de una cuota mensual por estacionamiento, es bastante probable que únicamente las personas que se opongan enérgicamente al pago de la cuota sean quienes respondan a un cuestionario enviado por correo. Si consideramos el porcentaje de respondientes que están a favor del pago de la cuota, probablemente obtendremos una estimación distorsionada de los porcentajes verdaderos para la población entera. El segundo problema es que los respondientes o equipos de medición dan frecuentemente información falsa. Por ejemplo, si a una persona se le pregunta si ha falseado información en su declaración de impuestos al ingreso; por temor a ser descubierta, es probable que responda negativamente, sea que lo haya hecho o no. La misma persona puede, sin embargo, dar una respuesta verdadera a la misma pregunta en un cuestionario que le ha sido enviado por correo. En otro ejemplo, las áreas forestales medidas en fotografias aéreas pueden siempre resultar con una medición alta o baja, debido a una calibración impropia del planímetro. Las respuestas inexactas son algunas veces causadas por errores de definición en las preguntas de la encuesta. Por ejemplo, en una encuesta sobre empleo, ¿quésignifica el término desempleado? ¿Incluyea los desempleados que han dejado de buscar trabajo, adolescentes que no pueden encontrar trabajo en vacaciones, aquellos que pierden su trabajo de tiempo parcial, etc.? Aun términos simples, como número de años de educación, pueden ser mal interpretados fácilmente. ¿Incluyela educación únicamente el conocimiento formal en la escuela primaria, secundaria y en la universidad, o también incluye entrenamiento técnico, clases en el trabajo e institutos de verano? Los aspectos a ser medidos en una encuesta deben ser definidos precisamente y capaces de ser medidos sin ambigüedades. El tercer problema concierne a los cambios arbitrarios en los elementos muestrales. Los datos deben ser obtenidos de las unidades muestrales exactas que fueron selec-

3.4 FUENTES DE ERROR EN LAS ENCUESTAS

&nadas de acuerdo al diseño de muestreo. Un entrevistador no debe sustituir por el vecino más próximo a una persona que fue seleccionada. Teóricamente, las muestras seleccionadas de acuerdo con un diseño tienen probabilidades conocidas asociadas a ellas. Las probabilidades conocidas nos permiten calcular los valores esperados y las varianzas de los estimadores, tales como media muestral, y eqtQnces determinar la bondad de estos estimadores. Si se hacen sustituciones fortuitas en la muestra, esta estructura probabilística es alterada y la bondad del estimador es incierta. En la práctica, las sustituciones fortuitas pueden sesgar los resultados. Por ejemplo, suponga que los vecinos más próximos han sustituido a las personas que no están en casa. Esta sustitución nos puede llevar a una muestra que contenga una indebida proporción alta de familias con niños. Si la respuesta depende del número de niños en la familia, la estimación resultante estará sesgada. Uno de los errores clásicos en la historia de las encuestas de opinión fue originado por errores no de muestreo, relacionados con la no respuesta, y una selección deficiente del marco. El Literay Digest intentó predecir el resultado de las elecciones presidenciales de 1936, a través del envío de cuestionarios en tarjetas postales a 10 millones de personas; seleccionadas, obviamente, de los suscriptores del Digest, directorios telefónicos y dueños de automóviles. Las 2,376,523 tarjetas que fueron contestadas mostraron a Landon como ganador sobre Roosevelt por 57% a 43%. Sin embargo, Roosevelt ganó la elección por 62.5% a 37.5%. El gran error pudo haberse debido parcialmente al marco, que estuvo ponderado hacia personas de altos ingresos; pero, ciertamente, la tasa alta de no respuesta fue un factor determinante. De acuerdo al relato en su libro The Sophisticated Po11 Watcher's Guide, George Gallup encuestó una submuestra de 3000 de los 10 millones encuestados por el Digest, y predqo que la encuesta del Digest iba a resultar 56% para Landon y 44% para Roosevelt. Además, otra encuesta de Gallup predijo que Roosevelt ganaría con 56% de los votos. El error en la encuesta de Gallup fue también de tamaño considerable, pero mucho menor que el error en la encuesta del Dzgest, aun cuando ésta tuvo mucha mayor respuesta. Para mayores detalles sobre este interesante caso, lea el artículo de Maurice C. Bryson, listado en la Bibliograña, en el Apéndice. Los errores no de muestreo pueden ser controlados mediante una atención cuidadosa en la construcción de los cuestionarios y en los detalles del trabajo de campo. Estos errores en las encuestas pueden ser minimizados siguiendo los puntos presentados en las siguientes subsecciones.

La no respuesta puede ser minimizada teniendo preparado un plan ciudadoso para reentrevistas sobre los elementos muestreados. Un número fijo de reentrevistas debe ser requerido para cada elemento muestreado, y esas reentrevistas deben ser en diferentes días de la semana y a diferentes horas del día. Un método específico para determinar el número apropiado de reentrevistas va a ser presentado en el Capitulo 11. EP importante obtener algunas respuestas en al menos un subconjunto de las no respuestas originales, de tal manera que se puedan eliminar factores grandes de sesgo. Por ejemplo, al recabar opiniones sobre legislación para el control de armas, se debe estar seguro de que quienes no respondieron no hayan sido personas que favorecen el control de armas, aun cuando no lo suficiente como para molestarse en responder el cuestionario.

3 ELEMENTOS DEL PROBLEMA DE MUESTREO

En algunas ocasiones, una táctica apropiada para estimular las respuestas es ofrecer un premio por la respuesta. &te premio puede ser un pago en efectivo para la persona que accede a participar en un estudio. O en estudios de productos para el consumidor, se le puede dar al participante una provisión del producto. Los premios deben ser ofrecidos a participantes potenciales en un estudio únicamente después de que han sido seleccionados para la muestra mediante algún procedimiento objetivo. El tomar como la muestra a aquellos que responden a un premio anunciado no suele ser apropiado, ya que quienes responden a tal aliciente pueden ser no representativos de la población objetivo. Los incentivos para la respuesta son particularmente de mucha ayuda para muestras de grupos que tienen un interés particular en el problema que se estudia. Los automovilistas asegurados pueden estar más dispuestos a responder un cuestionario sobre seguros de automóviles si en la portada se presenta una circular de la oficina del inspector estatal de seguros, en la que se establece que los resultados pueden ayudar a promover tarifas más bajas. Los cazadores responderán a un cuestionariosobre prácticas de gestión cinegética si se les asegura que los resultados pueden mejorar las condiciones de cacería. Se pueden dar muchos ejemplos similares, pero el punto importante es que la gente está más dispuesta a responder a una encuesta si ve que puede obtener algunos beneficios de los resultados.

ENTREVISTADORES ADIESTRADOS La habilidad de un entrevistador está directamente relacionada a la calidad y cantidad de la informacion resultante de una encuesta, ya sea que la entrevista sea en persona o por teléfono. Los buenos entrevistadores pueden hacer las preguntas de tal manera que se estimule a respuestas honestas, y pueden notar la diferencia entre quienes realmente desconocen la respuesta y aquellos que simplemente no desean contestar. Los entrevistadores recientemente contratados deben ejercitarse con respondientes tlpicos, como aquellos que se pueden encontrar en el campo. Estas sesiones de preparación deben efectuarse con la supervisión de entrevistadores experimentados, que puedan evaluar la entrevista y sugerir mejoras en la técnica de entrevista.

VERIFICACI~N DE DATOS Los cuestionarios completados deben ser cuidadosamente analizados por alguien diferente al entrevistador, para verificar si han sido llenados correctamente. En esta etapa, y después nuevamente, si los datos se introducen en una computadora, se debe revisar la información mediante un sistema preestablecido para detectar errores reconocibles en la información. Las amplitudes de las mediciones pueden ser verificadas para separar los casos en que, digamos, la edad de una persona es listada como 1040, o una familia es anotada como que tiene 53 hijos con una edad menor a 12 años. Los datos pueden comprobarse en un cuestionario bien diseñado para ver, por ejemplo, si la edad indicada por el respondiente coficuerda con el año de nacimiento anotado. Datos aritméticos sencillos -por ejemplo, las proporciones deben estar entre O y 1 y las horas por dla, asig-

35 MÉTOCOS DE RECOLECCiÓN DE DATOS

nadas a diferentes tareas en el trabajo. no pueden sumar más de 24- pueden ser incluidos en estas verificaciones de datos. La verificación rápida de datos. para que las respuestas dudosas puedan ser corregidas mientras el respondiente está aún disponible. es un aspecto muy importante para el buen éxito de una encuesta por muestreo. Después de que todas las respuestas han sido recolectadas y los datos están siendo analizados. se pueden hacer verificaciones adicionales. Los resultados de la encuesta deben ser representativos de la población, y algunas veces los datos de la muestra pueden ser verificados con datos conocidos de la población, para ver si existen áreas potenciales de problemas. Por ejemplo, si la población tiene 50% de mujeres, pero la muestra s6lo presenta un 10%. puede haber errores serios en el resumen de las mediciones promedio en hombres y mujeres. Si el ingreso promedio para los respondientes en la encuesta es bastante bajo con respecto al valor reportado por otras fuentes, comparado con el valor promedio de la población objetivo. grandes errores pueden aparecer en la recopilación de las variables relacionadas con el ingreso. Algunos de esos problemas potenciales pueden ser resueltos mediante un incremento en la muestra o cambiando la forma de análisis. pero aun si estos problemas no son resueltos, cualquier inconsistencia debe ser señalada en el análisis final.

CONS'rRUCClóN DEL CUESTIONARIO Después de seleccionar la muestra, el componente más importante de una encuesta bien estructurada, informativa y exacta es un cuestionario diseñado apropiadamente. Este asunto es el tema de la Sección 3.6.

3.5 METODOS DE RECOLECCiÓN DE DATOS Los métodos más comúnmente utilizados en la recolección de datos en las encuestas por muestreo son las entrevistas personales y las entrevistas por teléfono. Estos métodos, con entrevistadores adecuadamente adiestrados y reentrevistas cuidadosamente planeadas, suelen alcanzar tasas de respuesta de 60% a 75%. y algunas veces estas tasas pueden ser aún mayores. Un cuestionario enviado por correo a un grupo especifico de personas interesadas. puede obtener buenos resultados; pero, generalmente. las tasas de respuesta para este tipo de recolección de información son tan bajas. que los resultados no son confiables. Frecuentemente, se puede encontrar información objetiva a través de observación directa, más que de una entrevista o de un cuestionario enviado por correo. Estos cuatro tipos de recolección de datos se tratarán en las siguientes subsecciones.

ENTREVISTA PERSONAL Los datos son frecuentemente obtenidos mediante entrevistas personales. Por ejemplo, podemos usar entrevistas personales con votantes elegibles para obtener una muestra de la actitud pública hacia una emisión de bonos municipales. El procedimiento generalmente requiere que el entrevistador realice preguntas preparadas y registre las respuestas del entrevistado. La ventaja primordial de estas entrevistas es que la gente

28 usualmente responde cuando es confrontada en persona. Además. el entrevistador puede notar reacciones especificas y eliminar malos entendidos acerca de las preguntas hechas. La mayor limitación de la entrevista personal (apane del costo involucrado) está relacionada con los entrevistadores. Sí no están cabalmente adiestrados, pueden desviarse del protocolo requerido. introduciendo un sesgo en los datos muestrales. Cualquier movimiento. expresi6n facial o aseveración hecha por el entrevistador puede afectar la respuesta obtenida. Por ejemplo, una pregunta insinuante, como: "¿Está usted también a favor de la emisión de bonos?". puede tender a originar una respuesta positiva. Finalmente, errores en los registros de las respuestas pueden también inducir a resultados erróneos,

ENTREVISTAS POR TELEFONO La información puede también ser obtenida de las personas en la muestra a través de entrevistas por teléfono. Con la instalación de líneas de servicio telefónico para áreas amplias (ilneas STAA). un entrevistador puede hacer cualquier n6mero de llamadas a áreas específicas del país por una cuota fija mensuaL Las encuestas realizadas a través de entrevistas telefónicas son frecuentemente menos costosas que las entrevistas personales, debido a la eliminación de gastos de transporte, El investigador puede también escuchar la entrevista para asegurarse de que se está siguiendo el procedimiento especificado para la entrevista, Un problema importante en las encuestas por teléfono es el establecimiento de un marco que corresponda fielmente a la población. Los directorios telefónicos tienen muchos números que no corresponden a hogares, y muchos hogares tienen números que no aparecen en el directorio. Unos pocos hogares no tienen ser»icio telef6nico, aunque la falta de tal servicio es ahora un problema menor para la mayorfa de las encuestas en los Estados Unidos de América. Una técnica que evita el problema de números no listados es marcar los dígitos aleatoriamente. En este método se selecciona un número de un área telef6nica (los primeros tres dígitos de un número con siete) y los últimos 4 dígitos son marcados aleatoriamente. hasta que se obtienen determinados hogares de un tipo especificado, Esta técnica parece producir muestras insesgadas de hogares en determinadas poblaciones objetivo, y evita los problemas de tratar de muestrear un directorio telefónico .. Las entrevistas por teléfono generalmente deben realizarse en un periodo más cono que las entrevistas personales, porque los entrevistados tienden a impacientarse más fácilmente cuando se está hablando por teléfono. Con cuestionarios propiamente diseñados y entrevistadores adiestrados. las entrevistas por teléfono pueden ser tan exitosas como las entrevistas personales. [Véase Schuman y Presser (1981) para mayores detalles,)

CUESTIONARIOS AUTOAPlICADOS Otro método útil de recolección de datos es el cuest¡'onan'o autoaplicado. el cual es administrado por el respondiente, Estos cuestionarios usualmente son enviados por correo a los individuos incluidos en la muestra, aunque se pueden usar otros métodos de distribución. El cuestionario debe ser cuidadosamente construido si se desea estimular la participación de los respondientes. El cuestionario autoaplícado no requiere entrevistadores. por lo que su uso produce un ahorro en el costo de la encuesta. Este ahorro en el costo es usualmente obte-

3.6 DISENO DE UN CUESTIONARIO

nido a expensas de una tasa de respuesta más baja. La no respuesta puede ser un problema en cualquiera de las formas de recolección de datos; pero en un cuestionario enviado por correo, frecuentemente tenemos la menor tasa de respuesta, ya que tenemos el menor contacto con los respondientes. La baja tasa de respuesta puede introducir un sesgo en la muestra, porque la ge e que contesta los cuestionarios puede no ser representativa de la población de interés. Para eliminar algo de este sesgo, los investii gadores comúnmente establecen contacto con los no respondientes a través de cartas de seguimiento, entrevistas por teléfono o entrevistas personales.

OSERVACION DIRECTA El cuarto método de recolección de datos es la obsemción directa. Por ejemplo, si estamos interesados en estimar el número de camiones que circulan por determinado camino durante las horas de mayor tránsito, 4-6 P.M., podemos asignar a una persona para contar el número de camiones que pasan por un punto especificado durante este periodo. Posiblemente se utilizaría un equipo de conteo electrónico. La desventaja de usar un observador estriba en la posibilidad de errores en la observación. La observación directa es usada en muchas encuestas que no requieren mediciones en las personas. El Departamento de Agricultura de Estados Unidos, por ejemplo, obtiene mediciones de algunas variables referentes a cultivos en ciertas secciones de las parcelas, para obtener estimaciones de rendimiento de cultivos, Los biólogos que estudian las poblaciones salvajes, pueden contar animales, huellas de animales, huevos o nidos para estimar el tamaño de poblaciones de animales. Un aspecto que se relaciona con lo anterior es el de obtener información de fuentes objetivas que no son afectadas por los propios respondientes: la información sobre salud puede obtenerse de los expedientes de un hospital; la información sobre ingresos, de registros de los empleadores (especialmente para trabajadores del gobierno federal y estatal). Este procedimiento puede tomar más tiempo, pero puede producir grandes recompensas en encuestas importantes.

3.6 DISENO DE UN CUESTIONARIO Como ya se ha mencionado, un objetivo de cualquier diseño de encuesta es minimizar los errores no de muestreo que pueden ocurrir. Si una encuesta es para obtener información de personas, entonces deben considerarse muchas fuentes potenciales de errores no de muestreo, y se espera que éstos sean controlados por el diseño cuidadoso del cuestionario. Vamos a tratar brevemente la construcción del cuestionario en esta sección, pero es un tema muy importante que debe ser ampliamente investigado por aquellos que intenten diseñar cuestionarios complejos para encuestas. Una referencia excelente, y sobre la cual basamos extensivamente la discusión que sigue, es Schurnan y Presser (1981). Algunos problemas importantes en la construcción del cuestionario son esbozados en las siguientes subsecciones.

ORDENAMIENTO DE LAS PREGUNTAS Las personas que responden a cuestionarios generalmente tratan de ser consistentes en sus respuestas a las preguntas. La consistencia del respondiente puede ocasionar que el

3 ELEMENTOS DEL PROBLEMA DE MUESTRE0

ordenamiento de las preguntas afecte las respuestas, algunas veces de maneras que parecen impredecibles para el investigador inexperto. Un ejemplo presentado por Schuman y Presser (19'81) ilustra este punto. Se realizó un experimento con las siguientes dos preguntas: A. ¿Considera usted que Estados Unidos debe permitir a reporteros de periódicos comunistas de otros países venir y enviar a sus periódicos las noticias tal como ellos las ven? B. ¿Considera usted que un país comunista como Rusia debe permitir acceso a reporteros de periódicos estadounidenses y enviar a Estados Unidos las noticias tal como ellos las ven? Para encuestas de 1980, en las cuales las preguntas aparecieron en el orden (A, B), 54% de 10s respondientes contestó sí a A y 65.7% contestó sí a B. Para encuestas en las cuales las preguntas aparecieron en el orden (B, A), 74.6% contestó sí a A y 81.9% contestó sí a B. Así, la evidencia sugiere que haciendo primero la pregunta B se ubica a los respondientes en un marco de actitud más complaciente respecto de permitir reporteros comunistas en Estados Unidos. En otras palabras, los que contestaron sí a B, cuando esta pregunta fue hecha primero, trataron de ser consistentes y respondieron también sí a una pregunta similar. A. Entonces, el contexto en el cual se hace una pre-\ gunta es muy importante, y debe ser entendido y explicado en el análisis de los datos del cuestionario. El orden es también importante en la posición relativa de preguntas específicas y preguntas generales. Se les puede preguntar a los respondientes las siguientes preguntas: A. ~Apoyaríausted un aumento en los impuestos para educación? B. ~Apoyaríausted un incremento en los impuestos? No sería muy extraíío encontrar más gente apoyando B si es preguntada en el orden (B, A), que si es preguntada en el orden (A, B). Si la pregunta A es hecha primero, las pemnas que apoyan los impuestos para la educación, y contestan afirmativamente a A, pueden pensar que B implica un aumento en los impuestos que no se destinan a la educación, y pueden contestar no a esta pregunta. Si B es preguntada primero, las mismas personas que apoyan más impuestos para educación pueden responder afirmativamente, ya que no han visto aún una pregunta específica sobre impuestos para educación. La actitud hacia una pregunta en una encuesta es muy frecuentemente determinada o cambiada por preguntas anteriores, relacionadas con el mismo tema. Schuman y Presser señalan que se reportaron más casos delictivos cuando se hizo la pregunta después de una serie de preguntas relacionadas con la delincuencia, que cuando se hizo la pregunta específica. Evidentemente, las preguntas sobre la delincuencia ayudaron a la persona que estaba contestando a recordar pequeños incidentes -cuando ésta fue víctima de un delito-, que de otra manera podrían ser olvidados. Las actitudes hacia el gobierno pueden ser bastante negativas después de una serie de preguntas que destacan el despilfarro y la ineficiencia del gobierno, y pueden ser mucho más positivas después de una serie de cuestiones que destacan las necesarias y oportunas funciones que realiza el gobierno. En una serie de preguntas que requieren categorizaciones, la primera pregunta es considerada desde un punto de vista diferente a las que le siguen, y tiende a recibir las categorizaciones más extremas. Por ejemplo, suponga que se pide a una persona que clasifique cierto número de posibles sitios vacacionales, con cada uno recibiendo

3 6 DISENO DE UN CUESTIONARIO

un número entre 1 y 1 0 , donde 1 0 significa muy bueno. Si el primer lugar le parece bueno al respondiente, va a tender a clasificarlo cerca de 1 0 y los otros tenderán a ser clasificados más bajo. Si el primer sitio le parece desagradable al respondíente, va a tender a ser clasificado cerca de 1 y los otros van a tender a ser clasificados más alto. Entonces, dentro del grupo de los sitios agradables, cada uno tenderá a recibir su más alta clasificación cuando aparezca primero en la lista. Asimismo, cada uno de los sitios malos tenderá a recibir su más baja clasificación cuando aparezca primero en la lista. Evidentemente, el primer lugar en la lista se utiliza como un punto de referencia, y los otros objetos son clasificados arriba o abajo en relación con el primer objeto. Para muchas preguntas de la encuesta, el orden de las posibles respuestas (o elecciones) a una pregunta particular es tan importante como la posición de las preguntas en el cuestionario. Si a una persona que está siendo entrevistada se le presenta una larga lista de posibles elecciones, o si cada posible elección es difusa o dificil de interpretar, entonces la persona tenderá a contestar con la más reciente elección (la última en la lista). Si un respondiente debe elegir entre una larga lista escrita, entonces los objetos que van apareciendo hacia el tope de la lista tienen una ventaja de selección. Por ejemplo, considérese la elección de candidatos para empleo de una larga lista: aquellos que están hacia el tope de la lista tienden a ser elegidos. En una lista de elecciones simples, tales como muy de acuerdo, de acuerdo, desacuerdo y muy en desacuerdo, en una encuesta sobre actitudes, las opciones tienden a recibir sus más altas frecuencias cuando aparecen primero. Esto es, la proporción que está muy de acuerdo tenderá a ser mayor cuando esta opción aparezca primero que cuando aparezca en cuarto lugar en la lista. Los investigadores que van a diseñar un cuestionario deben tener cuidado con los problemas comunes de ordenamiento de pregunta y respuesta. Deben tratar de contrarrestar problemas potenciales, considerando las siguientes técnicas. 1. Impresión de cuestionarios con diferentes ordenamientos para diferentes subconjuntos de la muestra. 2. Usar letreros o repetición de las preguntas tan frecuentemente como sea necesario en una entrevista, de tal manera que la pregunta y posibles respuestas sean claramente entendidas. 3. Explicación cuidadosa en el análisis de los datos del contexto en el cual se +o la pregunta.

'PREGUNTASABIERTAS CONTRA PREGUNTAS CERRADAS Ya que los cuestionarios actuales son frecuentemente diseñados para ser contabilizados electrónicamente después de ser completados, mediante un formulario que facilite el manejo por computadora, la mayoría de las preguntas deben ser preguntas cerradas. Esto es, cada pregunta debe tener .una respuesta numérica simple (como la edad del respondiente) o un número fijo de selecciones predeterminadas, una de las cuales debe ser elegida por el respondiente. Aunque las preguntas cerradas permiten una fácil codificación y análisis, deben considerarse las preguntas abiertas, en las cuales se permite al respondiente la libre expresión de una respuesta no estructurada. Las preguntas abiertas permiten al respondiente expresar algunas peculiaridades y matices del significado de la respuesta.

ELE~J1ENTOS

DEL PPOBLEMA DE MUESTREO

Pero esto puede ocasionar grandes dificultades en el análisis, porque las respuestas pueden no ser fácilmente cuantificables y pueden ser prácticamente imposibles de comparar entre los cuestionarios. En contraste, las preguntas cerradas pu.eden no siempre proporcionar las opciones apropiadas, y las opciones listadas pueden por sí mismas influenciar la opinión de la persona que está contestando. Sin embargo, una vez que el cuestionario ha sido completado, el manejo de los datos es :rutinario y se pueden construir fácilmente resúmenes estadísticos válidos sobre las respuestas reportadas. Una pregunta abierta típica, similar a las realmente usadas en las encuestas Gallup, es como sigue: ¿Cuál es el problema más importante que actualmente enfrenta Estados Unidos? Esta pregunta, de la forma en que está hecha, puede proporcionar resultados significativos, ya que mucha gente va a elegir problemas similares como los más importantes. Sin embargo, sus elecciones pueden ser forzadas dentro de categorías predeterminadas mediante la siguiente pregunta cerrada: El problema más importante que actualmente enfrenta Estados Unidos es (marque uno): a. seguridad nacional. b. delincuencia. c. inflación. d. desempleo. e. déficit prespuestarios. Se puede observar que cualquier forma cerrada para esta pregunta va a limitar las opciones y puede forzar a los respondientes a una respuesta que no necesariamente va a ser su primera elección. Un buen plan para diseñar una pregunta cerrada con opciones apropiadas es usar una pregunta abierta similar en una prueba del cuestionario; y luego seleccionar como opciones fijas aquellas que representan con mayor fidelidad las elecciones expresadas en las respuestas abiertas. Obtener una lista corta de opciones de las preguntas abiertas no va a ser siempre fácil, pero este procedimiento proporcionará opciones más realistas que las obtenidas por mera especulación.

OPCiÓN DE RESPUESTA En casi cualquier pregunta que puede ser hecha, alguien siendo entrevistado querrá decir que no sabe o que no tiene una opción. Ya que tales respuestas no dan información útil acerca de la pregunta y esencialmente reducen el tamaño de muestra, una práctica común en las encuestas es evitar el uso de esas opciones. El respondiente es forzado a elegir entre las respuestas informativas listadas, a menos que el entrevistador decida que simplemente no se puede hacer tal elección. Sin embargo, forzar a la gente a tomar decisiones sobre cuestiones que desconoce parece ser inapropiado. Entonces, un buen cuestionario debe proporcionar preguntas seleccionadas para determinar si el entrevistado tiene suficiente información para formarse una opinión acerca de un determinado problema. De ser así, la pregunta principal se hace sin la opción "no opina". De lo contrario, la pregunta debe ser evitada.

En otras palabras, las preguntas acerca de las cuales casi todo mundo tiene suficiente información para formarse una opinión, tales como un cumplimiento más estricto de las leyes sobre límites de velocidad para los conductores de automóviles, deben ser establecidas sin la opción "no opina". Las preguntas de naturaleza detallada, limitada o específica, tales como preguntas sobre reglamentos municipales recientemente emitidos, deben ser consideradas previamente mediante preguntas seleccionadas para saber si el entevistado tiene alguna información sobre ese aspecto. Aun después de que la opción "no opina" ha sido eliminada de una pregunta, permanece el problema de determinar cuántas opciones se deben permitir. Frecuentemente, los cuestionarios pretenden polarizar la opinión hacia uno u otro lado, como en la siguiente pregunta: {Cónsiderausted que el cumplimiento de las leyes de tránsito en la ciudad es muy estricto o muy complaciente? Aquí no se ofrecen opciones intermedias. Una razón por la que no se permiten elecciones intermedias, tales como "me parece correcta la forma en que se está haciendo", es que los entrevistados pueden tomar esta elección con demasiada frecuencia sólo pari? salir del paso. La opción de dos elecciones fuerza a la persona entrevistada a interpretar la dirección de la respuesta, pero el entrevistador debe explicar que se pueden tomar en cuenta diversos grados de rigidez o tolerancia. "{A qué polo estoy más cercano?", es el punto al cual se quiere llevar al entrevistado. Por supuesto, si se quieren categorizar los grados de rigidez o tolerancia en esta pregunta, entonces se deben presentar más de dos opciones. Sin embargo, los diseñadores de cuestionarios desean conservar el número de opciones tan pequeño como sea posible.

REDACCIONDE LAS PREGUNTAS Aun para las preguntas en las cuales el número de opciones está claramente determinado, el diseñador debe considerar las palabras que componen la parte principal de la pregunta. Preguntas "Sí-No", como {Apoya usted la aplicación de la pena de muerte?, deben ser hechas en una forma más equilibrada, tal como: {Apoya usted la pena de muerte o se opone a ella? Algunas preguntas conllevan inherentes sólidas proposiciones y contraproposiciones. Schuman y Presser (1981, p. 186) muestran resultados para la comparación de las siguientes preguntas: A. {Si en una compañía o negocio particular existe un sindicato, considera usted que es .necesarioque todos los trabajadores sean miembros del sindicato, o se opone usted a esto?

B. {Si en una compañía o negocio particular existe un sindicato, considera usted que es necesario que todos los trabajadores sean miembros del sindicato, o se debe dejar a cada individuo decidir si quiere o no estar en el sindicato? Entre las personas a quienes se les hizo la pregunta A, 32.1% respondió que se debe requerir a los trabajadores que sean miembros del sindicato; pero de quienes contestaron la pregunta B, únicamente 23% respondió de esta manera. La pregunta B tiene una firme contraproposición en la segunda fase de la pregunta. Las personas que no tienen sólidas inclinaciones hacia cualquier tendencia son particularmente suscep-

3 ELEMENTOS DEL PROBLEMA DE MUESTRE0

tibles a fuertes proposiciones o contraproposiciones en el texto de la pregunta. De nuevo, las preguntas deben hacerse en forma equilibrada, con un mínimo de proposiciones o contraproposiciones en su contenido. Algunas veces el entrevistado puede tender a mostrar acuerdo con el entrevistador cuando la pregunta es sugerente. Por ejemplo, la pregunta: ¿Está usted de acuerdo en que los tribunales son muy tolerantes con los transgresores de la ley?, recibirá muchas más respuestas afirmativas que las que debiera, simplemente porque la respuesta parece concordar con la noción del entrevistador de la respuesta correcta. Las preguntas sugerentes deben ser replanteadas en una forma equilibrada, como se indicó anteriormente en esta subsección. Las respuestas a muchas preguntas pueden ser radicalmente alteradas tan sólo debido a una elección apropiada o inapropiada de palabras. Schuman y Presser (1981, p. 277) informan sobre estudios de las siguientes preguntas: A. ¿Considera usted que Estados Unidos debe prohibir discursos públicos contra la democracia? B. ¿Considera usted que Estados Unidos debe permitir discursos públicos contra la democracia? En un estudio de quienes contestaron la pregunta A, el 21.4% respondió sí; mientras que de los que contestaron la pregunta B, el 47.8% respondió no. Las personas son algo renuentes a prohibir discursos públicos contra la democracia, pero están mucho más dispuestas a no permitir tales discursos. Prohibir es una palabra enérgica y produce una actitud negativa que muchos no pueden consentir. Permitir es una palabra mucho más tolerable y no produce aflicción. El punto importante a recordar es que el tono de la pregunta, determinado por las palabras empleadas, puede tener un impacto significativo en las respuestas. Las preguntas también deben ser hechas en términos claramente definidos para minimizar los errores en la respuesta. Una pregunta como: ¿Qué tanta agua toma usted?, es demasiado vaga. Puede ser replanteada como sigue: Aquí está un vaso de 1/4 de litro, sosténgalo usted. {Cuántos vasos de 1/4 de litro de agua toma usted diariamente? Si el total de agua tomada es importante, el entrevistador debe recordar a la persona que café, té y otras bebidas son mayormente agua. Asimismo, una pregunta como: ¿Cuántos niños hay en su familia?, es demasiado ambigua. Puede ser replanteada como sigue: (Cuántas personas menores de 21 años viven en su hogar y reciben de usted más de la mitad de su apoyo financiero? De nuevo, la pregunta debe ser especffica, con todos los componentes bien definidos. Muchas más cosas podrían discutirse sobre el tema de la construcción del cuestionario. Pero los aspectos presentados aquf son los más importantes y cada uno debe ser considerado muy cuidadosamente antes del inicio del muestreo.

3.7 PLANEACIÓNDE UNA ENCUESTA

3.7 PLANEACIONDE UNA ENCUESTA Ahora revisaremos y ampliaremos algunas de las ideas presentadas en secciones previas en la forma de una lista de cotejo. Cada aspecto en la lista debe ser cuidadosamente considerado en la planeación de cualquier encuesta.

ESTABLECIMIENTO DE OBJETIVOS. Establezca los objetivos de la encuesta de una manera clara y concisa, y remítase a estos objetivos conforme se vaya progresando en el diseño e instrumentación de la encuesta. Mantenga los objetivos suficientemente simples, de tal manera que sean entendidos por quienes trabajan en la encuesta y sean logrados exitosamente cuando se complete la encuesta.

P O B L A C I ~ OBJETIVO. N Defina cuidadosamente la población que va a ser muestreada. Si los adultos van a ser muestreados, entonces defina qué se entiende por adulto (todos aquellos con más de 18 años de edad, por ejemplo), y establezca qué grupo de adultos está incluido (todos los residentes permanentes de: una ciudad, por ejemplo). Tenga presente que se va a obtener una muestra de esa población, y defina la población de tal manera que la selección sea factible.

E L MARCO. Seleccione el marco (o marcos) de tal manera que la lista de unidades muestrales y la población objetiva concuerden lo más posible. Tenga en cuenta qué marcos múltiples pueden hacer el muestreo más eficiente. Por ejemplo, los residentes de una ciudad pueden ser muestreados de una lista de manzanas de la ciudad, relacionada con una lista de residentes dentro de las manzanas.

DISENO DE MUESTREO. Seleccione el diseño de muestreo, incluyendo el número de elementos en la muestra, de tal manera que la muestra proporcione suficiente información para los objetivos de la encuesta. Muchas encuestas producen poca o inútil información porque no fueron propiamente diseñadas.

METODO DE MEDIC16N. Decida sobre el método de medición, usualmente uno o más de los siguientes métodos: entrevistas personales, entrevistas por teléfono, cuestionarios enviados por correo u observación directa.

INSTRUMENTO DE MEDICION. En conjunción con el paso 5, especifique cuidadosamente qué mediciones van a ser obtenidas. Si se va a usar un cuestionario, planee las preguntas de tal manera que se minimice la no respuesta y el sesgo por respuesta incorrecta. SELECCI~NY ADIESTRAMIENTOS DE INVESTIGADORES DE CAMPO. Seleccione cuidadosamente y adiestre a los investigadores de campo. Después de que el plan de muestreo esté clara y completamente establecido, alguien debe recolectar los datos. Aquellos que van a reunir los datos, los investigadores de campo, deben ser cuidadosamente adiestrados sobre qué mediciones hacer y cómo hacerlas. El adiestramiento es especialmente importante si se usan entrevistas personales o por teléfono, porque la tasa de respuesta y la exactitud de las respuestas son afectadas por el estilo personal y el tono de voz del entrevistador. PRUEBA PILOTO. Seleccione una pequeña muestra para una prueba piloto. La prueba piloto es crucial, ya que permite a usted probar en el campo el cues-

3 ELEMENTOS DEL PROBLEMA DE MUESTRE0

tionario y otros instrumentos de medición, calificar a los entrevistadores y verificar el manejo de las operaciones de campo. Los resultados de la prueba piloto usualmente sugieren algunas modificaciones antes de realizar el muestreo a escala completa.

ORGANIZACIÓNDEL TRABAJO DE CAMPO. Planee en detalle el trabajo de campo. Cualquier encuesta de gran escala involucra un gran número de personas trabajando como entrevistadores, coordinadores o personal dedicado al manejo de datos. Antes de que empiece la encuesta deben organizarse cuidadosamente los diferentes trabajos y establecerse claramente las líneas de autoridad.

70. ORGANIZACIÓNDEL MNEJO DE DATOS.

Elabore un esquema de cómo se debe manejar cada pieza de información para todas las etapas de la encuesta. Las grandes encuestas generan gran cantidad de información. Es por eso que un plan bien preparado para el manejo de los datos es de la mayor importancia. Este plan debe incluir los pasos para el proceso de los datos, desde el momento en que se hace una medición en el campo hasta que el análisis final ha sido completado. Se debe incluir también un esquema de control de calidad para verificar la correlación entre los datos procesados y los datos recolectados en el campo.

77.

ANÁLISISDE LOS DATOS. Defina los análisis que deben realizarse. Estrechamente relacionado al paso 10, este paso involucra la especificación detallada de los análisis que deben ser ejecutados. Se pueden también listar los temas que serán incluidos en el reporte final. Si usted considera el reporte final antes de que la encuesta sea llevada a cabo, puede tener más cuidado en la selección de los aspectos a ser medidos en la encuesta.

Si se siguen estos pasos diligentemente, la encuesta está lista para un buen comienzo y debe proporcionar información útil para el investigador.

El objetivo de una encuesta por muestreo es hacer inferencias acerca de la población de interés, con base en la información contenida en una muestra. La población consiste en el conjunto de datos sobre los cuales deseamos hacer una inferencia, y está compuesta de elementos o piezas de información. Las unidades de muestreo son colecciones de elementos de la población que no presentan traslapes. El marco es una lista de unidades de muestreo que usamos para representar la población. La muestra es una colecci6n de unidades de muestreo tomadas a partir del marco. Mediante los datos de la muestra, vamos a estimar ciertos parámetros de la población y fijar límites sobre nuestro error de estimación. La cantidad de informacian obtenida de la muestra puede ser controlada por el número de unidades muestrales extraídas de la población y el diseño de muestreo o método de -recolección de datos usado. Algunos de los diseños introducidos fueron muestreo irrestricto aleatorio, muestreo aleatorio estratificado, muestreo por conglomerados y muestreo sistemático. Cada uno se trata en detalle en un capítulo posterior. El mejor diseño para un determinado problema es el que proporciona la precisión necesaria en términos de un límite para el error de estimación para un costo mínimo.

EJERCICIOS

Después que el diseño h a sido seleccionado, existen varios mttodos para recolectar los datos de la muestra. Entrevistas personales, entrevistas por teléfono, observación directa y cuestionarios enviados por correo fueron métodos discutidos y evaluados como medios de reunir los datos en la muestra. Cada metodo tiene sus ventajas y limitaciones. En la Sección 3.6"discutimo~I'a construcción real de los cuestionarios. De nuevo, enfatizamos la importancia de obtener información en la muestra que sea representativa de la población. Este problema es de importancia primordial cuando consideramos métodos de recolección de información.

Un experimentador quiere estimar el consumo promedio de agua por familia en una ciudad. Analice los méritos relativos a seleccionar familias individuales, unidades habitacionales (casas para una sola familia, edificios de apartamentos, etc.) y manzanas de la ciudad como unidades de muestreo. (Qué usaría usted como marco en cada caso? Un guardabosques quiere estimar el número total de árboles que poseen diámetros mayores de 12 pulgadas en un área fore~tal.Se tiene disponible un mapa del área. Analice el problema de la selección de unidades muestrales apropiadas y refiera un marco apropiado, Un perito en seguridad está interesado en estimar la proporción de llantas de automóvil en mal estado. {Debería usar automóviles individuales o colecciones de automóviles, tales como los de estacionamientos, como unidades de muestreo? ¿Qué podría usar como marco? Una industria está constituida por muchas plantas o fábricas pequeñas, localizadas a lo largo y ancho del país. Una ejecutiva quiere encuestar las opiniones de los empleados sobre la política vacacional de la industria. ¿Qué sugerirla usted que ella utilizara como qnidades de muestreo? ¿Qué podría ella usar como marco? El departamento de agricultura de un estado desea estimar el área sembrada con maíz dentro del estado. Sugiera posibles unidades de muestreo y marcos. Un investigador de ciencias políticas quiere estimar la proporción de adultos residentes en un estado que favorecen una legislatura unicameral. Analice posibles unidades y marcos. Estudie también los méritos relativos a entrevistas personales, entrevistas por teléfono y cuestionarios por correo como métodos de recolección de datos. Analice los méritos relativos a utilizar entrevistas personales, entrevistas por teléfono y cuestionarios por correo como métodos de recolección de datos para cada una de las situaciones siguientes: (a) Una ejecutiva de televisión quiere estimar la proporción de televidentes en el país que estan viendo su cadena a cierta hora. (b) Un editor de periódico desea encuestar las actitudes del público hacia el tipo de noticias que publica su diario. (c) El regente de una ciudad está interesado en determinar la actitud de los casatenientes con respecto a un cambio propuesto en la zonüicación. (d) El departamento sanitario de un muqicipioquiere estimar la proporción de perros que han sido vacunados contra la rabia el aiio pasado. Analice problemas asociados con el orden de las preguntas. Elabore una lista de dos o tres preguntas para las cuales usted considera que el orden es importante y explique por que. Analice el uso de preguntas abiertas contra cerradas. Indique un ejemplo con una pregunta abierta apropiada. Señale un ejemplo de cómo una pregunta similar puede ser cerrada. ¿Cuales son las ventajas de las preguntas cerradas?

3 ELEMENTOS DEL PROBLEMA DE MUESTRE0 Presente un ejemplo de una pregunta que tiene una débil contraproposición. Refiera un ejemplo de una pregunta que tenga una fuerte contraproposición. Analice el uso de una opción de "no opinión" en una pregunta cerrada. Exponga un ejemplo de una pregunta.que pueda forzar una respuesta en una cierta direcci6n debido al uso de palabras inconvenientes. Analice la importancia de técnicas apropiadas de manejo de datos y control de calidad en una encuesta. Analice la importancia de realizar una prueba piloto. ¿Por qué la tasa de respuesta es una consideración en las encuestas?. Estudie métodos para reducir la tasa de no respuesta. Los entrevistados comúnmente reciben llamadas por teléfono de personas que realizan encuestas durante las horas de la cena. Quienes planean la encuesta probablemente piensan que muchos potenciales entrevistados se encuentran en casa en esos momentos. Analice los pros y contras de dicho procedimiento. Usted ha sido contratado para estimar la proporción de republicanos registrados en su condado que favorecen un incremento en el número de armas nucleares propiedad de Estados Unidos. {Cómo planearía usted la encuesta? (Revise los once pasos de la sección 3.7, observando que los pasos 4 y 11 no puede ser contestados completamente en este momento.) Una encuesta de Yankelovich, Skelly y White, realizada en el otoño de 1984, mostró que un quinto de las 2207 personas encuestadas falsearon información en su declaración del impuesto federal al ingreso. ¿Considera usted que esta fracción es cercana a la proporci6n real que ocultó información? ¿Por que? (Analice las dificultades de obtener información exacta sobre preguntas de este tipo.) En una encuesta de Gallup sobre la juventud (Gainesville Sun, febrero 13, 1985), a 414 alumnos intermedios y avanzados se les hizo la siguiente pregunta: {Quécurso o materia que usted estudió en la prepartona ha sido el mejor en preparación para una educación o carrera futuras? En sus respuestas a esta pregunta 25% de los estudiantes eligi6 maternaticas y 25% eligi6 inglés. ¿Considera usted que ésta es una buena pregunta con resultados informativos? Una encuesta realizada por Group Attitudes, Inc., fue hecha para medir las actitudes de estadounidenses hacia la universidad (Gainesville Sun, septiembre 9, 1982). La empresa que realizó la encuesta envió cuestionarios por correo a 4200 personas en todo Estados Unidos y recibió 1188 respuestas. Alrededor de 55% de los encuestados dijo haber tenido grandes problemas para poder pagar la educación universitaria de sus hijos. ¿Consideraríausted esta cifra como altamente confiable y representativa de la verdadera proporción de estadounidenses con este problema? (<Quégrupos de personas probablemente responderán a tales preguntas?)

M UESTREO IRRESTRICTO ALEATORIO ESTUDIO DE CASO

¿SON LOS FORMULARIOS DE IMPUESTO DEL SIR MUY COMPLICADOS? Casi todos los periódicos publican una revisión de cuando menos una encuesta de opinión. Los lectores alertas pueden aplicar el conocimiento de los procedimientos estadísticos básicos para decidir si la información divulgada en los artículos está respaldada por los datos. Una encuesta de Yankelovich, Skelly y White, realizada a fines de 1984 examinó las opiniones de 2207 residentes de Estados Unidos sobre aspectos relacionados con el impuesto federal de ingresos [Gainesville Sun, enero 15, 1985).Los resultados mostraron que el 54% de los residentes entrevistados consideró a los formularios de impuestos del Servicio de Ingresos Fiscales muy complicados para sus declaracsiones de impuestos. ¿Esta justificado el artículo que afirma: "La mayoría encuentra complicado el impuesto de ingresos"? Las técnicas estadísticas explicadas en el Capítulo 4 ayudaran a responder esta pregunta. El análisis para este caso se presentará al final del capítulo

MUESTRE0 IRRESTRICTO ALEATORIO

El objetivo de una encuesta por muestreo es hacer una inferencia acerca de la población con base en la información contenida en una muestra. Dos factores afectan la cantidad de información contenida en la muestra y, por lo tanto, afectan la precisión de nuestro procedimiento de hacer inferencias. El primero es el tamaño de la muestra seleccionada de la población. El segundo es la cantidad de variación en los datos; la variación frecuentemente puede ser controlada por el método de selección de la muestra. El procedimiento para seleccionar la muestra se denomina diseño de la encuesta por muestreo. Para un tamaño de muestra fijo, n , consideraremos diversos diseños, o procedimientos de muestreo, para obtener las n observaciones en la muestra. Puesto que las observaciones cuestan dinero, un diseño que proporciona un estimador preciso del parámetro para un tamaño de muestra fijo produce un ahorro en el costo para el experimentador. El diseño básico o técnica de muestreo, llamado muestreo irrestricto aleatoh, se analiza en este capitulo.

DEFINIClÓN 4.4 Si un tamaño de muestra n es seleccionado de una población de tamaño N de tal manera que cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo irrestricto aleatorio. A la muestra crsí obtenida se le llama muestra irrestricta aleatoria. Usaremos el muestreo irrestricto aleatorio para obtener estimadores de las medias, totales y proporciones poblacionales. Considérese el siguiente problema. Un auditor federal va a examinar los registros contables del hospital de una ciudad. Los registros del hospital, obtenidos de una compu-

tadora, muestran un determinado total de cuentas por cobrar, y el auditor debe verificar este total. Si existen 28,000 cuentas abiertas en el hospital, el auditor no tiene el tiempo suficiente para examinar el registro de cada paciente ni para obtener una cifra del total de cuentas por cobrar. Por lo tanto el auditor debe elegir algún esquema de muestreo para obtener una muestra representativa de los registros de los pacientes. Después de examinar las cuentas de los pacientes en la muestra, entonces el auditor puede estimar el total de cuentas por cobrar para todo el hospital. Si la cifra de la computadora cae dentro de un margen especificado por la estimación del auditor, la cifra de la computadora se acepta como válida. De otra manera, se deben examinar más registros del hospital por posibles discrepancias entre la cifra de la computadora y los datos de la muestra. Supóngase que todas las cuentas de los N = 28,000 pacientes son registradas en tarjetas de computadora y un tamaño de muestra n = 100 será seleccionado. La muestra es llamada muestra irrestricta aleatoria, si cada muestra posible de n = 100 registros tiene la misma probabilidad de ser seleccionada. El muestreo irrestrito aleatorio forma la base de la mayoría de los diseños de muestreo analizados en este libro, y forma la base de la mayoría de las encuestas ciendf~as que se realizan en la práctica. El fndice de Televisión de N i e l ~ n (ITN) es el servicio más ampliamente usado que existe para la medición de la audiencia. Éste se basa en una muestra aleatoria de aproximadamentemil doscientos hogares que tienen conectado a la televisión un audiómetro de almacenaje instantáneo. Este medidor registra si está o no funcionando la televisión, qué canal se está viendo, y cambios de ;anales. En una muestra aleatoria adicional de familias, cada familia anota en un diario los diferentes programas que ve. El ITN informa el número de hogares en la audiencia y el tipo de audiencia y el tiempo que ve televisión durante diversos periodos. La encuesta de Gallup actualmente se inicia con una muestra aleatona de aproximadamente 300 distritos electorales, muestreados de 200,000 distritos electorales en Estados Unidos. Luego los hogares a entrevistarse son seleccionados de cada distrito por otro plan de aleatorización. El muestreo se hace en dos etapas, pero el muestreo irrestricto aleatorio desempeña una función clave en cada etapa. Los auditores estudian muestras irrestrictas aleatorias de registros contables para comprobar la observancia de los controles de auditoría, establecidos por la empresa, o para verificar el valor real de las cuentas en dólares. Por lo tanto, ellos pueden desear estimar la proporción de cuentas que no concuerdan con los controles o el valor total de, digamos, las cuentas por cobrar. Las investigaciones de mercado frecuentemente incluyen una muestra irrestricta aleatoria de usuarios potenciales de un producto. Los investigadores pueden desear estimar la proporción de compradores potenciales que prefieren un cierto color de automóvil o sabor de alimento. Un guardabosques puede estimar el volumen de madera o proporción de árboles enfermos, seleccionando puntos geográficos en el área cubierta por el bosque y luego asociando a cada punto una parcela de forma y tamaño fijos (tal como un drculo de 10 metros de radio). Todos los árboles dentro de las parcelas seleccionadas pueden ser estudiados, pero, nuevamente, el diseño básico es una muestra imetricta aleatoria. El experimentador ahora se enfrenta a dos problemas: (1) ¿cómoseleccionar la muestra irrestricta aleatoria?, y (2) ¿cómoestimar los diversos parárnetros poblacionales de interés? Estos temas se estudian en las secciones siguientes.

4 MLIESTREO IRRESTRICTO ALEATORIO

4.2 COMO SELECCIONAR UNA MUESTRA Seleccionar una muestra irrestricta aleatoria de la población de interés no es tan sencillo como puede parecerlo al principio. ¿Cómo podemos seleccionar una muestra de una población, de tal manera que cada muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada? Podemos usar nuestro criterio para seleccionar "aleatoriamente" la muestra. Esta técnica frecuentemente se denomina muestreo casual. Una segunda técnica, muestreo representativo, involucra seleccionar una muestra que consideramos es típica o representativa de la población. Tanto el muestreo representativo como el casual están sujetos al sesgo del investigador y, lo que es más importante, conducen a estimadores cuyas propiedades no pueden ser evaluadas. Por lo tanto, ninguna de estas técnicas genera una muestra irrestricta aleatoria. Muestras irrestrictas aleatorias pueden ser seleccionadas usando tablas de números aleatorios. Una tabla de números aleatorios se muestra en la Tabla 2 del Apéndice. Una tabla de números aleatorios es un conjunto de enteros generado de modo que, comúnmente, la tabla contendrá todos los diez enteros (0, 1, . . . , 9), en proporciones aproximadamente iguales, sin tendencias en el patrón en que se generaron los dígitos. Por lo tanto, si un número es seleccionado de un punto aleatorio en la tabla, es igualmente probable que sea cualquiera de los dígitos entre el O y el 9. Seleccionar números de la tabla es análogo a extraer números de un sombrero que contiene esos números en papeletas perfectamente mezcladas. Supóngase que deseamos una muestra irrestricta aleatoria de tres personas seleccionadas de entre siete. Podríamos numerar a las personas del 1 al 7, poner papeletas conteniendo estos números (un número por papeleta) dentro de un sombrero, mezclarlas y extraer tres, para obtener los números extraídos sin reemplazo. Análogamente, podríamos apuntar con un lápiz sobre un punto aleatorio inicial en la Tabla 2 del Apéndice. Supóngase que la punta señala la línea 15 de la columna 9 y decidimos usar el último dígito de la derecha (un 5, en este caso). Este procedimiento es semejante al de extraer un 5 del sombrero. Ahora podemos continuar en cualquier dirección para obtener los números restantes en la muestra. Suponga que decidimos, antes de principiar, proseguir hacia abajo de la página. El número inmediatamente abajo del 5 es un 2; así, nuestra segunda persona seleccionada es la número 2. Al continuar, enseguida encontramos a un 8, pero hay solamente siete personas en nuestra población; en consecuencia, el 8 debe ser ignorado. Luego aparecen dos 5 más, pero deben omitirse, puesto que la persona 5 ya ha sido seleccionada. (El 5 ha sido extraído del sombrero.) Finalmente encontramos al 1 y nuestra muestra de tres se completa con las personas numeradas como 5, 2 y 1. Nótese que cualquier punto de inicio puede ser usado y uno puede moverse en cualquier dirección predeterminada. Si se va a utilizar más de una muestra en cualquier problema, cada una debe tener su propio punto de inicio. Una ilustración más realista se presenta en el Ejemplo 4.1.

EJEMPLO 4.1 Por simplicidad, supóngase que existen N = 1000 registros de pacientes, de los cuales será seleccionada una muestra irrestricta aleatoria de n = 20. Sabemos que una

4.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONALES

muestra irrestricta aleatoria será obtenida si cada muestra posible de n = 20 registros t i e ~ la e misma probabilidad de ser seleccionada. Los dígitos en la Tabla 2 del Apéndice, y en cualquier otra tabla de números aleatorios, son generadas para satisfacer las condiciones del muestreo irresticto aleatorio. Determinar cuáles registros van a ser incluidos en una muestra de tamaño n = 20.

Podemos considerar que las cuentas son los números 001, 002, . . . , 999, 000. Esto es, tenemos 1000 números de tres dígitos, donde 001 representa el primer registro, 999 el registro del paciente 999 y 000 el milésimo. Recurra a la Tabla 2 del Apéndice y utilice la primera columna; si no tomamos en cuenta los dos últimos dígitos de cada número, vemos que el primer número formado de tres dígitos es el 104, el segundo es el 223, el tercero es el 241, y así sucesivamente. Tomando una muestra aleatoria de 20 dígitos, obtenemos los n ú.~ e. r o que s se muestran en la Tabla 4.1.

TABLA 4.1

Registros de pacientes que serán incluidos en la muestra

Si los registros están numerados, solamente seleccionamos los registros con los números correspondientes, y estos registros representan una muestra irrestricta aleatoria de n = 20 de N = 1000. Si las cuentas de los pacientes no están numeradas, podemos remitimos a una lista de las cuentas y numerar de la la. a la loa, 23a, 70a, y así sucesivamente, hasta obtener los números deseados. Si un número aleatorio ocurre dos veces, se omite la segunda ocurrencia y se selecciona otro número como su reemplazo.

4.3 ESTIMACION

DE UNA MEDIA Y UN TOTAL POBLACIONALES Previamente establecimos que el objetivo de la encuesta por muestreo es hacer inferencias acerca de una población, a partir de la información contenida en una muestra. Una manera de hacer inferencias es estimar ciertos parámetros de la población, utilizando la información de la muestra. El objetivo de una encuesta por muestreo es, frecueritemente, estimar una media poblacional, denotada por p , o un total poblacional, denotado por T . Por lo tanto, el auditor del Ejemplo 4.1 podría estar interesado en el valor medio en dólares de las cuentas por cobrar o la cantidad total en dólares de esas cuentas. En consecuencia, en esta sección consideramos la estimación de los dos parámetros poblacionales p y T.

4 MLIESTREO IRRES-TRICTOALEATORIO

Supóngase que una muestra irrestricta aleatoria de n cuentas es seleccionada, y que vamos a estimar el valor medio por cuenta para la población total de registros de un hospital. Intuitivamente, emplearíamos el promedio muestral,

para estimar p . Por supuesto, un valor de y revela muy poco acerca de la media poblacional p , al menos que podamos evaluar la bondad de nuestro estimador. Por lo tanto. además de estimar p , nos gustaría fijar un lfmite sobre el error de estimación. Puede demostrarse que ? posee muchas propiedades deseables para estimar p . En particular, l es un estimador insesgado de p , y tiene una varianza que decrece conforme el tamaño de muestra n se incrementa. Más precisamente para una muestra irrestricta aleatoria, seleccionada sin reemplazo de una población de tamaño N, r

Estas propiedades son formalmente derivadas en el Apéndice, pero en este punto demostraremos que son válidas para un caso particular. Supóngase que tenemos una población de N = 4 mediciones dadas por (1, 2, 3, 4). Si una sola observación y es seleccionada al azar de esta población, entonces y puede tomar cualquiera de los cuatro valores posibles, cada uno con probabilidad i. Por lo tanto,

Ahora supóngase que seleccionamos una muestra aleatoria de tamaño n = 2 (sin reemplazo) de esta población de cuatro mediciones. Existen seis muestras,posibles,listadas como sigue:

Todas esta muestras serán igualmente probables, y en consecuencia una probabilidad de 2 será asignada a la ocurrencia de cualquier muestra.4.a~ seis medias muestrales, son, respectivamente,

Puesto que cada una de estas medias muestrales puede ocurrir con probabilidad de conocemos la distribución de muestre0 de 7 y podemos calcular E(?) y V(y'). De nuestra

4 3 ES-~IMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONALES

definición de valor esperado,

E(f) =

fp(y3 (sumando sobre todos los valores de Y) = (1.S)(:) (2.0)(:) (2.5)(2)+ (2.5)(:) + (3.0)(:) + (3.5)(2) = 2.50 = p

También,

V(Y) = E(f - p12= (f - ~ ) ~ p ( f ) (2.0 - 2.5)2(:) (2.5 - 2,512(2) = (1.5 (2.5 - 2.5)2(:) (3.0 - 2.512(;) (3.5 - 2.5)2(2) = (2.5)(:) = &

Recordando que para este ejemplo u 2 = 5, N = 4, y n = 2, tenemok

Por lo tanto, hemos demostrado que

E(y3=p

También se demuestra en el Apéndice que

así que la V(f) puede ser estimada insesgadamente de la muestra por

donde La varianza del estimador ji es la misma que la dada en un curso introductorio, excepto que está multiplicada por un factor de corrección para ajustar por el muestreo de una población finita. El factor de corrección toma en cuenta el hecho de que una estimación basada en una muestra n = 10 de una población de N = 20 unidades contiene más información acerca de la población que una muestra de n* = 10 de una población de N = 20,000.

Estimador de la media poblacional p : .

;=y=--

L Y¡

i=1

(4.2)

' "

Varianza estimada de

donde Límite para el error de estimación:

La cantidad ( N - n ) / N se denomina corrección por población finita (cpf). Nótese que este factor de corrección difiere un poco del encontrado en la varianza verdadera de f . Cuando n permanezca relativamente pequeña con respecto al tamaño de la población N, la cpf estará muy cercana a la unidad. En la práctica, la cpf puede despreciarse si ( N - n)/ N r 0.95 o, equivalentemente, si n 5 (&)N. En tal caso, la varianza estimada def es la ya conocida cantidad s 2 / n . En muchos casos el tamaño de la población no está claramente definido Q se desconoce. Supóngase que muestras de laboratorio muy pequeñas son seleccionadasde un depósito de gran volumen con azúcar mascabado para medir el contenido de azúcar puro. No es claro cómo será determinado N , pero generalmente puede suponerse bastante grande. En consecuencia, la cpf puede ser ignorada. Si una muestra de votantes se selecciona de la población de un estado para obtener un N preciso en aquel momento, es generalmente imposible. Nuevamente, N se supone grande y la cpf se omite. Para mostrar el comportamiento de los intervalos de confianza para la media, seleccionamos 50 muestras aleatorias de tamaño n = 20 de la población con N = 100 elementos, graficada en la Figura 2.3. Un intervalo de confianza de aproximadamente 95% fue construido para cada muestra, con los resultados que se muestran en la Tabla 4.2. Nótese que cuatro (o sea 8%) de los intervalos observados no cubren la media poblacional verdadera. Este resultado está bastante cercano al valor nominal de 5%. La Tabla 4.3 muestra los resultados de un experimento similar, extraldo de los datos de la Figura 2.5. Aquí, solamente dos (4%) de los intervalos no cubren la media verdadera. Nótese que en ambos casos los intervalos de confianza varían en longitud y posición, conforme pasamos de una muestra a otra. Recuérdese también que los intervalos son aleatorios. En el muestre0 repetido, aproximadamente el 95% de los intervalos incluye a p , pero cualquier intervalo puede o no incluir a p .

Remítase al auditor del hospital del Ejempb 4.1 y suponga que una muestra aleatoria de n = 200 cuentas es seleccionada del total de N = 1000. La media muestra1 de las

4.3 ESTIMAClON ESTlMACl@J DE UNA MEDIA Y UN TOTAL POBLAClONALES POBKIONALES

TABLA 4.2

intervalos de confiariza para N = 100 y n = 20

sS*2

LCI

Lesa L

56.020 53.650 60.052 49.350 49.082 49.038 42.857 46.682 42.694 52.922 47.778 48.950 52.200 50.395 54.384 49.296 50.167 50.082 58.146 51.010 54.947 51.596 60.053 61.360 37.612 45.641 47.266 51.645 48.601 49.368 52.723 43.005 33.760 57.683 68.100 59.298 47.474 47.749 50.098 51.697 45.989 54.382 56.294 52.548 53.236 57.694 63.771 48.835 66.375 56.731

1047.629 973.679 1044.769 606.324 994.433 1058.878 937.009 901.619 677.978 1086.781 926.727 705.443 1227.258 714.205 845.914 968.221 957.080 948.243 840.061 1144.449 1021.469 907.564 612.693 730.304 642.730 788.646 678..076 815.394 760.584 1003.110 874.174 622.081 586.996 656.446 750.229 695.199 1021.986 962.295 785.590 893.741 731.062 735.614 898.002 1333.015 1147.398 766.730 860.750 875.848 645.377 1070.385

43.332 41.418 47.381 ;39.697 36.721 36.282 30.858 34.911 32.487 39.999 35.845 38.539 38.467 39.919 42.982 37.099 38.040 38.010 46.785 37.749 42.418 39.787 50.350 50.767 27.674 34.632 37.059 40.452 37.790 36.953 41.133 33.228 24.262 47.639 57.363 48.962 34.942 35.588 39.111 39.978 35.390 42.392 44.547 38.236 39.958 46.840 52.270 37.234 56.416 43.906

68.708 65.882 72.722 59.002 61.444 61.794 54.856 58.453 52.901 65.844 59.712 59.362 65.933 60.871 65.785 61.494 62.295 62.153 69.508 64.271 67.476 63.405 69.756 71 . 954 47.550 56.640 57.474 62.839 59.412 61.784 64.313 52.782 43.257 67.726 78.837 69.634 60.006 59.909 61.085 63.416 56.588 66.373 68.041 66.860 66.514 68.548 75.271 60.437 76.333 69.556

J.L

= 52.575

-1

.. 4

'48

4 MLIESTREO IIRRESTRICTO RRESJRICTO ALEATORIO

TABLA 4.3

Intervalos de confianza para N = 20 y n = 15

s S*

LCI

LCS

10.172 10.312 10.435 8.198 7.410 10.455 9.133 9.255 9.392 10.386 8.700 8.126 8.869 9.074 7.719 7.815 8.794 8.778 11.350 8.205 8.371 9.556 9.442 7.865 9.323 9.300 9.400 9.738 10.100 9.540 9.204 9.057 9.514 10.533 9.076 8.159 7.453 8.323 8.704 9.146 9.301 8.908 7.418 7.335 9.601 8.175 8.634 9.200 7.136 8.032

62.698 53.296 58.390 15.953 46.677 49.063 64.951 51.192 54.933 59.018 62.707 46.516 53.483 58.610 52.275 49.723 54.153 53.764 50.345 55.182 56.787 57.116 58.971 53.681 67.261 48.507 47.895 56.042 50.812 58.265 55.947 55.205 48.569 50.279 51.918 52.775 55.096 58.580 57.380 57.078 53.757 59.789 55.680 49.494 58.002 55.629 52.570 55.837 41.977 50.013

8.168 8.465 8.501 6:340 5.681 ' 8.682 7.094 7.445 7.516 8.442 6.696 6.401 7.018 7.137 5.889 6.031 6.932 6.923 9.554 6.326 6.464 7.644 7.499 6.011 7.248 7.538 7.667 7.844 8.297 7.608 7.311 7.177 7.750 8.738 7.252 6.321 5.575 6.386 6.787 7.234 7.446 6.951 5.530 5.555 7.674 6.288 6.799 7.310 5.496 6.243

12'.175 12.160 12.368 10.057 9.139 12.227 11.1~2

11.066 11.267 12.330 10.703 9.852 10.719 11.012 9.548 9.600 10.656 10.634 13.145 10.085 10.278 11.468 11.385 9.719 11.398 11.062 11.133 11.632 11.904 11.471 11.096 10.937 11.277 12.327 10.899 9.997 9.331 10.260 10.620 11.057 11.156 10.864 9.306 9.11,5 11.528 10.063 10.468 11.091 8.775 9.822

ยก.t =

9.035

4.3 ESTIMACIONDE UNA MEDIA Y UN TOTAL POBLACIONALES

cuentas fue = $ 94.22, y la varianza muestral es sZ = 445.21. Estime p , el promedio de la deuda para las 1000 cuentas del hospital, y establezca un Hmite para el error de estimación.

Usamos = $94.22 para estimar p . Un límite para el error de estimación puede ser encontrado usando la Ecuación (4.4).

Por lo tanto estimamos que el valor medio por cuenta, p , será y = $ 94.22. Puesto que n es grande, la media muestral tendrá una distribución aproximadamente normal, así que $ 94.22 + $ 2.67 es un intervalo de confianza para la media poblacional de aproximadamente 95%.

Una muestra irrestricta aleatoria de n = 9 registros del hospital es seleccionada para estimar la cantidad promedio de la deuda sobre N = 484 cuentas abiertas. Los valores de la muestra para estos nueve registros están listados en la Tabla 4.4. Estime p , la cantidad promedio de la deuda, y establezca un límite para el error de estimación.

TABLA 4.4

Cantidad de dinero adeudado

Es conveniente presentar los datos y cálculos de la muestra como se indica en la Tabla 4.5. Al sumar las cantidades en la columna y, obtenemos

De la columna de

y2,

tenemos

50 TABLA 4.5

DolOS Y cólculos ¡)Oro el E¡emplo L1 2

33.50 32.00 52.00 43.00 40.00 41.00 4500 4250 39.00

1,122.25 1,024,00 2,704.00 1.84900 1,600.00 1.68100 2,025.00 1.806 25 1,521.00

¿ y7 = 15,332.50

Yi : 368.00

Necesitamos

~stas

dos cantidades para calcular ji y sto Nuestra estimación de )),

¡~l

y¡

368.00

Y~-=--:O:$40.89

Para encontrar un I1mite para el error de estimación. debemos calcular

n - 1

(368)2] ;;: -1 [ 15,332.50 - 8

1 -[15,332.50 - 15.047.1 t] 8'

= 35.67

Utilizando la Ecuación (4.4), .obtenemos el Ifmite para eLerror de estimación,

_ )5-1(N- --h) -_2 J35.6T(484 - 9) --

2" V(y) - 2

:=2J3890=3.944=~394

484

En resumen, la estimación de la canriciad medi~ de dinero adeudada por cuenta, ¡.¡, es y = $ 40.89. Aunque no podernos eSLarsegu~os de qué tan cerca está y de ¡.¡. estamos razonablemente confiados en que el error de estimación es menor de $ S.94.

Muchas encuestas por muestreo &ún realizadas para obtener infonnación acerca de un tocal poblacional. El auditor federal del Ejemplo 4.1 probablemente podría e:.tar interesado en verificar la cifra calculada para el total de cuencas por cobrar (en dólares) para las N 1000 cuentas abien as. Usted recuerda que la media para una población de tamaño N es la suma de to· das las observaciones en la población dividida entre N El total poblacíonal -esto es,

4.3 ESTIMACION DE UNA MEDIA Y UN TOTAL POBLACIONALES

la suma de todas las observaciones en la población- se denota por el símbolo T . Por lo tanto, N ~ = T Intuitivamente, esperamos que el estimador de cual lo es. Estimador del total poblacional

Varianza estimada de

sea N veces el estimador de p , el

C(+)= $(N?) =

(f)

(y)

donde Límite para el error de estimación:

Nótese que la varianza estimada de $ = N i en la Ecuación (4.6) es NP veces la varianza estimada de i dada en la Ecuación (4.3).

Una empresa industrial está interesada en el tiempo por semana que los científicos emplean para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en esas tareas es de 10.31 horas, con una varianza muestra1 de sP = 2.25. La compañia emplea N = 750 científicos. Estime el número total de horas-hombre que se pierden por semana en las tareas insignificantes y establezca un límite para el error de estimación.

Sabemos que la población consiste de N = 750 empleados, de los cuales una muestra aleatoria de n = 50 hojas de control del tiempo fue obtenida. La cantidad promedio de tiempo que se pierde por los 50, empleados fue 7 = 10.31 horas por semana. Luego la estimación de T es

? = N? = 750(10.31) = 7732.5 horas

4 MUESTRE0 IRRESTRICTO ALEATORIO

A fin de establecer un límite para el error de estimación, aplicamos la Ecuación (4.7) para obtener

= -2

= 307.4 horas

Por lo tanto la estimación del tiempo total perdido es ?.= 7732.5 horas. Estamos razonablemente confiados de que el error de estimación es menor que 307.4 horas.

4.4 SELECCIONDEL TAMANO DE MUESTRA PARA LA ESTIMAC~~N DE LAS MEDIAS Y TOTALES POBLACIONALES En alguna etapa del diseño de la encuesta, alguien debe tomar una decisión acerca del tamaño de la muestra que será seleccionada de la población. Hasta ahora hemos tratado un procedimiento de muestreo (el muestreo irrestricto aleatorio) pero nada acerca del número de observaciones que serán incluidas en la muestra. Las implicaciones de tal decisión son obvias. Las observaciones cuestan dinero. Por lo tanto si la muestra es muy grande, tiempo y talento son desperdiciados. Por el contrario, si el número de observaciones incluidas en la muestra es muy pequeño, compramos información inadecuada por el tiempo y esfuerzo empleado y nuevamente hemos hecho un mal gasto. El número de observaciones necesarias para estimar una media poblacional p con un límite para el error de estimación de magnitud B se encuentra al establecer dos desviaciones estándar del estimador, igual a B y resolviendo esta expresión para n. Esto es, debemos resolver

para n. Usted recordará que la varianza estimada de Y, V(f), esta dada por A

También Usted reconocerá la Ecuación (4.10) de un curso introductono como la conocida varianza de y, esto es, a 2/n, multiplicada por el factor

4.4 SELECCIÓN DEL TAMAÑODE LA MUESTRA

El tamaño de muestra requerido ahora puede encontrarse despejando n de la siguiente ecuación:

La solución se presenta en la Ecuación (4.12). Tamaño de muestra requerido para estimar p.con u n límite para el error de estimación E:

donde En una situación práctica la solución para n presenta un problema debido a que la varianza poblacional u2es desconocida. Puesto que la varianza muestral sPfrecuentemente se encuentra disponible de un experimento anterior, podemos obtener un tamaño de muestra aproximado al reemplazar u2 por s P en la Ecuación (4.12), Ilustraremos un método para estimar el valor de u2cuando se cuenta con muy poca información anterior. Si N es grande, como comúnmente ocurre, el (N - 1 ) puede ser reemplazado por N en el denominador de la Ecuación (4.12).

La cantidad promedio de dinero p para las cuentas por cobrar de un hospital debe ser estimada. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional u 2 , se sabe que la mayoría de las cuentas caen dentro de una amplitud de variación de $100. Existen N = 1000 cuentas abiertas. Encuentre el tamaño de muestra necesario para estimar y con un llmite para el error de estimación de B = $3,

SOLUCION Necesitamos una estimación de u 2 ,la varianza poblacional. Ya que la amplitud de variación es aproximadamente igual a 4 desviaciones estándar ( 4 u ) , un cuarto de tal amplitud proporcionará un valor aproximado de u . Por lo tanto, rango 100

u = - --- 25 4 4

Al usar la Ecuación (4.12), obtenemos

4 MUESTRE0 IRRESTRICTO ALEATORIO

donde Así, Esto es, necesitamos aproximadamente 218 observaciones para estimar p , la media de las cuentas por cobrar, con un límite para el error de estimación de $3.00. De manera semejante, podemos determinar el número de observaciones necesarias para estimar un total poblacional T,con un límite para el error de estimación de magnitud B. El tamaño de muestra requerido se encuentra al establecer dos desviaciones estándar del estimador igual a B y resolviendo esta expresión para n. Esto es, debemos resolver

2JV(IV=B o, equivalentemente,

2 N m = B [La razón para esta equivalencia está dada directamente después de la Ecuación (4.71.1

Tamafio de muestra requerido para estimar r con un Emite para el error B:

donde

Un investigador está interesado en estimar la ganancia en peso total en O a 4 semanas de N = 1000 polluelos alimentados con una nueva ración. Obviamente, pesar cada ave sería tedioso y tardado. Por lo tanto, determine el número de polluelos que serán seleccionados en este estudio para estimar 7 con un límite para el error de estimación igual a 1000 gramos. Muchos estudios similares sobre nutrición de polluelos se han llevado a cabo en el pasado. Usando los datos de esos estudios, el investigador encontró que u', la varianza poblacional, fue aproximadamente igual a 36.00gramos. Determine el tamaño de muestra requerido.

Podemos obtener un tamaño de muestra aproximado usando la Ecuación (4.14) con u2igual a 36.00 y

4.5 ESTIMACIÓN DE UNA PROPORCIÓN POB CIONAL

~ s t es, o

Por lo tanto, el investigador necesita pesar n = 126 polluelos para estimar T,la ganancia en peso total en O a 4 semanas de N = 1000 polluelos, con un límite para el error de estimación igual a 1000 gramos.

4.5 ESTIMACION

DE UNA PROPORCIONPOBLACIONAL El investigador que realiza una encuesta por muestreo frecuentemente está interesado en estimar la proporción de la población que posee una característica específica. Por ejemplo, el líder de un congreso investigando los méritos de votar a los 18 años de edad, puede desear estimar la proporción de votantes potenciales en el distrito entfe las edades de 18 a 21 años. Un grupo de investigación de mercados puede estar interesado en la proporción del total de ventas por dietas preparadas que es atribuible a un producto en particular; esto es, ¿qué porcentaje de las ventas corresponde a un producto en particular? Un administrador forestal puede estar interesado en la proporción de árboles con un diámetro de 12 pulgadas o más. Las clasificaciones de televisión, frecuentemente, son determinadas estimando la proporción de televidentes que ven un programa en particular. Usted reconocerá que todos estos ejemplos muestran una característica del experimento binomial, esto es, una observación pertenece o no a la categoría de interés. Por ejemplo, se puede estimar la proporción de votantes elegibles en un distrito en particular, examinando los datos del censo poblacional para vanos de los barrios dentro del distrito. Una estimación de la proporción de votantes entre los 18 y 21 años de edad para todo el distrito será la fracción de votantes potenciales de los barrios seleccionados, quienes se ubican dentro de esta amplitud de variación de la edad. En la siguiente explicación denotamos la proporción poblacional y su estimador por los dmbolos p y $, respectivamente. Las propiedades de $ en muestreo irrestricto aleatorio son equiparables a las de la media muestral 7, si las mediciones de la respuesta se definen como sigue: Sea y, = O si el i-ésimo elemento seleccionado no posee la característica específica, y yi = 1 si la posee. Entonces, el número de elementos en una muestra de tamaño n que posee una característica específica es

Si seleccionamos una muestra irrestricta aleatoria de tamaño n, la proporción muestral es la fracción de elementos en la muestra que poseen la característica de

4 MUESTRE0 IRRESTRICTO ALEATORIO

interés. Por ejemplo, la estimación de la proporción de votantes elegibles entre las edades de 18 a 21 años en cierto.distrito es

p = número de votantes seleccionados entre las edades de 18 a 21 años número de votantes seleccionados

i Yi o bien En otras palabras, $ es el promedio de los valores O y 1 de la muestra. Asimismo, podemos pensar en la proporción poblacional como el promedio de los valores O y 1 de la población (esto es, p = p ) . Estimador de la proporción poblacional p:

Varianza estimada de p:

donde

<=1

-p

Límite para el error de estimación:

Una muestra irrestricta aleatoria de n = 100 estudiantes del último año de un colegio fue seleccionada para estimar: (1) la fracción de N = 300 estudiantes del último año que asistirán a una universidad, y (2) la fracción de estudiantes que han tenido trabab de tiempo parcial durante su estancia en el colegio. Sean yi y x i ( i = 1, 2, . . . , 100) las respuestas del i-ésimo estudiante seleccionado. Estableceremos que yi = O si el i-ésimo estudiante no planea asistir a una institución superior, y yi = 1 si lo planea. Asimismo, sea xi = O si él no ha tenido alguna vez un trabajo de tiempo parcial durante su estancia en el colegio, y xi = 1 si lo ha tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime p l , la proporción de estudiantes del último año que planea asistir a una universidad y p,, la proporción de estudiantes del último año que ha tenido un trabajo de tiempo parcial durante sus cursos en el colegio (incluyendo los veranos).

4.5 ESTIMACIÓN DE UNA PROPORCl@l POBLACIONAL Estudiante

Las proporciones muestrales de la Ecuación (4.15) están dadas por

Los límites para los errores de estimación de p, y p2 son, respectivamente,

Por lo tanto, estimamos que 0.15 (15%) de los estudiantes del último año planea asistir a una universidad, con un límite para el error de estimación igual a 0.059 (5.9%). Estimamos que 0.65 (65%) de los estudiantes del último año ha tenido un trabajo de tiempo parcial durante su estancia en el colegio, con un límite para el error de estimación igual a 0.078 (7.8%).

4 MUESTRE0 IRRESTRICTO ALEATORIO

Hemos demostrado que la proporción poblacional p puede ser considerada como el promedio ( p ) de los valores O y 1 de la población. Por lo tanto, el problema de determinar d tamaño de muestra requerido para estimar p dentro de B unidades será análogo al de determinar un tamaño de muestra para estimar p con un limite para el error de estimación B. Usted recordará que el tamaño de muestra requerido para estimar p está dado por

donde D = ~ ~ [véase / 4 la Ecuación (4.12)]. El tamaño de muestra necesario para estimar p puede ser encontrado al reemplazar u 2 en la Ecuación (4.18) por la cantidad

P4. Tamaño de muestra requerido para estimar p con un límite para el error de estimación B :

donde En una situación práctica desconocemos p. Un tamaño de muestra aproximado puede determinarse al reemplazar p por un valor estimado. Frecuentemente, tal estimación puede ser obtenida de encuestas anteriores similares. Sin embargo, si no se cuenta con información anterior, podemos substituir p = 0.5 en la Ecuación (4.19) para obtener un tamaño de muestra conservador (uno que será probablemente mayor que el requerido).

Los dirigentes del consejo estudiantil en un colegio desean realizar una encuesta para determinar la proporción de estudiantes que está a favor de una propuesta de código de honor. Ya que entrevistar a N = 2000 estudiantes cn un lapso razonable es casi imposible, determine el tamaño de muestra (número de estudiantes a entrevistarse) necesario para estimar p con un Emite para el error de estimación de magnitud B = 0.05. Suponga que no hay información previa disponible para estimar p.

Cuando no se cuenta con información previa, podemos aproximar los tamaños de muestra requeridos, estableciendo p = 0.5 en la Ecuación (4.19). Tenemos que

Por lo tanto,

N P ~

(N- 1 ) D + pq

Esto es, 334 estudiantes deben ser entrevistados para estimar la proporción de estudiantes que está a favor de una propuesta de cbdigo de honor, con un llmite para el error de estimación de B = 0.5.

Con referencia al Ejemplo 4.8, supóngase que además de estimar la proporción de estudiantes que apoya la propuesta de código de honor, los dirigentes del consejo estudiantil también desean estimar el número de estudiantes que considera que la organización del consejo estudiantil funciona de acuerdo a sus necesidades. Determine el tamaño de muestra combinado que se requiere en una encuesta para estimar p,, la proporción de quienes están a favor de la propuesta de código de honor, y pl, la proporción de los que opinan que el consejo estudiantil funciona de acuerdo con sus necesidades, con límites para los errores de estimación de magnitud B , = 0.05 y B Z 4 = 0.07. Aunque no se dispone de información anterior para estimar p,, aproximadamente el 60% de los estudiantes opinó que el consejo satisfizo adecuadamente sus necesidades en una encuesta similar llevada a cabo el año anterior.

En este ejemplo debemos determinar un tamaño de muestra que nos permita estimar p, con un límite B , = 0.05 yp, con un límite B , = 0.07. Primero determinamos los tamaños de muestra que satisfacen cada objetivo separadamente. Luego, el mayor de los dos será el tamaño de muestra combinado para una encuesta que satisface ambos objetivos. I k l Ejemplo 4.8, el tamaño de muestra requerido para estimar p, con un límite para el error de estimación de B , = 0.05 fue n = 334 estudiantes. Podemos usar los datos de la encuesta del año anterior para determinar el tamaño de muestra necesario para estimar p,. Tenemos que

y, por lo tanto, con p, = 0.60,

(2000)(O.6)(0.4) f1999)(0.001225)

= 178.52

+ (0.6)(0.4)

480

2.68877

4 MUESTRE0 IRRESTRICTO ALEATORIO

Esto es, 179 estudiantes deben ser entrevistados para estimar p,, la proporción de N = 2000 estudiantes que considera que el consejo estudiantil satisface sus necesidades, con un límite,para el error de estimación igual a 0.07. El tamaño de muestra requerido para lograr ambos objetivos en una encuesta es 334, el mayor de los dos tamaños de muestra.

4.6 MUESTREO CON PROBABILIDADES PROPORCIONALES AL TAMAÑO El trabajo previo de este capitulo ha dependido de la muestra, siendo una muestra irrestricta aleatoria, conforme a la Definición 4.1. Ahora mostraremos que, variando las probabilidades con que las diversas unidades de muestreo son seleccionadas, algunas veces resulta ventajoso. Supóngase, por ejemplo, que deseamos estimar el número de empleos vacantes en una ciudad, muestreando*empresasindustriales dentro de ella. Normalmente, muchas de las empresas serán muy pequeñas y emplearán a pocos obreros, mientras que algunas empresas serán muy grandes. En una muestra irrestricta aleatoria, el tamaño de la empresa no es tomado en cuenta, y una muestra tipica contendrá en su mayoría empresas pequeñas. Pero la información deseada (número de empleos vacantes) está fuertemente influenciada por las empresas grandes. Por lo tanto, podríamos mejorar la muestra irrestricta aleatoria dando a las empresas grandes una mayor oportunidad de aparecer en la muestra. Un método para lograr este muestreo se denomina muestreo con probabilidades proporcionales al tamaño o muestreo #$t. Para una muestra y,, y2, . . . , y, de una población de tamaño N, sea

ni = la probabilidad de que yi aparezca en la muestra. Los estimadores insesgados de T y p , junto con sus varianzas estimadas y ifmitessobre el error de estimación, son como sigue: Estimador del total poblacional

Varianza estimada de: ,$

Límite para el error de estimación:

4.6 MUESTRE0 CON PROBABILIDADES PROPORCIONALES AL TPSVIAÑO

Estimador de la media poblacional p:

Varianza estimada de fi pp

Límite para el error de estimación:

pppt

Los estimadores fPpty son insesgados para cualquier selección de ni, pero claramente el interés del experimentador es seleccionar las ni de tal manera que las varianzas de los estimadores sean lo más pequeñas posibles. ¿Cómo se debe hacer esta selección? Supóngase, por el momento, que el valor de yi se conoce para cada una de las N unidades en la población. Por lo tanto, el total poblacional T también será conocido. En estas condiciones podemos seleccionar cada unidad para la muestra con probabilidad proporcional a su valor y i , suponiendo que todas las mediciones son ~ o sitivas. Esto es, podemos hacer ni = y i / r . Con ni= y y , / r para cada unidad muestreada, $ppt será

Por lo tanto,

estima exactamente a

Además,

Lo que nuevamente muestra que tenemos un estimador preciso. Ahora, antes del muestreo, es imposible conocer los valores yi para cada unidad en la población. (Si fuesen conocidos, no sería necesario el muestreo.) En consecuencia, no es posible la selección de ni = y , / r , pero proporciona un criterio para seleccionar las ni que pueden ser usadas en el muestreo. La forma práctica de elegir las q es seleccionarlas de manera proporcional a una medida conocida que esté altamente correlacionada con y,. En el problema de estimar el número total de empleos vacantes, las empresas pueden ser seleccionadas con probabilidades proporcionales a su fuerza de trabajo total, que debe ser conocida con exactitud antes de seleccionar la

4 MUESTRE0 IRRESTRICTO ALEATORIO

muestra. El n h e r o de empleos vacantes por empresa se desconoce antes del muestreo, pero estará altamente correlacionado con el número total de obreros en la empresa. Veremos una aplicación muy útil del muestreo ppt en el Capítulo 8. Para ilustrar numéricamente cómo trabaja el muestreo ppt, regresaremos a la población de N = 4 elementos, { 1 , 2 , 3 , 4 ) . Recuérdese que para una muestra irrestricta aleatoria de tamaño n = 2 , E (y) = 2.5 yV(f) = = 0,.417.Supóngase que decidimos seleccionar n = 2 elementos con probabilidades diferentes y seleccionar 7rl = 0.1, q = 0.1, 7r3 = 0.4 y 7r4 = 0.4. Para realizar este muestreo, podemos seleccionar un dígito aleatorio de la tabla de números aleatorios y tomar como nuestro primer elemento muestreado

1 si el dígito aleatorio es O, 2 si el dígito aleatorio es 1, 3 si el dígito aleatorio es 2, S, 4 o 5 , 4 si el dígito aleatorio es 6, 7, 8 o 9.

Luego el proceso se repite para el segundo elemento muestreado. (Nótese que un mismo elemento puede ser seleccionado dos veces, lo cual no es posible en el muestreo irrestricto-aleatorio.) Esta selección de T,,7r2, 7rj y v4 confiere a los valores más pequeños en la población, (1, 2 ) , la probabilidad más pequeña de ser incluidos en la muestra, y los valores más grandes, (3, 4), tienen apreciablemente una probabilidad mayor de ser incluidos. Nótese que estas probabilidades no son exactamente proporcionales al tamaño, pero tienden hacia esa dirección. La tabla 4.6 contiene una lista de las 10 muestras posibles, la probabilidad de producida por cada muestra. La muestra obtener cada muestra, y la estimación tPPt

TABLA4.6 Muestreo con probabilidadesdiferentes [muestras de tamario n con T , = T , = 0.1,T , = ~r, = 0.4)

Muestra

Probabilidad de obtener una muestra

2 de (1, 2, 3,4)

Tppt

(1, 2) resultará si nuestro @mer dígito aleatorio es un O y nuestro segundo dígito aleatorio es un 1. Entonces, el valor de f, , según la Ecuación (4.20), será:

4.6 MUESTRE0 CON PROBABILIDADES PROPORCIONALES AL TAMANO

.63

En-la Tabla 4.6, vemos que

Y de esta manera queda demostrado que GPpt es un estimador insesgado de T . También, (-10- 10)*(0.16) v(?,,) = (15 - 10)~(0.02) ( 7 - 10)~(0.08)

Si usamos el muestreo irrestricto aleatorio con n = 2, nuestro estimador tendrá una vananza ca.lculada como sigue:

Ni de

la cual es mayor que la v(<,,). La reducción proporcidnal en la varianza, usando un estimador ppt, sería mayor si las mediciones poblacionales tuvieran más variabilidad y si las .rri estuviesen más próximas a ser verdaderamente proporcionales al tamaíío de las mediciones poblacionales. El muestreo con probabilidades diferentes disminuirá la varianza de un estima- .. dor, permitiendo por lo tanto estimaciones más precisas, si las probabilidades son proporcionales, o aproximadamente proporcionales, al tamaño de las mediciones seleccionadas. Sin embargo, si las probabilidades se seleccionan en forma incorrecta, entonces GPpt y &_ pueden tener una varianza mayor que la correspondiente a 7 y a de un muestreo irrestricto aleatorio. Supóngase, por ejemplo, que en las muestras de tamaño n = 2 de (1, 2,3, 41, seleccionamos .rr, = .rr2 = 0.4 y .rr3 = .rr4=0.1. Entonces tpPt aún es un estimador insesgado de r , pero la v(GPpt)= 81.25. En este caso, ?,, es un estimador mucho más deficiente que el 7 de un muestreo irrestricto aleatorio. En resumen, el muestreo ppt involucra un muestreo con reemplazo, lo cual significa que una unidad de muestreo no es eliminada de la población después de ser seleccionada para la muestra. Por lo tanto, una unidad de muestreo puede ser seleccionada más de una vez. Una selección repetida usualmente es indeseable, pero no ocurrirá frecuentemente si n / N es pequeña. Además, esta característica indeseable frecuentemente queda más que compensada por la reducción en la varianza que puede ocurrir. Los estimadores ppt de T y p solamente producen varianzas más pequeñas si las probabilidades .rr, son proporcionales, o aproximadamente proporcionales, al tamaño de las yi que se investigan. llustraremos el uso práctico de los estimadores ppt el Ejemplo 4.10. i

Un investigador desea estimar el número promedio de defectos por tablero que contienen componentes electrónicos, fabricados para la instalación en computadoras. Los tableros contienen un número diferente de componentes, y el investigador considera que el número de defectos debe estar positivamente correlacionado con el número de componentes en un tablero. Por lo tanto, se utilizará un muestreo ppt, siendo la pro-

4 MUESTRE0 IRRESTRICTO ALEATORIO

habilidad de seleccionar cualquier tablero para la muestra, proporcional al número de componentes en el tablero. Una muestra de n = 4 tableros será seleccionada de N = 10 tableros de la producción de un día. El número de componentes en los 10 tableros son, respectivamente,

Muestre cómo seleccionar n = 4 tableros con probabilidades proporcionales al tamaño.

Listamos el número de componentes (nuestra medida del tamaño) en una columna, y los intervalos acumulados y las vi deseadas en columnas adyacentes, como sigue:

Tablero

Nbmero de componenta

Intervalo acumulado

Hay 150 componentes en la población que será muestreada. Podemos considerar que estos componentes están numerados del 1 al 150. La columna del intervalo acumulado registra los componentes numerados en cada tablero. El tablero número 1 tiene los 10 primeros componentes, el tablero número 2 tiene los componentes del 11 al 22, y así sucesivamente. Las v son simplemente el número de componentes por tablero, dividido entre el número total de componentes. Los tableros con mayor número de componentes tienen mayores probabilidades de selección. Para seleccionar la muestra de n = 4 tableros, acudimos a la tabla de números aleatorios y seleccionamos cuatro números aleatorios entre el 1 y el 150. Los números que seleccionamos fueron 14, 56, 94, y 25. Localizamos estos números en la columna del intervalo acumulado. Los tableros correspondientes a esos intervalos constituyen la muestra. Puesto que el 14 cae en el intervalo del tablero 2, éste entra a la muestra. Asimismo, el 56 cae en el intervalo del tablero 5, el 94 cae en el intervalo del tablero 7, y el 25 cae en el intervalo del tablero 3. Por lo tanto, la muestra consiste de los tableros 2, 3, 5 y 7. Estos tableros han sido seleccionados con probabilidades proporcionales al número de sus componentes. Nótese que con este método podríamos haber seleccionado un tablero en particular más de una vez.

4 6 MUESTRE0 CON PROBABILIDADES PROPORCIONALES AL TAMAÑO

Después de que el muestre0 del Ejemplo 4.10 fue completado, el número de defectos encontrados en los tableros 2, 3, 5 y 7 fueron, respectivamente, 1, S, 2 y 1. Estime el número promedio de defectos por tablero, y establezca un lfmite para el error de estimación.

De la Ecuación (4.23) la media p es estimada por

donde n = 4, N = 10,

7rl =-

1SO'

7r2 =-

1so'

lT3 =-

150'

9 n4=150

Por lo tanto,

También, de la Ecuación (4.24)

La estimación del número promedio de defectos por tablero, con un límite para el error de estimación, es entonces,

El intervalo (1.37, 2.05) proporciona un intervalo de confianza de aproximadamente 95% para el número promedio de defectos por tablero.

4 MUESTRE0 IRRESTRICTO ALEATORIO

El objetivo de la estadística es hacer inferencias acerca de una población con base en la información contenida en una muestra. Dos factores afectan la cantidad de información en una investigación dada. El primero es el tamaño de la muestra. Mientras más grande sea el tamaño de muestra, mayor será la información que esperamos obtener acerca de la población. El segundo factor que afecta la cantidad de información es la magnitud de variación en los datos. La variación puede ser controlada mediante el diseño de la encuesta por muestreo, esto es, el método por medio del cual se obtienen las observaciones. En este capltulo se trató el tipo más simple de diseños de encuesta por muestreo, el muestreo irrestricto aleatorio. Este diseño no intenta reducir el efecto de la variación sobre el error de estimación. Una muestra irrestricta aleatoria de tamaño n ocurre si cada muestra de n elementos de la población tiene la misma probabilidad de ser seleccionada. Las tablas de números aleatorios son útiles para determinar los elementos que serán incluidos en una muestra aleatoria simple. En la estimación de una media p y un total T , poblacionales, usamos la media muestra1 y y el total Ni,respectivamente. Ambos estimadores son insesgados; esto es, = T. La varianza estimada y el límite para el error de estimación E ( Y ) = p y E(Nf) están dados para ambos estimadores. En alguna etapa durante el diseño de una encuesta, el experimentador debe decidir cuánta información se desea, esto es, en qué magnitud puede tolerarse un lfmite para el error de estimación. Las necesidades de tamaño de muestra fueron presentadas para estimar p y T con un íímite para el error de estimación específico. El tercer parámetro estimado fue la proporción poblacional p. Las propiedades de 3 fueron presentadas y relacionadas con las propiedades de y, el estimador de la media poblacional p . La selección del tamaño de muestra para estimar p con un límite específico para el error de estimación se basó en el mismo principio empleado para la selección de un tamaño de muestra para estimar p y T . Si las mediciones de la población varían considerablemente en tamaño, y si alguna medida aproximada de este tamaño está disponible antes del muestreo, entonces el muestreo con probabilidades proporcionales al tamaño puede ser ventajoso. Este método produce estimadores insesgados de p y T , los cuales pueden tener una varianza mucho menor que las de aquellos generados a través del muestreo irrestricto aleatorio.

ANALISISDEL ESTUDIO DE CASO

LA ENCUESTA DEL SIF En la encuesta de opinión presentada al principio de este capítulo, el 54% de 2207 personas entrevistadas opinó que las formas del SIF son muy complicadas.Una estimación de la proporción poblacional que considera las formas muy complicadas se encontró usando .

EJERCICIOS

al suponer que el tamano de la población N es muy gran& Con 6 = 0.54. la proporción muestral observada, tenemos

como nuestra estimación de la proporción poblacional.Por lo tanto; podemos confiar en que la mayoría de los contribuyentes realmente encuentran a las formas del SIF muy complicadas.

4.1

Liste todas las posibl muestras irrestrictas aleatorias de tamaño n = 2 que pueden seleccionar/" se de la población { O , 1, 2, 3, 4). Calcule la u2de la población y la V(fl de la media muestral f . Luego, demuestre por cálculos directos que

4.2

Para las muestras irrestnctas aleatorias generadas en el Ejercicio 1, calcule la sPde cada muestra. Demuestre numéricamente que

4.3

Suponga que usted va a estimar el número de conglomerados de maleza de cierto tipo en un campo. ¿Cuál es la población, y qué usaría como unidades de muestreo? (Cómo construiría un marco? (Cómo seleccionaría una muestra i m u i c t a aleatoria?Si la unidad de muestreo es un área, tal como una yarda cuadrada, ¿afectael tamaño sdeccionado para la unidad de mwstreo a la precisión de los resultados? (Qué consideraciones tomaría en cuenta su elección del tamaño de la unidad de muestreo? El conjunto de datos en el Apéndice (Tabla 3) lista la$cifras de la población de residentes por estado, según el censo de 1980. Seleccione una muestra irrestricta aleatoria de cinco estados. Use las cifras de la población de 1980, de los estados seleccionados para estimar la población total de Estados Unges, y establezca uniírnke para el error de estimación.{Incluyesu intervalo obtenido la cifra de la población total dada en la tabla? (Considera usted que cualquier intervalo de confianza de 95%, basado en muestras de tamaño 5, incluiría al total verdadero? (Por qué? Las autoridades de un parque estatal están interesadas en la proporción de personas que acampan y que consideran que el espacio del área disponible para acampar en un terreno en particular es adecuado. Las autoridades decidieron tomar una muestra irrestricta aleatoria de n = 30 de los primeros N = 300 grupos acampados que visitan el campo. Sea y, = O si el jefe del i-bimo grupo muestreado considera que el espacio del área disponible para acampar no es adecuado, y y, = 1 si considera que es adecuado (i = 1, 2, . . . , 30). Use los datos de Ia tabla adjunta para estimar p. la proporción de personas que acampan y que consideran que el espacio del área disponible para acampar es adecuado. Establezca un límite para el error de cstimacion.

4.4

4.5

4 MLIESTREO IRRESTRICTOALEATORIO

4.6 4.7

4.8

4.9

Use los datos del Ejercicio 4.5 para determinar el tamaño de muestra requerido para estimar p con un límite para el error de estimación de magnitud B = 0.05. Una muestra irrestricta aleatona de n = 100 medidores de agua es controlada dentro de una comunidad para estimar el promedio de consumo de agua diario por casa, durante un periodo estacional seco. La media y la varianza muestrales fueron y = 12.5 y se = 1252. Si suponemos que hay N = 10,000 casas dentro de la comunidad, estime k , el promedio de consumo diario verdadero, y establezca un lfmite para el error de estimación. Usando los datos del Ejercicio 4.7, estime el número total de galones de agua, 7, usado diariamente durante el periodo seco. Establezca un lñmite para el error de estimación. Los encargados de administrar los recursos de los terrenos dedicados a la caza silvestre están interesados en el tamaño de las poblaciones de venado y de conejo en los m'eses de invierno en un bosque en particular. Como una estimación del tamaño de la población, los administradores proponen usar el número promedio de grupos densos de conejos y de venados por parcelas de SO pies por lado. De acuerdo con una fotografia aérea, el bosque fue dividido en N = 10,000 cuadros de SO pies por lado. Una muestra irrestricta aleatoria de n = 500 parcelas fue seleccionada, y se observó el número de grupos densos de conejos y de venados. Los resultados de este estudio se resumen en la tabla adjunta. Estime pl y el número promedio de grupos densos de venados y de conejos, respectivamente, por parcelas de SO pies por lado. Eotablezca los límites para los errores de estimación.

Media muestra1 = 2.30 Varianza muestra1 = 0.65 4.10

4.11

Media muestra1 = 4.52 Varianza muestra1 = 0.97

Una muestra irrestricta aleatoria de n = 40 estudiantes de un colegio fue entrevistada para determinar la proporción de estudiantes que está a favor del cambio del sistema semestral al trimestral. Veinticinco de los estudiantes respondieron afirmativamente. Estime la proporción de estudiantes del colegio que está a favor del cambio (suponga que N = 2000). Establezca un llmite para el error de estimación. Un dentista está interesado en la efectividad de una nueva pasta dental. Un gnipo.de N = 1000 niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que habfa un promedio de 2.2 caries cada seis meses para el grupo. Después de tres meses de iniciado el estudio, el dentista muestreó n = 10 niños para determinar cuánto hablan progresado con la nueva pasta dental. Usando los datos de la tabla adjunta, estime el número medio de caries para todo el grupo, y establezca un limite para el error de estimación.

Niño

4.12

4.13

4.14

Número de caria en el periodo de tren meaes

El Departamento de Caza y Pesca de cierto estado está interesado en la dirección de sus programas futuros de caza. Para mantener un potencial mayor de caza futura, el departamento desea determinar la proporción de cazadores que buscan cualquier tipo de ave de caza. Se obtuvo una muestra irrestricta aleatoria de n = 1000 de los N = 99,000 cazadores con permiso. Suponga que 430 indicaron que cazaron aves. Estime p , la proporción de cazadores con permiso que buscan aves de caza. Establezca un límite para el error de estimación. Usando los datos del Ejercicio 4.12, determine el tamaño de muestra que el Departamento debe obtener para estimar la proporción de cazadores de aves de caza, dado un Emite para el e m r de estimación de magnitud B = 0.02. El auditor de una compañía está interesado en estimar el número total de comprobantes de viáticos que fueron archivados incorrectamente. En una muestra irrestricta aleatoria de N = 50 comprobantes tomados de un grupo de N = 250,20 fueron archivados incorrectamente. Estime el número total de comprobantes archivados incorrectamente de los N = 250, y establezca un límite para el error de estimación. [Sugerencia: Si p es la proporción poblacional de comprobantes archivados incorrectamente, entonces N p es el número total de comprobantes archivados incorrectamente. Un estimador de N p es ~ j el, cual tiene una varianza estimada dada por

N~V(~I).] 4.15

4.16

4.17

4.18

Un psicólogo desea estimar el tiempo de reacción promedio para un estímulo entre 200 pacientis de un hospital especializado en transtornos nerviosos. Una muestra irrestricta aleatoria de n = 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con los resultados siguientes Estime la media poblacional p , y establezca un límite para el error de estimación. En el Ejercicio 4.15, ¿de qué tam,año deberá ser la muestra para estimar p con un límite para el error de estimación de 1 segundo? Use 1 .O segundos como una aproximación de la desviación estándar poblacional. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita cuando menos una persona mayor de 65 afíos de edad. La ciudad tiene 621 hogares, según el directorio telefónico más reciente. Una muestra irrestricta aleatoria de n = 60 hogares fue seleccionada del directorio. Al terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita cuando menos una persona mayor de 65 años de edad. Estime la proporción poblacional p , y establezca un límite para el error de estimación. El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador para teminar una tarea sencilla. El taller tiene 98 operadores. Se seleccionaron aleato-

4 MUESTRE0 RRESTRICTO ALEATORIO

riamente a ocho operadores y se les tomó el tiempo. Los resultados obtenidos se muestran en la tabla adjunta. Estime el tiempo promedio para terminar la tarea entre todos los operadores, y establezca un lfmite para el error de estimación. Tiempo(en minutos)

En el Ejercicio 4.18, {dequé tamaño deberá ser la muestra para estimar p con un lfmite para el error de estimación de 0.08) Suponga que la proporción verdadera p es aproximadamente 0.2. Un investigador está interesado en estimar el número total de "árboles marcados" (árboles más grandes que cierto tamaño específico) en una plantación de N = 1500 acres. Esta información se utiliza para estimar el volumen total de madera aserrada para los árboles en la plantación. Una muestra irrestricta aleatoria de n = 100 parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el número de árboles marcados. El promedio muestral para las n = 100 parcelas de 1 acre fue Y = 25.2, con una varianza muestral de sZ = 136. Estime el número total de árboles marcados en la plantación. Establezca un límite para el error de estimación. Usando los resultados de la encuesta descrita en el Ejercicio 4.20, determine el tamaño de muestra requerido para estimar 7 , el número total de Srboles en la plantación, con un límite para el error de estimación de magnitud B = 1500. Una gran empresa constructora tiene 120 casas en diversas etapas de terminación. Para estimar la cantidad total de dólares que será registrada en el inventario de la constnicción en proceso, se seleccionó una muestra irrestncta aleatoria de 12 de esas casas y se determinaron los costos acumulados en cada una de cuas. Suponga que los costos obtenidos para las 12 casas de la muestra fueron los siguientes:

Estime los costos totales acumulados para las 120 casas, y establezca un límite para el error de estimación. De los datos de la Tabla 3 en el Apéndice, seleccione una muestra irrestricta aleatoria simple de n = 10 estados. Estime la proporción de estados con el ingreso por persona de 1977 que estén abajo de $ 5500, y establezca un límite para el error de estimación. Los resultaes de una encuesta de opinión pública, reportados en una revista (Time, Enero 2, 1984), mostraron que el 51% de los entrevistados coinciden completamente con la siguiente declaración: Los soviéticos están tan temerosos de una guerra nuclear como los estadounidenses, y por lo tanto e! interés mutuo es encontrar formas para negociar. El arttculo establece que "los resultados están basados en una encuesta por teléfono de 1000 votantes registrados . El error de muestre0 potencial es de más o menos 8% ¿Cómo se calculó y cuál es la interpretación del 3%? ¿Podernosconcluir que la mayoría de los votantes registrados coinciden completamente con la declaración? La encuesta de Florida de febrero-marzo de 1984 (Gainemlle Sun, abril 1, 1984) entrevistó a 871 adultos de todo el estado. En una pregunta, el 53% de los entrevistados favoreció fuene-

EJERCICIOS

4.26

4.27

mente el apoyo a Israel. ¿Pudría usted concluir que la mayoría de los adultos en Florida favorecen el apoyo decidido a Israel? Los resultados de una encuesta de Louis Hanis establecen que el 36% de los estadounidenses registra al fútbol como su deporte favorito. Un artfculoestablece: "Con una muestra de este tamaño (1091 adultos) se puede decir con 95% de seguridad que los resultados están dentro de más o menos 3% de lo que estarían, si la población completa de adultos hubiera sido encuestada" (Cainesdle Sun, mayo 7, 1961). ¿Está usted de acuerdo? La Compañía Nielsen, A. C., ha instalado monitores electrónicosen los aparatos de televisión de aproximadamente 1200 de los 80 millones de hogares estadounidenses. Los datos obtenidos de los monitores registran estimaciones de la proporción de hogares que sintonizaron un programa de T V en particorar. Nielsen presenta la siguiente justificación para este tamaiio de muestra (D. Cody, "Po11 and Pollsters", Sky, octubre de 1982, p. 116): I Mezck 70,000 frijoles blancos y 30,000 frijoles rojos y luego extraiga una muestra de 1000 frijoles. Las probabilidades matemáticas son de que el número de frijoles rojos estará entre 270 y 330, o sea de 27 a 30% de la muestra, lo que corresponde a una "clasificación" de SO, más o menos tres, con una certeza de 20 a 1 de confiabilidad estadística. La regla estadística básica no cambiaría si el muestreo proviniera de 80 millones de frijoles en lugar de 100,000.

4.28

4.29

Interprete y justifique esta declaración en términos de los resultados de este capftulo. En una encuesta de opinión se interrogó a 1684 adultos en todo Estados Unidos (Cainesville Sun, julio 4, 1983). En la encuesta se reportó tener un 6% de margen de error para los resultados referentes a las proporciones de entrevistados que favorecen ciertas decisiones. ~Eftáusted de acuerdo? Un auditor detecta que cierta empresa regularmente exagera las cantidades de dinero en dólares de los inventarios, a causa de los retrasos en el registro de los retiros. El auditor quiere estimar la cantidad total exagerada sobre 1000 artículos listados, obteniendo las cantidades exactas (revisadas) del inventario mediante una muestra irrestricta aleatoria de 15 artículos, y comparando estas cifras exactas con las cantidades registradas. Los datos para los artículos seleccionados se muestran en la tabla respectiva (todos los datos en dólares). Estime la cantidad total exagerada sobre los 1000 tipos de artículos, y establezca un iímite para el error de estimación. (Omita la cpf.)

Artículo número

Cantidad revisada

Cantidad registrada

Exageración (diferencia)

4 MUESTRE0 IRRESTRICTO ALEATORIO 4.30

Un auditor muestrea aleatoriamente 20 cuentas por cobrar de las 500 cuentas de una empresa. El auditor lista la cantidad de cada cuenta y verifica si los documentos respectivos cumplen con los procedimientos establecidos. Los datos son como sigue (cantidades en dólares, Y = si, N = no):

Cuenta

4.31

4.32

4.33

4.34

4.35

4.36

Cantidad

Conmrdamia

Cuenta

Cantidad

Conmrdanaa

Estime el total de cuentas por cobrar para las 500 cuentas de la empresa, y establezca un límite para el error de estimación. ¿Considera usted que el promedio de las cuentas por cobrar de la empresa excede de $250? ¿Por qué? Rernftase al Ejercicio 4.30. Con los datos referentes a la concordancia, estime la proporción de las cuentas de la empresa que no cumplen con los procedimientos establecidos. Establezca un límite para el error de estimación. {Considera ,uted que la proporción de cuentas que cumplen con los procedimientos establecidos excede del 80%? {Por qué? Remítase al Ejercicio 4.30. Suponga ahora que las 20 cuentas dadas representan una población de la cual n = 5 cuentas serán seleccionadas para una investigación más detallada. (El cuentahabiente será entrevistado para verificar las cantidades.) Seleccione una muestra de 5 cuentas con probabilidades proporcionales a las cantidades. El departamento de agricultura de un estado quiere medir la producción total de tomates para una muestra de campos sembrados, con el propósito de estimar la producción total de tomate para el estado. Analice los méritos del muestreo irrestricto aleatorio comparado con el muestreo con probabilidades proporcionales al tamaño. Remítase a las cifras de la población de Estados Unidos dadas en la Tabla 3 del Apéndice. De los nueve estados del noreste, seleccione una muestra de cuatro estados con probabilidades proporcionales a los tamaños de su población total en 1970. ¿Es este procedimiento un esquema muestreo apropiado para estimar el total de desempleo en el Noreste? ¿Eseste procedimiento un esquema de muestreo apropiado para estimar acres de terreno forestal? Para los n = 4 estados seleccionadosen el Ejercicio 4.34, registre los tamaños de su población en 1980, según la Tabla 3 del Apéndice. Use estos datos para estimar la población total en 1980 de los estados del noreste, y establezca un límite para el error de estimación. ¿Está el total que se indica en la tabla incluido en su estimación por intervalo?{Considera usted que este método de muestreo es mejor que seleccionar una muestra irrestricta aleatoria de cuatro estados con fines de estimar la poblaci6n total? {Por qué? La tabla adjunta muestra gastos de consumo personal en Estados Unidos para una selección de bienes y servicios (en miles de millones de dólares). Seleccione una muestra de tres categorías con probabilidades proporcionales a los gastos de 1981. Utilice para las categorías muestreadas los datos de 1982 para estimar el gasto total por las nueve categorías en 1982. Establezca un límite para el e m r de estimación.

EJERCICIOS

Vehículos automotores Muebles y enseres domésticos Alimentos Ropa Gasolina y aceite Combustible y carbón Vivienda Funcionamiento de la vivienda Transporte -

Fuente: The World A l m n a c CI Book of Facts, 1984 edition, copyright @ Newspaper Enterprise Amciation, Inc., 1983, New York, N Y 10166.

4.37

Un estudio para evaluar las actitudes de los contadores, respecto a la publicidad de sus servicios, incluyó el envío de cuestionarios a 200 contadores seleccionados de una lista de 1.400 nombres. Un total de 82 cuestionarios debidamente contestados fueron devueltos. El resumen de los datos para una pregunta es como sigue: Probabilidad de publicidad en el futuro [%] Toda loi quc

Aquclloi con publicidad eti el purido (46)

mpondicnni (84)

Certeza virtual Muy probable Poco probable Alrededor de 50-50 Poco improbable Muy improbable No absoluto No respuesta

22 4.

35 15 1O O O O

6 12

15 4

(a) Estime la proporción poblacional de certeza virtual para hacer publicidad nuevamente. (b) Estime la proporción poblacional de tener a¿menos una probab dad de 50-50 de hacer publicidad nuevamente. (c) Entre aquellos con publicidad en el pasado, estime la proporción poblacional de ser poco improbable el hacer publicidad nuevamente. (d) Entre aquellos con publicidad en el pasado, estime la proporción poblacional de tener al menos una probabilidad de 50-50 de hacer publicidad nuevamente.

4.38

En todos los casos establezca un límite para el error de estimación. (Las partes (c) y (d) requieren de más suposiciones de las que se hacen para las partes (a) y (b)? Una empresa de investigación de mercados estima la proporción de clientes potenciales que prefiere cierta marca de lápiz labial, mediante la selección "aleatoria" de 100 mujeres que iiegan a

4 MUESTRE0 IRRESTRICTOALEATORIO

su puesto de ventas en un centro comercial. De las 100 mujeres seleccionadas, 65 de ellas manifestaron tener preferencia por la marca A. (a) (Cómo estimaría usted la proporción verdadera de mujeres que prefiere la marca A, con un límite para el error de estimación? (b) ¿Cuál es la población objetivo en este estudio? (c) ¿Seleccionó la empresa de investigación. de mercados una muestra irrestrka aleatoria? (d) (Qué otros problemas ve usted con este tipo de muestreo? 4.39

4.40

Se está formulando un caso legal para un sindicato de secretarias, quienes alegan que sus patrones les están pagando salarios injustamente bajos. Las 64 secretarias en la empresa tienen un salario promedio anual de $18,300, con una desviación estándar de $400. El salario promedio para todas las secretarias en la ciudad en que se localiza la empresa es de $20,100. (Puede usted sustentar el alegato de las secretarias mediante argumentos estadísticos?Si es así, plantee ciudadosarnente estos argumentos y las premisas que los fundamentan. La Comisión para la Igualdad de Oportunidades de Empleo acusa a una empresa de transgredir las normas para el contrato de grupos minoritarios, puesto que de sus 120 empleados solamente 30 no son blancos. Se sabe que en el área de mercado laboral para esa empresa, el 36% de los empleados disponibles son no blancos. (Puede usted sostener la acusación de la CIOE con fundamentos estadísticos? Plantee sus argumentos en favor o en contra de la acusación, con cuidadosa atención a las suposiciones.

EXPERIENCIAS CON DATOS REALES 4.1

La Tabla 4.7 lista algunas de las estadísticas finales para la temporada 1982-1983 de la Asociación Nacional de Basquetbol. Use estos datos para completar los ejercicios siguientes: (a) Seleccione una muestra irrestricta aleatoria de n = 5 equipos de los,N = 23 equipos listados. Use los puntos anotados por los 5 equipos muestreados para estimar el número promedio de puntos anotados por equipo y el número total de puntos anotados en la temporada por todos los equipos. En cada caso establezca un límite para el error de estimación. (Incluye su estimación por intervalo, para el total de puntos anotados, al total verdadero? (b) En papel cuadriculado, grafique el número de puntos anotados contra el número de partidos ganados para cada uno de los 23 equipos. (Parece existir una gran correlación positiva entre estas dos mediciones?Suponga que una muestra de n = 5 equipos es seleccionada con probabilidades proporcionales al número de partidos ganados, y que esta muestra es usada para estimar el número total de puntos anotados en la asociación. (Considera usted que la vananza de este estimador será más grande o más pequeña que la vananza del estimador del total de puntos anotados usado en el inciso (a)? (Por qué? (c) Grafique el número de partidos ganados contra el número de rechazos para cada uno de los 43 equipos. (Parece existir una correlación positiva entre estas dos mediciones? (d) Seleccione una muestra de n = 4 equipos con probabilidades proporcionales al número de partidos ganados. Use el número de rechazos de estos cuatro equipos para estimar el número promedio de rechazos por equipo en la asociación. Establezca un límite para el error de estimación.

4.2

Identifique un problema en su área de interés del cual pueda usted extraer una muestra irrestricta aleatoria para estimar una media, un total o una proporción poblacionales. Defma claramente la población, las unidades de muestreo, y construya un marco. Seleccione una muestra irrestriaa aleatoria del marco, usando la tabla de números aleatonos en el Apéndice. Luego recolecte los datos y efectúe los cálculos necesarios.

: i

EXPERIENCIAS CON DATOS REALES

TABLA4.7

Estadístrcasfinales para 1982-1983 de la Asociación Nacional de Basquetbol Partidos ganados

Partidos perdida

Puntos anotados

Punta permitida

k h m

División del Atlántico Philadelphia 65 Boston 56 New Jersey 49 New York 44 Washington 42 , División del Centro Milwaukee 51 Atlanta 43 Detroit 37 Chicago 28 Cleveland 23 Indiana 20 División del Medio Oeste San Antonio 53 Denver 45 Kansas City 45 Dallas 38 Utah 30 Houston 14 División del Pacífico 58 Los Angeles Phoenix 53 Seattle 48 Portland 46 Golden State 30 San Diego 25 Fuente: The World Almanac B B ~ O Rof Facts, 1984 edition, copyright ONewspaper Enterprise Association, Inc., 1983, New York, NY 10166.

Algunos proyectos sugeridos son como sigue: Comercio: Estime el ingreso promedio bruto para las empresas de un cierto tipo en su área, o la cantidad promedio gastada para esparcimiento entre los varones de un colegio. Ciencias sociales: Estime la proporción de votantes registrados que apoyan alguna .propuesta política popular, o estime el número promedio de personas por familia para cierta sección de su ciudad. Cienciasfiicas: Considere un experimento de laboratorio, tal como medir la resistencia de tensión de un alambre o medir el diámetro de una barra. Tome n observaciones independientes sobre tal experiniento y trátelas como una muestra irrestricta aleatoria. Construya una estimación por intervalo para la media "poblacionai". Aquí la población es meramente conceptual (se podrían efectuar muchas mediciones del fenómeno en cuestión), y su media representa la resistencia promedio del alambre de este tipo o el diámetro promedio de la barra. Ciencias biológicas: Estime el peso promedio de los animales alimentados con una dieta durante un periodo específico, o estime la altura promedio de los árboles en cierta porción de terreno. Como un ejemplo para trabajar con totales en lugar de medias, estime el número total

4 MUESTRE0 IRRESTRICTO ALEATORIO

de colonias de insectos (de cierto tipo) que plaga una parcela. Aquí sea cuidadoso en la selección de las unidades de muestre0 y la construcción del marco. Si un ejemplo real involucra un conjunto grande de datos, quizá desee usar una computadora para sus cálculos. La mayoría de los centros de cómputo tiene programas tipo que calculan medias y vananzas muestrales. Cuatro paquetes de tales programas ampliamente usados son SPSS, SAS, BIOMED y MINITAB (véase la Bibliografia en el Apéndice).

M UESTREO ALEATORIO ESTRATIFICADO ESTUDIO DE CASO

¿PODEMOS ESTIMAR EL COSTO TOTAL EN EL CUIDADO DE LA SALUD? Un problema importante de interés nacional involucra la estimación del costo de cuidados de la salud. Estos costos son estudiados por diversas instituciones. tanto del sector gobierno como del sector privado, a fin de establecer políticas gubernamentales y evaluar decisiones mercantiles, tales como tasas para sistemas de seguro. Un método para estimar los costos de hospital para una enfermedad es considerado en el artículo "Economic Impact of Kidney Stones in ~ h i t Adult e Males", por J. Shuster y R.L. Scheaffer (Urology, vol. 24, No 4, 1984).En este trabajo dos regiones de Estados Unidos, las Carolinas y los estados de las MontanasRocosas, fueron consideradas para un estudio especial. Una muestra den, = 363 pacientes con litiasis en las Carolinas tuvo un costo promedio para la primera hospitalización de S1350; una muestra de n, = 258 pacientes con litiasis en las Rocosas tuvo un costo promedio para la primera hospitalización de $1150. ¿Podemosestimar el costo anual total de hospitalización por esta enfermedad para ambas regiones combinadas? Los méto dos del Capítulo 5 nos indicarán cómo hacerlo si existe alguna información adicional disponible Los métodos pueden utilizarse entonces para hacer la estimación de todo Estados Unidos si se cuenta con información muestra1para otras regiones.

5.1

INTRODUCCiÓN El objetivo del diseño de encuestas por muestreo es rnaximi,ar la cantidad de información para un costo dado. El muestreo irrestricto aleatorio, diseño báSICO de muestreo, suele suministrar buenas estimaciones de cantidades poblacionales a un COStO bajo. En este capl!ulo definimos un segundo procedimiento de muestreo, el muestreo aleatorio estratificado, que en muchas ocasiones incrementa la cantidad de informaci6n para un COStO dado.

DEFINICiÓN 5.1 Una muestra aleatoria estratificada es la obtenzda medIante La separación de los elementos de la población en grupos que no presenten \ traslapes, Llamados estratos, y la selecdón pOJlen"01 de una muestra l"rrestricta \ aleatoria st·mple de cada estrato. \

Supóngase que en cieno munJClpto se va a real izar un a encuesea de opiniéin pública, diseñada para estimar la proporci6n de votanees que apoyan mayor gasto .Oe Jos impuestos públicos en mejorar el servicio de ambulancia. El mWlicipio comprende.(los ciudades y un área rural. Los elementos poblacionales de interés para la encuesca 'son todos los hombres y mujeres en edad de votar residentes en el municipio. Una muestra aleaton:a eSlrat-iji"cada de adultos residentes en el municipio puede obtenerse mediante la selecóón de tres muestras irrestrictas aleatorias de adultos: una en cada ciudad y otTa en el área rural. Esto es, las dos ciudades y el área rural representan tres estraJos de los cuales ob tenemos muestras ir-restrictas aleatorias.

En esta encuesta, ¿por qué debemos escoger una muestra aleatoria estratificada, en lugar de upa muestra irrestricta aleatoria? Primero, tengamos en cuenta que nuestro objetivo al diseñar una encuesta es maximizar la información obtenida (o minimizar el límite para el error de estimación) para un presupuesto fijo. Las muestras que presentan poca variabilidad entre las mediciones producirán pequeños límites para el error de estimación. Entonces, si los adultos en una ciudad (digamos ciudad A) tienden a pensar de igual manera respecto al servicio de ambulancia, podemos obtener una estimación muy exacta de la proporción encuestada con una muestra relativamente pequeña. Asimismo si todos los adultos de la segunda ciudad (ciiidad B) tienden a pensar semejante acerca de esta situación, aunque difieran en opinión de los de la ciudad A, podemos obtener nuevamente una estimación exacta con una muestra pequeña. Esta situación puede presentarse si la ciudad A tiene un hospital y por eso no le urge mejorar el servicio de ambulancia; mientras que la ciudad B no tiene hospital y por ello necesita mejorar su servicio de ambulancia. Las opiniones en el área rural pueden ser más variadas, pero quizá viva ahí menor número de adultos y se pudiera disponer de recursos suficientes para un estudio detallado en esta área. Cuando se combinan los resultados de la muestra aleatoria estratificada, la estimación final de la proporción de votantes que apoyan un mayor presupuesto para el servicio de ambulancia puede tener un límite para el error de estimación mucho más pequeño que el obtenido de una muestra irrestricta aleatoria de tamaño comparable. Segundo, el costo por obtener las observaciones varía según el diseño dé la encuesta. El costo por seleccionar los adultos que van a ser muestreados, el costo del tiempo y traslado del entrevistador y el costo para instrumentar todo el proceso de muestreo pueden ser minimizados mediante una muestra aleatoria estratificada, cuidadosamente planeada para áreas geográficas compactas bien definidas. Tales ahorros en costos pueden permitir al investigador utilizar una muestra de mayor tamaño que la que podría usar para una muestra irrestricta aleatoria del mismo costo total. Tercero, se pueden desear estimaciones de parámetros pgblacionales para ciertos subconjuntos de la población. En la encuesta del municipio cada comisión de la ciudad puede desear una estimación de la proporción de votantes que favorecen un mejor servicio de ambulancia para su propia ciudad. El muestreo aleatorio estratificado permite la estimación separada de parárnetros poblacionales dentro de cada estrato. En resumen, los motivos principales para utilizar muestreo aleatoria estratificado en lugar de muestreo irrestricto aleatorio son los siguientes:

1. La estratificación puede producir un límite más pequeño para el error de estimación que el que se generaría por una muestra irrestricta aleatoria del mismo tamaño. Este resultado es particularmente cierto si las mediciones dentro de los estratos son homogéneas. 2. El costo por observación en la encuesta puede ser reducido mediante la estratificación de los elementos de la población en grupos convenientes. 3. Se pueden obtener estimaciones de parámetros poblacionales para subgrupos de la población. Los subgrupos deben ser entonces estratos identificables. Estos tres principios para la estratificación deben tenerse presentes cuando se está planeando estratificar o no a una población o decidiendo cómo definir los estratos. El muestreo de pacientes hospitalizados, sujetos a cierta dieta para evaluar ganancia en peso, puede ser más eficiente si son estratificados por sexo, ya que el varón tiende a pesar más que la mujer. Una encuesta de estudiantes en una universidad puede apli-

5 MUESTRE0 ALEATORIO ESTRATIFICADO

carse e instrurnentarse más convenientemente si los estudiantes son estratificados en residentes internos y externos del recinto universitario. Si los gerentes de una planta manufacturera requieren estimaciones de la proporción de productos defectuosos, se puede realizar un plan de muestreo para control de calidad estratificado por líneas de producción. La mayoría de las grandes encuestas tiene incorporado cierto grado de estratificación en el diseño. Como ejemplos consideraremos a tres grupos importantes de encuestas realizadas por la Oficina de Estadísticas del Trabajode Estados Unidos. El Índice de Precios del Consumidor (IPC) es una medida de la variación promedio en precios de una colección fija de bienes y servicios para los consumidores urbanos. El IPC realmente se calcula a partir de al menos cuatro diferentes tipos de encuestas: escuestas de ciudades, encuestas de familias urbanas, encuestas de empresas que proporcionan bienes y servicios, y encuestas de bienes y servicios específicos. En el diseño de la mayoría de las encuestas del IPC, 1166 unidades muestrales (municipios o grupos de municipios contiguos) son identificadas en la población y agrupadas en 85 estratos. Los estratos son elegidos con base en aspectos geográficos, tamaño de la población, incremento en el porcentaje poblacional de 1960 a 1970,grandes industrias, porcentaje de no blancos, y porcentaje de urbanos. Las unidades muestrales dentro de un estrato son elegidas lo más homogéneas posible con respecto a estas características. La Encuesta de Población Actual (EPA) mide aspectos de empleo, desempleo, y personas que no están en la fuerza de trabajo. Esta encuesta agrupa 1931 unidades muestrales en todo Estados Unidos, en estratos similares a los de las encuestas del IPC, excepto que se usan unidades muestrales rurales y el número de ranchos es una cantidad importante para la estratificación. La Encuesta de Establecimientos (EE) reúne información relativa a horas de trabajo y ganancias para establecimientos no agrícolas en Estados Unidos. Los establecimientos son estratificados de acuerdo con el tipo de industria y tamaño, primordialmente para homogeneidad de las mediciones pero también para aportar estimaciones para diversos tipos de industria. Por ejemplo, se proporciona información para categorías de industrias, tales como minería, construcción, manufactura, transporte y finanzas, seguros y bienes raíces. En este capítulo la estratificación se utilizará siempre con muestreo irrestricto aleatorio en cada estrato, como se estableció en la Definición 5.1. Sin embargo, la estratificación puede ser combinada con otros tipos de muestreo dentro de los estratos. Presentaremos algunos ejemplos en capítulos posteriores.

El primer paso en la selección de una muestra aleatoria estratificada es espeficar claramente los estratos; así, cada unidad muestra1 se ubica en el estrato apropiado. Este paso puede ser más dificil de lo que parece. Por ejemplo, suponga que usted planea estratificar unidades muestrales, -digamos, hogares- en unidades urbanas y rurales. ¿Qué se debe hacer con estos hogares en una población de 1000 habitantes?¿Sonrurales o urbanos estos lugares? Pueden ser rurales si el pueblo está aislado en el campo, o pueden ser urbanos si el pueblo es contiguo a una gran ciudad. Por ello, para especificar

5.2 COMO SELECCIONAR UNA MUESTRA ALEATORIA ESTRATIFICADA

los significados de urbano y rural es esencial que cada unidad muestra1 pertenezca claramente únicamente a un estaato. Después que las unidades de muestreo han sido divididas en estratos, seleccionamos una muestra irrestricta aleatoria de cada estrato, mediante la técnica presentada en el Capítulo 4. El problema de elegir el tamaño de muestra apropiado para cada estrato se tratará posteriormente en este capftulo. Debemos estar seguros de que las muestras seleccionadas en los estratos sean independientes. Esto es, se deben aplicar diferentes esquemas de muestreo aleatorio dentro de cada estrato, de tal manera que las observaciones elegidas en un estrato no dependan de las que se han elegido en otro estrato. Se requiere alguna notación adicional para muestreo aleatorio estratificado. Sea

L = número de estratos Ni = número de unidades muestrales en el estrato i N = número de unidades muestrales en la población =N,+Nz+'''+NL El siguiente ejemplo ilustra una situación en la cual el muestreo aleatorio estratificado puede ser apropiado.

Una empresa publicitaria está interesada en determinar qué tanto debe enfatizar la publicidad televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para estimar el número promedio de horas por semana que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos, pueblo A y pueblo B, y un área rural. El pueblo A circunda una fábrica, y la mayoría de los hogares son de trabajadores fabriles con niños en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de habitantes más viejos con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el área rural. Analice los méritos de usar muestreo aleatorio estratificado en esa situación.

La población de hogares se ubica en tres grupos naturales, dos pueblos y un área rural, de acuerdo con su localización geográfica. Entonces la población dividida en tres estratos es bastante natural, simplemente por conveniencia administrativa para seleccionar las muestras y para ejecutar el trabajo de campo. Además, los elementos de cada estrato deben presentar tendencias similares de comportamiento entre ellos mismos. Se espera relativamente poca variabilidad en el número de horas que se VE televisión en los hogares de cada grupo, y este es precisamente el caso en que la estratificación produce una reducción en el limite para el error de estimación. La empresa publicitaria puede desear producir estimaciones, por separado, clel número promedio de horas que se ve televisión en cada pueblo. El muestreo aleatorio estratificado permite estas estimaciones. Para la muestra aleatoria estratificada, tenemos N, = 155, N, = 62 y N, = 93, con N = 310.

5.3

5 MI.IESTRE0 ALEATORIO ES-TRATIFICADO

ESTIMACION

DE UNA MEDIA Y UN TOTAL POBLACIONALES {Cómo podemos usar los datos de una muestra estratificada para estimar la media de la población?Sea ji la media muestral para la muestra irrestricta aleatoria seleccionada en el estrato i, ni el tamaño de la muestra en el estrato i, pi la media poblacional para el estrato 2, y el total poblacional para el estrato i. Entonces, el total de la población T es igual a T , 7 , 7,.Tenemos una muestra irrestricta aleatoria dentro de cada estrato. Por ello sabemos, a partir del CapItulo 4, que yi es un estimador insesgado de pi y Niji es un estimador insesgado del total del estrato ri = Nipi. Parece razonable formar un estimador de T, que es la suma de los ri mediante la suma de los estimadores de los ri. Asimismo, ya que la media poblacional p es igual al total poblacional T dividido entre N, un estimador insesgado de p se obtiene sumando los estimadores de los ride todos los estratos y luego dividiendoentre N. Denotamos este estimador por Y,,, donde el subíndice st indica que se ha utilizado muestre0 aleatorio estratificado.

+ + . +

Estimador de la media poblacional p :

Varianza estimada de

+(Yst)

Y,,:

1 3 [N: e(j,)+ N : ~ ( R )+

+ N:Y(~~)]

Límite para el error de estimación:

Suponga que se lleva a cabo la encuesta planeada en el Ejemplo 5.1. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras aleatoria de tamaño n, = 20 del pueblo A, n, = 8 del pueblo B, y n, = 12 del área rural. (Después analizarenios la elección de los tamahs de

5.3 ESTIMACIÓNDE UNA MEDIA Y UN TOTAL POBLACIONALES

muestra.) Se seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en las Tablas 5.1 y 5.2. Estime el tiempo promedio que se ve televisión, en horas por semana, para (a) todos los hogares en el pueblo A y (b) todos los hogares en el pueblo B. En ambos casos fije un límite para el error de estimación. Los términos S,: si, y si en la Tabla 5.2 son las varianzas muestrales para los estratos 1, 2 y 3, respectivamente; fueron obtenidos mediante la fórmula

para i = 1, 2, 3, donde y, es la observación~ésirnaen el estrato i. Estas varianzas estiman las correspondientes varianzas verdaderas en los estratos U:, U: y U:.

(a) De la Tabla 5.1 y Ecuación (5.1),

es la mejor estimación del número promedio de horas por semana en que en todos los hogares del municipio se ve televisión. También,

La estimación de la media poblacional, con uniímite para el error de estimación de aproximadamente dos desviaciones estándar, está dada por

Entonces estimamos que el número promedio de horas por semana que se ve televisión en los hogares del municipio es de 27.7 horas. El error de estimación debe ser menor que 2.8 horas, con una probabilidad aproximadamente igual a 0.95. (b) Las n, = 8 observaciones del estrato 2 constituyen una muestra irrestiicta aleatoria; por ello podemos aplicar las fórmulas del Capftulo 4. La estimación del

5 MUESTREO ALEATOI<IO ESTRATIFICADO

TABLA 5.1

Tiempo que se ve televisión, en horas por semana Estrato 1, pueblo A

35 43 36 39 28

28 29 25 38 27

26 32 29 40 35

41 37 31 45 34

TABLAS.2

Estrato 2, pueblo B

Estrato 8, área rural

27 4 49 10 15 41 25 30

8 15 21 7 14 30 20 11 12 32 34 24

Cálculos poro lo Tabla 5.1 Estrato 2

Estrato 8

=8 yz = 25.125

n3 = 12 Y3 = 19.000

Estrato 1

= 20 YI = 33.900 s~ = 35.358 NI = 155 ni

= 87.636 N 3 =93

5;=232.411 N z =62

tiempo promedio de ver televisión para el pueblo B, con un límite de aproximadamente dos desviaciones estándar para el error de estimación, está dada por o sea

25.1 ± 2

~( 6262- 8) (232.411) 8 ---

25.1 ± 10.1

o sea

Esta estimación tiene un límite grande para el err.Jr de estimación porque s~ es grande yel tamaño de muestra n 2 es pequeño. Entonces la estimación Yst de la media poblacional es bastante buena, pero la estimación yzde la media del estrato 2 es deficiente. Si se desea una estimación para un estrato particular, la muestra del estrato debe ser lo suficientemente grande para proporcionar un límite razonable para el error de estimación.

/ Los procedimientos para la estimación de un total poblacional T se derivan direCtOmente de los procedimientos presentados para la estimación de ¡.t. Ya que T es igu a N¡.t, un estimador insesgado de T es dado por NY". , I I

Estimador del total poblacional

Nyst = Nd¡

+ NzYz + ... + NáL = I

Niy¡

(5\.4)

í=l

Varianza estimada de NYs.: (5.5)

5 4 SELECCIÓN DEL TAMAÑODE MUESTRA PARA ESTIMAR LAC MEDIAS Y TOTALES POBLACIONALES

Límite para el error de estimación:

Remítase al Ejemplo 5.2 y estime el número total de horas por semana que las familias del municipio dedican a ver televisión. Fije un límite para el error de estimación.

Con los datos de la Tabla 5.1,

Nfst = 310(27.7)= 8587 horas La varianza estimada de NY,, está dada por

La estimación del total de la población, con un límite para el error de estimación, está dada por

N O

sea

o sea

8587

* 870

* 2J189,278.560

De esta manera estimamos que el tiempo semanal total que en los hogares del municipio se ve televisión es de 8587 horas. El error de estimación debe ser menor que 870 horas:

5.4 SELECCIONDEL TAMANO DE MUESTRA PARA ESTIMAR LAS MEDIAS Y TOTALES POBLACIONALES La cantidad de información en una muestra depende del tamaño de muestra n, ya que V ( f s , )decrece con el incremento de n. Examinemos un método para seleccionar el tamaño de muestra, a fin de obtener una cantidad fija de información para estimar un parámetro poblacional. Susngase que especificamos que la estimación y,, debe estar dentro de B unidades de la media poblacional, con una probabilidad aproximadamente igual a 0.95. Simbólicamente queremos

5 MUESTRE0 ALEATORIO ESTRATIFICADO

sea

Esta ecuación contiene la varianza poblacional de i,,en lugar de la varianza estimada. Para N grande, la varianza real, V(yst), es muy similar a la Ecuación (5.2), con 2 S:, S,, . . . , SS reemplazadas por u:, u:,. . . , u:. Aunque hicimos V(fst) igual a B2/4, no podemos despejar n, a menos que sepamos algo acerca de la relación entre ni, n,, . . . , nL y n. Hay muchas maneras para asignar un tamaño de muestra n a los diversos estratos. Sin embargo en cada caso el número de observaciones niasignado al i-ésimo estrato es una fracción del tamaño de muestra total n. Denotamos esta fracción por wi. Por elio podemos señalar

Usando la Ecuación (5.7), podemos entonces hacer V(i,J igual a B2/4y despejar n. De igual modo la estimación del total poblacional T con un iímite de B unidades para el error de estimación, nos lleva a la ecuación

o mediante la Ecuación (5.5),

T a m d o de muestra aproximada que se requiere para estimar p o T con un límite B para el error de estimación:

donde wi es la fracción de observaciones asignadas al estrato i, u: es la varianza poblacional para el estrato i, así

D=-

B2 4N2

para estimar

Para poder usar la Ecuación (5.8) debemos obtener aproximaciones de las va2 2 rianzas poblacionales u,, u2, . . . , u: Un método para obtener esas aproximaciones es usar las varianzas muestrales S:, S;, . . . , s i de un experimento previo para estimar 2 2 u,, u,, . . . , u;.Un segundo método requiere conocer la amplitud de variación de las observaciones dentro de cada estrato. Del teorema de Tchebysheff y la distribución normal, la amplitud de variación debe ser aproximadamente de 4 a 6 desviaciones estindar.

5 4 SELECCIÓN DEL TAMANODE MLIES-TRAPARA ES-TIMARLAS MEDIAS Y TOTALES POBLACIONALES

En la Sección 5.5 se presentan métodos para elegir las fracciones w l , w2,. . . , w,.

Una encuesta anterior sugiere que las varianzas de los estratos para el Ejemplo 5.1 son aproximadamente U: 25, u;5 225 y U: 100. Deseamos estimar la me a poblacional mediante Seleccione el tamaño de muestra para obtener un Emite en el error d e estimación igual a 2 horas, si las fracciones asignadas son w , = w, = $ y w, = i. En otras palabras. se debe tomar un número i&al de observaciones de cada estrato.

;5:

Y,,.

Un límite para el error de estimación de 2 horas significa que

o sea

v($,)= 1

Por tanto D = 1. En el Ejemplo 5.1, N, = 155, N, = 62 y N, = 93. Por esto

De la Ecuación (5.8) tenemos que

i=1

Entonces el experimentador debe tomar n = 57 observaciones con

5 MUESTRE0 ALEATORIO ESTRATIFICADO

AsI como en el Ejemplo 5.4, supóngase que las varianzas del Ejemplo 5.1 son aproximadas por U: .r 25, U ; 225 y u: == 100. Deseamos estimar el total poblacional T con un límite de 400 horas para el error de estimación. Seleccione el tamaño de muestra apropiado, si se va a tomar el mismo número de abservaciones en cada estrato.

El límite para el error de estimación debe ser 400 horas y por ello,

Para calcular n con la Ecuación (5.8) necesitamos las siguientes cantidades:

Niu: = 27,125

(del Ejemplo 5.4)

i=l

Usando la Ecuación (5.8) se tiene 3

1 N?u;/w, n=

i=1

N ~ D

N~U:

6,991,275 = 104.20 bien 105 40,000 27,125

i=l

Entonces n, = n, = n3 = 35.

5.5 ASIGNACI~N DE LA MUESTRA Se recordará que el objetivo del diseño de encuesta por muestre0 es proporcionar estimadores con varianzas pequeñas al menor costo posible. Después de elegir el tamaño de muestra n, existen muchas maneras para dividir n entre los tamaños de muestra de los estratos individuales n,, n;, . . . , n ~ .Cada división puede originar una varianza di-

ferente para la media muestral. Por lo que nuestro objetivo es usar una asignación que presente una cantidad especificada de información a un costo mlnimo. En términos de nuestro objetivo. el mejor esquema de asignación está influido por tres factores. Ellos son los siguientes: 1. El número total de elementos en cada estrato. 2. La variabilidad de las observaciones dentro de cada estrato. 3. El costo por obtener una observación de cada estrato. El número de elementos en cada estrado afecta la cantidad de iirformación en la muestra. Una muestra de tamaño 20 de una población de 200 elementos debe contener más información que una muestra de tamaño 20 de 20000 elementos. Entonces se deben asignar tamaños grandes de muestra a los estratos que contienen gran número de elementos. La variabilidad debe ser considerada porque se necesita una muestra mayor para obtener una buena estimación de un parámetro poblacional, cuando las observaciones son menos homogéneas. Si el costo para obtener una observación varía de un estrato a otro, tomaremos muestras pequeñas de estratos con altos costos. Lo haremos así, a sabiendas de que nuestro objetivo es mantener el costo del muestreo al mínimo. Asignación aproximada que minimiza el costo para el valor fijo de V(i,,)o que minimiza V(i,,)para un costo fijo:

donde Ni denota el tamaño del i-ésimo estrato, a? denota la varianza poblacional para el i-ésimo estrato y ci denota el costo para obtener una observación individual del i-ésimo estrato. Para poder usar la fórmula de asignación (5.9) se debe obtener, previamente a la realización del muestreo, una aproximación para la varianza de cada estrato. Las aproximaciones pueden ser obtenidas de estudios anteriores o conociendo la amplitud de variación de las mediciones internas de cada estrato. Sustituyendo los wi en la Ecuación (5.8) por los ni/n de (5.9), nos da

para asignación óptima con la varianza de

i,,fija en D.

5 MUESTREO ALEATORIO ESTQATIFiCADO

EJEMPLO 5.6 La empresa publicitaria del Ejemplo 5.1 encontró que cuesta más obtener una observación del área rural que una del pueblo A o del B. El incremento es debido los costos de traslado de un hogar rural a otro. El costo por observación en cada pueblo se ha estimado en $9.00 (esto es, C1 = Cz = 9), Ylos costos por observación en el área rural se han estimado en $16.00 (esto es, C3 = 16). Las desviaciones estándar por estrato (aproximadas por las varianzas muestrales de una encuesta previa) son 0'1 5, 0'2 15y 0'3 = 10. Encuentre el tamaño de muestra total n y los tamaños de muestra para los estratos nI> nz y n 3 , que permiten a la empresa estimar, al mínimo costo, el tiempo promedio que se ve televisión, con un límite para el error de estimación igual a 2 horas.

SOLUCiÓN Tenemos que

2: NO'j"¡-¡; = NIO'I,JC; + N zO'z.J0. + N S 0'3'¡¡; i=l

=155(5)J9 + 62(15)J9 + 93(10)v'Í6 = 8835 Entonces

Ct NkO'k/JC;)Ct NjO'j~) 3

NZD

+ L.. "".

NO'z I

i=1

Por lo que nI =

N1 3

0'1/,JC; )

"" N

L..

k=1

Asimismo,

(800.83)(8835) (310)\1) + 27,125

n[155(5)/3] = O.32n = 18.5 o bien 18

kO'k v Ck

= n[

= 5742 b' . o len

¡-

62(15)/3J 800.83

800.83

= O.39n = 22.6 o bien 23

93(10)/4] n3 = n [ = O.29n 800.83

. = 16.8 o bIen

Por ello el experimentador debe seleccionar 18 hogares del pueblo A al azar, 23 del pueblo B, y 17 del área rural. Así puede estimar el número promedio de horas emplea-

ASIGf\JAClÓN Dr LA tvlUESTPA

das en ver la televisión, al mínimo costo, con un límite de 2 horas para el error de estimación.

En algunos problemas de muestreo estratificado. el costo por obtener información es el mismo para todos los estratos. Si los costos son desconocidos, podríamos suponer que los costos por observación son iguales. Si [1 = [2 = ... = [L, entonces los términos de costo se cancelan en la Ecuación (5.9) y

- n

I I N(T·

n¡ -

(

)

(5.11 )

N¡(T¡

1=1

Este método para seleccionar nI, n2, •.• , n L se denomina aszgnación de Neyman. En la asignación de Neyrnan. la Ecuación (5.10) para el tamaño de muestra total n toma la forma

(.t

N¡(T¡)2

1=1

n=-------

(5.12)

+ "L..-

N(T2 1 I

i=1

EJEMPLO 5.7 La firma publicitaria del Ejemplo 5.1 decide utilizar entrevistas por teléfono en lugar de entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este método reduce los costos. El costo de obtener una observación es entonces el mismo en los tres estratos. Las desviaciones estándar son de nuevo aproximadas por (TI = 5, (T2 = 15 Y (T3 10. La empresa desea estimar la media población JL con un límite para el error de estimación igual a 2 horas. Encuentre el tamaño aproximado de la muestra n y los tamaños de muestra para los estratos nI> n2 Y n3'

SOLUCiÓN Ahora vamos a usar las Ecuaciones (5.11) y (5.12), ya que los costos son iguales en todos los estrato~. Por eso, para encontrar las fracciones de asignación WI> W 2 Y W 3 , usamos la Ecuación (5.11). Entonces 3

N¡(T¡

Nl(Tl

+ N 2 (Ti + N

3 (T3

i=1

= (155)(5)

+ (62)(15) + (93)(10) =

2635

y de la Ecuación (5.11) nI

(

NI (TI )

L..- N¡(T¡ i=1

= n [(155)(5)J = n(O .30) 2635

ó MUtSTI<=() ALEA-ORlO [STRATIFICADC

n = n [(62)(15)J

Asimismo,

2635

= n [ (93)(10)J

2635

= n(0.35) = n(O.35)

Entonces W¡ = 0.30, W2 = 0.35 Y w 3 = 0.35. Ahora usemos la Ecuación (5.12) para encontrar n. Un límite de 2 horas para el error de estimación significa que

2JV(yst) = 2

o sea

V(Yst) = 1

Por eso,

D=-=l 4

y 3

También

N¡o'7 = 27,125

i=l

del Ejemplo 5.5, y la Ecuación (5.12) nos da

N¡(T¡r n=------3

N 2D

'" N¡(T,2 i.i=l

(2635)2 _ - - - - C _ - ' -_ _

96,100 Entonces

+ 27,125

= 56.34 o bien 57

n¡ = nw¡ = (57)(0.30) =

n2 =

nW2

= (57)(0.35) = 20

n 3 = nW 3 =

(57)(0.35) = 20

El tamaño de muestra n en el Ejemplo 5.7 es casi igual al del Ejemplo 5.6, pero la asignación ha cambiado. Se toman más observaciones del área rural porque éstas ya no tienen un costo más alto.

E~IEMPLO 5.8 Una investigadora quiso estimar el peso promedio de 90 ratas (50 machos y 40 hembras) que han sido alimentados con cierta dieta. Las ratas fueron separadas por sexo; por lo que el uso de muestreo aleatorio estratificado con dos estratos pareció apropiado. Para aproximar la variabilidad dentro de cada estrato, la investigadora seleccionó la rata más pequeña y la más grande en cada estrato y las pesó'. Ella encontró que la amplitud de variación fue de 10 gramos para los machos y de 8 para las hembras. ¿Qué tan grande debió tomarse la muestra para estimar el promedio pobla-

55 ASIGNACiÓN Dl LA MLJESTRA

cional con un límite de 1 gramo para el error de estimación? Suponga que el costo de muestreo fue el mismo para ambos estratos.

SOLUCiÓN Denotemos los machos como el estrato 1 y las hembras como al estrato 2. Para usar la Ecuación (5.11) primero debemos aproximar O"¡ Y0"2' La desviación estándar debe ser alrededor de un cuarto de la amplitud de variación, suponiendo que los pesos tienen una distribución normal. Entonces

= ~ = 2.5

0"1

De la Ecuación (5.11) N¡o"¡

n· = n (

.f.

)

N¡o"¡

1=1

Donde

N¡o"¡

= (50)(2.5) + (40)(2.0) =

125

+ 80 =

205

i=1

Entonces

N¡o"¡ )

n 1 =n

(

=n (125) 205 =0.61n

N¡o"¡

i=l

n = n( 80) =0.39n 2 205

Entonces w¡ = 0.61 Y w 2 = 0.39. Debemos calcular las siguientes cantidades para poder encontrar n: 2

N¡0"7 =

(50)(2.5)2

+ (40)(2.0)2 =

472.50

i=l

E 2 (1)2 D=-=-=0.2S

Usando la Ecuación (5.12), tenemos

(.f. N¡0"¡)2 1=1

n = ---'---'------'---

2 N D

+ "L...

N0"2 I

í=l

(205)2 ----=----'--------'----

(90)\0.25) + 472.50

= 16.83

El tamaño de muestreo n debió haber sido 17 con

n¡ = nW 1 = (17)(0.61) = 10 y

n2 = nW2 = (17)(0.39) = 7 Además de encontrar costos iguales. en algunas ocasiones resultan las mismas va-

5 MUESTI<EO ALl:ATO<!O ESTRATIFiCADO

rianzas, U~, u;, ... ,

ui.

En tal caso se cancelan las u i en la Ecuación (5.11) Y

ni = n(--P-) = n(~) L

(5.13)

N¡

i=1

Este método de asignación de la muestra a los estratos es llamado asignaáón proporáonal porque los tamaños de muestra son proporcionales a los tamaños de los estratos N}, N z, ... , N L • Por supuesto la asignación proporcional puede y suele utilizarse cuando los costos y las varianzas de los estratos no son iguales. Una ventaja al usar esta descomposición es que el estimador Yst es simplemente la media muestral de toda la muestra. Esta característica puede representar un importante ahorro de tiempo en algunas encuestas. En asignación proporcional, la Ecuación (5.8) para el valor de n, que produce V(Yst) = D, se convierte en

nl' nz,... ,nL

i=l

n=--------

+- L N

(5.14)

¡~l

N¡u¡

EJEMPLO 5.9 La empresa publicitaria del Ejemplo 5.1 considera que las varianzas aproximadas que se usaron en los ejemplos previos son erróneas y que las varianzas de los estratos son iguales. El valor común de U¡ fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas por teléfono, por lo que los costos serán iguales en todos los estratos. La empresa desea estimar el número promedio de horas por semana que se ve la televisión en los hogares del municipio, con un límite para el error de estimación igual a 2 horas. Encuentre el tamaño de muestra y los tamaños de estratos necesarios para lograr esta exactitud.

SOLUCiÓN Tenemos que 3

N¡u¡ = N¡ u~

+ Nzu; + N 3 u;

;=1

= (155)(100)

+ (62)(100) + (93)(100)

= 310(100) = 31,000

Entonces, ya que D

1, de la Ecuación (5.14) resulta n

31,000 310(1)

+ (1/310)(31,000)

= 75.6

o bien 76

5 5 ASIGI',AClON DE LA iv"UESTRA

Por lo que

NI) = (NI) = (155) =

= n ( ; ) = nC 1 0)

(

¡tI N¡

n 310

n 3 = n(

r;:) =

3 n(:1 0)

= n(0.2)

n(0.5)

= 38

= n(0.3) = 23

Estos resultados difieren de los del Ejemplo 5.7 porque aquí hemos supuesto que las varianzas son iguales en todos los estratos y son aproximadas por un valor común.

En ocasiones la cantidad de dinero que se va a gastar en el muestreo es fijada antes de iniciar el experimento. Entonces el investigador debe encontrar un tamaño de muestra y esquema de asignación que minimice la varianza del estimador para un presupuesto fijo.

E~IEMPLO

5.10 En el ejemplo del tiempo de ver televisión, supóngase que los costos son como los especificados en el Ejemplo 5.6. Esto es, CI = C2 = 9 Y C3 = 16. Vamos a aproximar las varianzas por (TI 5, (T2 15 Y (T3 10. Dado que la empresa publicitaria tiene únicamente $500 para gastar en muestreo, elija el tamaño de muestra y la asignación que minimice V(Yst).

SOLUCiÓN El esquema de asignación es aún dado por la Ecuación (5.9). En el Ejemplo 5.6 en· contramos que WI = 0.32, W 2 = 0.39 Y W 3 = 0.29. Ya que el costo total debe ser igual a $500, tenemos que CI nI

+ C2n2 + C3n3 = 500

o bien Ya que n¡

= nw¡,

podemos sustituir como sigue:

+ 9nw 2 + 16nw3 = 500 9n(O.32) + 9n(O.39) + 16n(O.29) = 500 9nw I

o bien

Al despejar n, obtenemos 11.03n = 500

500

n =--=45.33

11.03

5 MUESTREO ALEATORIO ESTRATiFICADO

Por lo que debemos tomar n

= 45 para asegurar que los costos permanezcan inferiores

a $500.

La asignación correspondiente está dada por ni

nW 1

= (45)(0.32) = 14

nW2

= (45)(0.39) = 18

= nW3 = (45)(0.39) = 13

Podemos resumir 10 siguiente sobre el muestreo aleatorio estratificado: en general, el muestreo aleatorio estratificado con asignación proporcional producirá un estimador con una varianza más pequeña que la producida por muestreo irrestricto aleatorio (con el mismo tamaño de muestra), si existe considerable variabilidad entre las medias de los estratos. Si los costos de muestreo son aproximadamente iguales de un estrato a otro, el muestreo aleatorio estratificado con asignación óptima [Ecuación (5.8)] producirá estimadores con menor varianza que los producidos por asignación proporcional cuando existe variabilidad entre las varianzas de los estratos.

5.6

ESTIMACiÓN DE UNA PROPORCiÓN POBLACIONAL En nuestros ejemplos numéricos nos ha interesado estimar el promedio o el número total de horas por semana usadas para ver televisión. En contraste, supóngase que la empresa publicitaria quiere estimar la proporción (fracción) de hogares que ven un programa particular. La población se divide en estratos, al igual que antes, y se toma una muestra aleatoria de cada estrato. Luego se realizan las entrevistas para determinar la proporción p¡ de hogares, integrantes del estrato i, donde se ve el programa. Este p¡ es un estimador insesgado de Pi, la proporción poblacional en el estrato i (como se describió en el Capítulo 4). Razonando como lo hicimos en la Sección 5.3, concluimos que NiPi es un estimador insesgado del número total de hogares del estrato i donde ven este programa particular. Por lo que N 1 Pl + N 2P2 + ... + NLPL es un buen estimador del número total de hogares en que ven el programa en la población. Dividiendo esta cantidad entre N, obtenemos un estimador insesgado de la proporción poblacional P de hogares donde ven el programa. Estimador de la proporción poblacional p: A

Pst

(N¡Pl

Varianza estimada de Pst:

+ N 2P2 + ... + NLPL) = - I A

N¡~¡

N¡p¡

(5.15)

::'6 ESTIMACiÓN D¡ UNA PROPORCIÓN POBLAClON~1

1 =-2

2 A A N i V(Pi)

i=1

=~± N~(Ni-ni)( P~i ) N

i=1

(5.16)

Límite para el error de estimación: (5.17)

EJEMPLO 5.11 La empresa publicitaria quiso estimar la proporción de hogares en el municipio del Ejemplo 5.1 donde se ve el programa X. El municipio es dividido en tres estratos, pueblo A, pueblo B y el área rural. Los estratos contienen NI = 155, N 2 = 62 YN 3 = 93 hogares, respectivamente. Una muestra aleatoria estratificada de n = 40 es seleccionada con asignación proporcional. En otras palabras, se toma una muestra irrestricta aleatoria de cada estrato; los tamaños de las muestras son nI = 20, n 2 = 8 Y n 3 = 12. Las entrevistas son tomadas en los 40 hogares muestreados; los resultados se presentan en la Tabla 5.3. Estime la proporción de hogares donde se ve el programa X, y fije un límite para el error de estimación.

TABLA 5.3

Datos poro el Ejemplo 511

Estrato

Tamaño de muestra

1 2 3

nI = 20 n2 = 8 n3 = 12

Número de hogares donde se ve el programa X

16 2 6

Pi 0.80 0.25 0.50

SOLUCiÓN El valor estimado de la proporción de hogares donde se ve el programa X está dado por Pst' Usando la Ecuación (5.15), calculamos A

1 [(155)(0.80) 310 -

Pst = La varianza de

+ 62(0.25) + 93(0.50)] =

0.60

Psr puede estimarse usando la Ecuación (5.16). Primero vamos a caleu-

5 tvlUESTPEC pi EATORIQ ESTRATIFiCADO

lar los términos de

V(p¡)

Tenemos que

v(p¡)" = (N¡ N¡- ni) ( nip¡q¡- 1) = (155155- 20) [(0.8)(0.2)] 19 = (0.871)(0.008) = 0.007

V " = (Nz N

(pz)

= (62 - ~\) [(0.25)(.075)]

n z) ( Pzqz ) nz - 1

= (0.871)(0.027) = 0.024

(P3)

3 -

n3 )

(

P3Q3 ) = (93 -

12) [(0.5)(0.5)] 11

= (0.871)(0.023) = 0.020 De la Ecuación (5.16) tenemos ""

V(p,,)

2 ....

= N 2 i~¡ N, V(p¡)

= _1_ [(155)2(0.007) (310) 2

+ (62)2(0.024) + (93)2(0.020)]

0.0045

Entonces el valor estimado de la proporción de hogares en el municipio donde se ve el programa X, con un límite para el error de estimación, está dado por

Pst ± 2.J V(pJ, 0.60 ± 2(0.07),

0.60 ± 2.J.0045 0.60 ± .14

El límite para el error de estimación en el Ejemplo 5.11 es bastante grande, podríamos reducir este límite y hacer el estimador más preciso incrementando el tamaño de la muestra. El problema de la elección del tamaño de muestra se trata en la siguiente sección.

5.7

SELECCiÓN DEL TAMAÑO DE MUESTRA Y ASIGNACiÓN DE LA MUESTRA PARA ESTIMAR PROPORCIONES Para estimar una proporción poblacional, primero indicamos qué tanta información deseamos mediante la especificación del tamaño del límite; el tamaño de la muestra es elegido de acuerdo con esto. . La fórmula para el tamaño de muestra n (para un límite dado B del error de estimación) es igual que la Ecuación (5.8), excepto que (7'7 está dada por Piq¡.

SELECClÓ~~ DEI TAMAI'JO DE I'v1UESTRA y ASIGNACIÓI\I DE: LA MUESTRA

Tamaño de muestra aproximado que se requiere para estimar'p, con un límite B para el error de estimación: L

N7P¡q)w¡

i=l

n=-------

(5.18)

N D

N¡p¡q¡

i=l

donde W¡ es la fracción de observaciones asignadas al estrato, ( Pi es la proporción poblacional del estrato i, y Z

B D=-

¡st

La fórmula para la asignación que nos da la varianza de igual a alguna constante fija al costo mínimo es igual a la Ecuación (5.9) con (7¡ reemplazada por .¡p;j;. Asignación aproximada que minimiza el costo para un valor fijo de miza V(P..) para un costo fijo:

= n

(5.19)

V<P••) o mini-

Nk,JPkqkl (k

k~l

donde Ni denota el tamaño del i-ésimo estrato, p¡ denota la proporción poblacional para el i-ésimo estrato y (¡ denota el costo por obtener una observación individual del i-ésimo estrato.

EJEMPLO 5.12 Los datos de la Tabla 5.2 fueron tomados de un muestreo realizado el año pasado. La empresa publicitaria quiere ahora efectuar un nuevo estudio en el mismo municipio para estimar la proporción de hogares donde ven el programa X. Aunque las fracciones PI> pz Y P3 que aparecen en las Ecuaciones (5.18) y (5.19) son desconocidas, pueden ser aproximadas por las estimaciones del estudio anterior, esto es, PI = 0.80, = 0.25 Y = 0.50. El costo por obtener una observación es $9 para cualquiera de los pueblos y $16 para el área rural, esto es, (1 = (z = 9 Y(3 = 16 Los hogares que se encuentran dentro de los estratos son NI = 155, N z = 62 Y N 3 = 93. La empresa quiere estimar la proporción poblacional p. con un límite para el error de estimación igual a O.1. Encuentre el tamaño de la muestra n y los tamaños de los estratos nI, nz y n3' que darán el límite deseado a un costo mínimo.

100

5 MUESTREO ALEATORIO ESTRATIf=ICADO

SOLUCiÓN Primero usamos la Ecuación (5.19) para encontrar las fracciones de asignación Wi' Usando Pi para aproximar pi' tenemos

f Ni V~= 7 NI~Plql + Nz~PZqZ + N3~P3q3 CI

i=1

155~(0.8)(0.2) + 62~(0.25)(0.75) + 93~(O.5)(0.5) 9 62.000

26.846

46.500

=--+--+-334

= 20.667 + 8.949 + 11.625 = 41.241 _

NI"/Plqlj CI _

(20.667)_

nI - n - n - - ~ fA7'lj 41.241

- n(O 50)

Niv Piqil Ci

i=l

8.949 )

nz = n ( - - 41.241

Asimismo,

= n(O.22)

11.625) = n(O.28) 41.241

n3 = n ( - -

Entonces WI = 0.50, Wz = 0.22 Y w3 = 0.28. El siguiente paso es usar la Ecuación (5.18) para encontrar n. Primero deben calcularse las cantidades siguientes:

I3 i=1

"'"

N i Piqi=N 1Plql Wi Wl =

2 2 + Nzpzqz + N 3P3q3

(155)z~0.8)(0.2)

0.50

W3 (62)z(0.25)(0.75)

0.22

(93)z(0.5)(0.5)

+ -'---'----'--'--'---'Q28

= 18,686.46

= (155)(0.8)(0.2)

+ (62)(0.25)(0.75) + (93)(0.5)(0.5)

= 59.675 Para encontrar D, hacemos 2../ V(Pst) = 0.1 (el límite para el error de estimación). Entonces (0.1)Z V(Pst) =-_. = 0.0025 = D 4 A

N D = (310)\0.0025) = 240.25

57 SELECCIÓN DEL TAMAÑO DE MUESTRA Y ASIGNACiÓN DE LA MUESTRA

101

Finalmente, con la Ecuación (5.18) encontramos el valor aproximado de n dado por

N 2D

3 "

+ 1.-

18,686.46 - - - - - - = 62.3 o bien 63 240.25 + 59.675

N¡p¡q¡ A

i=l

Por lo que

= nWl = (63)(0.50) = 31

= nW2 = (63)(0.22) =

= nW3 = (63)(0.28) = 18

Si el costo de muestreo no vaña de un estrato a otro, entonces los factores de costo c¡ se cancelan de la Ecuación (5.19).

:MPLO 5.13 Supóngase que en el Ejemplo 5.12 -se van a efectuar entrevistas por teléfono, por lo que los costos de muestreo son los mismos en todos los estratos. La fracción p¡ se aproximará por i = 1, 2, 3. Deseamos estimarla proporción poblacional p con un límite de 0.1 para el error de estimación. Encuentre el tamaño de muestra apropiado para lograr este límite al costo mínimo.

p¡,

SOLUCiÓN La Ecuación (5.19) se utiliza para encontrar las fracciones Wh W2 Y W3, pero ahora todos los términos c¡ pueden ser reemplazados por l. Por lo que 3

L N¡!J¡ =

155,)(0.8)(0.2)

+ 62J(0.25)(0.75) + 93,)(0.5)(0.5)

i=l

= 62.000 y

(

+ 26.846 + 46.500 =

N1J;J;) = (

1.-

['AA

N¡vp¡q¡

62.000 ) 135.346

j=l

Asimismo,

26.846 ) n2 = n ( 135.346

= n(0.20)

46.500 ) 135.346

= n(0.34)

n3 Entonces Wl

0.46,

= n(

= 0.20 Y

= 0.34.

135.346

= n(0.46)

102

5 MUESTREO ALEATORIO ESIRATIFICADG

La Ecuación (5.18) o la Ecuación (5.12) con encontrar n. Usando (5.12) tenemos

O'¡

J;;:i se pueden utilizar para

3 " L.

AA N¡p¡q¡ = 59.675

(del Ejemplo 5.12)

j=l

N D = 240.25

(del Ejemplo 5.12)

n= j=l

(135.346)2

---'-------'----- = 61.08 o bien 62

240.25

+ 59.675

Por lo que tomamos una muestra de 62 observaciones para estimar p con un límite en el error de magnitud B == O.1. La asignación correspondiente está dada por ni

nW I

= 62(0.46) = 29

nW2

= 62(0.20) = 12

nW 3

= 62(0.34) = 21

Estas respuestas son similares a las encontradas en el Ejemplo 5.12. Los cambios en la asignación resultan porque los costos no varían en el Ejemplo 5.13. Recuérdese que la fórmula de asignación (5.9) toma una forma muy simple cuando las varianzas, así como los costos, son iguales en todos los estratos. La Ecuación (5.19) se simplifica de la misma manera, siempre y cuando todas las proporciones de los estratos p¡ sean iguales y todos los costos c¡ sean iguales. Entonces la Ecuáción (5.19) toma la forma i

= 1,2, ... , L

(5.20)

Como ya se mencionó, este método de asignación de los tamaños de muestra a los estratos es llamado asignadón propordonal.

EJEMPLO 5.14 En la encuesta de televisión del Ejemplo 5.12 la empresa publicitaria planea utilizar entrevistas por teléfono; por lo que los costos de muestreo no varían de un estrato a otro. Los tamaños de los estratos sonN¡ = 155, N 2 = 62 Y N 3 = 93. Los resultados de la encuesta del año pasado (véase Tabla 5.3) parecen divergir de los de este año. La empresa considera que la proporción de hogares donde se ve el programa X está c~rca na a 0.4 en cada uno de los tres estratos, y desea estimar la proporción poblacional p con un límite de 0.1 para el error de estimación. Encuentre el tamaño de muestra n y la asignación que provee este límite al mínimo costo.

CO\;1ENTAI<IOS ADOO~ALES SOB<E MUES1<EO ES1<ATI~ICA[XJ

103

SOLUCiÓN L~

fracciones de asignación se determinan mediante la Ecuación (5.19) con PI' . . . , PL Y reemplazados por 1. Entonces

(1' . . . , (L

ni = n(~) = n(N

= n(155) = n(O.S)

N¡

)

310

i=1

= n(N ) = n(~) = n(O.2) N 310 2

o bien

= n( ~) = n W¡

= 0.5,

(:130) = n(0.3) W2

= 0.2,

El tamaño de muestra n se determina con la Ecuación (5.18), usando 0.4 como una aproximación para PI' P2 Y P3, o bien puede encontrarse haciendo = p¡q¡ en la Ecuación (5.14). Usando la última ecuación con p¡ = 0.4, tenemos

0'7

N¡p¡q¡ = 155(0.4)(0.6)

+ 62(0.4)(0.6) + 93(0.4)(0.6)

i=l

= 74.4 ND

= (310)(0.0025) = 0.775 i=l

n=-------

ND =

Entonces

5.8

+ N ¡~I

N¡p;q;

74.4

= 73.3 o bien 74

+ (1/310)(74.4) ni = nW I = (74)(0.5) = 37 n 2 = nW 2 = (74)(0.2) = 15 n3 = nW3 = (74)(0.3) = 22 0.775

COMENTARIOS ADICIONALES SOBRE MUESTREO ESTRA1'IFICADO El muestreo aletorio estratificado no siempre produce un estimador con una varianza más pequeij.a que la del estimador correspondiente en el muestreo irrestricto aleatorio. El siguiente ejemplo explica este aspecto.

104

5 MUESTQEO ALEATORIO ESTRATIFiCADO

EJEMPLO 5.15 Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para tomar la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece para estimar el promedio de las ventas mensuales. Él únicamente suministra a cuatro grandes cadenas en la ciudad. Así que, por conveniencia administrativa, decide usar muestreo aleatorio estratificado con cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3 y 30 en el estrato 4. Entonces NI = 24, N 2 = 36, N, = 30, N 4 = 30 Y N = 120. El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas mensuales en n = 20 almacenes. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el costo del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional, la cual da

nI n(;) 20C22:) =

= 4

20( 120 36 ) = 6 = 20( 30) = 5 130

nz =

Asimismo,

n 3

El nuevo producto es introducido en cuatro almacenes elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las cadenas 3 y 4. Después de un mes, las ventas presentan los resultados indicados en la tabla siguiente. Estime las ventas promedio para el mes, y fije un limite para el-error de estimación Estrato

94 90 102 110

Estrato

91 99 93 105 111 101

108 96 100 93 93

110 94 91 113

Y4 = 100

Yl =99

Y2 = 100

Y3 = 98

s~ = 78.67

s; = 55.60

s; = 39.50 s; = 112.50

SOLUCiÓN De la Ecuación (5.1)

y" = - L Nii = N

;=1

99.3

58 COMEI\ITARIOS ADICIONALES SOBr<E MUESTREO ESTRATIFICADO

105

Nótese que el estimador Yst de la media poblacional es el promedio de todas las observaciones muestrales cuando se utiliza la asignación proporcional. Usando la Ecuación (5.2) se encuentra la varianza estimada de Yst, la cual es

¿ N7 (No' -

V(Yst) = ~2 A

no)(s2) 'o-!.

;=1

para nuestro ejemplo tenemos

5 6 •Entonces

= 1, 2, 3

1 (5) [2(78.67) V(Yst) = (120)2 (24) -4-

+ (36) 2(55.60) -6-

+ (30) 2(39.50) - - + (30) 2(112.50) -- ] 5

= 2.93

y la estimación de las ventas mensuales promedio, con un limite para el error de estimación, es

99.3 ± 2J2.93,

Yst ± 2J V(Yst),

99.3 ± 3.4

Supóngase que el distribuidor ha decidido tomar una muestra irrestricta aleatoria de n = 20 almacenes y los mismos 20 almacenes del Ejemplo 5.15 son seleccionados. En otras palabras, suponga que los 20 almacenes constituyen una muestra irrestricta aleatoria en lugar de una muestra aleatoria estratificada. Entonces el estimador de la media poblacional tiene el mismo valor que el calculado en el ejemplo, esto es,

Yst = 99.3

Pero la varianza estimada toma el valor

n) (S2) n

V(ji) - (N - -A

= (5) - (59.8) -

= 2.49

Vemos que la varianza estimada es menor en el caso de muestreo irrestricto aleatorio. Entonces concluimos que este muestreo pudo haber sido más adecuado para nuestro problema. El experimentador no tomó en cuenta que las ventas varian grandemente dentro de los almacenes en una cadena cuando estratificó con base en las cadenas. Él pudo haber obtenido una varianza más pequeña para su estimador, si hubiera estratificado con base en la cantidad de ventas, esto es, ubicando los almacenes con ventas mensuales bajas en un estrato, almacenes con ventas altas en otro, y asi sucesivamente. En muchos problemas de encuestas por muestreo se toma más de una medición en cada unidad de muestreo, para estimar más de un parámetro poblacional. Esta situación ocasiona complicaciones en la selección del tamaño de muestra y asignación apropiados, como se ilustra en el siguiente ejemplo:

106

5 MUESTREO ALEATORiO ESTRATIFICADO

EJEMPLO 5.16 Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones de campamentos operados por el estado. El estado tiene dos áreas para acampar, una localizada en las montañas y otra localizada a lo largo de la costa. El servicio forestal desea estimar el número promedio de personas por sitio dentro de los campamentos, y la proporción de sitios que utilizan personas de fuera del estado durante un particular fin de semana, cuando se espera que todos los sitios estén ocupados. El número promedio de personas se va a estimar con un límite de 1 para el error de estimación, y la proporción de personas de fuera del estado con un límite de O.1. Las dos áreas para acampar forman convenientemente dos estratos, la localidad de la montaña como el estrato 1 y la localidad de la costa como el estrato 2. Se sabe que NI = 120 sitios para acampar y N 2 = 80. Encuentre el tamaño de muestra y la asignación necesarios para lograr estos dos límites.

SOLUCiÓN Suponiendo que los costos de muestreo son los mismos en cada estrato, podemos obtener el tamaño de muestra más pequeño mediante el uso de la asignación de Neyrnan. Sin embargo, esta asignación depende de las varianzas de los estratos y nos da diferente asignación para los dos tipos de mediciones consideradas en el problema. En lugar de eso, usamos asignación proporcional porque es usualmente cercana al óptimo y nos da la misma asignación para cualquier medición deseada. Entonces W1

W 2

NI 120 = - = - = 0.6

200

N2 80 = - = - -=0.4 N 200

Ahora se debe determinar el tamaño de muestra separadamente para cada una de las estimaciones deseadas. Primero, consideramos el problema de estimar el número promedio de personas por sitio. Debemos tener una aproximación de las varianzas de los estratos para poder usar la Ecuación (5.8) para el tamaño de muestra. El servicio forestal conoce por experiencia que la mayoria de los sitios contienen de 1 a 9 personas. Por lo que podemos usar la aproximación

9-1

a·:=:::--=2 1

i = 1, 2

Por lo que ~ N~a~

L. - -

j=1

(120)2(4) 0.6

(80)2(4) 0.4

= 160 000

L i=l

Nia~

= (120)(4) + (80)(4) = 800

UNAREGLAÓPTIMAPARAi-ORrv1A<~:=:::::~-~~--_:

107

De la Ecuación (5.8) 2

N~(T~/w¡

i=l

n=------2

N 2D

+¿

N¡(T~

160,000

- - - ' - - - = 14.8 o bien 15

10,000

+ 800

i=l

es el tamaño de muestra requerido. Ahora vamos a considerar la estimación de la proporción de ocupantes de fuera del estado. No se tienen disponibles estimaciones previas de las proporciones p¡ así que hacemos PI = P2 = 0.5 para obtener un tamaño de muestra máximo. Usamos la Ecuación (5.18) para encontrar n, por lo que debemos encontrar

f ¡=I

N~p¡q¡ = (120)2(0.5)(0.5)

+ (80)2(0.5)(0.5) =

0.6

W¡

10,000

0.4

N D

H) = (200)2 (0.01) = N 2(4 -4~ = 100

N¡p¡q¡

= 120(0.5)(0.5) + 80(0.5)(0.5) = 50

i=l

De la Ecuación (5.18) se tiene

N 2D

+¿

N¡p¡q¡

;=1

Entonces

= nW I == (67)(0.6) = 40

nW2

= (67)(0.4) = 27

son los tamaños de muestra requeridos para obtener ambos limites. Nótese que estos tamaños de muestra dan una estimación del número promedio de personas por sitio con un límite mucho más pequeño que el requerido.

5.9

UNA REGLA ÓPTIMA PARA FORMAR LOS ESTRATOS Si nuestro único objetivo en la estratificación es producir estimadores con varianza pequeña, entonces el mejor criterio para definir los estratos es el conjunto de valores que la respuesta puede tomar. Por ejemplo, supóngase que deseamos estimar el ingreso promedio por hogar en una comunidad. Podríamos estimar este promedio con bastante exactitud si pudiéramos poner todos los hogares de bajos ingresos en un estrato y too dos los hogares de altos ingresos en otro antes de realizar el muestreo. Por supuesto esta asignación es frecuentemente imposible porque el conocimiento detallado de los ingresos antes del muestreo hace desaparecer en principio el problema estadístico. Sin

108

MUESTREO ALEATORIO ESTRATIFICADO

embargo, en ocasiones tenemos algunas frecuencias de datos en categoñas generales de la variable de interés o de alguna variable altamente correlacionada. En estos casos el "método acumulativo de la raíz cuadrada de la frecuencia" es adecuado para delimitar los estratos. En vez de tratar de explicar este método en teoña, simplemente vamos a mostrar cómo funciona en la práctica.

EJEMPLO 5.17 Un investigador desea estimar el promedio anual de ventas para 56 empresas, usando una muestra de n = 15 empresas. Se encuentran disponibles datos de frecuencias en una clasificación por incrementos de $50 000 Yse presentan en la tabla siguiente. ¿Cómo podemos asignar las empresas a L = 3 estratos?

Ingreso (en miles)

Frecuencia

.J Frecuencia

100-150 150-200 200-250 250-300 300-350 350-400 400-450 450-500

11 14 9 4 5 8 3 2

3.32 3.74 3.00 2.00 2.24 2.83 1.73 1.41

,j Frecuencia acumulada

3.32 7.06 10.06 12.06 14.30 17.13 18.86 20.27

SOLUCiÓN Nótese que hemos añadido dos columnas a los datos de frecuencias de la población, es decir, la raíz cuadrada de las frecuencias y la raíz cuadrada acumulada. El método óptimo aproximado para la estratificación consiste en encontrar intervalos iguales en la columna de la raíz cuadrada acumulada. (Nota: en esta escala 7.06 es 3.32 + 3.74, y así sucesivamente.) Entonces (20.27)/3 = 6.76 Y nuestroS límites de estratos deben estar lo más cerca posible a 6.76 y 2(2.76) = 13.52. En la escala real, 7.06 es lo más cercano a 6.76 y 14.30 es lo más cercano a 13.52. Entonces resultan los siguientes tres estratos: Estrato 1: empresas con ingresos de 100,000 a 200,000. Estrato 2: empresas con ingresos de 200,001 a 350,000. Estrato 3: empresas con ingresos de 350,001 a 500,000. Suponiendo que las empresas en esos estratos puedan ser identificadas antes del muestreo, la muestra de n = 15 se obtiene tomando 5 de cada estrato. (Tamaños de muestra iguales en los estratos quedan cerca de la óptima con esta técnica.)

510 ESTRATIFICACIÓN DESPUÉS DE SELECCIONAR LA MuESTQA

5.1 O

109

ESTRATIFICACiÓN DESPUÉS DE SELECCIONAR LA MUESTRA Ocasionalmente, aparecen problemas en los cuales desearíamos estratificar con base en una variable clave, pero no es posible ubicar las unidades de muestreo en sus estratos correctos sólo hasta después de haber seleccionado la muestra. Por ejemplo, podemos desear estratificar una encuesta de opinión pública por sexo de los entrevistados. Si la encuesta se realiza mediante muestreo de números telefónicos, los entrevistados no pueden ubicarse en el estrato de masculino o en el femenino sino hasta después de haber hecho contacto con ellos. Asimismo, una auditora puede querer estratificar las cuentas de acuerdo con si son al mayoreo o al menudeo, pero ella quizá no disponga de esta información sólo hasta después de haber tomado una cuenta para la muestra. Supóngase que una muestra irresticta aleatoria de n personas es seleccionada para una encuesta. La muestra puede ser dividida en ni masculinos y n 2 femeninos después que la muestra ha sido entrevistada. Entonces, en lugar de usar y para estimar JL, podemos usar 1st st'empre que Ni / N sea conocido tanto para masculinos como para femeninos. Nótese que en esta situación n] y n 2 son aleatorios, ya que varían de una muestra a otra aunque n sea fija. Entonces esta muestra no es exactamente una muestra aleatoria estratificada de acuerdo con la Definición 5.1. Sin embargo, si NJ N es conocido y si ni 2: ZOpara cada estrato, entonces este método de estratificar después de la selección de la muestra es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. La estratificación realizada después de la selección de la muestra, frecuentemente es apropiada cuando la muestra irrestricta aleatoria no está adecuadamente equilibrada de acuerdo con las agrupaciones principales de la población. Supóngase, por ejemplo, que una muestra irrestricta aleatoria de n = IDO personas es seleccionada de una población que debe estar igualmente dividida entre varones y mujeres. La medición muestral de interés es el peso de los entrevistados, yel objetivo es estimar el peso promedio de la gente de la población. La muestra revela la siguiente información: Varones n¡ =

y¡

Mujeres n2 =

= 180 libras Y2 = 110 libras y = 124

Con una baja representación de los varones en la muestra, el estimador parece indebidamente bajo. Podemos ajustar esta estimación calculando

Yst =

(':;

)1¡ + (;)12

= 0.5(180)

+ 0.5(110) =

124

145

Esta estimación parece ser más realista, ya que varones y mujeres están ahora igualmente ponderados. Nótese que Nj N es conocido con un .buen grado de aproximación, aun cuando se desconocen N¡ y N 2 •

110

EJEMPLO 5.18 Una gran empresa sabe que 40% de las cuentas que reciben son al mayoreo y 60% son al menudeo. Sin embargo, identificar las cuentas indIviduales sin consultar un archivo es complicado. Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al mayoreo y un 30% de cuentas al menudeo. Los datos son separados en cuentas al mayoreo y cuentas al menudeo después del muestreo, con los siguientes resultados (en dólares): Mayoreo

Menudeo

= 70

= 30 280 = 90

Yl =

Y2 =

520 = 210

Estime j-L, la cantidad promedio de las cuentas que recibe la empresa, y fije un límite al error de estimación.

SOLVCIÓN Ya que la proporción observada de cuentas al mayoreo (0.7) está muy alejada de la proporción verdadera (0.4), la estratificación después de que se ha seleccionado la muestra irrestricta aleatoria parece apropiada. Este procedimiento se justifica, ya que tanto nI como n z exceden 20.

YSt = (

~ ) Yl + (~2) Y2 = (0.4)(520) + (0.6)(280) = 376

y omitiendo la corrección por población finita, tenemos

V(y,,) = (~:

r V(yt> + (~2r V(Y2) = (0.4)2(::) + (0.6)2(::)

(210)2 = (0.16) ~

y Por lo que

(90)2

+ (0.36) 30 =

198

2J V(y,,) = zJ198 = 28 376 ± 28

es nuestra estimación de j-L. Confiamos bastante en que ¡.;.. se encuentra entre $348 y $404. Debemos tomar en cuenta dos observaciones precautorias. Si N i / N se desconoce o si no puede obtenerse una buena aproximación, este método de estratificación no debe usarse, ya que los errores en las ponderaciones N¡j N, pueden ocasionar que este estimador estratificado sea muy deficiente. Algunas veces este método de estratificación se usa para ajustar por no respuesta. Por ejemplo, si muchos de quienes no respondieron

511

111

PESUMEN

a una muestra irrestricta aleatoria son varones. entonces la proporción de varones en la muestra va a ser pequeña, y se podría producir un estimador ajustado mediante la estratificación después del muestreo. Este método puede incluso inducir a graves.sesgos en el resultado si la no respuesta sesga la muestra irrestricta aleatoria. Lo que debe recordarse es que la muestra original debe aún ser una muestra irrestricta aleatoria de la población.

5.11 RESUMEN Una muestra aleatoria estratificada se obtiene separando los elementos de la población en grupos, o estratos, de tal manera que cada elemento pertenezca a uno y sólo uno de los estratos, y entonces se obtiene una muestra irrestricta aleatoria de manera independiente en cada estrato. Este diseño de muestreo de encuestas presenta tres ventajas principales sobre el muestreo irrestricto aleatorio. Primero, la varianza del estimador de la media poblacional es por lo común reducida porque la varianza de las observaciones dentro de cada estrato es usualmente más pequeña que la de toda la población. Segundo, el costo por recolectar y analizar los datos es frecuentemente reducido por la separación de una población grande en estratos más pequeños. Tercero. se pueden obtener estimaciones separadas para estratos individuales sin seleccionar otra muestra y. por lo tanto, sin costo adicional. La Ecuación (5.1) nos da un estimador insesgado jis, de la media poblacional. el cual es un promedio ponderado de las medias de los estratos. La Ecuación (5.2) nos da un estimador insesgado de la varianza de jist este estimador es usado en la obtención de límites para el error de estimación. Se da también un estimador insesgado del total poblacional. así como su varianza estimada. Antes de realizar una encuesta. los experimentadores deben considerar qué tan grande deben tolerar el error de estimación. y de acuerdo con esto seleccionar el tamaño de la muestra. El tamaño de muestra n es dado por la Ecuación (5.8) para un límite fijo B en el error de estimación. Esta muestra debe ser entonces asignada a los diferentes estratos. La asignación que nos da una cantidad fija de información a un mínimo costo es dada por la Ecuación (5.9); la cual es afectada por los tamaños de los estratos, las varianzas de los estratos. y los costos por efectuar observaciones. El estimador Pst de una proporción poblacional tiene la misma forma que jis, Y es dado por la Ecuación (5.15). Un estimador insesgado de Ps, es dado por la Ecuación (5.16). Los problemas relativos al tamaño y asignación de muestra tienen las mismas soluciones que anteriormente, excepto que (J'2 es reemplazada por p¡q¡.

ANÁLISIS DEL ESTUDIO DE CASO

LA ESTIMACiÓN DE LOS COSTOS EN EL CUIDADO DE LA SALUD En el probiemo de estimación de lOS costos lotoles de lO primero nosptollZoclón poro los paCientes con litiaSIS renal, los Carolinos y los Rocosos fueron seleCCionados como estratos porque tienen tosas de inCidencia poro lO enfermedad muy diferen-

112

~J1UEsrREO

I"\LEATOQIO Esn<ATIFICADO

tes, y porque se deseaba información separado poro codo región. Además, esto separación en regiones geográficos simplificaba los procedimienfos de muesfreo. Los datos muestrales se resumen como sigue: Carolinas

Rocosas

= 258'

n, = 363

= 1350

92=1150

---"- = 3600

--.2 = 3600

Poro calcular el costo Total anual poro estos regiones deoe encontrarse primero Ni y N 2, el número de oacientes de lifiasis que se esoera encontrar en lo región respectivo en un año cualquiera. Pueden aproximarse estos estimaciol'es SI se encuentran los tosas de incidencia poro lo enfermedad y si se conoce lo pooloción total de lOS reglones Un estudio paralelo mostró que el número de cosos ero de 454 por codo 100,000 habitantes en los Carolinos, y de 263 por codo 100,000 habitantes en los r;¡ocosas De acuerdo COl' el censo de 1980, lO población de los Carolinos ero de 8,993,000 y lO de lO región de los Montañas Rocosos ero de 7,351,000 De esto manero N , = 8'993'000(

= 7,351,000(

454 ) = 40,828 100,000 263 ) 100,000

= 19,333

Ahora podemos estimar el costo total anual de 10 primero hosoitalizaClón poro los pacientes COI' litiasis en las dos regiones combinados como N , y, + N 2Y2

o seo

(40,828)(1350) + (19,333)(11501 = 77,350,750

El límite paro el error de estimación es [yo que los poblaciones son grandes comparados con los tamaños ae muestro]: N 2(S2)

N 2(S2)

_,_, +_2_2 = 2J(40,828)2(3600) + (19,333)2(3600) n, n2 = 5,420,880

Entonces estimamos que el costo total anual paro los dos regiones está entre 872 y 882 millones aproximadamente.

E.JERCICIOS 5.1

Una cadena de almacenes de departamentos está interesada en estimar la proporción de cuentas por cobrar negligentes, La cadena consiste de 4 almacenes. Así que el costo de muestreo es redu-

EJERCICiOS

113

cido. Se usa muestreo aleatorio estratificado, con cada tienda como un estrato. Ya que no se dispone de información referente a las proporciones poblacionales antes de! muestreo, se usa la asignación proporcional. De la tabla acompañante, estime p, la proporción de cuentas negligentes para la cadena, y fije un límite para e! error de estimación.

Estrato

111

NI =65

N 2 =42

"1 = 14

"2 =9

N 3 =93 "3 = 21

N 3 =25 "4 =6

Estrato

Nútnero de cuentas por cobrar Tamaño de muestra Número muestral de cuentas negligentes

5.2

111

(obreros)

<técnicos)

(administrativos)

<T~ = 25

<T; = 9 N 3 =27

<T; =

N 2 =92

Para e! Ejercicio 5.2, estime el número total de horas·hombre perdidas durante el mes indicado y establezca un límite para el error de estimación. Use los datos de la tabla acompañante, obteni· da de una muestra de 18 obreros, 10 técnicos y 2 administrativos.

8 O 6 7 9 18

5.4

Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de los empleados, en un mes determinado. Ya que los obreros. los técnicos y los administrativos tienen diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado, con cada grupo formando un estrato. Datos de años previos sugieren las varianzas mostradas en la tabla anexa, para el número de horas-hombre perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. Determine la asignación de Neyrnan para una muestra de n = 30 empleados.

NI = 132

5.3

111

(obreros)

(técnicos)

(administrativos)

24 16 O 4

5 2

O 32 16 4 8 O

4 O 8 3 1

5 24 12 2 8

1 8

Se forma una comisión de zonificación para estimar el valor promedio de avalúo en un suburbio residencial de una ciudad. El uso de ambos distritos de votantes en el suburbio como los estratos es conveniente porque se tienen disponibles listas separadas de las viviendas en cada distrito. De los datos presentados en la tabla acompañante, estime e! valor promedio de avalúo para todas las casas en el suburbio, y establezca un límite para el error de estimación (nótese que se utilizó la asignación proporcional).

114

5 MUESTPeO ALeJlJOPiO ESTPArIFICADO

Estrato I

Estrato 11

NI = 110

= 240,000

i=l

I y¡ = 2,980,000,000

í=l

5.5

I y¡ = 6,010,000,000 i=1

Una corporación desea obtener información acerca de la efectividad de una máquina comercial. Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica, Europa y Asia. Es por eso que se usa muestreo estratificado. Los costos son mayores para las entrevistas de los jefes de división localizados fuera de Norteaméríca. La tabla siguiente proporciona los costos por entrevista, varianzas aproximadas de las calificaciones, y los Ni que se han establecido. La corporación quiere estimar la calificación promedio con V(Yst) = 0.1. Elija el tao maño de muestra n que obtiene este límite y encuentre la asignación apropiada.

Estrato 11 (Europa)

Estrato I (Norteamérica)

e, = $9

Estrato 111 (A.ia)

e2 = $25

ui =

2.25 N, = 112 5.6

= 420,000

i=l

e3 = $36

u; = 3.24

N 2 =68

N 3 =39

Una escuela desea estimar la calificación promedio que puede ser obtenida en un examen de comprensión de lectura por estudiantes de sexto grado. Los estudiantes de la escuela son agrupados en tres estratos, los que aprenden rápido en el estrato I y los que aprenden lento en el estrato III. La escuela decide esta estratificación porque de esta manera se reduce la variabilidad en las calificaciones del examen. El sexto grado contiene 55 estudiantes en el estrato 1, 80 en el estrato II y 65 en el estrato III. Una muestra aleatoria estratificada de 50 estudiantes es asignada proporcionalmente y produce muestras irrestrictas aleatorias de nI = 14, n z = 20 Y n 3 = 16 de los estratos 1, II YIII. El examen se aplica a la muestra de estudiantes y se obtienen los resultados que se muestran en la tabla. Estime la calificación promedio para este grado y establezca un límite para el error de estimación. Estrato I

80 68 72

85 90 62 61

85 87 91 81 79 83

Estrato 11

Estrato 111

85 48 53 65 49

42 36 65 43 53 61 42 39

53 68 71 59

82 75 73 78 69 81 59 52 61 42

32 31 29 19 14 31 30 32

EJeRCICIOS

115

5.7

Suponga que la calificación promedio para e! examen de la clase del Ejercicio 5.6 se va a estimar de nuevo al final del año escolar. Los costos de muestreo son iguales en todos los estratos, pero las varianzas son diferentes. Encuentre la asignación óptima (Neyman) para una muestra de tamaño 50, usando los datos del Ejercicio 5.6 para aproximar las varianzas.

5.8

Utilizando los datos del Ejercicio 5.6. encuentre el tamaño de muestra requerido para estimar la calificación promedio, con un límite de 4 puntos para el error de estimación. Use asignación proporcional. Repita el Ejercicio 5.8, ahora usando la asignación de Neyman. Compare los resultados con la respuesta del Ejercicio 5.8.

5.9 5.10

Un guardabosques quiere estimar el número total de acres plantados de árboles en los ranchos de un estado. Ya que el número de acres de árboles varía considerablemente con respecto el tamaño del rancho, decide estratificar con base en ehamaño de los ranchos. Los 240 ranchos en el esta· do son puestos en una de 4 categorías de acuerdo con el tamaño. Una muestra aleatoria estratificada de 40 ranchos, seleccionada mediante asignación proporcional, produce los resultados del número de acres plantados de árboles que se muestran en la tabla anexa. Estime e! número total de acres plantados de árboles en los ranchos del estado, y fije un límite para el error de estimación.

Estrato 1 0-200 acres

N I =86 nI = 14 97 67 42 125 25 92 105 86 27 43 45 59 53 21 5.11

5.12

5.13

Estrato II 201-400 acres

Estrato III 461-600 acres

EltralO IV más de 601 acres

N z =72 nz = 12 125 155 67 96 256 47 310 236 220 352 142 190

N 3 =52 n3 = 9 ·142 256 310 440 495 510 320 396 196

N 4 =30 n4

167 220 780

655 540

El estudio de! Ejercicio 5.10 se va a hacer anualmente, con el límite para el error de estimación de 5·000 acres. Encuentre un tamaño de muestra aproximado para adquirir este límite si se usa. la asignación de Neyrnan. Use los datos de! Ejercicio 5.10. Una psicóloga que está trabajando con un grupo de adultos con retraso mental, desea estimar su tiempo de reacción promedio a un cierto estímulo. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción, por lo que desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En estudios previos de este tipo de in· vestigaciones se ha encontrado que los tiempos presentan una amplitud de variación de 5 a 20 se· gundos para varones y de 3 a 14 segundos para mujeres. Los costos del muestreo son los mismos para ambos estratos. Usando la asignación óptima, encuentre el tamaño de muestra aproximado necesario para estimar el tiempo de reacción promedio para e! grupo. con un límite aproximado a un segundo. Un ayuntamiento municipal está interesado en ampliar las instalaciones de un centro de aten' ción diurna para niños con retraso mental. La ampliación va a incrementar los costos de asistencia a los niños del centro. Se va a realizar una encuesta por muestreo para estimar la proporción de familias con niños afectados que utilizarán las instalaciones ampliadas. Las familias están divididas en aquellas que usan las instalaciones y aquellas que no lo hacen. Algunas familias viven en la ciudad donde se encuentra localizado el centro, y otras viven en las áreas rurales o suburbanas de los alrededores. Entonces se usa muestreo aleatorio estratificado con personas en la ciudad que usan las instalaciones, personas de los alrededores que las usan, personas en

116

5 MUESTREO ALEATORIO ESTRATIFiCADO

5.14

la ciudad que no las usan, y personas en los alrededores que no las usan, formando los estratos 1, 2, 3 Y4, respectivamente. Aproximadamente 90% de los que usan las instalaciones y 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual es de $4.00 y de $8.00 para uno que no lo es. La diferencia en el costo resulta de la dificultad para localizar a quienes no usan las instalaciones. Registros existentes nos dan NI == 97, N z = 43, N 3 == 145 YN 4 == 68. Encuentre el tamaño de muestra aproximado y la asignación necesaria para estimar la proporción poblacional con un limite de 0.05 para el error de estimación. Se lleva a cabo la encuesta del Ejercicio 5.13 y se obtiene la siguiente proporción de familias que usarán las nuevas instalaciones.

P1 =

0.87,

P3 =

0.60,

Estime la proporción poblacional p, y establezca un límite para el error de estimación. ¿Se logró el limite deseado? 5.15 5.16

Suponga que en el Ejercicio 5.13 el costo total del muestreo se fija en $400. Elija el tamaño de muestra y la asignación que minimiza la varianza del estimador p" para este costo fijado. Considere la información que se da en el Ejemplo 5.17 sobre las 56 empresas comerciales. (a) Suponga que se tienen n == 15 observaciones para formar una muestra aleatoria estratificada con dos estratos únicamente. Encuentre el punto de división óptimo entre los estratos. Con nI == 7 Yn 2 == 8, suponga que los resultados de las mediciones en la muestra (en miles de pesos) son los siguientes no, 142,212,227,167, 130, 194 para el estrato 1, y 387,345, 465, 1I0S, 280, 480, 355 Y405 para el estrato 2. Estime J.L mediante y" y calcule la varianza estimada de y". (b) Ahora suponga que el punto divisorio entre los dos estratos es cambiado a 300,000. Suponga que se toman las mismas 15 mediciones en una muestra aleatoria estratificada de n¡ == S Yn 2 == 7. Nótese que este muestreo cambia el valor 280 del estrato 2 al estrato 1. (Este resultado no es probable que se presente en la práctica, y se utiliza aquí sólo con fines explicativos.) En-

5.17

cuentre y" y calcule la varianza estimada de y". La respuesta numérica debe indicar la superioridad del método acumulativo de la raíz cuadrada de frecuencias. Si no se tiene información disponible sobre la variable de interés primordial, digamos y, entonces la estratificación óptima puede ser aproximada mediante el uso de otra variable, digamos x, la cual está altamente correlacionada con y. Suponga que un investigador desea estimar el número

Número de empleados

0-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 101-110 111-120

Frecuencia

2 4 6 6 5 8

10 14 19 13 3

EJERCICIOS

117

promedio de días de ausencia por enfermedad, otorgados por cierto grupo de empresas en un año determinado. No se tiene disponible información referente a días de ausencia por enfermedad, pero se puede encontrar información sobre el número de empleados por empresa. Suponga que para estas empresas se tiene que el número total de días de ausencia por enfermedad está altamente correlacionado con el número de empleados. Use los datos de frecuencias de la tabla acompañante para dividir óptimamente las 97 empresas en L = 4 estratos, para los cuales es posible usar tamaños de muestra iguales. 5.18

5.19

Considere el Ejercicio 4.30. El auditor desea ahora submuestrear algunas de las 20 cuentas para una auditorla más detallada. Separe las 20 cuentas en dos estratos, aplicando el método acumulativo de la raíz cuadrada de frecuencias a las cantidades dadas. Una verificación de control de calidad estándar para acumuladores de automóviles consiste simplemente en registrar su peso. Un embarque particular de una fábrica consistió de acumuladores producidos en dos meses diferentes, con el mismo número de acumuladores para cada mes. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de observar la variación mensual. Las muestras irrestrictas aleatorias de pesos de acumuladores para los dos meses mostraron las siguientes mediciones (en libras):

MesA

Mes B

61.5 63.5 63'.5

64.5 63.8 63.5 66.5 63.5

64.0

63.8 64.5

64.0

Estime el peso promedio de los acumuladores en la población (el embarque), y fije un limite para el error de estimación. Descarte la cpf. El estándar de la fábrica para este tipo de acumuladores es de 69 libras. ¿Considera usted que el embarque cumple el estándar del promedio? 5.20

¿Cree usted que la estratificación del Ejercicio 5.19 es deseable, o será suficiente con muestreo irrestricto aleatorio? Suponga que el muestreo irrestricto aleatorio es tan conveniente como el muestreo aleatorio estratificado.

5.21

Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de microcomputadora defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 38 provienen de la operación A y 62 de la operación B. De entre los circuitos integrados muestreados de la operación A, 6 son defectuosos. De entre las piezas muestreadas de la operación B, 10 son defectuosas. (a) Considerando únicamente la ~uestra irrestricta aleatoria de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. (b) Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un limite para el error de estimación Omita los cpf en ambos casos. ¿Qué respuesta encuentra más aceptable? ¿En qué condiciones ocurre que la estratificación produce grandes ganancias en precisión sobre el muestreo irrestricto aleatorio? (Suponga que los costos de observación son constantes en ambos. diseños.)

5.22

5.23

Un analista de investigación de mercados quiere estimar la proporción de personas que favorece el producto de su compañía respecto a un producto similar de una compañía rival. El área de

118

~~UESTPEO

ALEATOPIO

ESTPATI~ICADO

prueba para esta investigación es el estado de Nueva York. Él también está interesado en obtener estimaciones separadas para la proporción en personas con edades de 18 a 25 años y para mayores de 25 años. Analice posibles diseños para esta encuesta. 5.24

Un investigador desea estimar el ingreso promedio de los empleados de una gran empresa. Se tienen registros de los empleados listados por antigüedad, y. en términos generales, se tiene que el salario se incrementa con la antigüedad. Analice los méritos relativos al muestreo irrestricto aleatorio y al muestreo aleatorio estratificado para este caso. ¿Cuál recomendaría usted y cómo organizarla el esquema de muestreo?

5.25

En el uso de y" como un estimador de ¡.L, algunas veces resulta ventajoso encontrar la asignación y el tamaño de muestra que minimiza la V(Yst) para un costo fijo c. Esto es. el costo e permitido para el muestreo es fijo y queremos encontrar la mejor asignación de recursos en términos de maximizar la información sobre ¡.L. La asignación óptima para este caso es aún dada por la Ecuación (5.9). Muestre que la elección apropiada de n es L

(e - co)

N i uJ.J0 i=l n = --------L

N;ui .J0

i=l

donde

representa gastos generales fijos de la encuesta.

EXPERIENCIAS CON DATOS REALES 5.1

En la Tabla 3 del Apéndice se presentan datos del Censo de 1980 de Estados Unidos. Considerando las cuatro divisiones mayores del país (Noreste, Centro Norte, Sur y Oeste) como estratos, seleccione una muestra aleatoria estratificada de estados. y estime el total de la población para 1980. con un límite para el error de estimación. En el diseño. seleccione un tamaño de muestra y una asignación que considere apropiados para obtener una buena estimación. ¿Qué consideraciones intervienen en su elección? ¿El intervalo producido incluye el total verdadero indicado en la tabla? Compare su respuesta con las de otros estudiantes. ¿Todos los intervalos encontrados son de la misma longitud? ¿Incluyen todos los intervalos el verdadero valor poblacional?

5.2

Usando los mismos datos del Censo de 1980 de Estados Unidos. y los mismos estratos del Ejercicio 5.1, estime la proporción de estados que tienen tasas brutas de natalidad (nacimientos anuales por cada mil habitantes) mayores que la tasa de natalidad para todo el país durante 1978. Fije un límite para el error de estimación. Usted puede seleccionar un tamaño de muestra yasignación diferentes a los usados en el Ejercicio 5.1.

5.3

La Tabla 5.4 muestra la altura de edificios altos en ciertas ciudades de Estados Unidos. Usando las ciudades como estratos. seleccione una muestra aleatoria estratificada de edificios y estime la altura promedio para esta población. Fije un límite para el error de estimación. Compare su respuesta con las de sus compañeros.

5.4

Considere la Tabla 5.4. Usando las ciudades como estratos. estime la proporción de edificios en esta lista que sobrepasan los 500 pies de altura. Establezca un límite para el error de estimación. Ponga atención cuidadosa al tamaño de muestra y la asignación para obtener de modo eficiente un límite pequeño.

5.5

Estime el precio promedi¡. al menudeo de un abarrote común (por ejemplo café, pan. pasta dental o azúcar) en la ciudad, o sección de la ciudad en la cual vive. Considere de tres a cinco estratos para los almacenes. y observe de modo cuidadoso la mejor manera de estratificación. Se sugiere estratificar con base en el tipo de almacén (grandes supermercados contra pequeñas tiendas de

119

EXPERIENCIAS COI\I DATOS RE:ALES

TABLA

5.4

I>Jtüo d? ediflQos altos en ciertos ciu::tx:\2s d? EstccbS Unlcbs [msdoeres en des] Atlanta, Ga.

Peachtree Center Plaza Hotel

Georgia Pacific Tower Southem 8eH Telephone

Fies! National Bank

Equiuble Building 101 Marietta Tower Peachtree Surnmit No. North Avenue Tower

Tower Place

National Bank of Georgia

723 697 677 556 453 446 403 403 401 390

Richard B. Russell Federal

383

Building

371 349 332 331 330 328 318 310

Life of Georgia Tower Georgia Power Tower

Atlanta Hilton Hotel

Peachtree Center Harris

383 382

Peachtree Center South Gas Light Tower Hyatl Regency Hotel

380 377 377 376 374

100 Colony Square Georgia Power Building Colony Square Hotel

Building Southern Bell Telephone Trust Company Bank Coastal 5tates lnsurance Peachtree Center Cain Building

Peachtree Center Building

Chicago, lll. 1000 Lake Shore Plaza

Sears Tower (el más alto

del mundo)

Standard Oil (Indiana) John Hancock Center Water Tower Place First National Bank Three First National Plaza One Magmficent Mile Huran Apartments

IBM Building Daley Center Lake Point Tower Board of Trade. incluyendo

1454 1136 1127 859 850 775 770 723 695 662 645 605

estatua de 81 pies Prudential Building para un total de

edificios Mid Continental Plaza

Pitlsfield Kemper lnsurance Buildmg Newberry Plaza One South Wacker Dr. Harbor Point

LaSalle Nationa1 Bank One LaSalle St. 111 E. Chesmut Sr.

601

Puro Oi!

912

United Insurance Building Lincolo Tower

Chicago Maman

503 500 491 479 476 475 475 474 472 471 468 465 462 460

SouthweSlem Be11 Tol! Building

372

Caurt House & Federal Offiee

362

Carbide & Cacbon

Walton Colonnade

LaSalle-Wacker

Marina City Apartments, 2

River Plaza

Torre de antena, 311 pies,

590

Apartrnents

588 580 557 555 553 550 550 535 530 529 524 523 522 519

American National Bank Bankers Brunswick Building Continental Companies American Fumiture Mart

333 Wacker Dr. Sheraton Hotel

Playboy Building 188 Randolph Tower Tribune Tower

DalIas, Tex. Main Centre First International Building LTV Center Arco Tower Thanksgiving Tower Two Dalias Centre First National Bank Republie Bank Tower First City Center SW Bell

Administrati~n Tower

One Lineoln Plaza

Olympia York Reunian Tower Southland Life Tower Diamond Shamrock

939 710 686 660 645 635 625 598 595 580 579 562 560 550 550

2001 Beyan Sto San Jacinto Tower

Republic Bank Building,

512 456 452

no incluye torre ornamental

de 150 pies Wyndham Hotel One Maio Piace L1V Tower Mercantile National Bank

451 445 434 430

Fide1ity Union Tower One Dallas Centre

Plaza of The America's (Torre Este)

Hyatl Hotel Elm Place Dallas Galleria Tower

343 341 336 333

Plaza of rhe America's

332

Main Tower

meteorológica de 115 pies \Mart Hotel

360 352 344

Mercantile DaBas Building Sheraton Hotel

Building, no incluye torre

Mobil BuJiding

Building

430 400 400 386

(Torres Norte y Sur) P,rk Cenml No. 3

327 327

Adalphus Tower

Detroit, Mich. Detrdit Plaza Hotel Penobscot Building 15000 Town Center Dr. Guardian Renalssance Center (4 edificios) Baok Tower 13000 Town Center Dr.

Cadillac Tower

720 557 554 485 479 472 443 437

David Stott Michigan Consolidated Gas Company Building Fisher

L. Hudson Building McNamara Federal Oflice Building

Detroit Bank & Trust BuIlding

436 430

American Center

Top of Troy Building Detrolt Bank & Trust Buildihg

420 397 393 374

Edison Plaza Woodward Tower

Buhl

374 374 370 365 358 350'

Continúa

120

5 MUESTREO ALEATORIO

TABLAS.4

ESTRATI~ICADO

Continuación

Ford Building Michigan Bell Telephone

346 340

1st Federal Saving, & Loan Pontchartrain Motor Hotel

338 336

Commonwealth Building

325 325

550 550 523 521 518 506 502 465 452 441 441 439 428 426 420 410 410 409 401

City Nationa] Bank Building The Park L>ne Five Po,t Oak Park

1300 L>fayette East

Houston, Tex. Texón Commerce Tower

Allied Bank Plaza Tunsco Tower

Rcpublic Bank Center Interfirst Plaza

1600 Smith Sto GulfTower One Shell Plaza (no incluye torre de TV de 285 pies) Four Allen Center

Capital N.lional Bank Plaza One HOllsron Center First City Tower

1100 Milam Building Exxon Building The America Tower

Marathon Oil Tower Two Houston Center

1002 985 899 780 744 729 725 714

692 685 678 662 651 606 577 572 570

Dresser Tower

1415 Louisíana Tower

Pennzoil (2 edificios) Two Allen Center Entex Building Huntington Tenneco Building Conoco Tower One AlIen Center Surnrnit Tower West Coastal T ower

Four Leaf, Towers (2 edificios) Gulf Building The Spire, Centr.l Tower (4 Oaks Place) First City National Bank Houston Lighting & Power

Neíh Esperson Building f:Iyatt Regency Houslon

Houston Natural Gas Building Amoco Center

Bank of the Southwest Lyrie Center Warwick Towers

Sheraton-Lincoln Hotel Allied Bank Tower (4 Oak, Place) We't Tower (4 Oak, Place) Two Shell Plaza American General Life Park West Tower One Transco

FOlle Seasons Hotel

Allied Chemical Byilding

395 390 389 386 382 369 365 361 352 351 351 341 337 337 333 330 328

Los Ángeles. Calif. First Interstate Bank Cracker Center, North Security Pacific National Bank

Atlantic Richfield Plaza (2 edificios) Well, Fargo Bank Crocker-Citizen Plaza Century Plaza Towers

858 750 735 699 625 620 571

(2 edificios)

Mutual Benefit Life Jnsurance

516 454 454 452 435

Building Broadway Plaza 1900 Ave. of Stars 1 Wilshire Building

414 398 395

Union Bank SquiUe

City Hall Equitable Life Building Transamerica Center

The Evian Bonaventure Hotel Beaudry Center

400 S. Hope Sto California Feder21 Savings &

Loan Building Century City Office Building Bunker Hill Towers International Industries Plaza

390 367 365 375 363 363 349 347

Nueva York, N.Y. World Trade Cenrer (2 rorres) Empire Sute

1350 1250

Chemical Bank, ·N.Y. Trust

1472 1046 950 927 914 850 813 803 792 764 750 743 741 730 707 705 700 697 688

Ch2nín

55 Water Sto

Torre de TV f 222 píes, para un total de

Chry,ler American International Building

40 Wall Tower Citicorp Center

RCA Building 1 Cha,e Manhattan Plaza Pan Am Building Woolworth 1 Penn Plaza Exxon

1 Liberty Plaza Citibank One Astor Plaza Union Carbide Building General Motors Building Metropolítan Life

500 5th Ave. 9W. 57th Sto

687

Cutf & Western Building

Marine Midland Building McGraw Hill Lineoln

1633 Broadway 725 5rh Ave. American Brands

A. T. & T. Tower General Electric Irving Trust

345 Park Ave. Grace Plaza

1 N ew York Plaza Home Insur2nce Corporation

Building N.Y. Telephone 888 7th Ave. 1 Hammarskjold Plaza

Waldorf-Astoria Burlington House

Building

687 680 679 677 674 673 670 664 648 648 640 640 634 630 630 630

Olympic Tower lOE. 40th Sto 101 Park Ave. New York Life Penney Building IBM 780 3rd Ave. 560 Lexington Ave. Celanese Building

U.S. Court Hou,e Federal Building Time & Life Cooper Bregstein Building

1185 Avenue of Americas Municipal 1 Madison Square Plaza

Westvaco Building

630 628 628

Socony Mobil Building

625 625 620 620 618 615 609 603 600 600 592 590 587 587 580 580 580 576 574 572

Continúa

EXPERIEI\JClAS CON DATOS REALES TABLA 5.4

121

Continuación

Sperry Rand Building 600 3rd Ave. Helmsley Building 1 Bankers Trust Plaza Palace Hotel

30 Broad St. Sherry-Netherland Continental Can

Sperry & Hutehinson GaHeria Interehem Building 151 E. 44th St. N.Y. Telephone 919 3rd Ave. Burroughs Building Bankers Trust

570 570 565 565 563 562 560 557 555 552 552 550 550 550 550 547

Transportatíon Building

Equitable 1 Brooklyn Bridge Plaza Equiuble Life Ritz Tower

Bankers Trust 1166 Avenue of Americas 1700 Broadway Downtown Athletic Club Nelson Towers 767 3rd Ave. Hotel Píerre House of Seagram

7 World Trade Center Random House

3 Park Ave.

546 545 540 540 540 540 540 533 530 525 525 525 525 525 522 522

North American Plywood Du Mont Building 26 Broadway Newsweek Building

Sterling Drug Building First NationaI City Bank

Bank of New York Navarre Williamsburgh Savings Bank, Brooklyn ITI-American International

1407 Broadway Realty Corp. United Nations

520 520 520 518 515 515 513 513 512 512 512 512 505

Filadelfia, Pa. City Hall Tower, incluyendo 548 estatua de 37 pies de Wm. Penn 1818 Market St. 500 Provident Mutual Life 491 Fidelity Mutual Life Insurance 490 Building Philadelphia Saving Fund 490 Society

Central Penn National Bank

Centre Square (2 torres)

490 490/416

Industrial VaHey Bank Building Philadelphia Nanonal Bank Two Girard Plaza 2000 Market St. Building One Reading Center

Fidelity Bank Building Lewis Tower

1500 Locust St. Aademy House Philadelphia Elearie Company

482 475 450 435 417 405 400 390 390 384

INA Annex Penn Mutual Life The Drake Medical Tower Sute Building Qne Logan Square Land Title Paekard Inquirer Building

383 375 375 364 351 350 344 344 340 340

485 475 445 424 410 358 355 347

Gateway Building No. 3 Centre City Tower Federal Building Bell Telephone Hilton Hotel Friek

344 341 340 339 333 330

500 493 492 487 476 475 474 465 438 435 435 416 412 412

595 M>rket Building 101 Montgomery Sto

410 405 399

United Engineers

Pittsburgh, Pa. U.S. Stee1 Building One Mellon Bank Center PPG Tower One Oxford Centre Gulf University of Piltsburgh Mellon Bank Building 1 Oliver Plaza

841

725 623 615 582 535 520 511

Grant Koppers Equibank Building Piltsburgh National Building AJeoa Building Liberty Tower Westinghouse Building Oliver

San Francisco, Calif. Transamerica Pyramid

Bank of America 101 California Sto 5 Fremont Centel' Embarcadero Center, No. 4

Seeurity Pacifie Bank One Market Plaza Wells Fargo Building Sundard Oil One Sansome-Citicorp

Shaklee Building Aetna Life

First & Market Building Metropoliun Life

853 778 600 600 570 569 565 561 551 550 537 529 529 524

Cracker National Bank

Hilton Hotel Pacific Gas & Eleetric Uníon Bank Pacific Insurance

Bechtel Building 333 Market Building Hartford Building Mutual Benefit Life Russ Building Pacifie Telephone Building Pacific Gateway

Embarcadero Center, No. 3 Embarcadero Center, No. 2

California Sute Automobile Assn.

AJeoa Building Sto Francis Hotel Shell Building Del Monte Pacific 3-Apparel Mart Meridien Hotel Union Square Hyatt House

398 395 386 378 376 374 355

Hotel

122

5 MLJESTPEO ALEATORIO ESTRATIFiCADO

barrio), áreas geográficas, o con una combinación de los dos. El último método es importante si usted desea comparar las estimaciones para pequeñas tiendas de barrio en diferentes secciones de la ciudad. Construya cuidadosamente un marco, buscando varias fuentes de posibles listas de almacenes que deban ser incluidas en la población. Elija un tamaño de muestra para obtener una varianza fijada de antemano para el estimador a un costo mínimo. Establezca estimaciones para cada estrato, así como para toda la población. Use una tabla de números aleatorios en la selección real de sus muestras.

6 ESTIMACiÓN DE RAZÓN, REGRESiÓN Y DIFERENCIA ESTUDIO DE CASO

......

¿QUÉ TAN PRECISO ES EL INVENTARIO? Uno toreo 'Cloononte oe url aUditor es evaluar lo exactitud de lOS cantidades del inventoriO presenTado Dar uno empresa Esto evoiuoClÓrl se hoce selecCionando ortículos:Je :o liStO del inventario, determinando en dólares el IrflOOrte apropiado poro cooo orTícuio selecCionado, y luego estimando el error total del ,rlventorlO SI el error tOtOI se denoto por Te, lO cantidad total del inventario presentado [cantidad osenl000 en el libro] por Tx Y lO contidod total del inventario revlsodo ocr T y , entonces el ouditor qUiere estlrror

Puesto queTxes conocido [es lo contldod presentado por lo firmo], el único problema es estlrGor T y Los técnicos del Capítulo 6 pueden utilizarse poro estimar lo canTidad tOlOI oel InventarIO revisado y el error total del inventario, Tal análisis se presento posterorrnente en este eooí1u lo

123

6 ESTIMACI~NDE R A Z ~ NREGRESI~N , Y DIFERENCIA

La estimación de la media y el total poblacionales en los capítulos precedentes se basó en una muestra de las mediciones de la respuesta, y i , y,, . . . , y,, obtenida por muestreo irrestricto aleatorio (Capftulo 4) y muestreo aleatorio estratificado (Capftulo 5). Algunas veces otras variables están íntimamente relacionadas con la respuesta y . Midiendo y y una o más variables auxiliares, podemos obtener información adicional para estimar la media poblacional. Probablemente usted está familiarizado con el uso de variables auxiliares para estimar la media de una respuesta y. Es básico para el concepto de correlación y proporciona los medios para el desarrollo de una ecuación de predicción relacionando y y x por el método de mfnimos cuadrados. Este tema se trata ordinariamente en los cursos introductorios de estadística (Mendenhall, 1986, Capítulo 10). Los Capftulos4 y 5 presentaron estimadores simples de parámetros poblacionales utilizando las mediciones de la respuesta y,, yz, . . . , y, ; sin embargo, el enfásis principal fue establecido sobre el diseña de la encuesta por muestreo (irrestrico aleatorio o estratificado). En contraste, este capítulo presenta tres nuevos métodos de estimación, basados en el uso de una variable auxiliar x. Los métodos se denominan estimación de razón, regresión y diferencia. Los tres métodos requieren de la medición de dos variables, y y x, en cada elemento de la muestra. Diversos diseños de muestreo pueden ser empleados en unión con la estimación de razón, regresión o diferencia, pero estudiaremos principalmente el muestreo irrestricto aleatorio. Sin embargo, las nociones básicas de cómo se aplican estas ttcnicas al muestreo aleatorio estratificado se explicarán en la estimación de razón. I

6.2 ENCUESTAS QUE REQUIEREN EL USO DE ESTIMADORES DE RAZÓN

125

6.2 ENCUESTAS QUE

REQUIEREN EL USO DE ESTIMADORES DE RAZÓN La estimación de un total poblacional algunas veces requiere el uso de variables auxiliares. Ilustramos el uso de un estimador de razón para una de las situaciones. El precio al mayoreo que se paga por las naranjas en remesas grandes se basa en el contenido de azúcar de la carga. El contenido exacto de azúcar no puede ser determinado antes de la compra y extracción del jugo de la carga completa; sin embargo, puede ser estimado. Un método para estimar esta cantidad es primero estimar el contenido medio de azúcar por naranja, y luego multiplicarlo por el número de naranjas N en la carga. Por lo tanto podríamos seleccionar aleatoriamente n naranjas de la carga para determinar el contenido de azúcar y en cada una de ellas. El promedio de estas mediciones de la muestra y,, . . . , yn estimara a estimara el contenido de azúcar total Desafortunadamente este método no es factible, debido a que es muy en la carga, costoso y se emplea mucho tiempo para determinar N (esto es, para contar el número total de naranjas en la carga). Podemos eludir la necesidad de conocer N observando los dos hechos siguientes. Primero, el contenido de azúcar de una sola naranja, y , está íntimamente relacionado con su peso x; segundo, la razón del contenido total de azúcar con el peso total de la carga de naranja es igual a la razón del contenido medio de azúcar por naranja, con el peso medio Por lo tanto

Al resolver para el contenido total de azúcar de la carga, tenemos

Podemos estimar y usando y los promedios del contenido de azúcar y el peso para la muestra de n naranjas. También, podemos medir el peso total de las naranjas en el camión. Entonces una estimación de razón del contenido total de azúcar es

o, equivalentemente (multiplicando el numerador y el denominador por n),

En este caso el número de elementos en la población, N, es desconocido, y por lo tanto no podemos usar el estimador simple del total poblacional (Sección 4.3). Así, un estimador de raz6n o su equivalente es necesario para lograr el objetivo de la

6 ESTIMACIÓNDE RAZÓN, REGRESIÓNY DIFERENCIA

estimación. Sin embargo, si N es conocida, tenemos la elección de usar el estimador NJ o el estimador de razón para estimar T,. Si y y x están altamente correlacionadas, esto es, x cdntribuye con información para la predicción de y, el estimador de razón deberá ser mejor que NF,el cual depende únicamente de F. Además del total poblacional T,, hay frecuentemente otros parámetros de interés. Podemos querer estimar la media poblacional p, usando un procedimiento de estimación de razón. Por ejemplo, supóngase que deseamos estimar el contenido de azúcar promedio por naranja en una gran remesa. Podrfamos usar la media muestral y para estimar p,. Sin embargo, si x y y están correlacionadas, un estimador de razón que usa información de la variable auxiliar x suele proporcionar un estimador más preciso de p,. La razón poblacional es otro parámetro que puede ser de interés para un investigador. Por ejemplo, supóngase que queremos estimar la razón del total de automóviles vendidos en el primer trimestre de este año con el número de ventas durante el periodo correspondiente del año anterior. Sea 7, el número total de ventas para el primer trimestre del año pasado y sea 7, ,elnúmero total de ventas para el mismo periodo en este año. Estamos interesados en estimar la razón

El concepto de estimación se usa en el análisis de datos de encuestas muy importantes y prácticas utilizandas por el gobierno, el comercio, e investigaciones académicas. Por ejemplo, el índice de precios al consumidor (IPC) realmente es una razón de los costos de adquisición de un conjunto fijo de artículos de una calidad y cantidad constantes para dos puntos en el tiempo. Generalmente, el IPC compara los precios de hoy con los de 1967. El IPC está basado, en parte, en los datos recolectados cada mes o cada dos meses de 24,000 establecimientos (tiendas, hospitales, estaciones de servicio, y así sucesivamente) seleccionados de 85 áreas urbanas del país. El IPC es usado principalmente como una medida de inflación (véase Capltulo 1). La Encuesta General de Población ajusta las cifras de desempleo para edad, sexo y raza según una técnica de estimación de razón. Por ejemplo, la razón del número de negros desempleados al número de negros en la fuerza de trabajo, para un área de muestreo, puede generalizarse a una medida del número de negros desempleados en un área mayor simplemente multiplicando la razón muestral por el número de negros en la fuerza de trabajo del área mayor. El índice de Ventas al Menudeo de Nielsen puede proporcionar razones de los precios de venta promedio para dos marcas competitivas de un producto o para un solo producto en dos puntos en el tiempo. El SAMI puede proporcionar razones sobre el volumen total de existencias para dos marcas competitivas. En las predicciones a menudo se utiliza una técnica de estimación de razón. Por ejemplo, la razón de las ventas totales en el primer periodo del año en curso, con un total similar para el año pasado, puede multiplicarse por las ventas totales del año pasado para estimar las ventas totales de este año. Métodos similaresson usados para predecir el crecimiento de la población. En la investigación académica, los sociólogos están interesados en medidas como la razón del presupuesto total mensual para alimentación con el ingreso total mensual por familia, o la razón del número de niños con el número de personas que viven en

! : *

! '

6.3 ESTIMACION DE RAZÓN USANDO MUESTREO IRRESTRICTO ALEATORIO

127

una unidad habitacional. Los investigadores en medicina pueden medir la potencia relativa de un nuevo medicamento, observando la razón de la cantidad promedio re: querida del nuevo producto para producir una respuesta con la cantidad promedio requerida de un medicamento tipo para la misma respuesta. Como usted puede ver, las aplicaciones posibles de la estimación de razón son interminables. Sin embargo, ahora desviaremos nuestra atención a la estructuración de estimadores para p,, 7, y R; y proporcionaremos ejemplos numéricos de cada uno. Cuando sea pertinente, las comparacionesse harán con los estimadores de aquellos parámetros presentados en los capítulos previos.

6.3 ESTIMACION

DE RAZON USANDO MUESTREO IRRESTRICTO ALEATORIO Vamos a suponer que una muestra irrestricta aleatoria de tamaño n será seleccionada de una población finita que contiene N elementos. Entonces,, ¿cómo estimamos una media p,, un total 7,, o una razón R poblacionales, utilizando la información de la muestra sobre y y una variable auxiliar x? Estimador de la razón poblacional R:

Varianza estimada de r:

Límite para el error de estimación:

[Si la media poblacional pata x , p,, es desconocida, usamos en las Ecuaciones(6.2) y (6.3).]

x2 para aproximar p f

128

6 ESTIMACI~N DE RAZÓN, REGRESION Y DIFERENCIA

En una encuesta para examinar las tendencias en bienes ralces, un investigador está interesado en el cambio relativo en el valor calculado de las casas en una comunidad en particular durante un periodo de dos años. Una muestra irrestricta aleatoria de n = 20 casas es seleccionada de N = 1000 casas de la comunidad. De los registros fmales, el investigador obtiene el valor calculado para este año (y) y el valor correspondiente para hace dos años (x), de cada una de las n = 20 casas incluidas en la muestra. El investigador desea estimar R, el cambio relativo en el valor calculado para las N = 1000 casas, usando la información contenida en la muestra.

TABLA 6.4

Datos y cálculos para la encuesta de avalúo de bienes raíces [cifras en unidades de S 10,000] " ,

Casa

Valor calculado hace don aflon

Valor actual

2 Xi

Xiyi

Los datos para la encuesta de bienes ralces se presentan en la Tabla 6.1. H~mos y x i y i las cuales son útiles para el cálculo de la V(r). adicionado las columnas x:, Usando los datos de la Tabla 6.1, estime R , el cambio relativo en el avalúo de bienes raíces en el periodo de dos años dado. Establezca un límite para el error de estimación.

6.3 ESTIMACIONDE RAZ6N USANDO MUESTRE0 IRRESTRICTO ALEATORIO

129

La estimación de R, usando los datos de la muestra, está dada por

i=i =--

avalúo actual total de las 20 casas avalúo total de las 20 casas hace 2 años

i=1

Usando la Tabla 6.1,

Por lo tanto estimamos que el avalúo de bienes raíces se ha incrementado aproximadamente un 20% en un periodo de dos años en el área estudiada. El límite para el error de estimación se encuentra usando la Ecuación (6.3). Un método abreviado para calcular E:=, (yi - rxi)?estádado por

Estas cantidades pueden obtenerse de la Tabla 6.1:

Usando la Ecuación (6.5) resulta

Por lo tanto estimamos que la razón del avaltío actual de bienes rafces con aquel de hace dos años es r = 1.07, y estamos bastante confiados en que el error de estimación es menor qve 0.02. Esto es, la razón verdadera R para la población deberá estar entre 1.O5 y 1.09. Nótese que el límite para el error de estimación es bastante pequeño. En consecuencia r será un estimador muy preciso de R. Los intevalos de confianza para muestras grandes, basados en la teoría de la distnbucibn normal, presentados en el Capftulo 2, también se aplican en el caso de la estimación de razón. Así, por ejemplo, un intervalo de confianza de aproximadamente 95% para la razón R es de l a forma

6 ESTIMACIÓN DE RAZÓN, REGRESION Y DIFERENCIA

La técnica de razón para estimar un total poblacional 7, fue aplicada en la estimación del contenido total de azúcar de una carga de naranjas. El estimador simple NY no es aplicable debido a que no conocemos N, el número total de naranjas en el camión. El siguiente procedimiento de estimación de razón puede ser aplicado en la estimación de 7, se conozca O no N. Estimador de razón del total poblacional

Varianza estimada de

donde p, y aleatoria x.

$y:

t,.:

son la media y el total poblacionales, respectivamente, para la variable

L0hite para el error de estimación: 1

Nótese que si bien no necesitamos conocer N o p,, debemos conocer 7, mediante el procedimiento de estimación de razón.

para estimar

En un estudio para estimar el contenido total de azúcar de una carga de naranjas, una muestra aleatoria de n = 10 naranjas fue pesada y extraído el jugo (véase la Tabla 6.2). El peso total de todas las naranjas, obtenido pesando primero el camión cargado y luego descargado, fue de 1800 libras. Estime T,, el contenido total de azúcar de las naranjas, y establezca un limite para el error de estimación.

El contenido de azúcar de una naranja usaalmeste es registrado en grados brix -una medida del niimero de libras de sólidos (principalmente azúcar) por 100 libras de jugo-. Para nuestros cálculos usaremos las libras por naranja. Una estimacibn de 7,

44 j

O , t

6.3 ESTIMACIONDE R A Z ~ USANDO N MUESTRE0 IRRESTRICTOALEATORIO

TABLA 6.2

4 31

Datos para el Ejempb 6.2

Naranja

P m de la

Contenido de azúcar (en libras)

wnnja (en libraa)

puede ser obtenida usando la Ecuación (6.5): 10

i=1

?, = r7, = 7 (7,) S-

4.35

(1800) = 101.79 iibras

xi i51

Un límite para el error de estimación puede ser encontrado si usamos una versi6n modificada de la Ecuación (6.7). Debid@a que en este ejemplo N es desconocida, suponemw que la corrección por poblacibn finita (N - n ) / N , es casi la unidad. Esta suposici6n es razonable porque esperamos al menos N = 4000 naranjas en una carga , la Ecuacibn (6.7); pequeña. La media muestra1 2 debe ser usada en lugar de ~ cen puesto que p, es desconocida. Con estos ajustes la Ecuación (6.7) se transforma en

Use la Ecuación (6.4). para facilitar el cálculo:

donde

132

6 ESTlMACl6N DE RAZ6N. REGRESION Y DIFERENCIA

De los datos,

Sustituyendo en la Ecuación (6.4) da

Luego el lfmite para el error de estimación es

En resumen, la estimación de razón del contenido total de azúcar de la carga de naranjas es = 101.79,libras, con un límite para el error de estimación de 6.3. Estamos confíados en que el contenido total de azúcar T, cae dentro del intervalo

esto es, el intervalo de 95.49 a 108.09 libras. Usted recordara que el tamaño de la población N con frecuencia es desconocido. Consecuentemente, el investigador debe decidir en qué condiciones el uso del estimador de razón = r ~ es , mejor que el uso del estimador correspondiente donde ambos estimadores estan basados en un muestreo irrestricto aleatorio (vtase Sección 6.5). En general, rr, posee una varianza más pequeña que NF cuando existe una fuerte correlación positiva entre x y y (donde.p, el coeficiente de correlación entre x y y , es mayor que Intuitivamente, esta aseveración tiene sentido porque en estimac i h de razón se utiliza la información adicional proporcionada por la variable auxiliar x. Si un investigador esta interesado en una media poblacional más que en un total poblacional, el correspondiente procedimiento de estimación de raz6n se muestra en las Ecuaciones (6.8), (6.9) y (6.10).

.w,

4).

6.3 ESTIMACI~N DE RMÓN USANDO MUESTRE0 IRRESTRICTO ALEATORIO

133

Estimador de razón de una media poblacional py:

Varianza estimada de

fi,: n

Límite para el error de estimación:

Nótese que no necesitamos conocer 7, o N para estimar p, cuando se usa el procedimiento de razón; sin embargo, debemos conocer px.

Una compaííía desea estimar la cantidad promedio de dinero p, pagado a los empleados por gastos médicos durante los primeros tres meses del aíío en curso. Los reportes del promedio por trimestres están disponibles en los informes fiscales del aiío anterior. Una muestra aleatoria de 100 registros de empleados se seleccionó de una poblaci6n de 1000 empleados. Los resultados de la muestra se resumen a continuaci6n. Use los datos para estimar p, y establezca un límite para el error de estimaci6n.

Total para el trimestre actual:

Total para el trimestre correspondiente del año anterior:

Total poblacional

7, para

el trimestre correspondiente del año anterior 7, = 12,500

134

6 ESTIMACI@J DE RAZ6N. REGRESIÓN Y DIFERENCIA

El estimador de p, es

donde

Entonces

El límite para el error de estimación puede ser encontrado usando la Ecuación (6.10); sin embargo, debemos calcular primero

Al sustituir en la E~uación(6.10) se obtiene el llmite para el error de estimación:

Por lo tanto estimamos que la cantidad promedio de dinero pagado a bs empleados por gastas medicm es $18.28. Estamos muy confiados en que el error para estimar py es menor que $0.42.

Al recordar las f6akulas para la estimación de razón de una media, un total o una razón poblacionales, hacemos las siguientes asociaciones. La razón muestra1r está dada por la fórmuia

6.4 SELECCI~N DEL TAMAÑO DE LA MUESTRA

435

Luego los estimadores de R, T,, y p, son

Por lo tanto solamente necesitamos conocer la fórmula para r y su relación con k, y ?., Las varianzas aproximadas pueden ser obtenidas si usted recuerda la fámula básica,

Así

$($,) = r:fi(r) = .:fi<r>

Previamente establecimos que la cantidad de información contenida en la muestra depende de la variación en los datos (la cual frecuentemente es controlada por el diseño de la encuesta por muestreo) y el número de observaciones n incluidas en la muestra. Una vez que el procedimiento (diseño) de muestreo ha sido seleccionado, el investigador debe determinar el nfimero de elementos que serán seleccionados. Consideraremos el tamaño de muestra requerido para estimar un parámetro de la población R. p,, o T, dentro de B unidades por muestreo irrestricto aleatorio usando estimadores de razón. Nótese que el procedimiento para seleccionar el tamaño de la muestra n es identic0 al presentado en la Seccián 4.4. El número de observaciones requeridas para estimar R, una razón poblacional, con un iímite para el error de estimación de magnitud B, esta determinado estableciendo dos desviaciones estándar del estimador de razón r igual a B y despejando n de esta expresión. Esto es, debemos resolver

para n. Aunque no hemos revisado la forma de V(r), usted recordará que V(r), la varianza estimada de r , está dada por la fórmula

Podemos reescribir la Ecuación (6.19) como

136

6 ESTlMAClON DE RAZON, REGRESION Y DIFERENCIA

En este caso definimos

Una varianza pob1acional aproximada, V(r),puede ser obtenida de V(r) reemplazando s2con la varianza poblacional correspondiente u2.Por lo tanto el ntimero de observaciones requeridas para estimar R, con un límite B para el error de estimación, se determina despejando n de la siguiente ecuación:

Tamaño requerido de muestra para estimar R, con un'límite para el error de estimación B:

donde En una situación práctica nos enfrentamos con el problema para determinar el tamaño de muestra apropiado porque no conocemos U'. Si no se dispone de información anterior para calcular s 2 como e n estimador de u2,tomamos una muestra preliminar de tamaño n' y calculamos

Luego sustituimos esta cantidad por a 2 e nla Ecuaci6n (6.22), y encontramos un tamaño de muestra crptoximado. Si también pxes desconocido, puede ser reemplazado por la media muestra1 X , calculada con las n' observaciones preliminares.

Una compañfa industrial desea estimar la razón de cambio del año pasado con este año en cuanto al número de horas-hombre que se pierden debido a enfermedad. Se efectuó un estudio preliminar con n' = 10 registros de empleados, y los resultados se presentan en la tabla adjunta. Los registros de la compañía muestran que el número total de horas-hombre que se perdieron a causa de enfermedad el año anterior fue 7, = 16,300. Use los datos para determinar el tamaño de muestra requerido para estimar R, el cambio relativo para la compañía, con un límite para el error de estimación de magnitud B = 0.01. Suponga que la compañfa tiene 1000 empleados (N = 1000).

6.4 SECECClON DEL TAMmO RE LA MUESTRA Horas-hbrr Emphdo

perdidPrel a50 anterior. , X

137

Horas-hombre perdida.cn

el afĂo actuai,

Primero, calculamos una estMaci6n de u2usan& los daros del estudio prciiminar. M

donde Enseguida, con los datos dados detcrminamoo

Por lo tanto

138

6 ESTIMACIÓNDE RAZÓN, REGRESIÓN Y DIFERENCIA

El tamaño de muestra requerido ahora puede ser encontrado usando la Ecuación (6.22). Nótese que

Por lo tanto debemos seleccionar aproximadamente 344 registros de empleados para estimar R, el cambio relativo eq horas-hombre perdidas por enfermedad, con un lgmite para el error de estimación de 0.01 horas.

Asimismo podemos determinar el número de observacionesn necesarias para estimar una media poblacional p,, con un lfrnite para el error de estimación de magnitud B. El tamaño de muestra requerido se encuentra despejando n de la siguiente ecuación:

~W=B Establecido de manera diferente,

2&JV(;) = B

[de la Ecuación (6.17)]

La solución se muestra en la Ecuación (6.24). Tamaño de muestra requerido para estimar p, con un límite para el error de estimación B:

donde

Nótese que no necesitamos conocer el valor de p, para determinar n en la Ecuación (6.24); sin embargo, necesitamos una estimación de u2,de información anterior si est%disponible o de información obtenida en un estudio preliminar.

6.4

SELECCION DEL TAMAÑO DE LA MUESTRA

139

Una investigadora desea estimar el número promedio de árboles p, por acre en una plantación de N = 1000 acres. Ella planea seleccionar n parcelas de 1 acre y contar el número de árboles y en cada parcela. También tiene fotografias aéreas de la plantación, con las cuales puede estimar el número de árboles x en cada parcela para la plantación completa. En consecuencia conoce px.Por lo tanto parece apropiado usar un estimador de razón para p,. Determine el tamaño de muestra necesario para estimar py con un límite para el error de estimación de magnitud B = 1.0.

Suponiendo que no se dispone de información anterior, debemos conducir un estudio preliminar para estimar a*.Puesto que un investigador sólo puede examinar 10 parcelas de un acre en un día para determinar el número total de árboles y por parcela, resulta conveniente realizar un estudio preliminar con n' = 10 parcelas. Los resultados de tal estudio se dan en la tabla adjunta, con la estimación aérea x correspondiente. Parcela

Estimación aérea, X

Una estimación de a2está dada por

Usando la Ecuación (6.4):

Del estudio preliminar,

Número actual. y

6 ESTlMACl6N DE RAZ6N, REGRESION Y DIFERENCIA

Ahora determinemos n según la Ecuación (6.24), donde D.= B 2 / 4 = i:

En resumen, necesitamos examinar aproximadamente 17 parcelas para estimar pyrel número promedio de arboles por parcela de 1 acre, con un llrnite para el error de estimación de B = 1 .O. Solamente necesitamos agregar 7 observaciones, puesto que tenemos 10 del estudio preliminar.

El tamaño de muestra requerido para estimar 7, con un Emite para el error de estimaci6n de magnitud B, puede encontrarse resolviendo la siguiente expresión para n:

2-=B o, equivalentemente,

r,m= B

[de la Ecuación (6.16)]

Tamaño de muestra requerido para estimar T,. con un límite para el error de estimación B:

donde

6.4 SELECCI~ DEL TAMARO DE LA MLIESTRA

141

Un auditor desea comparar el valor verdadero en dólares del inventario de un hospital, T,, con el inventario registrado, T,. El inventario registrado T, puede ser obtenido de los registros almacenados en la computadora del hospital. El inventario real T, podrla determinarse examinando y contando todos los artlculos del hospital, pero este proceso serla muy costoso y emplearía mucho tiempo. Por lo tanto el auditor planea estimar T, con base en una muestra de n artlculosdiferentes seleccionadd del hospital aleatoriamente. En el inventario del hospital, los registros de computadora listan N = 2100 artlculos de diferente tipo y el número de cada artlculo en particular. Con estos datos puede obtenerse un valor total para cada artlculo, x, multiplicando el número total de cada artlculo registrado por el valor unitario de cada artlculo. El valor total de inventario obtenido, según los registros de computadora, esta dado por T,

= suma de los valores para los N

2100

= 2100 artículos =

1-1

En este caso 7, fue $950,000. Determine el tamaño de muestra (número de artículos) necesario para estimar T, con un llmite para el error de estimación de magnitud B = $500.

Debido a que no hay información previa disponible, debe realizarse un estudio preliminar para estimar u '. Dos personas pueden determinar el valor verdadero y para cada uno de 15 artículos en un día. Para este ejemplo usaremos los datos del inventario

Artículo

1 2 3 4 5 6 7 8 9 1O 11 12 13 14 15

Valor de computadora, x

Valor -1,

15.0 9.5 14.2 20.5 6.7 9.8 25.7 12.6 15.1 30.9 7.3 28.6 14.7 20.5 10.9

14.0 9.0 12.5 22.0 6.3 8.4 28.5 10.0 14.4 28.2 15.5 26.3 13.1 19.5 9.8

242.0

237.5

6 ES-1-IMACIONDE RAZÓN, REGRESIONY DIFERENCIA

de un solo día (n' = 15)como un estudio preliminar para obtener una primera estimación de u ' y, consecuentemente, una primera aproximación del tamaño requerido de muestra n. Ed realidad, el investigador probablemente efectuaría un estudio preliminar del inventario de dos o tres días para proporcionar una buena aproximación de 0' y en consecuencia de n; sin embargo, para simplificar log c6lculos, consideraremos un estudio preliminar den' = 15 artículos. Estos datos se resumen en la tabla adjunta con las correspondientes cifras de la computadora (los datos en cientos de dólares). Para determinar una estimación de u2, debemos calcJar

Usando los datos del estudio preliminar, obtenemos

Por lo tanto

Ahora el tamaño de muestra requerido puede ser encontrado usando la Ecuación 4

(6 26). Tenemos

y por lo tanto

Así el auditor debe seleccionar aproximadamente 421 artfculos para estimar, 7,. el valor real del inventario, dentro de B = $500.

6.5 C U Á N USAR ~ EST~MACI~N DE RAZON

143

6.5 CUANDO USAR ESTIMACIÓNDE RAZON El uso del estimador de razón es más efectivo cuando la relación entre la respuesta yq una variable auxiliar x es lineal a través del origen y la varianza de y es proporcional a x. El ejemplo siguiente ilustra este punto. Un distribuidor de neumáticos para automóvil desea estimar el promedio de los ingresos en efectivo para sus 1570 tiendas (N = 1570) durante un periodo particular de ventas. De una muestra irrestricta aleatoria de n = 50 tiendas, los ingresos en efectivo correspondientes yi (i = 1 , 2, . . . , 50) son observados. Un posible estimador de p,, el promedio de los ingresos en efectivo para la compañia, es f, la media muestral. Además de obtener los ingresos en efectivo y,, suponga que el distribuidor puede obtener xi ( i = 1,2, . . . ,50),el número de clientes que hacen compras en la tienda i durante el periodo de ventas. Para determinar la relación entre y y x, el distribuidor puede graficar los datos de las ventas y los clientes para las n = 50 tiendas muestreadas. Si la gráfica es similar a la presentada en la Figura 6.1, podemos suponer que los ingresos en efectivo y están linealmente relacionados con el número de clientes que compran mercanclas, x. De hecho, podríamos representar esta relación mediante una línea recta que pasa a traves de la intersección de los ejes x y y, y por lo tanto podemos decir que es lineal a través del origen. Además usted notará en la Figura 6.1 que la "dispersión" de los valores de y se ensancha a medida que se incrementa x. Por lo tanto podemos decir que la varianza de y es proporcional a x. En estas condiciones el estimador de razón de p,, la cantidad promedio de ingresos en efectivo por tienda, deberá tener una varianza más pequeña y, en consecuencia, será más preciso que F.

y = ingresos 2000 en efectivo 1500

;. .

•

O .

x = nümero de clientes

FIGURA 6.1 Gráfica de los ingresos en efectivo contra el número de clientes Alguna veces, la grhfica de y contra x no indica claramente que deba utilizarse la estimación de razón. El coeficiente de correlación p entre y y x es otro buen indicador de la efectividad del estimador de razón. Para p > i,el estimador de razón proporcionará una estimación más precisa de py O ryque la que proporcionarían y o Nf. A diferencia de los procedimientos de estimación estudiados previamente, la estimación de raz6n usualmente conduce a estimadores sesgados. Por lo tanto debemos

6 ESTlMACl6N DE RAZON, REGRESION Y DIFERENCIA

considerar la magnitud del sesgo para decidir cuál procedimiento de estimación usar. Aunque no hay fórmulas exactas para detenninar el sesgo de estos estimadores, puede demostrarse que el valor absoluto del sesgo es menor o igual al producto de la desviación estándar de la media muestra1de la variable auxiliar x y la desviación estándar del estimador de razón, todo dividido entre CL,. Esto es,

&, e,,

donde puede ser el estimador de razón r, o y 9 es el correspondiente parlmetro estimado. Si las estimaciones de UZ,~g y p* son conocidas de una experimentación anterior, podemos estimar el sesgo maximo para una situaci6n fisica dada usando la Ecuaci6n (6.27). Generalmente, para un tamaño de muestra grande (n > 30) y para S 0.10, el sesgo es despreciable. Nótese también que los estimadores de razón son insesgados cuando la relación entre y y x es lineal a través del origen. Finalmente, debemos considerar el costo de obtenci6n de información sobre la variable auxiliar x. Si la situación fisica sugiere el uso de la estimación de razón, el experimentador debe decidir si el incremento en la precisión del estimador de razón justifica el costo adicional.

ALEATORIO ESTRATIFICADO Por las mismas razones indicadas en el Capltulo 5, la estratificación de la población antes de usar un estimador de razón, algunas veces es ventajosa. Supondremos que podemos tomar una muestra suficientemente grande de las x y las y en cada estrato ppra que las aproximaciones de varianza sean apropiadas. Hay dos métodos diferentes para construir estimadores de razón en muestre0 estratificado. Uno es estimar la razón de p, con CL, dentro de cada estrato y luego formar el promedio ponderado de estas estimaciones separadas como una sola estimación de la razón poblacional. El resultado de este procedimiento se denomina un estimador de razón separado. El otro método implica estimar primero p, con la usual y,, y en la misma forma estimar p, con X,,. Luego f,,/X,, puede usarse como un estimador de p y / p xA. este estimador se le llama estimador de raxón combinado. No introduciremos una notación general (ydiflcil de manejar) para estos estimadores pero ilustraremos su uso aon un ejemplo numérico. La derivación en el Apéndice muestra que la varianza de una suma de variables aleatorias es la suma de las varianzas, si las variables son independientes. Este hecho nos permitirá usar una suma de terminos similares a aquellos de la Ecuación (6.9) para la varianza del estimador de razón separado o del combinado. Los dos ejemplos siguientes ilustran el uso de las técnicas.

6.6 ESTlMACl6N DE RAZ6N EN MUESTRE0 ALEATORIO ESTRATlFlCADO

145

Remítase al Ejemplo 6.4. Trate las 10 observaciones dadas ahí sobre horas-hombre perdidas debido a enfermedad como una muestra irrestricta aleatoria de la compañfa A. As1 n,= 10, FAr 18.7, Z A = 17.8, r,= 1.05, N,= 1000 y T X A s 16,300. Una muestra irrestricta aleatoria de n, = 10 mediciones fue tomada de la compañfa B dentro de la misma industria. (Suponga que las compañías A y B juntas forman la poblaci6n de trabajadores de interés en este problema.) Los datos se presentan en la tabla anexa. Se sabe que NB= 1500 empleados y rXB = 12,800. Encuentre el estimador de razón separado de p, y su varianza estimada.

El estimador de razón de p,, es ( f A / z d ( p x d[véase la Ecuaci6n ( 6 4 1 , y su varianza estimada esta dada por la Ecuación (6.9). El estimador carrespondiente de pya es (fB/XB)(pxB), con una varianza estimada similar. Para obtener un estimador de p,, la media poblacional de las y, necesitamos promediar los estimadores eligiendo pesos proporcionales al tamaño de los estratos, como en el Capítulo 5. Así i,,,dado por

será el estimador de p,, con varianza estimada

El valor observado de

según los datos, es

Dado que ya tenemos "A

(y, -

= 31.26

i=1

y por cálculos similares para la compañía B, "Ei i=1

(y, - rBxi12= 87.45

6 E S T I M A C I ~ NDE R A 2 6 N . REGRESIÓN Y DIFERENCIA

Hormhombre

Horas-hombre perdidas en el a60 actual, y,

perdidas en

Empkado

el a60 anterior,

p .

podemos sustituir en

6(fiyas) para obtener

Remftase a los datos del Ejemplo 6.7 y encuentre una estimaci6n de razdn combinada para Py. AquS usamos

Y,,

para estimar p,,

X, para estirnar px,y

como el estimador de razón combinado de p,. Si denotamos (?,/X,J porSrc,la varianza estimada de es

GyRC

. Para los datos dados

Por lo tanto el valor observado de, @ ,

También,

y sustituir en

c(fiyac), tenemos

Al comparar los Ejemplos 6.7 y 6.8, vemos que el estimador de razón combinado da la varianza estimada mayor. Este resultado generalmente es así, y por lo tanto deberíamos emplear el estimador de razón separado en la mayoría de los casos. Sin embargo, el estimador de razón separado puede tener un sesgo más grande, puesto que el estimador de razón de cada estrato contribuye al sesgo. En resumen, si los tamaños de muestra de los estratos son suficientemente grandes (por ejemplo 20 aproximaciones) de modo que las razones separadas no tengan sesgos grandes y para que las aproximaciones de varianza resulten adecuadas, entonces utilice el estimador de razón separado. Si los tamaños de muestra de los estratos son muy pequeños, o si las razones dentro de los estratos son aproximadamente iguales, entonces el estimador de razón combinado puede funcionar mejor. Por supuesto que un estimador del total poblacional puede determinarse multiplicando cualquiera de los estimadores anteriores por el tamaño de la población N, y por consiguiente las varianzas pueden ser ajustadas. As1 podemos usar la notaci6n

Vimos en la Sección 6.5 que el estimador de razón es mas apropiado cuando la relación entre y y x es lineal a traves del origen. Si existe una relación lineal entre las y y las x observadas, pero no necesariamente una que pase a través del origen, la información extra proporcionada por la variable auxiliar x puede ser tomada en cuenta mediante un estimador de regresión de la media p,. También debe conocerse p, antes de que el estimador pueda ser empleado, como fue en el caso de la estimación de razón para

CLr

La línea fundamental que muestra la relación básica entre las y y las x algunas veces es referida como la línea de regresión de ylsobre x . Por lo tanto, en las fórmulas siguientes el subindice L se usa para denotar regresión lineal.

6 ESTIMACI~N DE RAZÓN, REGRESIÓNY DIFERENCIA

El estimador dado a continuación supone que las x son fijadas de antemano y que las y son yariables aleatorias. Podemos considerar que el valor de x es algo que ya ha sido observado, semejante a los ingresos en el primer trimestre del año pasado, y la respuesta y-,comouna variable aleatona que será observada, tal como los.ingresos trimestrales actuales de una compañía, para la cual ya se conoce x. Las propiedades probabilfsticas del estimador entonces dependen solamente de y para un conjunto dado de las x. Estimador de regresión de una media poblacional p,:

donde

Varianza estimada de fi,,:

Límite para el error de estimación:

Cuando se calcula b, usando los pares observados ( y ~x,l ) , . . . , ( y n ,xn), podemos aplicar el hecho de que

Se hizo un examen,de conocimientos matemáticos a 486 estudiantes, antes de su ingreso a cierto colegio. De estos estudiantes. una muestra irrestricta aleatoria de n = 10 estudiantes fue seleccionada y se observaron sus progresos en cálculo. Después las calificaciones finales en cálculo fueron anotadas, como se indica en la tabla adjunta. Se sabe que p, = 52 para los 486 estudiantes que presentaron el examen. Estime py para esta población, y establezca un límite para el error de estimación.

I 41

Estudiante

Puntaje es el anmcn de conocimiestos, x

Los cálculos resultan

Calificación final en cálculo, y

y = 76, X = 46,

Entonces el valor observado de

&,L

y + b(px- 2)= 76 + (0.766)(52 - 46) = 80 También, i=l

i=1

y el límite para el error de estipación es

Nótese que el estimador de regresión de ~ lsobreestima , el valor de f puesto que

X resulta ser menor que pxy b es positivo. Un examen detallado de los datos dados en el Ejemplo 6.2 sobre el contenido de azúcar y peso de las naranjas podría sugenir que un estimador de regresión es más apropiado que un estimador de raz6n.(Una gráfica de los puntos mostraría que la lfnea de regresión no pasa por d origtn.)Sin embargo, el tstimaidor de rcgresi6n de un

6 ESTIMACIÓN DE RAZÓN, REGRESIÓN Y DIFERENCIA

total es de la forma N&, requiriendo específicamente el conocimiento de N. Dado que el estimador de razón también funciona bien en este caso, determinar el número de naranjas en la carga puede no ameritar el tiempo y el costo extras. En otros casos N puede ser conocida o fácilmente encontrada. Por lo tanto uno debe considerar cuidadosamente la elección entre los estimadores de razón y de regresión cuando se estiman medias o totales poblacionales.

6.8 ESTIMACIONDE DIFERENCIA El método de diferencia para estimar una media o un total poblacionales es similar al de regresión en que ajusta el valor de hacia arriba o hacia abajo en una cantidad que depende de la diferencia (p, - 2). Sin embargo, no se calcula el coeficiente de regresión 6.De hecho se fija igual a la unidad. El método de diferencia es, entonces, más fácil de aplicar que el de regresión y con frecuencia funciona igual de bien. Comúnmente se emplea en procedimientos de auditoría; consideraremos tal ejemplo en esta sección. Las fórmulas siguientes son válidas siempre que se utilice el muestre0 irrestricto aleatorio.

Estimador de diferencia de una media poblacional p,:

donde Varianza estimada de

donde

f i -y=~ Y + (p, - 2) = p, + d d = -Y - 2

fi,,:

di= y, - xi

Límite para el error de estimación: 1

Los auditores frecuentemente están interesados en comparar el valor intervenido de los artículos con el valor asentado en el libro. Generalmente, los valores en el libro son conocidos para cada articulo en la población, y los valores intervenidos son obtenidos con una muestra de esos artículos. Los valores en el libro entonces pueden utilizarse

6.8 ESTIMACIÓNDE DIFERENCIA

154

para obtener una buena estimación del valor intervenido total o promedio para la poblaci6n. Supóngase que una población contiene 180 artículos inventariados con un valor establecido en el libro de $13,320. Denote por xi el valor en el libro y por yi d valor intervenido del i-ésimo artículo. Una muestra irrestricta aleatona de n = 10 artículos produce los resultados que se muestran en la tabla adjunta. Estime el valor intervenido medio de p, mediante el método de diferencia y estime la varianza de E,,,.

Muestra

Valor intervenido, yi

Valor en el libro. xi

SOLUCION Puesto que

y = 72.1, X = 71.7 y = px

p, = 74.0,

+ d= 7 4 . 0 + (72.1 - 71.7) = 74.4

también,

Por lo tanto

El tipo de problemas qde están diseñados para resolverse con estimadores de diferencia también pueden ser resueltos con los estimadores de regresión o de razón. Primero compararemos los cálculos para los tres estimadores, y luego hablaremos acerca de cómo seleccionar uno u otro para ciertas situaciones. '

Remítase al problema del Ejemplo 6.10. Estime p, usando un estimador de regresión

y un estimador de razón. En cada caso calcule una estimación de la vanama.

152

6 ESTIMACION DE R A Z ~ NREGRESI~N Y DIFERENCIA

Empezando con el estimador de regresión, tenemos

i=1

Por lo tanto

GyL= Y + b(px - 2 ) = 72.1 + 0.99(74.0 - 71.7) = 74.38 Usando la Ecuación (6.29) y haciendo los cálculos se tiene

Para el estimador de razón de p,, la Ecuación (6.8) da

Siguiendo la Ecuación (6.9), fi(by)= 0.66

Nótese que las tres estimaciones de py son aproximadamente iguales, pero en este caso el estimador de diferencia tiene 1a.varianza estimada más pequeña, y el estimador de regresión con mucho tiene la varianza estimada mas grande. {Cómo seleccionarla usted el mejor estimador para una situación dada? El estimador de diferencia trabaja bien cuando la gráfica de y contra x muestra que los puntos caen a lo largo de una lfnea recta con pendiente igual a la unidad. Verificando

FIGURA 6.2 Gráfica de y contra x para el Ejemplo 6.10

6 9 RESUMEN

153

la gráfica para los datos del Ejemplo 6.10 (véase la Figura 6.2) muestra que realmente los datos caen cerca de una línea recta con una pendiente igual a la unidad. Por lo tanto para este caso el estimador de diferencia es el mejor de los tres. Ya hemos visto en la Sección 6.5 que el estimador de razón es muy útil para los casos en donde la dispersión de los puntos resulta más grande a medida que los valores de x y y se incrementan. (Véase la Figura 6.1.) En términos del ejemplo de auditoría, el método de razón será preferible si las diferencias entre los valores intervenidos y los del libro son proporcionales a los valores asentados en el libro. ¿Quese puede decir acerca del estimador de regresión?Si la gráfica de y contra x cae a lo largo de una línea recta con pendiente muy diferente a la unidad, entonces el estimador de regresión puede producir ganancias sustanciales. Para exagerar la cuestión en un ejemplo muy simplificado, supóngase que el valor de y siempre es dos veces el valor de x, como en los cinco puntos siguientes:

Entonces el estimador de regresión producirá ~ ( f i=,O ~[de acuerdo con la Ecuación (6.29) con b = 21. El estimador de diferencia, en contraste, tendrá una varianza estimada basada en

y verdaderamente mucho mayor que cero. Por supuesto, una varianza estimada de cero casi nunca ocurrirá en la práctica; pero si la gráfica de y contra x es lineal con una pendiente diferente de la unidad. calcular la es'timación de regresión y su varianza puede valer el esfuerzo adicional. En este aspecto hay que tener cuidado, así como en otras situaciones donde puede utilizarse más de un mttodo de estimación. El método a utilizarse debe ser seleccionado sobre la base de las consideraciones teóricas del problema y quizás en algún muestreo preliminar. El experimentador no debe recolectar los datos y después buscar un estimador que dé una varianza pequeña.

Este capitulo ha presentado brevemente la estimación de razón de una media, de un total y de una razón poblacionales mediante muestreo irrestricto aleatorio. Midiendo una variable y y una variable auxiliar x para cada elemento en la muestra, obtenemos

6 ESTlMAClÓN DE R A Z ~ NREGRESIÓN , Y DIFERENCIA

información adicional para estimar el parámetro de la población de interés. Cuando existe una fuerte correlacián positiva entre las variables x y y, el precedimiento de estimación de razón usualmente proporciona estimadores más precisos de p, y 7, que aquellos obtenidos con las técnicas clásicas presentadas en el Capítulo 4. Los tamaños de muestra requeridos para estimar p,, T~ y R fueron presentados con un lfmite para el error de estimación igual a B. En cada caso uno debe obtener una estimación de (r2 con base en la información anterior o de un estudio preliminar para tener una aproximación del tamaño de muestra requerido. La estimación de regresión es otra técnica para incorporar información sobre una variable auxiliar. Este método generalmente será mejor que la estimación de rae6n si la relación entre las y y las x es una lfnea recta que no pasa por el origen. Aunque estos metodos pueden emplearse con cualquier diseño de muestreo, nos hemos concentrado en el muestreo irrestricto aleatorio, mencionando el muestreo aleatorio estratificado para el caso de razón. El método de estimación de diferencia es similar en principio a la estimación de regresión. Funciona bien cuando la gráfica de y contra x muestra que los puntos caen uniformemente cerca de una línea recta con pendiente igual a la unidad.

ANALISISDEL ESTUDIO DE CASO L A ESTIMACIONDEL ERROR DEL INVENTARIO Un auditor puede usar el método de estimación de razón para obtener una estimación de la cantidad totai intervenida, la cual puede utilizarse para estimar el error total del inventario, como se planeó al principio de este capítulo. Una empresa electrónica reporta que el monto de su inventario de N = 100 terminales de computadora es de S150,OOO. Un auditor decide estimar el error total en este artículo muestreando cinco terminales y determinando su valor real. Los datos de la muestra y los cálculos pertinentes son como sigue [en unidades de S I ~ O O O ] :

en el Ilbro, xi

Cantidad

Cantidad intervenida, y,

1.3 1.2 1.5 1.7 1.3 7.0

1.1 1.3 1.4 1.5 1.o 6.3

rxi

y] - rx,

(yi - rxJ2

1.17 1.O8 1.35 1.53 1.17

-0.07 0.22 0.05 -0.03 -0.17

0.0049 0.0484 0.0025 0.0009 0.0289 0.0856

EJERCICIOS

155

La estimación de T,, la cantidad torcrl intervenida, es

[en unidades de SIOOO], y el límite para el error es

Por lo tarfto estimamos que la cantidad total intervenida está entre 135 - 14 = 121 y 135 + 14 = 149 El error total, T, = rX - T,, entonces se estima que está entre Nótese que es bastante probable que el error total sea positivo.

6.1

Un guardabosques está interesadoen estimar el volumen total de árboles en una venta de madera. Registra el volumen de cada árbol en una muestra irrestricta aleatoria. Además mide el área basal de cada árbol marcado para venta. Luego usa un estimador de razón del volumen total. El guardabosques decide tomar una muestra irrestncta aleatoria de n = 12 de los N = 250 árboles marcados para venta. Denótese por x el área basal y poriyel volumen en pies cúbicos para un árbol. El área basal total para los 250 árboles, T,, es de 75 pies cuadrados. Use los datos de la tabla adjunta para estimar r,,, el volumen total en pies cúbicos de los árboles marcados para venta, y establezca un límite para el error de estimación. Árbol muatreado

6.2

Pia cúbicos Prea b l , x

Volumen,

Use los datos de y en el Ejercicio 6.1 para calcular una estimación de r,, usand; ~ jEstablezca . un límite para el error de estimación. Compare sus resultados con aquellos obtenidos en el Ejercicio 6.1. {Por que la estimaci6n N?,la cual no usa los datos del área basal, es mucho mayor que

6 ESTIMACIÓN DE RAZÓN,REGRESIÓN Y DIFERENCIA

6.3

6.4

la estimacibn de razón? (Observe A y 2.{Puede especularse acerca de la causa de esta discrepancia?) Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos con el ingreso por año, para las familias de una pequeña comunidad. Una muestra irrestricta aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se presentan en la tabla adjunta. Estime R, la razón poblacional, y establezca un ltrnite para el error de estimación.

Familia

I q ~ e 8 ototnl, X

Cantidad gnsrndi en alimentos, y

1 2 3 4 5 6 7 8 9 10 11 12 13 14

25,100 32,200 29,600 35,000 34,400 26,500 28,700 28,200 34,600 32,700 31,500 30,600 27,700 28,500

3800 5100 4200 6200 5800 4100 3900 3600 3800 4100 4500 5100 4200 4000

Una corporación esta interesada en estimar el total de ganancias por las ventas de televisiones de color al final de un periodo de tres meses. Se tienen las cifras del total de ganancias de todos los distritos dentro de la corporación para el periodo de tres meses correspondientedel año anterior. Una muestra irrestricta aleatoria de 13 oficinas de distrito es seleccionada de las 123 oficinas de la corporación. Usando un estimador de raz6n. estime T? y establezca un límite para el error de estimación. Use los datos de la tabla adjunta, y tome T, = 128,200.

Oficina

Datosdeue~ meses del año anterior, X,

Dato. de t r a meses

del a50 actual,

EJERCICIOS

6.5 6.6

Use los datos del Ejercicio 6.4 para estimar las ganancias medias para las oficinas de la corporación. Establezca un límite para el error de estimación. Un investigador tiene una colonia de N = 763 ratas que han sido sometidas a un fármaco tipo. El tiempo promedio para atravesar correctamente un laberinto bajo la influencia del fármaco tipo fue de p, = 17.2 segundos. Al investigador ahota le gustaría someter a un nuevo fármaco a una muestra aleatoria de 11 ratas. Estime el tiempo promedio requerido para atravesar el laberinto bajo la influencia del nuwo fármaco. (Veanse los datos en la tabla adjunta). Establezca un lfmite para el error de estimación. (Sugmench: El. empleo de un estimador de raz6n para p, será conveniente si suponemos que las ratas reaccionarán al nuevo fármaco de la misma manera que lo hicieron con el fánnaco tipo.) Rata

6.7

Fármaco tipo, x ,

Nuevo fsrmaw, yi

Un grupo de 100 conejos se utiliza en un estudio de nutrición. En un estudio previo se registró el peso de cada conejo. El promedio de estos pesos es 3.1 libras. Después de dos meses el experimentador quiere obtener una aproximación del peso promedio de los conejos. Selecciona entonces al azar n = 10 conejos y los pesa. Los pesos originales y los actuales se presentan en la tabla adjunta. Estime el peso promedio actual, y establezca un límite para el error de estimación. --

6.8

157

Conejo

Pem origind

Pero actud

1 2 3 4 5 6 7 8 9 10

3.2 3.0 2.9 2.8 2.8 3.1 3.0 3.2 2.9 2.8

4.1 4.0 4.1 3.9 3.7 4.1 4.2 4.1 3.9 3.8

Un trabajador sacia1 quiere estimar la razón del número de cuartos por apartamento con el ntimero promedio de personas por apartamento en un determinado barrio de cierta área urbana. El trabajador social selecciona una muestra irrestricta aleatoria de 25 apartamentos de los 275 del barrio. Sea xi el número de personas en el apartamento i, y sea y, el número de cuartos en el apartamento i. En el cómputo del número de cuartos y el número de habitantes en cada apartamento se obtuvieron los datos siguientes:

6 ESTIMACIÓNDE RAZÓN, REGRESIÓNY DIFERENCIA

6.9

Estime la razón del número promedio de cuartos con el número promedio de personas en esta área, y establezca un líúnite para el error de estimación. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una fuerte infestación en un área de 300 acres. Usando una fotografia aérea, el director divide el área en 200 parcelas de uno y medio acres. Sean n la cantidad de abetos muertos, calculada con base en la fotografia, y y la cantidad real en el temeno para una muestra imstricta aleatoria de n = 10 parcelas. El número total de abetos muertos, obtenido según la cantidad en fotografia, es T, = 4200.Use los datos de la muestra de la tabla adjunta para estimar T,., el número total de abetos muertos en el área de 300 acres. Establezca un límite para el error de estimación. Parcela muesveada

6.10

Cantidad en fotografía, X i

Cantidad en el terreno,

Los miembros de una asociación de maestros eetán interesados en los incrementos salariales otorgados a los maestros de escuela secundaria en un sistema acolar particular. Una muestra irrestricta aleatoria de n = 15 maestros es seleccionada de una lista en orden alfabético de todos los maestros de escuela secundaria en el sistema. Los 15 maestros son entrevistados para determinar sus salarios en este año y los del año pasado (véase la tabla adjunta). Use estos datos para estimar R, el cambio relativo, para los N = 750 maestros de escuela secundaria en el sistema escolar de la comunidad. Establezca un límite para el error de estimación. Maestro

Salario del afio pasado

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

15,400 16,700 17,792 19,956 16,355 15,108 17,891 15,216 15,416 15,397 18,152 16,436 19,192 17,006 17,311

Saiario del p-te

16,500 17,600 18,920 21,400 17,020 16,308 19,100 16,320 16,420 16,600 19,560 17,750 20,800 18,300 18,920

aüo

6.1 1

Un experimentador estaba investigando un nuevo complemento nutritivo para el ganado. A mediados del estudio de dos meses, el experimentador se interesó en estimar el peso promedio para el ~ebañocompleto, compuesto de N = 500 novillos. Una muestra irrestricta aleatoea de n = 12 novillos fue seleccionada del rebaño y se pesó. LQSdatos para el ganado muestreado y los pesos correspondientes obtenidos en un estudio previo se presentan en la tabla adjunta. Suponga que px,el promedio para el estudio previo, fue de 880 libras. Estime p,, el peso promedio para el tabaño, y establezca un límite para el error de estimación.

Novillo

6.12

Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra irrestricta aleatoria de n = 20 tiendas es seleccionada de N = 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Use estos datos (véase la tabla anexa) para estimar T,, el total de ventas para le periodo actual, y establezca un límite para el error de estimación. Supóngase que T, = 216,256.

Tienda

1 2 3 4 5 6 7 8 9 10

1 á-

Ventas antes de la campaiía

208 400 440 259 351 880 273 487 183 863

Ventas actualea

Tienda

Ventas antes de la campafla

Ventas actual&

239 428 472 276 363 942 294 514 195 897

11 12 13 14 15 16 17 18 19 20

599 510 828 473 924 110 829 257 388 244

626 538 888 510 998 171 889 265 419 257

6.13

Use los datos del Ejercicio 6.12 para determinar el tamaño requerido de muestra para estimar T,, con un límite para el error de estimación igual a $ 3,800.

6.14

Con base en los Ejercicios 6.4 y 6.5, usando un estimador de regresión, estime las ganancias promedio p establezca un límite para el error de estimación. Compare su respuesta con aquella Y * .y del Ejercicio 6.5. ¿Existe a.iguna ventaja para utilizar aquí el estimador de regresión?

Peso actual (en libras)

Peso en el estudio previo (en librad

6 ESTIMACION DE RAZON. REGRESIÓN Y DIFERENCIA Muestre cómo se ajustan las Ecuaciones (6.28) y (6.29) para estimar un total T, en lugar de una media py. Remftase al Ejkrcicio 6.9. Estime T, usando un estimador de regresión, y establezca un límite para el error de estimación. ¿Creeusted que para este problema el estimador de regresión es mejor que el estimador de razón? Los comerciantes de futuros mercados están interesados en los precios relativos a ciertas mercancías más que en los iiiveles del precio específico. Estos precios relativos pueden presentatse en términos de una razón. Una muy importante en agricultura es la razón redcerdo. De 64 días de comercio en el primer trimestre de 1977, los precios de res y de cerdo fueron obtenidos al seleccionar 18 días, con los resultados que se muestran en la tabla adjunta. Estime el valor verdadero ( p y / p xpara ) este periodo, y establezca un límite para el error de estimación. Res.

42.40 41.40 39.60 39.45 37.00 37.80 38.55 38.60 38.80

Cerdo, xi

47.80 48.60 48.20 46.75 46.50 45.40 47.30 48.20 49.40

Res,

39.65 38.45 37.80 37.20 37.60 37..50 36.90 37.30 38.60

Cerdo, xi

49.40 44.30 43.90 42.70 43.25 44.55 45.10 45.00 45.25

¿Enqué condiciones debe eihplearse un estimador de razón para 7, en lugar de un estimador de la forma N i ? Analice los méritos relativos a las estimaciones de razón, regresion y diferencia. El número de personas por debajo del nivel de pobreza (en miles) para todas las razas y para los negros solamente se presenta en la tabla adjunta para una muestra aleatoria de n = 6 estados. Estime la razón del número de negros por debajo del nivel de pobreza con el ntímero de blancos por debajo del nivel de pobreza para todos los estados combinados. Establezca un b i t e para el error de estimación. Estado

Arkansas Georgia Illinois Massachusetts New Jersey Oklahoma

Todas las razas

Negmm

417 869 1284 547 699 391

149 472 545 57 407 59

Fuente: U. S. Bureau of the Census, Statistical Abstmct of the United State: 1982-1983 (103d edition).

Washington, D.C., 1984. Data on page 424.

Una auditoría tradicional expresa las ventas al menudeo como la apertura del inventario más las compras almacenadas menos el cierre del inventario. Por lo tanto tal auditoría considerara estos tres conceptos para reportar las ventas totales durante cierto periodo (por ejemplo, seis meses) de una tienda de ventas al menudeo. Tales datos combinados con los de varias tiendas y recolectados para diversas marcas competitivas permiten estimar la6 participaciones en el mercado (porcentaje del mercado total correspondiente a una marca).

EJERCICIOS

161

Los método más rápidos para estimar las participaciones en el mercado son los métodos de auditorfa por ventas de fin de semana y por compras almacenadas. El primero elimina las compras almacenadas, puesto que las compras son mínimas en un fin de semana, pero usa un tiempo más corto y está sujeto a la distorsión por las ofertas de fin de semana. El segundo solamente usa la información de compra para calcular la participación en el mercado y no involucra revisión de inventanos. Datos sobre las participaciones en el mercado, calculados por los tres metodos, tradicional (T), fin de semana (W), y compras (P), se presentan en latabla adjunta para una marca de cerveza. Las observaciones fueron tomadas en seis diferentes periodos de tiempo dentro de un año.

6.22

(a) Estime la razón del promedio de participación en el mercado calculado por el método de fin de semana con el calculado por el método tradicional. Establezca un límite para el error de estimación. (b) Estime la razón del promedio de participación en el mercado calculado por el método de compras con aquel calculado por el método tradicional. Establezca un límite para el error de estimación. (c) $u51 de los métodos menos costosos (W o P) se compara más favorablementecon el método tradicional? De acuerdo con los datos que se presentan en la tabla adjunta sobre los gastos de seis áreas diferentes del campo de atención de la salud en Estados Unidos, estime la razón de los gastos para la atención de la salud en 1982 con aquellos para 1981, y establezca un límite para el error de estimaci6n. ¿Cuáles son los defectos de esta estimación de la razón verdadera de los gastos para la atención de la salud en Estados Unidos?

Área

Atención hospitalaria Servicios médicos Servicios dentales Atención en sanatorios particulares Medicamentos Óptica y aparatos

1981

1982

118.0 54.8 17.3 24.2 21.3 5.7

135.5 61.8 19.5 27.3 22.4 5.7

Fuente: The World Almanac 8) Book of Facts, 1984 edition, copyright ONewspaper Enterprise Association, Inc.. 1983, New York, NY 10166.

6.23

El ingreso nacional para 1981 será estimado con base en una muestra de n = 10 industrias que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 industrias que se utilizan para determinar el ingreso nacional total.) Se dispone de los datos del ingreso de 1980 para las 45 industrias y los totales son 2 174.2 (en miles de millones). Los datos se presentan en la tabla adjunta.

6 ESTIMACIÓNDE RAZON,REGRESIÓN Y DIFERENCIA Industria

1980

1981

13.6 37.7 15.2 48.4 19.6 33.5 44.4 198.3 99.2 15.4

14.5 42.7 15.1 53.6 25.4 35.9 48.5 221.2 114.0 17.0

Productos he fábricas textiles Productos químicos y relacionados Madera aserrada y leña Equipo eléctrico y electrónico Vehiculos automotores y equipo Transporte y almacenaje Banca Bienes raíces Servicios de salud Servicios de educación

Fuente: U. S. Bureau of the Census, Statistical Abstmct of the United States: 1982-83 (109d edition). Washington, D.C., 1984. Data on page 444.

6.24

6.25

(a) Encuentre un estimador de razón del ingreso total de 1981, y establezca un límite para el error de estimación. ,(b) Encuentre un estimador de regresión del ingreso total de 1981, y establezca un límite para el ertor de estimación. (c) Encuentre un estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación. (d) ¿Cuál de los tres métodos, (a), (b) o (c), es el más apropiado en este caso? {Por qué? El gerente de ventas de una empresa quiere medir la relación entre las ventas mensuales y los costos de publicidad mensuales. {Usted qué parametros le sugeriría estimar? ¿Por qué? ¿Quédatos debe recolectar el gerente? Una empresa industrial elabora un producto que es empaquetado, para propósitos de mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de clientes para cada marca es entrevistada para proporcionar una cantidad potencial y de ventas (en ntimero de unidades) para el próximo trimestre. La cifra de las ventas verdaderas del a 5 0 pasado, para el mismo trimestre, esta disponible para cada uno de los clientes mueareados y se denota por x. Los datos se presentan en la tabla anexa. La muestra para la marca 1 fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo trimestre del año pasado fue de 24,500 unidades. La muestra de la marca 11 viene de 180 clientes, con un total trimestral de ventas para el año pasado de 21,000 unidades. Encuentre una estimación de razón del total potencial de ventas para el próximo trimestre. Estime la vananza de su estimador. Marca 1

Marca 11

EXPERIENCIAS CON DATOS REALES

163

EXPERIENCIAS CON DATOS REALES 6.1

La Tabla 6.3 muestra la temperatura normal (T) .y la cantidad de precipitación (P) para las estaciones meteorológicasen todo Estados Unidos. Use los datos de precipitación en enero y mano para una muestra de n estaciones, y determine las estimaciones siguientes. (a) Estime la razón de la precipitación promedio de mano con la precipitación promedio en enero. (b) Estime la precipitación promedio en mano para todas las estaciones, utilizando los datos de enero y mano. Elija uno de los tres pasibles estimadores de este capitulo, y explique el motivo de su eleccion. (c) Seleccione un tamaiio de muestra apropiado, y establezca un límite para el error de estimación en (a) y (b).

TABLA 6.3

Temperatura normal y precipitación mensuales Abril Estación

Albany, N.Y. Albuquerque, N.M. Anchorage, Alaska Asheville, N.C. Atlanta, Ga. Baltimore, Md. Barrow, Alaska Birmingham, Ala. Bismarck. N.D. Boise, Idaho Boston, Mass. Buffalo, N.Y. Burlington, Vt. Caribou, Maine Charleston, S.C. Chicago, 111. Cincinnati, Ohio Cleveland, Ohio Columbus, Ohio Dalias-Ft. Worth, Tex. Denver, Col. Des Moines, Iowa Detroit, Mich. Dodge City, Kans. Duluth, Minn. Eureka, Calif. Fairbanks, Alaska Fresno, Calif. Galveston, Tex.

6 ESTlMACl6N DE RAZON,,REGRESIONY DIFERENCIA

TABLA 6.3

Continuaci贸n Febrem

Encm

Mirm

- - kri&

Gnnd Junaion, Colo. Gnnd Rapids, Mich. Hartford, Conn. Helena, Mont. Honolulu, ?Hawaii, Houston, Tex. Huron, S.D. Indianapolis, Ind. Jackson, Miss. Jacksonville, Fla. Juneau, Alaska Kansas City, Mo. Knoxville, Tenn. Lander, Wyo. Little Rock, Ark. Los Angeles, Calif. Louisville, Ky. Marquette, Mich. Memphis, Tenn. Miami, Fla. Milwaukee, Wis. Minneapolis, Minn. Mobile, Ala. Moline, 111. Nashville, Tenn. Newark, N.J. New Orleans, La. New York, N.Y. Nome. Alaska Norfolk, Va. Okla. City. Okla. Omaha. Nebr. Parkersburg, W. Va. Philadelphia, Pa. Phoenix, Ariz. Pittsburgh, Pa. Portland, Mainr Ponland. Oreg. Rovidence, R.I. Raleigh, N.C. Rapid City, S.D. Reno, Nev. Richmond, Va. '

Abril

Mayo

62 57 58 52 77 76 57 62 73 74 47 64 68 53 70 65 6.5 50 71 78 54 57 75 61 69 62 75 62 35 67 68 63 64 63 76 60 53 57 57 67 55 55 67

0.6 3.2 3.5 1.8 1.0 5.1 2.8 4.1 4.4 3.2 3.3 4.3 3.3 2.6 5.3 0.1 4.2 2.9 4.4 6.1 2.9 3.4 4.5 3.9 4.1 3.6 4.2 3.5 0.7 3.3 5.2 4.1 3.6 3.4 0.1 3.6 3.3 2.1 3.5 3.3 2.8 0.7 3.4

Contin煤a

EXPERIENCIAS CON DATOS REALES

TABLA 6.3

163

Continuación Enero

Eataci6n

~eb&

Abril

Marm

M~P

St. Louis, Mo. Salt Lake City, Utah San Antonio, Tex. San Diego, Calif. San Francisco, Calif. San Juan, P.R. Sault Ste. Marie, Mich. Savannah, Ga. Seattle, Wash. Spokane, Wash. Springfield, Mo. Syracuse, N.Y. Tampa, Fla. Trenton, N.J. Washington, D.C. Wilmington, Del. Fuente: The World Almumc & Book of Facts, 1984 edition. copFight@Newspaper Enterpnse Association, Inc.. 1983, New York, NY 10166.

6.2

6.3

6.45

En la Tabla 3 del Apéndice se presentan los datos del censo de 1980 de Estados Unidos. Usando como estratos las cuatro regiones del país, forme una estimación de razón estratificada del total poblacional de 1980, haciendo uso de los datos de 1970 para los estados y para Estados Unidas en total. Seleccione una asignación y un tamaño de muestra apropiados. Establezca un llmite para el error de estimación. Un proyecto interesante es estimar qué porcentaje del dinero gastado para esparcimiento por las estudiantes de su comunidad corresponde a un tipo específico de entretenimiento, tal como el cine. Usted puede obtener esta estimación listando una muestra irrestricta aleatoria de n estudiantes, llamándolos por teléfono (o entrevistándolos personalmente), y registrando la cantidad total gastada para esparcimiento ( x i ) así como la cantidad gastada en cine (y,). Luego estime la razón ( p r / p x )y, establezca un límite para el error de estimación. Considere el tamaño de muestra antes de iniciar el zstudio. También puede ser más Ebnveniente concentrarse en los estudiantes de una localidad, tal como un edificio de apartamentos o un grupo de casas, más que en los estudiantes sin ninguna limitación. La no respuesta siempre es un problema cuando se trata con poblaciones humanas, por lo tanto piense en las formas de minimizar este problema. La estimación de razón frecuentemente es un método conveniente para estimar las propiedades de objetos materiales que son difíciles de medir directamente. Reúna una caja de piedras u o t r a objetos de forma irregular. Se desea estimar el volumen total de las piedras. El volumen de objetos de forma irregular es algo difícil de medir, pero el volumen esta relacionado con el peso, el cual es bastante fácil de medir. Por lo tanto el volumen puede ser estimado usando la relaci6n del volumen con el peso.

166

6 ESTIMAClON ESTIMACI~N M RAZON, RAZON, REGRESION REGRESION Y DIFERENCIA

Seleccione una muestra den piedras. Mida el peso y el volumen cKcada decada piedra en la muestra. ob(Se puede usar el desplazamiento de agua como un método para medir el volumen.) Luego ob· I tenga el peso total de todas las piedras en la caja. Use estos datos para construir una estimación límite para el error de estimación. del volumen total de las piedras, con un limite

f STUDIODE CASO &MANTIENEEL FABRICANTE EL NIVEL DE CALIDAD? Los consumidores y los fabricantes están interesados en la calidad de los artículos comprados o producidos. Los consumidores quieren asegurarse que están comprando un producto que funcionará de acuerdo con las especificaciones, y el fabricante desea evidenciar que sus productos están satisfacimd6ciertas normas Tal evidencia muy frecuentemente es proporcionada por los planes de muestreo para el control de calidad dentro del proceso de fabricación. Estos planes de muestreo frecuentemente involucran la selección de artículos para la inspección de una línea de producción en continuo movimiento. El proceso de selección puede requerir el muestreo de cada centésimoartículo fabricado, un artículo cada hora, o algún plan sistemático similar. La característica de calidad observada para cada artículo puede ser una medida, tal como el peso o el tiempo de duración, o simplemente una clasificiaciónen las categorías de "aprobado" y "no aprobado" Luego se compara el valor promedio de la característica observada con un valor que sirve de patrón para verificar si se matiene la calidad. En la fabricación de cierto equipo hidráulico, un componente importante es una pieza de bronce La característica de calidad principal de la pieza es el porcentaje de cobre que contiene En el proceso de fabricación se selecciona una pieza despues de cada media hora de producción, y el dato en porcentaje de cobre se acumula durante 8 horas de un día. Por lo tanto se obtienen 16 mediciones. Para la producción de un día los porcentajesde cobre promediaron 87, con una varianza de 18. La norma para el bronce fue de 90% de cobre ¿Secumple con la norma?Las técnicaspresentadasen este capítulo nos ayudarán a responder esta pregunta.

Como hemos visto en los Capítulos 4 y 5, el muestreo irrestricto aleatorio y el muestreo aleatorio estratificado requieren un trabajo muy detallado en el proceso de selección de la muestra. Las unidades de muestreo en un marco adecuado deben ser numeradas (o identificadas de otra manera) de modo que un mecanismo de aleatorización, tal como una tabla de números aleatorios, pueda utilizarse para seleccionar las unidades especificas para la muestra. Un diseño de encuesta por muestreo que es ampliamente usado debido principalmente a que simplifica el proceso de selección de la muestra se denomina muestreo s2stemático. La idea básica del muestreo sistemático es como sigue: supóngase que una muestra de n nombres será seleccionada de una larga lista. Una manera sencilla de hacer esta selección es elegir un intervalo apropiado y seleccionar los nombres a intervalos iguales a lo largo de la lista. De este modo cada décimo nombre podría ser seleccionado. por ejemplo. Si el punto de inicio para este proceso de selección regular es aleatorio, el resultado es una muestra sistemática. k

DEFINICION7.1 Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco y después cada k-ésimo elemento se denomzha muestra sistemática de 1-en-k. Como en los capítulos previos, presentamos los métodos para estimar una media, un total, y una proporción poblacional. También analizaremos los limites apropiados para el error de estimación y tamaño de muestra requeridos. El muestreo sistemático proporciona una opción útil para el muestreo irrestricto aleatorio por las siguientes razones:

1. El muestreo sistemático es más fácil de lleva a cabo en el campo, y por lo tanto, a

diferencia de las muestras irrestrictas aleatorias y las muestras aleatorias estratificadas, está menos expuesto a los errores de selección que cometen los investigadores de campo. 2. El muestreo sistemático puede proporcionar mayor información que la que puede proporcionar el muestreo irrestricto aleatorio por unidad de costo. En general el muestreo sistemático involucra la selección aleatoria de un elemento de los primeros k elementos y posteriormente la selección de cada k-ésimo elemento. Este procedimiento es más fácil de realizar y usualmente, a diferencia del muestreo irrestricto aleatorio, está menos expuesto al error del entrevistador. Por ejemplo, sería dificil aplicar el muestreo irrestricto aleatorio para seleccionar una muestra de n = 50 compradores en la esquina de una calle. El entrevistador no podría determinar qu6 compradores incluir en la muestra, debido a que el tamaño de la población N no se conocería hasta que todos los compradores hubieran pasado por la esquina. En contraste, el entrevistador podrfa tomar una muestra sistemática (digamos 1 en 20 compradores) hasta que el tamaño de muestra requerido se obtuviera. Aunado a que es más fácil de realizar y que está menos expuesto al error del entrevistador, el muestreo sistemático frecuentemente proporciona más información que el muestreo irrestricto aleatorio por unidad de costo. Una muestra sistemática generalmente se extiende más uniformemente sobre toda la población y, por lo tanto, puede proporcionar más información acerca de la población que una cantidad equivalente de datos contenida en una muestra irrestricta aleatoria. Considérese la siguiente ejemplifícación: deseamos seleccionar una muestra sistemática de l-en-5 de una pila con N = 1000 recibos de viaje (esto es, una muestra de n = 200 recibos) para determinar la proporción de recibos archivados incorrectamente. Se extrae al azar un recibo de los primeros 5 (por ejemplo, el No. 3), y posteriormente se incluye cada quinto recibo en la muestra. (Véase la tabla adjunta.) Supóngase que la mayoría de los primeros 500 recibos ha sido archivada correctamente, pero a causa de un cambio en los empleados, los siguientes 500 recibos han sido archivados incorrectamente. El muestreo irrestricto aleatorio podría accidentalmente seleccionar un gran número (quizás todos) de los 200 recibos que fuesen de los primeros o que fuesen de los siguientes 500 recibos y, en consecuencia, producir una estimación muy deficiente de p. En contraste, el muestreo sistemático seleccionará un número igual de recibos de cada uno de los dos gnipos y dará una estimación más precisa de la fracción de recibos archivados incorrectamente. Ejemplos adicionales son discutidos en la Sección 7.3 para ilustrar cómo elegir entre el muestreo irrestricto aleatorio y el muestreo sistemático en una situación dada. Sin embargo, nótese que la precisión de las estimaciones por muestreo sistemático depende del orden de las unidades de muestreo en el marco. Si los recibos incorrectos han sido dispuestos aleatoriamente entre todos los demás, entonces la ventaja del muestreo sistemático se habrá perdido. El muestreo sistemático comúnmente es muy utilizado en una gran variedad de contextos. El censo de Estados Unidos hace solamente un núme~omínimo de preguntas a cada habitante, pero reúne mucha más información con una muestra sistemática de habitantes. En el censo de 1980 hubo 14 preguntas en el formulario abreviado distribuido a todos los habitantes. Otras 42 preguntas se presentaron en el f o r w a r i o completo que fue

Recibo

Recibo .. mueaeado

distribuido a, aproximadamente, una muestra S-ca de 1-en-5 de los habitantes. La encuesta Gallup inicia su proceso de mursCosp liatando 200,000 distritos electorales en Estados Unidos y luego selecciona sistdfcamente S00 para un estudio complementario de familias. Las familias, o las casas, dentro de un distrito muestreado pueden asimismo ser seleccionadas sistemáticamente -seleccionando la segunda casa en una manzana y en otra no y recorriendo de este a oeste, por ejemplo-. La mayoría de los planes de muestreo para el control de calidad industrial suelen ser sistemáticos en estructura. Un plan de inspección para los artículos fabricados a lo largo de una lfnea de montaje en movimiento puede requerir la inspección de cada quincuagésimo artículo. Una inspección de las cajas de los productos almacenados en un depósito puede sugerir muestrear la segunda caja de la izquierda en la tercera fila de arriba hacia abajo de cada quinta estiba. En la inspección del trabajo realizado en los puestos de operarios, el plan de inspección puede requerir el ir y venir por las filas de los puestos e inspeccionar la maquinaria en cada décimo puesto. La hora del día frecuentemente es importante para evaluar la calidad de la labor realizada por el trabajador, y así un plan de inspección puede requerir el muestreq de la producción de un puesto de operario en horas seleccionadas sistemáticamente durante el día. Los auditores frecuentementese enfrentan con el problema de muestrear una lista de cuentas para comprobar el cumplimiento con los procedimientos de contabilidad o para verificar las cantidades. La forma más natural para muestrear las listas es seleccionar las cuentas sistemáticamente. Los investigadores de mercado y los encuestadores, quienes muestrean personas en movimiento, muy frecuentemente emplean un diseño sistemático. A cada vigésimo cliente en un mostrador de pago se le puede preguntar su opinión acerca del sabor, color, o textura de un producto alimenticio. A cada décima persona que aborde un autobcis '

7.2 CÓMO SELECCIONAR UNA MUESTRA SISTEMÁTICA

171

se le puede pedir que llene un cuestionario acerca del servicio de autobús. Cada centésimo automóvil que entra a un parque de diversión puede ser detenido y al conductor preguntarle acerca de los sistemas de publicidad del parque o sobre el precio de los boletos. Todas estas muestras son sistemáticas. Las estimaciones de la producción de plantas cultivadas frecuentemente resultan de muestras sistemáticas de terrenos cultivados y pequeñas parcelas dentro de los terrenos cultivados. Asimismo los guardabosques pueden muestrear sistemáticamente parcelas de terreno para estimar la proporción de irboles enfermos o pueden muestrear sistemáticamente los mismos árboles para estudiar patrones de crecimiento. Por lo tanto el muestreo sistemático es un diseño conocida. Ahora investigaremos la elaboracióq de estos diseños y las propiedades de los estimadores resultantes de medias, totales y proporciones.

7.2 COMO SELECCIONAR UNA MUESTRA SISTEMATICA Aunque el muestreo irrestricto aleatorio y el muestreo sistemático proporcionan alternativas útiles para uno u otro, los métodos para seleccionar los datos de la muestra son diferentes. Una muestra irrestricta aleatoria de una población se selecciona usando una tabla de números aleatorios, como se anotó en la Sección 4.3. Por el contrario, en el muestreo sistemático se tienen diversos métodos disponibles. El investigador puede seleccionar una muestra sistemática de 1 -en-3, una de 1-en-5 o, en general, una de 1 en-k. Por ejemplo, un investigador en medicina está interesado en obtener información acerca del número promedio de veces en que 15,000 especialistas recetaron un cierto medicamento en el año anterior (N = 15,000). Para obtener una muestra irrestricta aleatoria de n = 1600 especialistas, prodríamos usar los métodos de la Sección 4.3 y referirnos a la tabla de números aleatorios; sin embargo, este procedimiento podría requerir bastante trabajo. Por otra parte prodríamos seleccionar un noslbre (especialista) al azar de entre los primeros k = 9 nombres que aparecen en la lista y luego seleccionar c: 'a noveno nombre hasta que el tamaño de muestra 1600 es seleccionado. Esta muestra se denomina muestra sistemática de 1 -en-9. Quizás usted desearía saber cómo se selecciona k en una situación dada. Si el tamaño de la población N es conocido, podemos determinar un tamaño de muestra n aproximado para la encuesta (véase Sección 7.5) y luego seleccionar k para obtener el tamaño de muestra. En la población para la encuesta médica hay N = 15,000 especialistas. Supóngase que el tamaño de muestra requerido es n = 100. Entonces debemos seleccionar a k como menor o igual a 150. Para k = 150 obtendríamos exactamente n = 100 observaciones; mientras que para k < 150,el tamaño de muestra sería mayor que 100. En general, para una muestra.sistem%ticade n elementos de una población de tamaño N, k debe ser menor o igual que N / n (esto es, k 5 Nln). Nótese en el ejemplo anterior que k 5 15,000/100;esto es, k 5 150. No podemos seleccionar exactamente a k cuando el tamaño de la población es desconocido. Podemos determinar un tamaño de muestra n aproximado, pero debemos suponer el valor de k necesario para obtener un tamaño de muestra n. Si se selec-

ciona un valor de k muy grande, el tamaño de muestra n requerido no se obtendrá usando una muestra sistemática,de 1-en-k de la población. Este resultado no presenta problema si el ex~erimentadorpuede volver a la población y realizar otra muestra sistemática de 1-en-k hasta obtener el tamaño de muestra requerido. Sin embargo, en algunas situaciones, obtener una segunda muestra sistemática es imposible. Por ejemplo, tomar otra muestra sistemática de 1-en-20 de compradores es imposible, si el tamaño requerido de n = 50 compradores no es obtenido en el tiempo que los compradores pasan por la esquina.

7.3 ESTIMACION

DE UNA MEDIA Y UN TOTAL POBLACIONALES Como hemos señalado repetidamente, el objetivo de la mayoría de las encuestas por muestreo es estimar uno o más de las parámetros de la población. Podemos estimar la media poblacional p usando la media muestra1 f de una muestra sistemática. Este resultado se muestra en la Ecuación (7.1). Estimador de la media poblacional p :

donde el subíndice sy significa que se utilizó el muestreo sistemático. Varianza estimada de

y,,.:

Límite para el error de estimación:

Si N es desconocida, eliminamos la cpf, (N

- n)/ N ,en las Ecuaciones (7.2) y

(7.3). Usted reconocerá que la varianza estimada de Y, dada en la Ecuación (7.2) es idéntica a la varianza estimada de Y obtenida mediante muestreo irrestricto aleatorio (Sección 4.3). Este resultado no implica que las varianzas poblacionales sean iguales. La varianza de y está dada por

Asimismo la vananza de

psyestá dada por

7.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONNES

173

donde p es una medida de la correlación entre los pares de elementos dentro de la misma muestra sistemática. Si p está cercano a uno, entonces los elementos dentro de la muestra .son bastante similares con respecto a la característica que se está midiendo, y el muestreo sistemático producirá una varianza de la media muestra1 mayor que la obtenida con el muestreo irrestricto aleatorio. Si p es negativo, entonces el muestreo sistemático puede ser mejor que el muestreo irrestricto aleatorio. La correlación puede ser negativa si los elementos dentro de la muestra sistemática tienden a ser extremadamente diferentes. (Nótese que p no puede ser negativamente grande como para que la expresión de la varianza llegue a ser negativa.) Para p cercano a cero y N bastante grande. el muestreo sistemático es aproximadamente equivalente al muestreo irrestricto aleatorio. Un estimador insesgado de V(f,,) no puede ser obtenido usando solamente los datos de una muestra sistemática. Este enunciado no implica que nunca podremos obtener una estimación de V(f,,). Cuando el muestreo sistemático es equivalente al muestreo irrestricto aleatorio, podemos tomar V(fs,) como aproximadamente igual a la varianza estimada de 2 basada en un muestreo irrestricto aleatorio. (Para cuáles poblaciones ocurre esta relación? Para responder esta pregunta, debemos considerar los tres tipos siguientes de poblaciones: 1. Población aleatoria, 2. Población ordenada, 3. Población periódica.

DEFINICION7.2

Una población es aleatoria si s w elementos están ordena-

dos al azar.

Los elementos de una muestra sistemática seleccionados de una población aleatoria se espera que sean heterogéneos con un p aproximadamente igual a cero. Por lo tanto cuando N es grande la varianza de y,, es aproximadamente igual a la varianza de basada en un muestreo irrestricto aleatorio. El muestreo sistemático en este caso es equivalente al muestreo irrestricto aleatorio. Por ejemplo un investigador desea determinar el número promedio de recetas prescritas por ciertos médicos durante el año anterior. Si el marco consiste de una lista en orden alfabético de médicos, la suposición de que los nombres en la lista no están correlacionados con el número de recetas para un medicamento en particular es razonable. Por lo tanto consideramos aleatona a la población. En este caso una muestra sistemática será equivalente a una muestra irrestricta aleatoria.

DEFINICI~N 7.3

Una población es ordenada si los elementos dentro de la población están ordenados en magnitud de acuerdo con algún esquema.

En una encuesta para estimar la efectividad de la enseñanza en un curso introductorio extenso, los estudiantes son interrogados para evaluar a su maestro de acuerdo

con una escala nurriérica. Se extrae'entonces una muestra de una lista de evaluaciones que están distribuidas en orden numérico ascendente. La poblaci6n de mediciones de la cual se extrak la muestra se considera una población ordenada.. Una muestra sistemática extralda de una población ordenada es generalmente heterogénea con p r O. Puede demostrarse, usando las Ecuaciones (7.4) y (7.5), que d a n d o N es grande y p 5 0,

Por lo tanto una muestra sistemática de una población ordenada proporciona más información que una muestra irrestricta aleatoria por unidad de costo, debido a que la varianza de Y,, es menor que la varianza correspondiente de Y. Ya que no podemos obtener una estimacián de V(i,,)con base en los datos de la muestra, una estimación conservadora (una que es mayor de lo que se esperaría) de V(y,,) está dada por

DEFINICION 7.4 Una población es periódica si los elementos de lapo blación tienen variación ciclica. Supóngase que estamos interesados en determinar el volumen de ventas promedio diario para una cadena de tiendas de abarrotes. La población de las ventas diarias claramente es periódica, ocurriendo las ventas máximas al final de cada semana. La efectividad de una muestra sistemática de 1-en-k depende de los valores que seleccionemos para k. Si muestreamos las ventas diarias cada miércoles, probablemente subestimaríamos el promedio verdadero del volumen de ventas diario. Asimismo si muestreamos las ventas cada viernes, probablemente sobreestimaríamos el promedio verdadero de las ventas. Podríamos muestrear cada noveno día de trabajo para evitar muestrear consistentemente los dfas de ventas altas o bajas. Los elementos de una muestra sistemática extraída de una población periódica pueden ser homogéneos (esto es p > O). Por ejemplo, los elementos de una muestra sistemática de ventas diarias tomadas cada miércoles serán bastante homogéneos. Puede demostrarse, mediante las Ecuaciones (7.4) y (7.5), que cuando N es grande y p > o, V( Ysy) V(Y)

Por lo tanto en este caso el muestreo sistemático proporciona menos información que el muestreo irrestricto aleatorio por unidad de costo. Como en las situaciones anteriores, V(Y,,) no puede ser estimada directame~temediante una sola muestra sistemática. Podemos aproximar su valor usando V(Y), como para muestreo irrestricto aleatorio. En general este estimador subestimará la varianza verdadera de Y,,. Para evitar este problema que ocurre con el muestreo sistemático de una población periódica, el investigador podría cambiar varias veces el punto de inicio aleatorio. Este procedimiento reducirá la posibilidad de seleccionar observaciones con la misma posición relativa en una población periódica. Por ejemplo, cuando una muestra sistemática de 1-en-10 es extraída de una larga lista de tarjetas archivadas, una tarjeta es

7.3 ESTIMACION DE UNA MEDIA Y UN TOTAL POBLACIONALES

175

seleccionada aleatoriwente de entre las 10 primeras tarjetas (por'ejemplo, la no. 2) y posteriormente cada décima tarjeta. Este procedimiento puede modificarse seleccionando aleatoriamente una tarjeta de entre las primeras 10 (por ejemplo, la no. 2) y posteriormente cada décima tarjeta para tal vez a las 15 selecciones obtener los números

En este momento se puede seleccionar otro punto de inicio aleatorio de entre los 10 números siguientes:

Si el 156 es seleccionado, entonces posteriormente procedemos a seleccionar cada décimo número para las siguientes 15 selecciones. Este procedimiento completo se repite hasta que es obtenido el tamaño de muestra deseado. El procedimiento de seleccionar vanas veces,un punto de inicio aleatorio a través de la muestra sistemática tiene el efecto de mezclar los elementos de la poblacion y al mismo tiempo el de seleccionar una muestra sistemática. En consecuencia podemos suponer que la muestra obtenida es equivalente a una muestra sistemática extraída de una población aleatoria. La varianza de y,, puede ser entonces aproximada usando

Un investigador desea determinar la calidad del jarabe de arce contenido en la savia de los árboles en una finca de Vermont. El número total de árboles N es desconocido; por lo tanto es imposible realizar una muestra irrestricta aleatoria de árboles. Como un procedimiento alternativo, el investigador decide usar una muestra sistemática de 1-en-7. Los datos de esta encuesta estan listados en la tabla adjunta. Los datos son el porcentaje del contenido de azúcar (en la savia) para los árboles muestreados. Use

Árbol mucatreado

Contenido de azúcar en la savia, y

7 MUESTRE0 SISTEMÁTICO

estos datos para estimar p , el contenido de azúcar promedio de los árboles de arce en la finca. Establezca un ltmite para el error de estimación.

Una estimación de p está dada por

Para encontrar un límite para el error de estimación, primero debemos calcular s 2 . Usando la fórmula para el cálculo, obtenemos

Intuitivamente, podemos suponer que la población de árboles en la finca es aleatoria. Según esta suposición la varianza estimada de está dada por la Ecuación (7.2). Habiendo realizado la muestra de 1-en-7, conocemos N. Suponiendo N = 1484 resulta

Y,,

Un límite aproximado para el error de estimación está dado por

En resumen, estimamos que el promedio de azúcar contenido en la savia es de 80.5%. Estamos bastante confiados en que el límite para el error de estimación es menor de 2.9%. Se recordará que la estimación de un total poblacional requiere del conocimiento del número total de elementos N en la población cuando aplicamos los procedimientos de los Capítulos 4 y 5. Por ejemplo, usamos

como un estimador de T en el muestreo irreshicto aleatorio. También, usamos

donde como un estimador de T en el muestreo aleatorio estratificado con L estratos (Sección 5.3). Asimismo necesitamos conocer N para estimar T cuando estamos usando el muestreo sistemático. El tamaño de la población se desconoce en muchas situaciones prácticas, en las cuales se sugiere el uso del muestreo sistemático; sin embargo, cuando N es conocida, podemos estimar T usando las Ecuaciones (7.6), (7.7) y (7.8).

7.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONALES

Estimador del total poblacional

177

7 = NF$, Varianza estimada de

Límite para el error de estimwión:

Nótese que los resultados presentados en las Ecuaciones (7.6), (7.7) y (7.8) son idénticos a los presentados para estimar un total poblacional mediante muestreo irrestricto aleatorio. Este resultado no implica que la varianza de NY,, sea la misma que la varianza de NF. Nuevamente no podemos obtener un estimador insesgado de V(Nysy) con base en los datos de una sola muestra sitemática. Sin embargo, en ciertas circunstancias, como se anotó antes, el muestreo sistemático es equivalente al muestreo irrestricto aleatorio, y podemos usar los resultados presentados en la Sección 4.3.

EJEMPLO 7.2 Un hortelano de Virginia tiene un huerto experimental con N = 1300 manzanos de una nueva variedad en estudio. El investigador desea estimar la producción total (en bushels) de la huerta, con base en los árboles de una muestra sistemática de 1-en-10. La media y la varianza muestrales para los árboles muestreados fueron fiY= 3.52 bushels y s2 = 0.48 bushel. Utilice estos datos para estimar T, y establezca un limite para el error de estimación.

Una suposición razonable es que la población es aleatoria; por lo tanto los muestreos irrestricto aleatorio y el sistemático son equivalentes. Si la población fuese periódica, el experimentador podría seleccionar varios puntos de inicio aleatorios en la selección de los árboles que serán incluidos en la muestra. Una estimación de T está dada por

Un límite para el error de estimación puede determinarse usando la Ecuación (7.8) con n = 130:

Por lo tanto estimamos que .la producción total del huerto de manzanos es 4576 bushels, con un l'mite para el error de estimación de 150 bushels.

Si la estratificación de la población es ventajosa, el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del muestreo irrestricto aleatorio. Usando el estimador de la Ecuación (7.1) con la varianza estimada (7.2) dentro de cada estrato, el estimador resultante de la media poblacional parecerá similar al de la Ecuación (5.1), con una varianza estimada dada por la Ecuación (5.2). Tal situación podría surgir si fuéramos a estratificar una industria por plantas y luego a tomar una muestra sistemática de los registros dentro de cada planta para estimar el promedio de las cuentas por cobrar, el promedio del tiempo perdido por accidentes, y así sucesivamente.

7.4 ESTIMACION DE UNA PROPORCION POBLACIONAL Un investigador a menudo desea usar los datos de una muestra sistemática para estimar una proporción poblacional. Por ejemplo, para determinar la proporción de votantes registrados que están a favor de una prometedora emisión de bonos, el investigador podría utilizar una muestra sistemática de 1-en-k de la lista de votantes registrados. El estimador de la proporción poblacional p por muestreo sistemático se denota mediante Como en el muestreo irrestricto aleatorio (Sección 4.5), las propiedades de p,, son análogas a las propiedades de la media muestral j,, si las mediciones de la respuesta se definen como sigue: sea yi = O si el i-ésimo elemento muestreado no posee la característica específica y yi = 1 si la posee. El estimador es entonces el promedio de los valores O y 1 de la muestra.

6,.

i,,

Estimador de la proporción poblacional p:

Varianza estimada de b,,:

donde y; = 1 - Psy Límite para el error de estimación:

7.4 ESTIMACIÓNDE UNA PROPORClON POBLACIONAL

179

Podemos omitir la cpf, (N - n ) / N , en las Ecuaciones (7.10) y (7.11) si el tamaño de la población N es desconocido pero puede suponerse relativamente grande con respecto a n. Notemos nuevamente que la varianza estimada de j,,(o bien j,y)es idéntica a la varianza estimada de j? (o bien y3, usando el muestre0 irrestricto aleatorio (Sección 4.5). Este resultado no implica que las varianzas poblacionales correspondientes sean iguales; sin embargo, si N es grande, y si las observaciones dentro de una muestra sistemática no están correlacionadas (esto es, p = O), las dos varianzas poblacionales serán iguales.

Una muestra sistemática de 1-en-6 es obtenida de una lista de votantes registrados para estimar la proporción de votantes que estan a favor deda emisión de bonos propuesta. Diferentes puntos de inicio aleatorio se utilizan para asegurar que los resultados de la muestra no son afectados por ~ariací6n periódica en la población. Los resultados codificados de esta encuesta de elección previa se muestran en la tabla adjunta. Estime p, la proporción de los 5775 votantes registrados que están a favor de la emisión de bonos propuesta (N = 5775). Establezca un limite para el error de estimación. -

Votante

Reapuesta

La proporción muestra1 está dada por

Puesto que N es grande y varios puntos de inicio aleatorio fueron seleccionados en la extracción de la muestra sistemática, podemos suponer que

proporciona una buena estimación de v(&). El límite para el error de estimación es

Por lo tanto estimamos que 0.678 (67.8%) de los votantes registrados favorece a la emisión de bonos propuesta. Estamos relativamente confiados en que el error de estimación es menor que 0.028 (2.8%).

7.5 SELECCI~N DEL TAMANO DE MUESTRA Ahora vamos. a determinar el número de observaciones necesario para estimar p dentro de B unidades. El tamaño de muestra requerido se encuentra despejando n de la siguiente ecuación:

La solución para la Ecuación (7.12) involucra a a 2 y p, que deben ser conocidos (al menos aproximadamente) a fin de despejar n. Aunque estos parárnetros algunas veces pueden ser estimados si se cuenta con datos de una encuesta anterior, en este texto no trataremos este método. En su lugar, usamos la fórmula para n de un muestre0 irrestricto aleatorio. Esta fórmula podría dar una muestra extragrande para poblaciones ordenadas y una muestra muy pequeña para poblaciones periódicas. Como se anotó antes, las varianzas de y,, y son equivalentes si la población es aleatoria. TamaÍío de muestra requerido para estimar p con un Imite B para el error de estimación:

donde

La administración de una empresa de servicio público está interesada en la cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas. Una muestra sistematica será extraída de una lista en orden alfabético con N = 2500 cuentas de

7.5 SELECCIÓNDEL TAMAÑO DE MUESTRA

181

clientes que están vencidas. En una encuesta similar realizada el año anterior, la va2 rianza muestra1fue,s = 100 días. Determine el tamaño de muestra requerido para estimar p , la cantidad promedio de tiempo que tienen de estar vencidas las cuentas de la empresa de servicio público, con un límite para el error de estimación de B = 2 días.

O. Luego Una suposición razonable es que la población es aleatoria; por lo tanto P podemos usar la Ecuación (7.3) para encontrar el tamaño de muestra aproximado. Reemplazando u2por s 2 y estableciendo

tenemos

Por lo tanto la administración debe muestrear aproximadamente 97 cuentas para estimar la cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas, con un límite para el error de estimación de 2 días. Para determinar el tamaño de muestra requerido al estimar T con un límite en el error de estimación de magnitud B, utilizamos el mCtodo correspondientepresentado en la Sección 4.4. El tamaño de muestra requerido para estimar p con aproximación a B unidades se encuentra usando la fórmula del tamaño de muestra para estimar p con muestre0 irrestricto aleatorio. Tamaño de muestra requerido para estimarp con un límite B para el error de estimación:

donde En una situación práctica se desconoce p. Podemos encontrar un tamaño de muestra aproximado reemplahndop por un valor estimado. Si no se dispone de información anterior para estimar p, podemos obtener un tamaño conservador de muestra haciendo p = 0.5.

: EJEMPLO 7.5 Una empresa publicitaria está iniciando una campaña de promoción para un nuevo producto. La empresa quiere muestrear clientes potenciales en una pequeña comunidad para determinar la aceptación del producto.

Para eliminar algo de los costos asociados con las entrevistas personales, el investigador decide seleccionar una muestra sistemática de entre N = 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante entrevistas por teléfono. Determine el tamaño de muestra requerido para estimar p, la proporción de personas que consideran "aceptable" el producto, con un límite para el error de estimación de magnitud B = 0.03 (esto es, 3%).

El tamaño de muestra requerido puede ser encontrado usando la Ecuación (7.14). Aunque no se tienen disponibles datos anteriores sobre el nuevo producto, podemos encontrar un tamaño de muestra aproximado. Haga p = 0.5 en la Ecuación (7.14) y

Entonces el tamaño de muestra requerido es

Por lo tanto la empresa debe entrevistar 910 personas para determinar la aceptación del producto con un límite para el error de estimación de 3%.

7.6 MUESTREO SISTEMATICO REPLICADO Establecimos en la Sección 7.3 que no podemos estimar la varianza de?,, con base en la información contenida en una sola muestra sistemática a menos que el muestreo sistemático genere, con fines prácticos, una muestra aleatoria. Cuando ocurre este resultado podemos usar los procedimientos de estimación del muestreo irrestricto aleatorio explicados en la Sección 4.3. Sin embargo en la mayoría de los casos el muestreo aleatorio sistemático no es equivalente al muestreo irrestricto aleatorio. Un método alternativo debe ser usado para estimar V(Y,,). Tal ,método es el muestreo sistemático replicado. Como el nombre lo implica, el muestreo sistemático replicado requiere de réplicas, o sea de la selección de más de una muestra sistemática. Por ejemplo, diez muestras sistemáticas de 1-en-50, cada una conteniendo seis mediciones, podrían ser obtenidas en aproximadamente el mismo tiempo que una muestra sistemática de 1 -en5 conteniendo 60 mediciones. Ambos procedimientos producen 60 mediciones para estimar la media poblacional p , pero el procedimiento de muestreo replicado nos permite. estimar V ( j s , )utilizando el cuadrado de las desviaciones de las n, = 10 medias muestrales individuales alrededor de su media. El promedio de las 10 medias muestrales estimará la media poblacional p . Para seleccionar n, muestras sistemáticas replicadas, debemos separar más los elementos de cada muestra. Por lo tanto diez muestras de 1-en-50 (n, = 10, k' = 50) de seis mediciones cada una contienen el mismo número de mediciones que una sola muestra de 1 -en-5 (k = 5) conteniendo n = 60 mediciones. El punto de inicio para

7.6 MUESTRE0 SISTEMÁTICOREPLICADO

183

cada una de las n, muestras sistemáticas es seleccionado aleatoriamente de entre los primeros k' elementos. Los elementos restantes en cada muestra son obtenidos adicionando k', 2k1,y así sucesivamente, al punto de inicio hasta que el número total por muestra, n/n,, es obtenido. Una población consiste de N = 960 elementos, los cuales podernos numerar consecutivamente. Para seleccionar una muestra sistemática de tamaño n = 60, seleccionamos k = N /n = 16 y un número aleatorio entre el 1 y el 16 como un punto de inicio. ¿Qué procedimiento seguimos para seleccionar 10 muestras sistemáticas repetidas en lugar de una muestra sistemática?Primero, seleccionamos k' = 10 k = 1O(16) = 160. A continuación, seleccionamos 10 números aleatorios entre el 1 y el 160. Finalmente, la constante 160 se adiciona a cada uno de estos puntos de inicio aleatorio para obtener 10 números entre el 161 y el 320; el proceso de adicionar la constante se continúa hasta que se obtienen 10 muestras de tamaño 6. Una selección aleatoria de 10 enteros entre el 1 y el 160 da los siguientes:

&tos números forman los puntos de inicio aleatorio para 10 muestras sistemáticas, como se muestra en la Tabla 7.1. El segundo elemento en cada muestra se encuentra adicionando 16.0al primero, el tercero adicionando 160 al segundo, y así sucesivamente.

TABLA 7.1

Selecc~ón de muestras sistemáticas replicadas

Punto de inicio aleatorio

Segundo elemento en la muestra

Tetcer elemento en la muestra

Sexto elemento en la muestra

Frecuentemente seleccionamos n, = 10 pues nos permite obtener suficientes medias muestrales para adquirir una estimación satisfactoria de v(@)Seleccionamos k' de tal manera que dé el mismo número de mediciones que se obtendrían con una sola muestra sistemática de 1-en-k: así

= kn,

Las fórmulas para estimar @ según n, muestras sistemáticas se señalan en las Ecuaciones (7.15), (7.16) y (7.17).

- --

Estimador de la media poblacional p usando n, muestras sistemáticas de len-k':

donde

representa el promedio de la i-ésima muestra sistemática.

Varianza estimada de 6: n

Límite para el error de estimación:

También podemos usar muestreo sistemático replicado para estimar un total poblacional r , si N es conocido. Las fórmulas necesarias se dan en las Ecuaciones (7.18), (7.19) y (7.20). Estimador del total poblacional T usando n, muestras sistemáticas de len- k':

Varianza estimada de

L'mite para el error de estimación: I

Un parque estatal cobra la admisión por automóvil en lugar de por persona, y un funcionario del parque quiere estimar el número promedio de personas por automóvil para un día efectivo en particular durante el verano. El funcionario sabe por experiencia que entrarán al parque alrededor de 400 automóviles y quiere muestrear 80 de ellos. Para obtener una estimación de la varianza, utiliza el muestreo sistemático repli-

7.6 MUESTRE0 SIS-TEMÁJICOREPLICADO

185

cado con 10 muestras de 8 automóviles cada una. Usando los datos que se presentan en la Tabla 7.2, estime el número promedio de personas por automóvil y establezca un límite para el error de estimación.

TABLA 7.2

Datos del número de personas por automóvil [las respuestas y, están en paréntesis)

Punto de inicio aleatorio

Segundo Tercer elemento elemento

Cuarto elemento

Quinto elemento

Sexto elemento

Séptimo elemento

Octavo elemento

SOLUCION Para una muestra sistemática

N 400 - 5 k=-=-n

Por lo tanto para n, = 10 muestras

Los siguientes 10 números aleatorios entre el 1 y el 50 son extraídos:

Los automóviles con estos números forman los puntos de inicio aleatorio para las muestras sistemgticas. En la Tabla 7.2 la cantidad j~ es el promedio para la primera hilera, f2 es el promedio para la segunda hilera, as%sucesivamente. La estimación de p es

Puede establecerse la siguiente identidad:

Sustituyendo, obtenemos 10

1(Y, - fi)' i=1

= 177.410 - - (1733.06) = 4.104 1o

Por lo tanto la varianza estimada de @ es

La estimación de p con un límite para el error de estimación es

@ *2

4.163 f 2=,

o sea

4.16 =t0.38

Por lo tanto nuestra mejor estimación del promedio de personas por automóvil es 4.16. El error de estimación será menor que 0.38 aproximadamente con una probabilidad de 0.95.

El muestreo sistemático es presentado como una alternativa para el muestreo irrestricto aleatorio. El muestreo sistemático es más fácil de llevar a cabo y, por lo tanto, está menos expuesto que el muestreo irrestricto aleatorio a los errores del entrevistador. Además el muestreo sistemático frecuentemente proporciona más información que el muestreo irrestricto aleatorio por unidad de costo. Consideramos la estimación de una media, un total y una proporción poblacionales usando los estimadores Nyly y respectivamente. En estos estimadores se establecieron los límites correspondientes para los errores de estimación. Para seleccionar entre el muestreo irrestricto aleatorio y el sistemático primero debemos considerar el tipo de población que se investiga. Por ejemplo, cuando N es grande y p < O, la varianza de y',, es más pequeña que la varianza correspondiente de y' basada en una muestra irrestricta aleatoria. Una muestra sistemática es preferible cuando la población es ordenada y N es grande. Cuando la población es aleatoria, los dos procedimientos de muestreo son equivalentes y cualquiera de los dos diseños puede ser usado. Debe tenerse cuidado en la aplicación del muestreo sistemático para poblaciones periódicas. Las necesidades de tamaño de muestra para estimar p , T y p son determinadas usando las fórmulas presentadas para el muestreo irrestricto aleatorio. El muestreo sistemático replicado se estudió en la Sección 7.6; permite al experimentador estimar la media o el total poblacionales y la varianza del estimador sin establecer ningún supuesto acerca de la naturaleza de la población.

Y,,,

Fsy,

ANALISIS DEL ESTUDIO DE CASO EVALUACION DE LA CALIDAD DE UN PRODUCTO El problema de control de calidad que involucra el porcentaje de cobre en una pieza de bronce. expuesto al principio de este capítulo, presentó una muestra sistemática de 16 mediciones con Y = 87 y s2 = 18. Aunque la muestra fue seleccionada sis-

EJERCICIOS

4 87

temáticamente, podemos estimar la meaia poblacional por

suponiendo que N es grande comparada con n. Por lo tanto tenemos

o de 85 a 89 como la mejor estimación de la media verdadera del proceso de producción. Puesto que la norma es de 90, aparentemente el proceso no está cumpliendo con la norma anunciada en este día. El supervisor encargado querrá investigar las causas posibles de esta falla. En este caso el muestreo sistemático es razonable puesto que fuerza a que la muestra cubra la producción de todo el día. Si la calidad tiende a disminuir (o se incrementa] durante el día, este plan de muestreo puede detectarlo. Una muestra irrestricta aleatoria podría concentrar todos los a r t í ~ ~ s t r e a d en o slas horas de la manana (o de la tarde). /

7.1

7.2

7.3

Suponga que una compañía hipotecaria de casas tiene N hipotecas numeradas consecutivamente en el orden en que fueron otorgadas durante un periodo de 20 años. Existe una tendencia de incremento en los saldos sin pagar a causa del aumento en el costo de la vivienda a través de los años. La compañía desea estimar la cantidad total de los saldos sin pagar. (Emplearía usted un muestreo irrestricto aleatorio o un muestreo sistemático? ¿Por qué? Una corporación lista a los empleados por grupos de ingresos (alfabéticamente dentro de grupos) desde el más alto hasta el más bajo. Si el objetivo es estimar el ingreso promedio por empleado, (deberá usarse el muestreo sistemático, el mueetreo estratificado o el muestreo irre&rictoaleatorio? Suponga que los costos son equivalentes para los tres métodos y que usted puede estratificar por grupos de ingreso. Analice las ventajas y desventajas de los tres métodos. Una tienda de ventas al menudeo con cuatro departamentos tiene las cuentas corrientesordenadas por departamento, con las cuentas vencidas al principio de la lista de cada departamento. Suponga que cada departamento tiene en promedio alrededor de 10 cuentas, con aproximadamente el 40% vencidas. Para un dia específico las cuentas podrían aparecer como se muestra en la tabla adjunta (con números de cuenta del 1 al 40). La tienda desea estimar la proporción de cuentas vencidas por muestreo sistemstico. Departamento

Números de cuenta Cuentasvencidas

1-1 1

12-20

21-28

29-40

1,2,3,4

12,13,14

21,22,23,24,25

29,30,31,32

(a) Liste todas las posibles muestrassistemáticas de 1-en-10, y calcule la varianza exacta de la proporción muestral. (Nótese ue hay 10 valores posibles, no todos distintos, para la proporción muestral, cada uno con de probabilidad de ocurrir.)

4 ,

7.4

(b) Liste todas las posibles muestras sistemáticas de 1-en-5, y calcule la varianza exacta de la proporción muestral. (.c) Compare los resultados de la parte (a) con la varianza aproximada que habría sido obtenida con una muestra irrestncta aleatoria de tamaño n = 4 de esta población. Asimismo compare los resultados de la parte (b) con los que se obtendrían según una muestra irrestricta aleatona con n = 8. {Qué conclusiones generales pueden establecerse? La gerencia de una compañia privada estP interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1-en-10 es obtenida de los empleados que salen del edificio al final de un dia de trabajo en particular. Use los datos de la tabla adjunta para estimar p, la proporción a favor de la nueva política, y establezca un límite para el error de estimación. Suponga N = 2000. --

Empleado muatreado

7.5

7.6

Rapucata

Para la situación referida en el Ejercicio 7.4, determine el tamaño de muestra requerido para estimar p, con un límite para el error de estimación de 0.01 unidades. (Qué tipo de muestra sistemática deberá obtenerse? La sección de control de calidad de una empresa usa el muestreosistemático para estimar la cantidad promedio de llenado en latas de 12 onzas que sale de una lfnea de producción. Los datos de la tabla adjunta representan una muestra sistemática de 1-en-50 de la producción de un día. Estime p , y establezca un lfmite para el error de estimaci6n. Suponga que N = 1800.

Cantidad de llenado (en onzoa)

7.7 7.8

Use los datos del Ejercicio 7.6 para determinar el tamaño de muestra requerido para estimar p dentro de 0.03 unidades. Expertos en edafología quieren determinar la cantidad de calcio intercambiable (en partes por millón) en una parcela de terreno. Para simplificar el esquema de muestreo, en el terreno se sobrepone una malla rectangular. En cada punto de intersecci6n en la malla se toman muestras de suelo (véase diagrama). Use los datos siguientes para determinar la cantidad promedio de calcio intercambiable en la parcela de terreno. Establezca un limite para el error de estimación.

EJERCICIOS

x yi =90,320

189

calcio intercambiable

y: = 148,030,000

7.9

La patrulla de caminos de un estado en particular está interesada en la proporción de automovilistas que portan su licencia. Se instala un puesto de verificación en una carretera principal y se detiene al conductor de cada séptimo automóvil. Use los datos de la tabla anexa para estimar la proporción de conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que N = 2800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil

7.10

7.11

Respuesta,

La patrulla de caminos espera que pasen cuando menos N = SO00 automóviles por el puesto de verificación. Determine el tamaño de muestra requerido para estimar P con aproximación de B = 0.015 unidades. Un colegio esta interesado en mejorar sus relaciones con una comunidad vecina. Una muestra sistemfitica de 1-en-150 de los N = 4500 estudiantes listados en el directorio es tomada para estimar la cantidad total de dinero gastado en ropa durante un trimestre del año escolar. Los resultados de la muestra están listados en la tabla anexa. Use los datos para estimar T,y establezca un límite para el error de estimación.

Estudiante

Cantidad gastada (en dólar=)

Estudiante

Cantidad gastada (en dólares)

7.12

7.13

¿Qué tamaño de muestra es necesario para estimar T en el Ejercicio 7.11, con un límite para el error de estimación aproximadamente igual a $10,000? ¿Qué esquema de muestreo sistemático recomendaría? En una comunidad se realiza un censo. Además de la información usual que se obtiene de la población, los investigadores preguntan a los ocupantes de cada vigésima casa cuánto tiempo la han habitado. Estos resultados se resumen a continuación.

y, = 407.1 (años)

7.14

7.15

N = 2300

Use estos datos para estimar la cantidad promedio de tiempo que las personas han vivido en su casa actual. Establezca un límite para el error de estimación. Un grupo de consejeros está interesado en la colegiatura promedio anual para los estudiantes que radican fuera del estado en 371 escuelas de estudios universitarios de primero y segundo años. A partir de una lista en orden alfabético de estas escuelas se extrae una muestra sistemática de 1-en-7. Los datos referentes a los costos de la colegiatura fuera del estado para un año escolar (septiembre a junio) son obtenidos de cada escuela en la muestra. Sea yi la cantidad requerida por colegiatura para la r-ésima escuela en la muestra. Use los datos siguientes para estimar p , y establezca un límite para el error de estimación.

Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante su periodo de 180 días cuando una costosa colección de antigüedades esta en exhibición. Puesto que el control de visitantes en el museo cada &a es muy costoso, los funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra sistemática de 1en-10 se resume en la tabla adjunta. Use estos datos para estimar 7 , el número total de personas

Díí

N b e m de personas que visitan el museo

que visitan el museo durante el periodo específico. Establezca un límite para el error de estimación. 7.16

Los guardabosques están interesados en determinar el valumen medio de madera por acre para 520 parcelas de un acre (N = 520). Se obtiene una muestra sistemática de 1-en-25. Usando los datos presentados en la tabla adjunta, estime p , el volumen promedio de madera por parcela, y establezca un límite para el error de estimación.

Parcela mueatreada

Volumen (en pies de tabla)

Parcela muestreada

Volumen (en pies de tabla)

7.17

Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios conducen una muestra sistemática de 1-en-10, a partir de una lista en orden alfabético de los N = 650 miembros registrados. Sea y, = 1 si la i-ésima persona muestreada favorece los cambios propuestos y y, = O si se opone a los cambios. Use los siguientes datos de la muestra para estimar p, la proporción de miembros en favor de los cambios propuestos. Establezca un límite para el error de estimación.

7.18

En una encuesta sociológica una muestra sistemática de 1-en-50 se extrae de los registros de impuestos municipales para determinar el número total de familias en la ciudad que alquilan sus casas. Sea yi = 1 si la familia en la i-ésima casa muestreada alquila y sea y, = O si no alquila. Hay N = 15,200 casas en la comunidad. Use lo siguiente para estimar 7 , el número total de familias que alquilan. Establezca un límite para el error de estimación.

7.19

[Sugerencia: Si =Afracciónestiyada que alquila, entonces N; es una estimación del número total que alquila; v(N$) = N'v@?.] Un granjero desea estimar el peso total de fruto que producirá un terreno de zuchini (calabaza), muestreando antes de la cosecha. La parcela consiste de 20 hileras con 400 plantas por hilera. El vendedor de4lassemillas dice que cada planta puede producir hasta 8 libras de fruto. Describa o un plan de muestreo sistemático para este problema a fin de estimar el peso total de f ~ t con aproximacibn de 2000 libras.

7.20

La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (a) Estime el número promedio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. (b) Estime la tasa promedio anual de natalidad para el periodo 1955-1980, y establezca un límite para el error de estimación. (c) ¿Creeusted que el muestreo sistemáticoes mejor que el muestreo irrestricto aleatorio para los problemas de las partes (a) y (b)? {Por qué?

Ado

1955 1960 1965 1970 1975 1980

Nacimientos masculinai Nacimientos fcmenimos Total de nacimiento8

2,073,719 2,179,708 1,927,054 1,915,378 1,613,135 1,852,616

1,973,576 2,078,142 1,833,304 1,816,008 1,531,063 1,759,642

4,047,295 4,257,850 3,760,358 3,731,386 3,144,198 3,612,258

Natalidad

26.0 23.7 19.4 p.4 14.6 15.9

Fuente: The World Almanac BT Book of Facts, 1984 edition, copyright @ Newspaper ' Enterprise Association, Inc., 1983, New York, NY 10166.

7.21

En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900. Estime la tasa de divorcio promedio anual para tal periodo y establezca un límite para el error de estimación. ¿Esen este caso el muestreo sistemático mejor o peor que el muestreo irrestricto aleatorio? ¿Por qué?

Afio

Tus

Aflo

1900 1905 1910 1915 1920 1925 1930 1935 1940

0.7 0.8 0.9 1.0 1.6 1.5 1.6 1.7 2.0

1945' 1950 1955 1960 1965 1970 1975 1980

Tus

3.5 2.6 2.3 2.2

2.5 3.5 4.8 5.2

Fuente: The World Almanoc C1 Book

of Facts, 1984 edition. copyright @ Newspaper Enterprise Association, Inc., 1983, New York, N Y 10166.

7.22

7.23

Un inspector de control de calidad debe muestrear obleas de silicio. con las cuales se fabricarán circuitos integrados para computadoras después de haberse harneado. En el horno se colocan consecutivamente charolas ranuradas que contienen muchas obleas durante todo el día. La colocación de la charola y la hora del día pueden tener efectos importantes en la calidad de la oblea. Sugiera un plan de muestreo con el fin de estimar la proporción de obleas defectuosas. Un almacén contiene estibas de acumuladares para automóviles que deben ser muestreados para la inspección de calidad. Cada estiba tiene anotada una fecha de producci6n diferente y se orde-

1 !

EXPERIENCIAS CON DATOS REALES

7.24

7.25

7.26

193

na cronológicamente. Los tamaños de las estibas son aproximadamente iguales. Sugiera un plan de muestreo para estimar la proporción de acumuladores defectuosos. Un auditor se enfrenta a una larga lista de cuentas por cobrar de una empresa. El auditor debe verificar las cantidades con base en un 10% de esas cuentas, y estimar la diferencia promedio entre los valores revisados y los asentados en el libro. (a) Suponga que las cuentas están ordenadas cronológicamente, teniendo las cuentas más antigüas una tendencia a tomar valores más pequeños. Para seleccionar la muestra, <escogería usted un diseño de muestreo sistemático o un muestreo irrestricto aleatorio? (b) Suponga que las cuentas están colocadas aleatonamente. Para seleccionar la muestra, ¿usaría usted un diseño de muestreo sistemático o un muestreo irrestncto aleatorio? (c) Suponga que las cuentas están agrupadas por departamentos y que dentro de éstos están listadas en orden cronológico. Nuevamente las cuentas más antigüas tienden a tomar valores más pequeños. Para seleccionar la muestra, ¿escogería usted un diseiio de muestreo sistemático o un muestreo irrestricto aleatorio? La participación en el mercado de cierto producto alimenticio será estimada registrando las compras almacenadas del producto durante algunas semanas seleccionadas del año. Analice las ventajas y desventajas de una seleccion sistemática de las semanas para este estudio. La producción de trigo para un extenso terreno será estimada muestreando parcelas pequeñas dentro del terreno en tanto que el cereal madura. El terreno está en declive con mayor fertilidad en el lado más bajo. (a) Sugiera un diseño de muestreo sistemático para las parcelas pequeñas. (b) Podrían usarse eficazmente otros diseños de muestreo en este caso?

EXPERIENCIAS CON DATOS REALES 7.1

7.2

7.3

7.4

Localice los resúmenes del precio de las acciones durante la semana en el periódico semanal de su localidad. Estos resúmenes usualmente listan los precios alto y bajo de cada acción durante la semana, junto con la diferencia entre el precio de cierre para la semana en curso y el de la semana pasada. (a) Seleccione una muestra sistemática de acciones, y estime la proporción de acciones que tienen en esta semana un precio de cierre más bajo que el que tuvieron en la semana pasada. Establezca un Emite para el error de estimación. (b) {En este caso, cómo cree usted que podría compararse el muestreo sistemático con el muestreo irrestricto aleatorio o el muestreo aleatorio estratificado? La Tabla 4.7 lista los datos de la temporada 1982-1983para los equipos de la Asociación Nacional de Baloncesto. Suponga que un cronista de deportes desea estimar el total de puntos anotados en la liga, seleccionando una muestra sistemática de los equipos en la lista. (a) {Debe utilizarse una muestra sistemática de 1-en-6?{Por qué? (b) {Podría ser mejor una muestra sistemática de 1-en-4 que una muestra de 1-en-61 {Por qué? Los datos de la Tabla 5.4 muestran la altura de los edificios altos para ciudades seleccionadas de Estados Unidos. Analice la validez y deficiencia de usar una muestra sistemática de edificios de esta lista para estimar la altura promedio de los edificios. Para este problema, {podría ser mejor el muestreo sistemático que el muestreo irrestricto aleatorio? De acuerdo con una lista de nombres, semejante a la de un directorio estudiantil, seleccione una muestra sistemática y entreviste a las personas seleccionadas para averiguar si están a favor de un cierto tema de importancia actual (tal como una propuesta de acción del gobierno o una decisión pendiente en el recinto universitario). Estime la proporción de la población que apoya la propuesta y establezca un límite para el error de estimación.

Repita el procedimiento descrito tres veces mas, de manera que se tengan disponibles cuatro muestras sistemĂĄticas independientes. Compare los resultados de las muestras individuales con el resultado combinado de las cuatro muestras analizadas de acuerdo con los metodos de la SecciĂłn 7.6. Si se desea trabajar con alguna otra c m en lugar de listas de personas, use en forma similar un listado de registros. Por ejemplo usted podrla rauestrear sistem&ticamentelos nombres de los empleados segĂşn un archivo y estimar la edad promedio, ingreso promedio, etcĂŠtera.

MUESTREO POR CONGLOMERADOS :STUDIO DE CASO

¿CUALESSON LAS CARACTER~STICAS DE LAS PERSONAS QUE VIVEN EN SU BARRIO?

Supóngase que una empresa quiere establecer un negocio en su barrio. ¿Cómo puede esta empresa encontrar información sobre las características de la gente que ahí vive sin realizar su propia encuesta? Una manera es consultar los datos de las estadísticas de bloques o manzanas de la Oficina de Censos de Estados Unidos. Las estadísticas de manzanas proporcionan información demográfica -tal como número total de residentes, número en ciertos grupos minoritarios, número de personas mayores de 65 anos de edad y número de dueños y arrendatarios- sobre r e giones muy pequenas que suelen concordar con las manzanas de la ciudad. Estos datos son usados por investigadores de mercados, planificadores de viviendas y transporte y asociaciones comunitarias, entre otros. La empresa que está considerandoponer un local en su barrio abastece a los que tienen una edad de 65 años o más. Entonces esta empresa quiere estimar la proporción de residentes de esta edad que viven en un área de 40 manzanas. La empresa decide muestrear 5 de las 40 manzanas y obtener los datos de las estadísticas de manzanas. Las manzanas muestreadas forman conglomerados de personas, y entonces debe utilizarse la técnica de muestre0 por conglomerados. [Este problema es una versión de un problema real a menor escala. Usualmente,el número de manzanas y el tamaño de muestra son mucho mayores.)

8 MUESTRE0 POR CONGLOMERADOS

Se recordará que el objetivo del diseño de encuestas por muestreo es obtener una cantidad especificada de información acerca de un parámetro poblacional a un costo mínimo. El muestreo aleatorio estratificado es frecuentemente más adecuado para esto que el muestreo irrestricto aleatorio, debido a los tres principios indicados en la Sección 5.1. El muestreo sistemático frecuentemente da resultados al menos tan exactos como el muestreo irrestricto aleatorio y es más fácil de llevar a cabo, según se trató en la Sección 7.1. Este capitulo introduce un cuarto diseño, muestreo por conglomerados, el cual algunas veces proporciona más información por unidad de costo que cualquier otro de los tres diseños estudiados previamente.

DEFINICION8.1 Una muestra por conglomerados es una muestra aleatonb en la cual cada unidad de muestreo es una colección, o conglomerado, de elementos. El muestreo por conglomerados es menos costoso que el muestreo aleatorio estratificado o irrestricto, si el costo por obtener un marco que liste todos los elementos poblacionales es muy alto o si el costo por obtener observaciones se incrementa con la distancia que separa los elementos. Para explicarlo, supóngase que deseamos estimar el ingreso promedio por hogar en una gran ciudad. {Cómo debemos seleccionar la muestra? Si usamos muestreo irrestricto aleatorio, se requiere un marco que liste todos los hogares (elementos) en la ciudad, y este marco puede ser muy costoso o imposible de obtener. No podemos evitar

este problema al utilizar muestreo aleatorio estratificado porque incluso se requiere un marco para cada estrato en la población. En lugar de extraer una muestra irrestricta aleatoria de elementos, podríamos dividir la ciudad en regiones tales como manzanas (o conglomerados de elementos) y seleccionar una muestra irrestncta aleatoria de ellas. Esta tarea se realiza con facilidad mediante el uso de un marco que liste todas las manzanas de la unidad. Entonces se podría medir el ingreso de cada familia dentro de cada manzana muestreada. Para ilustrar el segundo principio de la aplicación de muestreo por conglomerados, suponga que se cuenta con una lista de hogares de la ciudad. Podríamos seleccionar una muestra irrestricta aleatoria de hogares, la cual probablemente estará dispersa en toda la ciudad. El costo por realizar entrevistas en los hogares dispersos va a ser grande debido al tiempo de transporte de los entrevistadores y otros gastos relacionados. El muestreo aleatorio estratificado podría reducir estos gastos, pero el uso de muestreo por conglomerados es un método más efectivo para reducir los gastos de transporte. Los elementos dentro de un conglomerado deben estar geográficamente cerca uno de otro, y entonces los gastos de transporte se reducen. Obviamente el transporte dentro de un bloque de la ciudad sería mínimo si se comparara con el transporte asociado al muestreo irrestricto aleatorio dentro de la ciudad. Para resumir, el muestreo por conglomerados es un diseño efectivo para obtener una cantidad especificada de información al costo mínimo bajo las siguientes condiciones: 1. No se encuentra disponible o es muy costoso obtener un buen marco que liste los

elementos de la población, mientras que se puede lograr fácilmente un marco que liste los conglomerados. 2. El costo por obtener observaciones se incrementa con la distancia que separa los elementos. Las manzanas de la ciudad son usadas frecuentemente como conglomerados de hogares o de personas, porque la Oficina de Censos de Estados Unidos reporta estadísticas de manzana muy detalladas. En los datos censales una manzana puede ser una manzana de ciudad estándar o un área de forma irregular con límites políticos o geográficos identificables. Las estadísticas de manzana contienen información de todas las áreas urbanas y lugares con concentraciones de 10,000 o más personas. En total las estadísticas de manzana cubren el 77% de la población nacional. Los datos reportados para cada manzana incluyen la población total, mezcla racial y número de unidades habitacionales, y pueden incluir el valor en dólares de la propiedad, si la casa es alquilada o propia y si tiene todos los servicios de plomería. Las estadísticas de manzana de la Oficina de Censos son ampliamente usadas en muestreo por conglomerados por empresas de investigación de mercados, las cuales pueden desear estimar el mercado potencial de un producto, las ventas potenciales si se abre un nuevo almacén en el área, o el número potencial de clientes para un nuevo servicio, tal como una instalación de emergencias médicas. El gobierno estatal y local muestrean manzanas (conglomerados de unidades habitacionales o personas) a fin de planear nuevos métodos y medios de transporte y además los desarrollos habitacionales. Asimismo organizaciones comunitarias, tales como iglesias, utilizan estadísticas de manzanas para determinar sitios óptimos de ampliación. Hay muchos otros ejemplos comunes del uso de muestreo por conglomerados. Las mismas unidades habitacionales son conglomerados de personas y pueden formar

8 MUESTRE0 POR CONGLOMERADOS

unidades de muestreo convenientes al muestrear, por ejemplo, estudiantes universitarios. Los hospitales forman conglomerados convenientes de pacientes con ciertas enfermedades para estudios del tiempo promedio de hospitalización o número promedio de recurrencias de padecimientos. Otros elementos diferentes de personas son frecuentemente muestreados en conglomerados. Un automóvil forma un buen conglomerado de cuatro llantas para estudios de uso y seguridad de llantas. Un tablero de circuitos fabricado para una computadora forma un conglomerado de semiconductores para prueba. Un naranjo forma un conglomerado de naranjas para la investigación de infestación por insectos. Una parcela en el bosque contiene un conglomerado de árboles para la estimación de volúmenes de madera o proporción de árboles enfermos. Como usted puede ver, la lista de posibles conglomerados, que son unidades convenientes de muestreo, es infinita. Ahora analizaremos los detalles de la selección de una muestra por conglomerados.

8.2 COMO SELECCIONAR UNA MUESTRA POR CONGLOMERADOS La primera tarea en muestreo por conglomerados es especificar los conglomerados apropiados. Los elementos dentro de un conglomerado están frecuentemente juntos ffsicamente, por lo que tienden a presentar características similares. Dicho de otra manera, la medición en un elemento en un conglomerado puede estar altamente correlacionada con la de otro elemento. Entonces la cantidad de información acerca de un parámetro poblacional puede no incrementarse sustancialmente al tomar nuevas mediciones dentro de un conglomerado. Ya que las mediciones cuestan dinero, un experimentador podría desperdiciar presupuesto si es que selecciona un conglomerado de gran tamaño. Sin embargo pueden ocurrir situaciones en las cuales los elementos dentro de un conglomerado son muy diferentes entre sí. En tales casos una muestra que contenga pocos conglomerados grandes puede producir una estimación muy buena de un parámetro poblacional, tal como la media. Por ejemplo supóngase que los conglomerados están formados por cajas de componentes que van saliendo de una línea de producción, un conglomerado de componentes por llnea. Si todas las líneas tienen aproximadamente la misma tasa de componentes defectuosos, entonces cada conglomerado (caja) es aproximadamente tan variable con respecto a calidad como la población completa. En este caso se puede obtener un buen estimador de la proporción de productos defectuosos con base en uno o dos conglomerados. En contraste, supóngase que los distritos escolares se especifican como conglomerados de hogares para estimar la proporción de familias que apoyan un plan de rezonificación. Ya que los conglomerados contienen muchos hogares, los recursos permiten únicamente el muestreo de un número pequeño de conglomerados, dos o tres, por ejemplo. En este caso en un distrito la mayoría de las familias puede estar satisfecha con sus escuelas y no apoyar la rezonificación, mientras que en otro distrito la mayoría puede estar inconforme con sus escuelas y favorecer decididamente la rezonificación. Una muestra pequeña de distritos escolares puede no contener a uno u otro de estos grupos, produciendo por esto un estimador muy deficiente. Se puede obtener mayor información muestreando un número grande de conglomerados de menor tamaño.

8.2 CÓMO SELECCIONAR UNA MUESTRA POR CONGLOMERADOS

199

El problema de elegir un tamaño apropiado del conglomerado puede ser aún más complicado cuando se dispone de un número infinito de posibles tamaños de conglomerados, como en la selección de parcelas forestales para la estimación de la proporción de árboles enfermos. Si existe variabilidad en la densidad de árboles enfermos a lo largo y ancho del bosque, entonces muchas parcelas (conglomerados) pequeñas, localizadas aleatoria o sistemáticamente, pueden ser lo deseable. Sin embargo, localizar aleatoriamente una parcela en el bosque consume mucho tiempo, y una vez localizada, el muestreo de muchos árboles es económicamente conveniente. Entonces muchas parcelas pequeñas son ventajosas para controlar la variabilidad, pero pocas parcelas grandes son económicamente recomendables. Se debe encontrar un equilibrio entre el número y tamaño de las parcelas. No existen buenas reglas que funcionen siempre para tomar esta decisión. Cada problema debe ser estudiado separadamente; pero las encuestas piloto pueden ayudar al experimentador a encontrar la dirección correcta. Nótese la principal diferencia entre la construcción óptima de estratos (Capftulo 5) y la construcción de los conglomerados. Los estratos deben ser tan homogéneos (semejantes) entre ellos, como sea posible, pero un estrato debe diferir tanto como sea posible de otro con respecto a la característica que está siendo medida. Los conglomerados, por otro lado, deben ser tan heterogéneos (diferentes) entre ellos como sea posible, y un conglomerado debe ser muy similar a otro para poder aprovechar las ventajas económicas del muestreo por conglomerados. Una vez que los conglomerados han sido especificados se debe conformar un marco que liste todos los conglomerados de la población. Entonces se selecciona una muestra irrestricta aleatona de conglomerados de este marco mediante el uso de los métodos de la Sección 4.2. Se ilustra con el siguiente ejemplo.

Un sociólogo quiere estimar el ingreso promedio por persona en cierta ciudad pequeña. No existe una lista disponible de adultos residentes. {Cómose debe diseñar la encuesta por muestreo?

El muestreo por conglomerados parece ser la elección lógica para el diseño de la encuesta porque no se encuentrg disponible una lista de elementos. La ciudad es dividida en bloques rectangulares, excepto las dos áreas industriales y los tres parques que contienen pocas casas. El sociólogo decide que cada bloque de la ciudad va a ser considerado como un conglomerado, las dos áreas industriales van a ser consideradas como otro, y, finalmente, los tres parques van a considerarse un conglomerado más. Los conglomerados son numerados sobre un mapa de la ciudad, con los números del 1 al 415. El experimentador tiene tiempo y dinero suficientes para muestrear n = 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Entonces se seleccjsnan 25 números aleatorios entre 1 y 415 de la Tabla 2 del Apéndice, y los conglomerados con esos números son marcados en el mapa. Después se asignan los entrevistadores a cada uno de los conglomerados seleccionados.

200

8 MUESTRE0 POR CONGLOMERADOS

8.3 ESTIMACION

DE UNA MEDIA Y UN TOTAL POBLACIONALES El muestreo por conglomerados es muestreo irrestricto aleatorio con cada unidad de muestreo conteniendo un número de elementos. Por esto los estimadores de la media poblacional p y el total r son similares a los de muestreo irrestricto aleatorio. En particular la media muestral y es un buen estimador de la media poblacional p . En esta sección se estudian un estimador de p y dos estimadores de r . En este capitulo se utiliza la siguiente notación:

N = número de conglome~adosen la población n = número de conglomerados seleccionados en una muestra irrestricta aleatoria mi = número de elementos en el conglomerado i, i = 1, ..., N 1 "

1 m, = tamaño promedio del conglomerado en la muestra

6 =n

i=l

M =

m, = número de elementos en la población i=l

M M =- = tamaño promedio del conglomerado en la población

yi = total de todas las observaciones en el i-ésimo conglomerado El estimador de la media poblacional p es la media muestral y, la cual es dada por

Entonces la media f toma la forma de un estimador de razón, como se ha desarrollado en el Capftulo 6, con mi tomando el lugar de xi. Entonces la varianza estimada de toma la forma de la varianza de un estimador de razón, dada por la Ecuación(6.2).

Estimador de la media poblacional p :

Variariza estimada de

8.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONALES

201

L0mite para el error de estimación

Aquí

puede ser estimado por ñr si se desconoce M.

La varianza estimada en la Ecuación (8.2) es sesgada y seria un buen estimador de V(f) únicamente si n fuera grande, digamos n 2 20. El sesgo desaparece cuando los tamaños de los conglomerados m,, m,, . . . , m, son iguales. Vamos a ilustrar el uso de la fórmula con un ejemplo.

Se realizan entrevistas en cada uno de los 25 bloques muestreados en el Ejemplo 8.1. Los datos sobre ingresos se presentan en la Tabla 8.1. Use los datos para estimar el ingreso promedio por persona en la ciudad y establezca un límite para el error de estimación.

TABLA 8.1

ingreso p o r persona

Conglomc Número de rado residentes,

Ingreiio total por Conglomeconglomerado rado Yi

El mejor estimador de la media poblacional la como sigue:

Número de residentes

Ingre*, total por conglomerado

es dado por la Ecuación (8.1) y se calcu-

202

8 MUESTRE0 POR CONGLOMERADOS

Para calcular V(T), necesitamos las siguientes cantidades:

La siguiente igualdad es f谩cilmente establecida:

Sustituyendo en esta ecuaci贸n los datos de la Tabla 8.1 se tiene

Ya que M es desconocido, la por 6,donde

:Mque aparece en la Ecuaci贸n (8.2) debe ser estimada

El Ejemplo 8.1 nos da N = 415. Entonces de la Ecuaci贸n (8.2)

8 3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBLACIONALES

203

Entonces la estimación de p con un límite para el error de estimación, es dada por

y & 2J;(Y),

o sea

8801 f 24653,785,

o sea

8801 f 1617

La mejor estimación del ingreso promedio por persona es $8801, y el error de estimación debe ser menor que $ 1617 con una probabilidad cercana a 0.95. Fste lfmite para el error de estimación es bastante grande; podría ser reducido mediante el muestreo de más conglomerados y, consecuentemente, incrementando el tamaño de muestra.

El total poblacional T es ahora Mfi porque M denota el número total de elementos en la población. Por ende, como en muestreo irrestricto aleatorio, M? prok porciona un estimador de T. b

Estimador del total poblacional T:

MY= M+

i=l

Varianza estimada de M y :

L'unite para el error de estimación:

Nótese que el estimador MYes útil únicamente si se conoce el número de elementos M en la población.

Utilice los datos de la Tabla 8.1 para estimar el ingreso total de todos lo residentes de la ciudad, y ponga un límite para el error de estimación: Existen 2500 residentes en la ciudad.

La media muestra1 7 se calcula de $ 8801 en el Ejemplo 8.2. Entonces la estimación de T es M y = 2500(8801) = $22,002,500

204

8 MUESTRE0 POR CONGLOMERADOS A

La cantidad V ( i )se calcula con el método usado en el Ejemplo 8.2, excepto que M ahora puede ser usado en lugar de i i . La estimación de T con un límite para el error de estimación es

De nuevo este límite para el error de estimación es grande, y podría ser reducido incrementando el tamaño de muestra.

Frecuentemente el número de elementos en la población no es conocido en problemas donde el muestre0 por conglomerados es apropiado. Entonces no podemos, usar el estimador MY, pero podemos formar otro estimador del total poblacional que no depende de M. La cantidad Y,, dada por

es el promedio de los totales de conglomerados para los n conglomerados muestreados. Es por esto que yt es un estimador insesgado del promedio de los N totales de conglomerados en la población. Por el mismo razonamiento empleado en el Capítulo 4,1Nft es un estimador insesgado de la suma de los totales de conglomerados o, equivalentemente, del total poblacional T. Por ejemplo es altamente improbable que se conozca el número de adultos varones en una ciudad, por lo que el estimador NY,tendrá que ser usado en lugar de M? para estimar T. Estimador del total poblacional

el cual no depende de M:

Varianza estimada de N?:

Límite para el error de estimación:

Si existe una gran cantidad de variación entre los tamaños de los conglomerados y si los tamaiios están altamente correlacionados con los totales de conglomerados, la

8 3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL POBKONALES

205

varianza de Nft [Ecuación (8.9)] es generalmente mayor que la varianza de MF [Ecuación (8.5)]. El estimador NFt no usa la información proporcionada por los tamaños de los conglomerados m m,, . . , m- y por esto puede ser menos preciso

Use los datos de la Tabla 8.1 para estimar el ingreso total de todos los residentes de la ciudad si M no es conocido. Establezca un límite para el error de estimación.

El Ejemplo 8.1 nos da N = 415. De la Ecuación (8.8) y la Tabla 8.1, la estimación del ingreso total T es

Esta cantidad es bastante similar a la estimación dada en el Ejemplo 8.3. Para fijar un límite al error de estimación, primero calculamos

Entonces la estimación del ingreso total de todos los residentes de la ciudad, con un límite para el error de estimación, es

NTt

* 2-

Sustituyendo en la Ecuación (8.10), calculamos 1

22,061,400 *3,505,920 El límite para el error de estimación es levemente más pequeño que el límite para el estimador MF (Ejemplo 8.3), debido parcialmente a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo. En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de conglomerados; por lo que el estimador insesgado Nyt parece ser mejor que el estimador MF.

Los estimadores de p y T poseen propiedades especiales cuando todos los tamaños = mN). Primero, el estimador de conglomerados son iguales (esto es, m, = m2 =

206

8 MUESTREO POR CONGLOMERADOS

y, dado por la Ecuación (8.1), es insesgado de la media poblacional ¡.L. Segundo, V(ji), dado por la Ecuación (8.2), es un estimador insesgado de la varianza de y. Final· mente, los dos estimadores, My y Ny" del total poblacional T son equivalentes. EJEMPLO 8.5 El gerente de circulaci6n de un periódico desea estimar el número promedio de ejemplares comprados por familia en determinada comunidad. Los costos de transporte de un hogar a otro son sustanciales. Es por eso que se listan los 4,000 hogares de la comunidad en 400 conglomerados geográficos de 10 hogares cada uno, y se selecciona una muestra irrestricta aleatoria de 4 conglomerados. Se realizan las entrevistas con los resultados que se muestran en la tabla anexa. Estime el número promedio de periódicos por hogar en la comunidad y establezca un lfmite para el error de estimación.

1 1 2 1

1 2

3 4

Total

Número de periódicos

Conglomerado 2

1 2 1

3 2 1 2

3 3

2 1

1 1

3 5

2 1

1 1 2

1 1 3 3

1 2 1 1

19 20 16 20

SOLUCION De la Ecuación (8.1) n _

;=1

Y=-n-

i=1

Cuando mi = m2 = ... = mn = m, la ecuación toma la forma n _ i~1 Yi 19 y =--=

+ 20 + 16 + 20

4(10)

= 1.875

También puede mostrarse que n

(Yi - ym¡)2 =

i=1

L ;=1

Y~ - 2y

y¡m¡

+ y2 L

i=1

;=1

~ 2 2-2 = '- Y¡ - nm y

i=1

Sustituyendo, obtenemos n

(Yi -

ymi =

(19)2

+ (20)2 + (16)2 + (20)2 -

i=1

= 10.75

4(10)2(1.875)2

ESTIMACIÓN DE MEDIAS Y TOTALES POBLAClOI\JALES

207

Entonces de la Ecuación (8.2), m

.. _ = V(y)

(N - n) ¡~I (y¡ NnM 2

fm¡)2 n- 1

= (400 -

4)(10.75) 400(4)(10)2(3)

= O 0089 .

Por lo tanto el mejor estimador del número promedi() de periódicos por familia, con un limite para el error de estimación, es

± 2JV(f),

o sea

1.88 ± 2JO.0089,

o sea

1.88 ± 0.19

De modo que la mejor estimación del número promedio de periódicos por hogar es 1.88, con una probabilidad alta de que el límite del error de estimación sea menor que 0.19.

8.4

SELECCiÓN DEL TAMAÑO DE MUESTRA PARA LA ESTIMACiÓN DE MEDIAS Y TOTALES POBLACIONALES La cantidad de información en una muestra por conglomerados es afectada por dos factores, el número y el tamaño relativo de los conglomerados. No se ha presentado el último factor en ninguno de los procedimientos de muestreo ya analizados. En el problema de estimación del número de casas en un estado, con un seguro contra incendios inadecuado, el conglomerado puede ser un municipio, distritos de votación, distritos escolares, comunidades, o cualquier otro agrupamiento conveniente de casas. Como ya hemos visto, el tamaño del limite para el error de estimación depende crucialmente de la variación entre los totales de conglomerados. Entonces, al intentar obtener lfmites pequeños para el error de estimación, debemos seleccionar conglomerados con la menctr variación posible entre estos totales. Ahora vamos a suponer que el tamaño del conglomerado (unidad de muestreo) ha sido elegido y vamos a considerar únicamente el problema de seleccionar el número de conglomerados, n. De la Ecuación (8.2), la varianza estimada de f es

donde La varianza real de

52 e

L (y¡ -

fm¡)2

_¡=_I

n-l

(8.11)

y es aproximadamente V(f) =

N-n

---=z (CT~) NnM

donde u~ es la cantidad poblacional estimada por 5~.

(8.12)

208

8 MUESTREO POR CONGLOMERADOS

Debido a que no conocemos CT~ o el tamaño promedio M del conglomerado, la elecci6n del tamaño de muestra, esto es, el número de conglomerados necesario para comprar una cantidad especificada de información concerniente a un parámetro poblacional, es complicada. Eliminamos esta dificultad utilizando el mismo método usado para la estimación de razón. Esto es, usamos un estimador de CT~ y M disponibles de una encuesta previa, o seleccionamos una muestra preliminar de n' elementos. Las estimaciones de f7~ y M pueden calcularse de la muestra preliminar y utilizarse para obtener un tamaño de muestra total aproximado n. Entonces, como en todos los problemas de selección de un tamaño de muestra, igualamos dos desviaciones estándar de nuestro estimador, con un limite para el error de estimación B. Este limite es elegido por el experimentador y representa el máximo error que desee tolerar. Esto es

2.JV(j) = B Usando la Ecuación (8.12), podemos despejar n. Obtenemos resultados similares cuando usamos 2 cional 'r, porque V(My) = M V(Y).

Tamaño de muestra aproximado requerido para estimar error de estimación: n=:

para estimar el total pobla-

¡.L

con un límite B para el

Nf7~ ----=--

(8.13)

ND+u~

donde CT~ es estimado por s ~ y

EJEMPLO 8.6 Supóngase que los datos de la Tabla 8.1 representan una muestra preliminar de ingresos en la ciudad. ¿Qué tan grande debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona JL con un límite de $500 para el error de estimación?

SOLUCION Para utilizar la Ecuación (8.13), debemos estimar CT~; el mejor estimador disponible es s~, el cual puede ser calculado mediante el uso de los datos de la Tabla 8.1. Usando los cálculos del Ejemplo 8.2, tenemos

¿" 2 Se

(y¡ -

Ym;/.

;=1

n_ 1

15,227,502,247 24

= 634,479,260

84 ESTIMACIÓN DE MEDIAS YTOTALES POBLAClONhES

209

La cantidad.M puede ser estimada por m= 6.04 calculada con los datos de la Tabla 8.1. Entonces D es aproximadamente B

m = (500)2(6.04)2 = (62,500)(6.04)2

Usando la Ecuación (8.13) tenemos

No"~

+ o"~

415(634,479,260) = 166.58 415(6.04)2(62,500) + 634,479,260

Entonces se deben muestrear 167 conglomerados. Tamaño de muestra aproximado requerido para estimar '1, usando Mj, con un límite B para el error de estimación: No"~

(8.14)

n=--~-=

+ o"~

donde o"~ es estimada por s~ y

EJEMPLO 8.7 Usando nuevamente los datos de la Tabla 8.1 como una muestra preliminar de ingresos en la ciudad, señale ¿qué tan grande se necesita una muestra para estimar el ingreso total de todos los residentes, 'T, con un limite de $1,000,000 para el error de estimación? Hay 2500 residentes en la ciudad (M == 2500) .

SOLUCION Usamos la Ecuación (8.14) y estimamos

0"; mediante

s~ = 634,479,260

como en el Ejemplo 8.6. Cuando estimamos

usamos

B (1,000,000)2 =-= -'----~ 2 4N

ND =

4(415)2

(1 000000)2 "

4(415)

= 602 "409 000

Entonces, usando la Ecuación (8.14) nos da

No"~

.ND

+ 0";

415(634,479,260) 602,409,000 + 634,479,260

= 212.88

Luego se deben muestrear 213 conglomerados para estimar el ingreso total con un limite de $1,000,000 para el error de estimación.

210

8 MUESTREO POR CONGLOMERADOS

El estimador Ny" que se muestra en la Ecuación (8.8), se usa para estimar T cuando M es des<;onocido. La varianza estimada de Ny, que se muestra en la Ecuación (8.9), es

V(Ny,) = N

(N¡:¡;;- n) s;

donde

V(Ny,)

yi _

(8.15)

n- 1

Entonces la varianza poblacional de

(Yi -

_i=_1

Ny,

= N 2 V(y,) = N 2 ( NN~

n)u;

(8.16)

s;.

donde es la cantidad poblacional estimada por La estimación de T con un límite de B unidades para el error de estimación nos lleva a la siguiente ecuación:

Usando la Ecuación (8.16), podemos despejar n. Tamaño de muestra aproximado requerido para estimar límite B para el error de estimación:

usando

Nu;

n=--"":""--

ND+u;

donde

Ny,

con un

(8.17)

u; se estima mediante s;. y

E~IEMPlO 8.8 Supóngase que los datos de la Tabla 8.1 provienen de un estudio preliminar de ingre. sos en la ciudad y que no se conoce M. ¿Qué tan grande se debe tomar la muestra para estimar el ingreso total de todos los residentes, T, con un limite de $1,000,000 para el error de estimación?

SOLUCiÓN

s;,

La cantidad debe ser estimada por que se calcula con los datos de la Tabla 8.1. Usando los cálculos del Ejemplo 8.4 nos da n

I S2 1

(Yi -

i=1

n -

= 11,389,360,000 = 474,556,667

8.5 ESTIMACI~N DE UNA PROPORCI~N POBlAClONAL

241

El limite para el error de estimación es B = $1,000,000. Por lo que

De la Ecuación (8.17)

Entonces se debe tomar una muestra de 185 conglomerados para tener un límite de $1,000,000 en el error de estimación.

8.5 ESTIMACIONDE UNA PROPORCION Supóngase que un experimentador desea estimar una proporción pÓblaciona1, o fracción, tal como la proporción de casas en un estado con inadecuado servicio de plomería, o la proporción de presidentes de corporacibn que son universitarios graduados. El mejor estimador de la proporción poblacional # es la proporción muestra1 p. Sea ai el número total de elementos en el conglomerado i que poseen la característica de intere. Entonces, la proporción de elementos en la muestra de n conglomerados que poseen la característica de interés es dada por

donde mi es el número de elementos en el i-ésimoconglomerado, i = 1,2, . , n. N6tese que p^ tiene la misma forma de y [véase Ecuación (8.1)], excepto que yi es reemplazado por a,. La varianza estimada de es similar a la de y'. Estimador de la proporción poblacional p:

Varianza estimada de p:

212

8 MUESTRE0 POR CONGLOMERADOS

f L'mite para el error de cstimacióa:

La fórmula de varianza (8.19), es un buen estimador únicamente cuando la muestra de tamaño n es grande, digamAosn 2 20. Si m, = m, = =m , entonces p es un estimador insesgado de p, y la v$),que se muestra en la Ecuación (8.19) es un estimador insesgado de la varianza real de $ para cualquier tamaño de muestra.

Además de la pregunta sobre su ingreso, se interroga a los residentes, &ela encuesta muestral del Ejemplo 8.2, acerca de si son dueños o alquilan la casa donde viven. Los resultados se presentan en la Tabla 8.2. Utilice los datos de la tabla 8.2 para estimar la proporción de residentes que viven en casas de alquiler. Establezca un limite para el error de estimación.

TABLA 8.2

Número de arrendatarios

Conglomaado

Conglomerado

Nfimem de niidenta

Niimero de arrendatarios

8.6 SELECCI~IV DEL TAMAÑODE MUESTRA PARA LA ESTIMACONDE PROPORCIONES

243

El mejor estimador de la proporción poblacional de arrendatarios es i,que se muestra en la Ecuación (8.18), donde

Para estimar la varianza de $, debemos calcular

y de la Tabla 8.2

La cantidad

M es estimada por tñ, donde

Entonces, de la Ecuación (8.19),

La estimación de p con un lfmite para el error de estirnaci6n es

$ * 24%,

o sea

0.48

* 2=,

o sea

C1.48 f 0.05

Entonces la mejor estimación de la proporción de personas que alquilan casa es 0.48. El error de estimación debe ser menor que 0.05 con probabilidad de aproximadamente 0.95.

8.6 SELECCI~N DEL TAMANO DE MUESTRA PARA LA ESTIMACIÓN DE PROPORCIONES La estimación de la proporción poblacional p, con un límite de B unidades para el error de estimacibn, implica que el experimentador quiere

8 MUESTRE0 POR CONGLOMERADOS

Esta ecuación puede ser resuelta para n, y la solución es similar a la Ecuación (8.13). Esto es

donde D = 8'M2/4, y

se estima por

La Ecuación (8.21) es la misma que la (8.11) con yi reemplazada por ai y

i por P.

Los datos en la Tabla 8.2 son obsoletos. Se va a realizar un nuevo estudio en la misma ciudad con el propósito de estimar la proporción p de residentes que alquilan la casa en que viven. ¿Qué tan grande se debe tomar la muestra para estimar p, con un limite de 0.04 en el error de estimación?

El mejor estimador de a: es

La cantidad

S:,

el cual es calculado usando los datos de la Tabla 8.2:

fi es estimada por fi = 6.04. También D es aproximada por

Entonces De modo que se deben muestrear 34 conglomerados para estimar p, con un límite de 0.04 para el error de estimación.

8.7 MUESTREO POR CONGLOMERADOS COMBINADO CON ESTRATIFICACI~N l

Asi como en el caso de todos los demás metodos de muestreo, el muestreo por conglomerados puede ser combinado con muestreo estratificado, con objeto de que la pobla-

8.7 MUESTRE0 POR CONGLOMERADOS COMBINADO CON ESTRATIFICACION

215

ci6n pueda ser dividida en L estratos y se pueda seleccionar entonces una muestra por conglomerados en cada estrato. Recuérdese que la Ecuación (8.1) tiene la forma de un estimador de razón y puede ser considerada como la razón de un estimador del promedio de totalés de conglomerados, con respecto al estimador del tamaño promedio de conglomerados. Entonces, pensando en ttrminos de un estimador de razón, tenemos dos modos para formar el estimador de una media poblacional a través de los estratos: el estimador separado y el estimador combinado. Un poco de investigación nos mostrará que si se emplea el estimador separado, se debe conocer el número total de elementos en cada estrato para poder asignar las ponderaciones adecuadas por estrato. Ya que estas cantidades son comúnmente desconocidas, únicamente analizaremos la forma combinada , del estimador de razón en el contexto de muestre0 por conglomerados. En lugar de presentar fórmulas generales que parezcan formidables, vamos a ilustrar la técnica con un ejemplo numtrico.

Consideremos los datos de la Tabla 8.1 como la muestra del estrato 1, con N, = 415 y n, = 25, como en el Ejemplo 8.2. Se toma una ciudad vecina más pequeña como el estrato 2. Para el estrato 2, n, = 10 bloques se van a muestrear de N, = 168. Estime el ingreso promedio por persona en las dos ciudades combinadas, y establezca un límite para el error de estimación, dados los datos adicionales que se muestran en la tabla anexa.

Conglomerado

i 1 2 3 4 5 6

7 8 9 1o

Número de residentes, mi

2 5 7 4 3 8 6 10 3 1

Ingrem total por conglomerado,

Yi $

18,000 52,000 68,000 36,000 45,000 96,000 64,000 115,000 41,000 12,000

Y,,

El promedio de los totales de conglomerados en las respectivas muestras son = 53,160y ytz = 54,700.El promedio de los tamaños de los conglomerados en las respectivas muestras es 61= 6.04 y 6,= 4.90. El estimador del promedio poblacional del total por conglomerado es entonces

216

8 MUESTRE0 PGi? CONGLOMERADOS

mientras que el estimador del promedio del tamaño de conglomerados es

Un estimador de la media poblacional por elemento es entonces

y esta ecuación tiene la forma de un estimador de razón combinada. Análogamente a la varianza usada en la Sección 6.6, la varianza de y'* puede ser estimada por

nl(nl

- 1)

[(y,

i = ~

- Y,,) - p(rni- rñl)12

donde M es el número total de elementos en la población y puede sersestimado por N , 6, N2ñiz si no es conocido. La primera suma en la expresión de la varianza es sobre todas las observaciones de la muestra en el estrato 1, y la segunda suma es sobre todas las observaciones del estrato 2. Para los datas presentados en la tabla,

Para el estrato 1

y para el estrato 2

Ya que

N,tñ,

+ NZG2= 3329.8

por lo que

Y Entonces, el ingreso promedio por persana para las dos ciudades combinadas es

Vemos que el límite para el error de estimación es un poco más pequeño que el lfmite para el estrato 1, como se encontró en el Ejemplo 8.2.

8.8 MUESTRE0 POR CONGLOMERADOS CON PROBABILIDADES PROPORCIONALES AL TAMAÑO

217

8.8 MUES~REO POR CONGLOMERADOS CON PROBABILIDADES PROPORCIONALES AL TAMAÑO En la Sección 4.6 vimos que algunas veces es posible reducir la varianza de un estimador mediante el muestreo de unidades con probabilidades proporcionales a una medida del tamaño de la unidad. El muestreo por conglomerados suele proporcionar una situación ideal para el uso de muestreo con ppt, ya que el número de elementos en un conglomerado, m,,. representa una medida natural del tamaño del conglomerado. El muestreo con probabilidades proporaonales a mi paga grandes dividendos en términos de la reducción del limite para el error de estimación, cuando el total del conglomerado yi está altamente correlacionado con el número de elementos en el conglomerado, lo cual ocurre frecuentemente. En la notación de la sección 4.6, sean;. la probabilidad de que la i-ésima unidad de muestreo aparezca en la muestra, la cual es dada por

Entonces, el estimador de un total poblacional

Gp,, toma la forma [vease la Ecuacidn

(4.2~1

donde fi es el piomedio de las observaciones en el i-ésimo conglomerado. La varianza estimada de e,, tiene una forma particularmente simple, como se verá después. Ya que ahora hay M elementos en la población, el estimador de la media poblacional, es simplemente

kppt,

La varianza estimada de Ppp<es también fácil de calcular Estimador de la media poblacional p :

donde

fi es la media del i-ésimo conglomerado.

Varianza estimada de

L'hite para el error de estimación:

218

8 MUESTRE0 POR CONGLOMERADOS

Estimador del total poblacional T:

Varianza estimada de

Límite para el error de estimación:

Ahora ilustramos la técnica de muestreo con probabilidades proporcionales al tamaíio de los conglomerados y el uso de las fórmulas -ya presentadas- en los siguientes ejemplos.

Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa, para estimar el número promedio de días de ausencia por enfermedad por empleado en el cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes números de empleados por división. Ya que el número de días de ausencia por enfermedad dentro de cada división debe estar altamente correlacionado con el número de empleados, el auditor decide muestrear n = 3 divisiones con probabilidad proporcional al número de empleados. Muestre cómo seleccionar la muestra si los respectivos números de empleados son 1200, 450, 2100, 860, 2840, 1910, 290, 3200.

Primero listamos el número de empleados y el intervalo acumulado para cada división, como sigue:

Divinbn

Número de cmplcadoe

Intervalo aeumulpdo

8.8 MUESTRE0 POR CONGLOMERADOS CON PROBABILIDADES PROPORCIONALES AL TAMANO

219

Ya que se van a muestrear n = 3 divisiones, debemos seleccionar tres números aleator i o ~entre O0001 y 12,500. Podemos hacer esta selección empezando en cualquier lu. gar de la tabla de números aleatorios y seleccionando números de cinco digitos, pero nosotros elegimos empezar en la línea 1, columna 4 de la Tabla 2 del ApCndice. Los primeros tres números entre O0001 y 12,950 que aparecen al dirigirnos hacia abajo en la columna son, 02011, 07972, y 10281. El primero aparece en el intervalo acumulado de la división 3, el segundo aparece en el intervalo de la división 6 y el tercero aparece en el intervalo de la división 8. Entonces las divisiones 3, 6 y 8 constituyen la muestra. (Nótese que una división puede ser seleccionada más de una vez. En tal caso el dato resultante se trata como dos valores muestrales separados pero iguales.)

Supóngase que el número total de dias de ausencia por enfermedad registrados en las tres divisiones muestreadas durante el cuatrimestre pasado son, respectivamente,

Estime el número promedio de días de ausencia por enfermedad requeridos por persona, de toda la empresa, y establezca un límite para el error de estimación.

Primero debemos calcular las medias de los conglomerados muestreados, las cuales son

(Nótese que los números de empleados para los conglomerados muestreados provienen de los datos del Ejemplo 8.12) Ahora por la Ecuación (8.23)

TambiCn, por la Ecuación (8.24)

Entonces el límite para el error de estimación es

8 MUESTRE0 POR CONGLOMERADOS

Nuestra estimación del número promedio de días de ausencia por enfermedad utilizados por los empleados de la empresa es

Ahora tenemos tres estimadores del total poblacional en muestreo por conglomerados: el estimador de raz6n (8.4), el estimador insesgado (8.8) y el estimador ppt (8.26). ¿Cómosabemos cuál es el mejor? Ahora presentamos algunas pautas acerca de cómo contestar esta pregunta: si y, no está correlacionado con mi,entonces el estimador insesgado es mejor que cualquiera de los otros dos. Si yi está correlacionado con m,,entonces el estimador de razón y el ppt son más precisos que el estimador insesgado. El estimador ppt es mejor que el estimador de razón si la variación dentro del conglomerado no cambia con un sesgo en m,.El estimador de razón es mejor que el estimador ppt si la variación dentro del conglomerado se incrementa con el aumento en m,. En los Ejemplos 8.12 y 8.13, el número de días de ausencia por enfermedad utilizados debe incrementar* con el número de empleados. Entonces, el estimador insesgado es aquí una elección ineficaz. Pero la variación de días de ausencia por enfermedad dentro de las divisiones puede permanecer relativamente constante a través de las divisiones. En tal caso, el estimador ppt es la mejor elección.

Este capftulo introduce un tercer diseño de encuestas por muestreo. En este diseño cada unidad de muestreo es un grupo, o conglomerado de elementos. El muestreo por conglomerados puede proporcionar la máxima información al mínimo costo cuando no se tiene un marco que liste los elementos de la población o cuando el costo por obtener observaciones se incrementa con la distancia entre los elementos. dada por la El estimador de la media poblacional p es la media muestral Ecuación (8.1). La varianza estimada de es dada por la Ecuación (8.2). Se presentan dos estimadores del total poblacional con'sus respectivas varianzas estimadas. Se presenta el estimador M? en la Ecuación (8.4); el cual se usa cuando se conoce el número de elementos M en la población. El estimador NY,[véase la Ecuación (8.811 se usa cuando no se conoce M. En la Sección 8.4 se estudió un tamaño de muestra apropiado para estimar p O T con un límite especificado para el error de estimación. En muestreo por conglomerados el estimador de una proporción poblacional p es la proporción muestral dada por la Ecuación (8.18). La varianza estimada de se presenta en la Ecuación (8.19). El problema de la selección de un tamaño de muestra para estimar una proporción es similar al problema de la estimación de una media. El muestreo por conglomerados se puede usar también dentro de los estratos en una población estratificada, y se presentó un ejemplo en la Sección 8.7.

EJERCICIOS

ANALIS~S DEL ESTUDIO DE CASO I

PROBLEMA DE W CARACTER¡STICAS DEL BARRIO Al principio de este capítulo se sugirió el uso de los datos de la Oficina de Censos sobre estadísticas de manzana para estimar la proporción de residentes con una edad mayor o igual a 65 anos en un área de 40 manzanas. Las n = 5 manzanas fueron muestreadas aleatoriamente de las 40 y se obtuvieron los siguientes datos: Número de residentes, m,

Personas con 65 anos o más. a,

@m,

a, -

m, (a, - @m,)'

Así que la mejor estimación de la p~oporción de personas con edad igual o mayor a 65 anos es 0.24. El límite wra el error de estimación es

Entonces la estimación de la Proporciónverdadera para el área de 40 manzanas es 0.24 0.08 o bien 0.16a 0.32.Tenemos confianza en que más del 16% de los residentes tiene una edad igual o mayor a 65 anos.

8.1

Una experimentadora que trabaja en un área urbana desea estimar el valor promedio de una variable altamente correlacionada con raza. Ella piensa que debe usar muestre0 por conglomerados, con manzanas como conglomentdos y adultos dentro de rnanrrinas como elementos.

8 MUESTRE0 POR CONGLOMERADOS

8.2

Explique por qué se debería o no usar muestreo por conglomerados en cada una de las siguientes situaciones. (a) La mayoría de los adultos en ciertas manzanas son blancos y la mayoría son no blancos en otras manzanas. (b) La proporción de no blancos es la misma en cada bloque y no está cercana a 1 o a O. (c) La proporción de no blancos difiere de manzana a manzana en la manera que se podría esperar si los conglomerados fueran hechos asignando aleatoriamente los adultos de la población a los conglomerados. Un fabricante de sierras de cinta quiere estimar el costo de reparación promedio mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra irrestricta aleatoria de n = 20 de N = 96 industriae a las que da servicio. Los datos sobre costo total de reparaciones por industria y el número de sierras por industria se presentan en la tabla anexa. Estime el costo promedio de reparación por sierra para el mes pasado, y establezca un límite para el error de estimación.

Industria

8.5

Número de aierrn

Costo total de reparación para el mes pasado (en dólares)

N 6 m m de

Industria

m -

Costo total de reparación para el mes pasado (en dólares)

Para los datos en el Ejercicio 8.2, estime la cantidad total gastada por las 96 industrias en la reparación de sierras. Establezca un límite para el error de estimación. Después de verificar sus registros de ventas, el fabricante del Ejercicio 8.2 se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada en reparación de sierras por estas industrias, y establezca un límite para el error de estimaci6n. El mismo fabricante (Ejercicio 8.2) quiere estimar el costo de reparación promedio por sierra para el mes siguiente. {Cuántos conglomerados debe seleccionar en la muestra si quiere que el límite para el error de estimación sea menor que $2.001 Un politólogo desarrolla una prueba para medir el grado de conocimiento sobre acontecimientos actuales. Él quiere estimar la calificación promedio que obtendrán en su prueba todos los estudiantes de una escuela preparatoria. La administración de la escuela no le permitirá seleccionar aleatoriamente a los estudiantes fuera de clases, pero sí interrumpir un pequeño número de clases con el propósito de aplicar la prueba a cada miembro de la clase. Entonces el experimentador selecciona al azar 25 clases de un total de 108 a una hora detenninada. Se aplica la prueba a cada miembro de las clase8 muestreadas, con los resultados que se presentan en la tabla anexa.

EJERCICIOS

223

Estime la calificación promedio que sería obtenida para esta prueba por todos los estudiantes en la escuela. Establezca un límite para el error de estimación.

Clase

8.7

8.8

CPlifiuCióntotal

Clane

Nbmm,de atudianta

Calificaci6ntorpl

El politólogo del Ejercicio 8.6 quiere estimar la calificación promedio en la prueba para una escuela preparatoria similar. É1quiere que el límite para el error de estimación sea menor que 2 puntos. (Cuántas clases debe tomar en la muestra?Supóngase que la escuela tiene 100 clases durante cada hora en este periodo escolar. Una industria esta considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consiste de 87 plantas separadas localizadas en todo Estados Unidas. Ya que l a resultados deben ser obtenidos rspidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatona de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. i m resultados se presentan en la tabla anexa. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un iímite para el error de estimación.

Planta

8.9

Número de atudianta

Númem de empleada

NGmero de empienda que apoyan la nueva política

Pianta

Número de empicab

Númcm de empleada que a m a n l nueva @ti-

La industria del Ejercicio 8.8 modificó su polltica de jubilación despues de obtener ios resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la polftica modificada. (Cuántas plantas deben ser muestreadas para tener un límite de 0.08 para el error de estimación? Use los datos del Ejercicio 8.8 para aproximar los resultados de la nueva encuesta.

8 MLIESTREO POR CONGLOMERADOS 8.10

Se diseña una encuesta económica para estimar la cantidad promedio gastada en servicios para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se selecciona una muestra aleatoria de 20 bamos de la ciudad de un total de 60. Los entrevistadores obtienen el costo de los servicios de cada hogar dentro de los bamos seleccionados; los costos totales se muestran en la tabla anexa. Estime la cantidad promedio de gastos en servicios por hogar en la ciudad y establezca un lfmite para el error de estimación.

Barrio muesmado

$.11

8.12

8.1

Número de hogares

Cantidad total p m d a en servicior

Barrio muaueado

Número de hogares

Cantidad total gastadammicim

En la encuesta del Ejercicio 8.10 se desconoce el número de hogares en la ciudad. Estime la cantidad tata1 gástada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. La -eta económica del Ejercicio 8.10 se va a llevar a cabo en una ciudad vecina de estructura similar. El objetivo es estimar la cantidad total gastada m servicios por los hogares de la ciudad, con un Umite de $5000 para el m o r de estimación. Use los datos del Ejercicio 8.10 para encontrar el número aproximado de conglomerados que se necesitan para obtener este límite. Un inspector quiere estimar el peso promedio de llenado para cajas de cereal empacadas en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector selecciona aleatonamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los resultados (en onzas) que se muestran en la tabla acompañante. Estime el peso promedio de llenado para las cajas empacadas por esta fábrica, y establezca un límite para el error desestimación. Suponga que el número total de cajas empacadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la correcci6n por población finita.

Paquete

Onzas de llenado

EJERCICIOS 8.14

Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato, candidato A, en una elección estatal. Ya que la selección y entrevista de una muestra irrestricta aleatona de votantes registrados es muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una muestra irrestricta aleatoria de 50 distritos de un total de 497 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en la tabla acompañante. Estime la proporción de votantes que apoyan al candidato A, y establezca un lfmite para el error de estimación.

Número de votanres

8.15

8.16

225

Número que vota por A

Número de votantu

Número que -por A

Nihero de votantu

Nlque 4>uporA

El periódico del Ejercicio 8.14 quiere realizar una encuesta similar durante la siguiente elección. {Qué tan grande se necesitará la muestra para estimar la proporción de votantes que favorecen un candidato similar, con un límite de 0.05 para el error de estimación? Un guardabosques desea estimar la altura promedio de los árboles en una plantaci6n. La plantación se divide en parcelas de un cuarto de acre. Se selecciona una muestra irrestricta aleatoria de 20 parcelas de un total de 386 parcelas en la plantación. Se miden todos los árboles en las parcelas muestreadas, con los resultados que se muestran en la tabla anexa. Estime la altura promedio de los árboles en la plantación y establezca un límite para el error de estimación. (Sugerencia: el total para el conglomerado i se puede encontrar tomando mi veces el promedio del conglomerado.)

Niimem de Prboles

Altura promedio (en pia)

42 51

6.2 5,8 6.7

4.9

Nhro de Lrboles

52 61 49

Altura promedio (en pies)

6.3 6.7

5.9 6.1

8 MUESTRE0 POR CONGLOMERADOS

afi

8.17

8.18

Para re rmar la seguridad, una compañía de taxk quiere estimar la proporción de llantas inseguras en sus 175 taxis. (No considere las llantas de refacción.) La selección de una muestra aleatona de llantas es impráctica, así que se usa muestreo por conglomerados, con cada taxi como un conglomerado. Una muestra irrestricta aleatoria de 25 taxis nos da los siguientes números de llantas inseguras por taxi:

Estime la proporción de llantas inseguras que se están usando en la compañía de taxis. y establezca un límite para el error de estimación. Los comercios solicitan frecuentemente a los contadores la realización de inventarios. Ya que un inventario completo es costoso, a través del muestreo se pueden realizar inventarios cada cuatro meses. Supóngase que una empresa abastecedora de artículos de plomería desea uri inventario para muchos artículos pequeños en existencia. La obtención de una muestra aleatoria de articulos es muy difícil. Sin embargo, los artículos se encuentran dispuestos en anaqueles, y la selección de una muestra aleatoria de anaqueles es relativamente fácil, considerando a cada anaquel como un conglomerado de artículos. Una muestra de 10 anaqueles de un total de 48 dio los resultados que se muestran en la tabla siguiente. Estime la cantidad total de dólares de los articulos en los anaqueles y establezca un límite para el error de estimación.

~o1@1-&

8.19

Níimcn, de anfeula, mi

Cantidad total de dóiam. yi

Una empresa especializada en la fabricación y venta de ropa de descanso tiene 80 almacenes en Florida y 140 California. Con cada estado como un estrato, la empresa desea estimar el tiempo promedio de ausencia por enfermedad por empleado durante el año pasado. Cada almac6n puede ser considerado como un conglomerado de empleados, y se puede determinar de los registros el tiempo total de ausencia por enfermedad para cada almacén. Muestras irrestrictas aleatorias de 8 almacenes de Florida y 10 aimacenes de California nos dan los resultados que se muestran en la tabla acompañante ( m idenota el número de empleados y yi denota el total de días de ausencia por enfermedad para el a-ésimo almacén). Estime la cantidad promedio de ausencia por enfermedad por empleado, y calcule un estimador de la varianza de su estimador.

EJERCICIOS

8.20

Las estadísticas de manzana reportan el número de unidadea habitacionales, el número de residentes y el número total de cuartos dentro de las unidades habitaciimaies para una muestra aleatona de ocho manzanas seleccionadas de una gran ciudad. (Suponga que el número de manzanas en la ciudad es muy grande.) Los datos se presentan m la tabla acompañante.

Manzana

8.21

8.22

8.23

227

Número de unidada habitacioaaiu

N-& miflema

NamrrO de cuarta

(a) Estime el número promedio de residentes por unidad habitacional y establezca un límite para el error de estimación. (b) Estime el nCimero promedio de cuartos por residente y establezca un límite para el error de estimación. Cierto tipo de tableros de circuitos fabricados para su instalación en computadoras tiene 12 microcircuitos por tablero. Durante la inspección de control de calidad de 10 de esos tableros, el número de microcircuitos defectuosos por tablero fue como sigue:

Estime la proporción de microcircuitos defectuosos en la población de la cual se extrajo la muestra y establezca un límite para el error de estimación. Considere la situación del Ejercicio 8.21. Suponga que la muestra utilizada proviene de un embarque de 50 de tales tableros. Estime el número total de microcircuitos defectuoeoe en este embarque y establezca un W t e para el error de estimación. Una empresa grande tiene sus inventariosde equipo listadosseparadamente por departamento. De los 15 departamentos en la empresa, se van a muestrear aleatoriamente5,'por un auditor que

8 MUESTRE0 POR CONGLOMERADOS

va a verificar que todo el equipo esté identificado y localizado apropiadamente. La proporción de artículos del equipo que no estén identificadospropiamente es de interés al auditor. Los datos se dan en la tabla siguiente. Estime la proporción de artículos del equipo en la empresa que no están identificados propiamente y establezca un límite para el error de estimación.

m -

8.24

Suponga que para la empresa del Ejercicio 8.23, los 15 departamentos tienen el número de artlculos del equipo que se da en la tabla acompañante. Seleccione una muestra de 3 departamentos, con probabilidades proporcionales al número de artículos del equipo.

= P m t o

8.25

8.26

NGmero de artículol Número de anícula identificados del equipo innpmpiadamentc

Número de vtieulos

Departamento

Númrro de nrtícuioo

Suponga que los tres departamentos seleccionados en el Ejercicio 8.24 tienen cada uno dos ardcuios del equipo identificados inapropiadamente. Estime el número total de artlculos impropiarnente identificados en la empresa y establezca un límite para el error de estimación. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada uno veinticuatro paquetes de 5 libras. Hay cien cajas en el embarque. Un inspector del gobierno determina el peso total (en libras) de mariscos dañados para cada una de cinco cajas muestreadas. L a datos son como sigue:

Estime el peso total de mariscos dafiados en el embarque y establezca un iímite para el error de estimación. 8.27 8.28

Usando los datos del Ejercicio 8.26, estime la cantidad promedio de mariscos dañados por paquete de 5 libras y establezca un lúnite para el error de estimación. Un politólogo desea muestrear a los estudiantes residentes de una universidad. Las ynidades habitacionaiea pueden ser convenientmiente usadas como conglomaadoe de estudiantes, o co-

EXPERlElVClAS CON DATOS REALES

8.29 8.30

229

lecciones de unidades habitacionales (dormitorios para estudiantes de prima año, c m de fr.temidad, y así sucesivamente) pueden ser usadas como estratos. Analice los m6ritoa de mueatreo por conglomeradoscontra muestreo aleatorio estratificado, si el objetivo es estimar la proporción de estudiantes que favorecen a cierto candidato en los siguientes tipos de elecciones. (a) Una elección de dirigentes estudiantiles. (b) Una elección del presidente del país. ¿En qué condiciones el muestreo por conglomerados produce un límite más pequeño para el error de estimación de una media que el muestreo irrestricto aleatorio? Sin considerar los costos de muestreo, {qué criterio usaría usted para seleccionar conglomerados apropiados en un problema de muestreo por conglomerados?

EXPERIENCIAS CON DATOS REALES 8.1

8.2

En la Tabla 3 del Apéndice se muestra el ingreso por persona en Estados Unidos (durante 1977). Se presentan también valores para la población de 1980. Tratando a cada estado como un conglomerado de personas, seleccione una muestra aleatona de estados y estime el ingreso personal total para Estados Unidos. Establezca un límite para el error de estimación. Trate de realizar un estudio económico, tal vez considerando los hogares en cierta área geogTáfica fija (tal vez unas cuantas manzanas de la ciudad) como conglomerados de personas. Seleccione una muestra de n hogares y, después de obtener el permiso para la entrevista, registre la cantidad total semanal que se gasta en alimentos por todos los individuos en el hogar, y el número de individuos. Entonces estime la cantidad promedio gastada en alimentos por persona entre los hogares de esta población. Aun si todo el dinero es realmente gastado por una persona (digamos la madre), la cantidad total es la misma que se hubiera registrado si cada individuo hubiera comprado su propia alimentación. Entonces, se dispone del total para el conglomerado, aun cuando puede no contarse con las observaciones por elemento.

9 MUESTREO POR CONGLOMERADOS EN DOS ETAPAS ESTUDIO DE CASO

¿CUANTOGASTAN LOS ESTUDIANTES EN ENTRETENIMIENTO? Las cantidades de dinero para entretenimiento son importantes para los negocios en una ciudad que cuenta con una universidad. ¿Cómopodemos estimar la cantidad promedio por estudiante gastada mensualmente en entretenimiento? Es difícil localizar a los estudiantes que pueden ser seleccionados aleatoriamente de un directorio, pero es relativamente fácil localizar los salones de clase seleccionados aleatoriamente, los cuales contendrán estudiantes en una primera hora de clase, como es a las 10:OOA.M. de un lunes. Puesto que las clases pueden ser grandes, es posible obtener suficiente información muestreando un subconjunto de esos estudiantes en cada clase muestreada.El resultado es una muestra por conglomerados en dos etapas. Cierta universidad de tamano medio tiene 12,000 estudiantes divididos en 150 clases los lunes a las 10:OOA.M.La mayoría de los estudiantes debe estar en clase a esa hora. Con el fin de estimar la cantidad promedio gastada mensualmente en entretenimiento, se selecciona aleatoriamente 4 clases y se entrevista un promedio de 10% de los estudiantes en cada clase. En el análisis se utilizan los métodos de muestre0 por conglomerados en dos etapas.

9 MUESTREO.POR CONGLOMERADOS EN DOS ETAPAS

El muestreo por conglomerados en dos etapas es una extensión del concepto del muestreo por conglomerados. Usted recordar&,de la explicación del muestreo por conglomerados en el Capltulo 8, que un conglomerado es usualmente una colección conveniente o natural de elementos, tal como manzanas de casas o cajas de bombillas de magnesia. Un conglomerado frecuentemente contiene demasiados elementos para obtener una medición de cada uno de ellos, o éstos son tan semejantes que la medición de sólo unos cuantos proporciona información sobre un conglomerado completo. Cuando cualquiera de las dos situaciones ocurre, el experimentador puede seleccionar una muestra aleatoria de conglomerados y despuCs tomar una muestra aleatoria de los elementos dentro de cada conglomerado. El resultado es una muestra por conglomerados en dos etapas.

DEFINICIÓN9.1 Una muestra por conglomerados en dos etapas se obtiene seleccionando primero una muestra aleatoniz de conglomerados y posteriormente una muestra akatoria de los elementos de cada conglomerado muestreado. Por ejemplo puede realizarse una encuesta nacional sobre las opiniones de los estudiantes universitarios seleccionando una muestra irrestricta aleatoria de universida- $ des de entre todas aquellas en el pafs y posteriormente seleccionando una muestra irrestricta aleatoria de los estudiantes de cada universidad seleccionada. Por lo tanto una universidad corresponde a un conglomerado de estudiantes. Asimismo la cantidad total de las cuentas por cobrar para una empresa con una cadena de tiendas puede ser estimada tomando primero una muestra irrestricta aleatoda de tiendas y a

9.2 CÓMO SELECCIONAR UNA MUESTRA POR COIUGLOMERADOS EN DOS ETAPAS

233

posteriormente seleccionando una muestra irremicta aleatoria de las cuentas de cada tienda seleccionada. Por lo tanto cada tienda en la cadena proporcio~un amgiomerado de cuaitas. El muestreo por conglomerados en dos etapas se usa comúnmente en las encuestas grandes que involucran el muestreo de unidades habitacionales. Mencionamos en el Capltulo 4 que la encuesta de Gallup muestrea apr>ximadamente trescientos distritos electorales en todo Estados Unidos. En la segunda etapa esta encuesta selecciona aleatoriamente (o sistemáticamente) aproximadamente cinco casas por distrito, para tener un tamaño de muestra total de alrededor de mil quinientas casas. En otras encuestas las estadlsticas de manzana de la Oficina del Censo de Estados Unidos forman conglomerados de casas, como se explicó en el Capltulo 8, los cuales posteriormente son submuestrados antes de realizar las entrevistas. El muestreo con propósitos de control de calidad frecuentemente involucra dos (o más) etapas de muestreo. Por ejemplo, cuando un inspector muestrea productos empaquetados, tal como alimentos congelados, el inspector comfinmente muestrea cajas y después muestrea paquetes dentro de cajas. Cuando uno está muestreando artículos producidos en diversas etapas de proceso, uno podría muestrear etapas de proceso y posteriormente muestrear artículos producidos en cada etapa muestreada. Cuando el muestreo requiere una investigacion detallada de los componentes de los productos, tal como medir el grosor de las placas en los acumuladores de automóvil, un procedimiento completamente natural es muestrear algunos de los productos (acumuladores) y después muestrear los componentes (placas) de los productos muestreados. Existe una cierta similitud entre el muestreo por conglomerados y el muestreo aleatorio estratificado. Piense en una población que es dividida en grupos de elementos sin traslapes. Si estos grupos se consideran como estratos, entonces se selecciona una muestra irrestricta aleatoria de cada grupo. Si estos grupos se consideran como conglomerados, entonces se selecciona una muestra irrestricta aleatoria de grupos, y los grupos muestreados posteriormente son submuestreados. El muestreo aleatorio estratificado proporciona estimadores con una varianza pequeiía cuando hay poca variación entre los elementos dentro de cada grupo. El muestreo por conglomerados funciona bien cuando los elementos dentro de cada grupo son altamente variables y los grupos son bastante similares entre ellos. Las ventajas del muestreo por conglomerados en dos etapas sobre otros diseños son las mismas que las listadas en el Capltulo 8 para el muestreo por conglomerados. Primero, un marco que liste todos los elementos de la población puede ser imposible o costoso de obtener, mientras que obtener una lista de todos los conglomerados puede ser fácil. Por ejemplo, reunir una lista de todos los estudiantes universitarios en el país podría ser costoso y se ocuparía mucho tiempo, pero una lista de universidades podría ser adquirida rápidamente. Segundo, el costo por obtener los datos puede incrementarse porlos costos de viaje si los elementos muestreados están muy dispersos sobre una gran área geográfica. Por lo tanto muestrear conglomerados de elementos que se encuentran juntos físicamente suele ser económico.

9.2 COMO SELECCIONAR UNA MUESTRA POR CONGLOMERADOS EN DOS ETAPAS El primer problema en la selección de una muestra por conglomerados en dos etapas es la elección de conglomerados apropiados. Dos condiciones son deseables: (1) proxi-

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

midad geográfica de los elementos dentro de un conglomerado y (2) tamaños de conglomerado convenientes para su manejo. La selección de los conglomerados apropiados también depende de si queremos muestrear pocos conglomerados y muchos elementos de cada uno, o muchos conglomerados y pocos elementos de cada conglomerado. Fundamentalmente la selección se basa en los costos. Los conglomerados grandes tienden a contener elementos heterogéneos, y, en consecuencia, se requiere una muestra grande de cada uno para lograr estimaciones precisas de los parámetros de la población. En contraste, los conglomerados pequeños frecuentemente contienen elementos relativamente homogéneos, en cuyo caso puede obtenerse información precisa sobre las caracterfsticas de un conglomerado seleccionando una muestra pequeña de cada uno. Considérese el problema de muestrear los ingresos personales en una gran ciudad. La ciudad puede ser dividida en grandes conglomerados, por ejemplo barrios, los cuales contienen una distribución heterogénea de los ingresos. Por lo tanto un número pequeño de barrios puede producir una sección representativa de los ingresos dentro de la ciudad, pero se requerirá una muestra bastante grande de elementos de cada conjunto para una estimación precisa de su media (debido a la heterogeneidad de los ingresos dentro del conglomerado). En contraste, la ciudad puede ser dividida en pequeños conglomerados relativamente homogéneos, digamos manzanas de una ciudad. Entonces una muestra pequeña de personas de cada manzana dará información adecuada sobre la media de cada conglomerado, pero para obtener información precisa sobre el ingreso medio de toda la ciudad se requierirán muchas manzanas. En otro ejemplo, considere la encuesta sobre la opinión de los estudiantes udversitarios. Si los estudiantes dentro de una universidad tienen opiniones similares sobre la pregunta de interés, pero difieren ampliamente de una universidad a otra, entonces la muestra deberá contener pocos representantes de muchas universidades. Si las opiniones varían grandemente dentro de cada universidad, entonces la encuesta deberá incluir muchos representantes de cada una de las pocas instituciones. Para seleccionar la muestra, primero obtenemos un marco que liste todos los conglomerados en la población. Posteriormente seleccionamos una muestra aleatoria de conglomerados, aplicando los procedimientos de muestre0 aleatorio presentados en el Capftulo 4. Como tercer paso, obtenemos marcos que listen todas las unidades de cada uno de los conglomerados seleccionados. Finalmente, seleccionamos una muestra aleatoria de los elementos de cada uno de estos marcos.

9.3 ESTIMACIONINSESGADA DE UNA MEDIA Y UN TOTAL POBLACIONALES Como en los capftulos previos, estamos interesados en estimar una media poblacional p o un total poblacional T y en establecer un límite para el error de estimación. Se utiliza la siguiente notación:

N = el número de conglomerados en la población n = el número de conglomerados seleccionados en una muestra irrestricta aleatoria

9.3 ESTIMACIÓN INSESGADA DE UNA MEDIA Y UN TOTAL POBLACIONALES

235

Mi = el número de elementos en el conglomerado i mi = el número de elementos seleccionados en una muestra aleatoria del conglomerado i N

M, = el número de elementos en la población

i-1

- M M =- = el tamaño de conglomerado promedio para la población N

y, = la j-ésima observación en la~muestradel i-ésimo conglomerado

- 1 yi =- y, = la media muestra1 para el i-ésimo conglomerado mi j=l "1

En la construcción de un estimador de la media poblacional p , podemos proceder en forma paralela a como se hizo en el Capítulo 8 para el muestre0 por conglomerados en una sola etapa. La Ecuación (8.8) da

como un estimador insesgado de T . Por lo tanto si dividimos entre M ,

se llega a un estimador insesgado de p . Pero ahora no podemos evaluar este estimador puesto que no conocemos los totales de conglomerados, y,. Sin embargo, es posible estimar yi con Mi?¡, y, sustituyendo Mifi en lugar de yi, tenemos un estimador insesgado de p , el cual podemos calcular con base en nuestros datos de la muestra.

Estimador insesgado de la media poblacional p :

Varianza estimada de fi :

donde

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

Límite para el error de estimación: 2 5 m /

El estimador @ que se muestra en la Ecuación (9.1) depende de M, el número de elementos en la población. Un método para estimar p cuando se desconoce M se presenta en la siguiente sección. Nótese que s: es la varianza muestra1 para la muestra seleccionada del conglomerado i.

Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y quiere estimar el número promedio de horas que las máquinas de coser estuvieron sin funcionar por reparación en los meses pasados. Debido a que las plantas están ampliamente dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada planta como un conglomerado de máquinas. Cada planta contiene muchas máquinas, y el verificar los registros de reparación de cada máquina implicarfa consumir tiempo. Por lo tanto el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para muestrear n = 10 plantas y aproximadamente un 20% de las máquinas de cada planta.

TABLA 9.1

Tiempo sin funcionar para las máquinas de coser

Planta

1 2 3 4 5 6 7 8 9 10

50 65 45 48 52 58 42 66 40 56

10 13 9 10 10 12 8 13 8 11

Tiempo sin funcionar (en horas)

5,7,9,0,11,2,8,4,3,5 4,3,7,2,11,0,1,9,4,3,2.1,5 5,6,4,11,12,0,1,8,4 6,4,0,1,0,9,8,4,6,10 11,4,3,1,0,2,8,6,5,3 12, 11, 3, 4, 2, O, O, 1, 4, 3, 2, 4 3,7,6,7,8,4,3,2

3,6,4,3,2,2,8,4,0,4,5,6,3 6,4,7,3,9,1,4,5 6,7,5,10,11,2,1,4,0,5,4

2 Si

5.40 4.00 5.67 4.80 4.30 3.83 5.00 3.85 4.88 5.00

11.38 10.67 16.75 13.29 11.12 14.88 5.14 4.31 6.13 11.80

Usando los datos de la Tabla 9.1, estime el tiempo sin funcionar promedio por máquina y establezca un límite para el error de estimación. El fabricante sabe que tiene un total de 4500 máquinas en todas las plantas.

El mejor estimador de p es

E , que se muestra en la Ecuación (9.1), el cual produce

9.3 ESTIMACIÓNINSESGADA DE UNA MEDIA Y UN TOTAL POBLACIONALES

237

(2400.59) = 4.80

90 (4500)(1O)

Para estimar la varianza de f i , debemos calcular =n

1" (M#¡- Gfi)2

- 1 i=1 1 "

=-[z-

+ n(M$)' =$[583,198.6721 - 2(50)(4.80)(2400.59)+ 10(240)'] n

f=1

( ~ ~ 7 ~ 2)G' $

¡=1

= 768.38

i=l

Luego de la Ecuación (9.2)

La estimación de p con un llmlte para el ekor de estimación esta dada por

& *2

J m ,

o bien

4.80 f 2.\/0037094,

o bien

4.80

* 0.38

Por lo tanto el tiempo promedio sin funcionar se estima que es 4.80 horas. El error de estimación será menor que 0.38 horas con una probabilidad de aproximadamente 0.95. a5

Un estimador insesgado de un total poblacional puede encontrarse tomando un estimador insesgado de la media poblacional y multiplicándolo por el número de elementos en la población, de una manera similar a la usada en muestreo irrestriao aleatorio. Así M$ es un estimador insesgado de T para el muestreo por conglomerados en dos etapas. , S 3. , . I .

Estimación del total poblacional T:

Varianza estimada de

donde s i está dada porvla Ecuación (9.3) y

está dada por la Ecuación (9.4).

Límite para el error de estimación:

(9.8) Nótese aue no necesitamos conocer M vara calcular ? o la varianza estimada de i, puesto que las M se cancelan en las fórmulas para $ y [véanse las Ecuaciones

e(+)

Estime la cantidad total de tiempo sin funcionar durante el mes pasado para todas las máquinas propiedad del fabricante del Ejemplo 9.1. Establezca un límite para el error de estimación.

La mejor estimación de r es

La varianza estimada de $ se encuentra usando el valor de e ( & ) calculado en el Ejemplo 9.1 y sustituyendo como sigue: e(;)

La estimación de

7, con

7*2 O

sea

= M e ( & ) = (4500)~(0.037094)

un límite para el error de estimación, es ,

o sea

21,605.31

* 2J(4500)~(0.037094),

* 1733.4

Por lo tanto la estimación del total de tiempo sin funcionar es 21,605.31 horas. Tendremos bastante confianza en que el error de estimación sea menor que 1733.4 horas.

9.4 ESTIMACION DE RAZON DE UNA MEDIA POBLACIONAL El estimador &, dado por la Ecuación (9.1), depende del número total de elementos en la población, M. Cuando M es desconocido, como es frecuentemente el caso, en-

9.4 ESTIMACIONDE RAZÓNDE UNA MEDIA POBLACIONAL

239

tonces debe ser estimado con base en los datos de la muestra. Obtenemos un estimador de M multiplicando el tamaño de conglomerado promedio, M i / n, por el número de conglomerados en la población, N. Si reemplazamos M por su estimador. obtenemos un estimador de razón, denotado por &,, debido a que tanto el numerador como el denominador son variables aleatorias.

;=,

Estimador de razón de la media poblacional p :

Varianza estimada de

fi,:

donde

Límite para el error de estimación: 2-

El estimador

kr es sesgado, pero el sesgo es despreciable cuando n es grande.

Usando los datos de la Tabla 9.1, estime el tiempo promedio por máquina sin funcionar, y establezca un lfrnite para el error de estimación. Suponga que el-fabricante no sabe cuántas máquinas hay en todas las plantas.

Ya que se desconoce M, debemos usar fi,, dado por la Ecuación (9.9), para estimar.p . Nuestros c&lcuLosproducen n

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

Para encontrar la varianza estimada de

&,,

debemos calcular

(M,?~)'- 2Fr

i M:$ + (F.)'

i=l

M:]

Nótese que como en la Ecuación 9.1,

Podemos estimar M usando el tamaño de conglomerado promedio para la muestra:

Sustituyendo en la Ecuaci6n (9.10)se obtiene la varianza estimada de

b,:

La estimación del tiempo promedio sin funcionar, con un llmite para el error de estimación, es

o bien

4.60

* 2-

o bien

4.60 I 0.44

Por lo tanto la media estimada del tiempo sin funcionar por máquina es 4.60 horas con un límite para el error de estimación de 0.44 horas.

9.5 ESTIMACION

DE UNA PROPORCIÓN POBLACIONAL Considtrese el problema de estimar una proporción poblacional p tal como la proporción de estudiantes universitarios en favor de una ley o la proporción de máquinas que no han tenido tiempo sin funcionar durante el mes pasado. Una estimación dep puede obtenerse usando &, dada en la Ecuación (9.11, o bien fi,, dada en la Ecuación (9.9), y haciendo y, = 1 o bien O dependiendo de si cae o no el j-ésimo elemento del i-ésimo conglomerado en la categoría de interés. Debido a que M usualmente es desconocida, presentamos las fórmulas para estimar p con un estimador de razón análogo a G,,dado en la Ecuación (9.9). Sea jila

9.5 ESTIMACI~N DE UNA PROPORCION FOBCACIONAL

241

proporcidn de elementos muestreados del ~o~igl~merado i que caen ep la categoría de interés. Estimador de una proporción poblacional p:

Varianza estimada de f;:

donde

- ');

i=l

n-1

(9.16)

Límite para el error de estimación:

El fabricante del Ejemplo 9.1 quiere estimar la proporci6n de maquinas que han sido retiradas del proceso debido a reparaciones mayores (aquellas reparaciones que requieren piezas que se surten fuera de la fábrica). Las proporciones muestrales de las máquinas que requieren reparaciones mayores se presentan en la Tabla 9.2. Los datos

TABLA 9.2

Proporción de máquinas de coser que requieren reparaciones mayores

Planta

Proporción de maquinal que requieren rcparclaonw A mayorest p,

9 MLIESTREO POR CONGLOMERADOS EN DOS ETAPAS

son para las máquinas muestreadas en el Ejemplo 9.1. Estime p, la proporción de máquinas que involucran reparaciones mayores para todas las plantas, y establezca un límite para el error de estimación.

La mejor estimación de p :está dada por

Para estimar la varianza de 6, calculamos

-- Z (M.$,)' n - 1 i=i

- 2;

i=l

:Pi + (p12

M:] i=l

Entonces la varianza estimada de p,cuando M es estimada por el promedio muestral, 52.2, es

La mejor estimación de la proporción de máquinas que han requerido repziraciones mayores es $ * 2 m ,

obien 0.34*2-

obien O . M I 0 . 0 5 6

Estimamos que la proporción de miquinas involuaadas en reparaciones mayores es 0.34, con un límite para el error de estimación de 0.056.

9.6

SELECCION DE TAMAÑOS DE MUESTRA

243

9.6 SELECCIONDE TAMANOS DE MUESTRA El problema de la selección de tamaños de muestra es mucho más difícil en el muestreo por conglomerados en dos etapas que en los estudiados antes, en los cuales solamente se involucró una etapa de muestreo. Tenemos que seleccionar los valores para n y todas las m,; además, la mejor selección de estos valores depende de dos fuentes de variación, la que existe entre los conglomerados y la que se encuentra entre los elementos dentro de conglomerados. El principio general es asignar los recursos de la muestra a la componente con la variación más grande. Esto es, si las mediciones en los conglomerados son homogéneas, pero las medias de éstos varían grandemente de un conglomerado a otro, muestreamos muchos conglomerados con pocas mediciones de cada uno. Sin embargo, si las mediciones en conglomeradosvarían grandemente, pero las medias de éstos son homogéneas, muestreamos pocos conglomerados y muchas mediciones de cada uno. Estableceremos este enunciado en forma m8s precisa para una situación de muestreo simplificada. Suponga que todos los conglomerados contienen fi elementos, y que s e r h submuestreados m elementos de cada uno de los n conglomerados seleccionados. Esto es,

En estas condiciones la Ecuación (9.1) da

que es equivalente al promedio general de todas las mediciones de la muestra. También en estas condiciones y la suposición de que todas las cpf pueden omitirse, la varianza teórica de es de la forma

donde

= varianza estre las medias verdaderas de conglomerados

u: = varianza entre los elementos dentro de los conglomerados

Como en el caso de muestreo aleatorio estratificado, ahora queremos encontrar los tamaños de muestra, m y n, que minimicen v(@) para un costo fijo, o que minimicen el costo total de muestreo para una v(@) fija. Para llevar a cabo esta minimización, debemos introducir una función de costo. Supóngase que el costo asociado con el muestreo de cada conglomerado es c1 y que el costo asociado con el muestreo de cada elemento dentro de un conglomerado es c2. Entonces el costo total es

C = nc, El valor de m que minimiza

v(@) fija, está dado por

+ nmc2

(9.20)

v(&)para una C fija, o que minimiza C para una

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

v(G)

Después de que se ha determinado m, n se encuentra mediante (9.19) si es fija o con (9.20) si C es fija. ,Nótese que m aumenta cuando u: se incrementa, y m disminuye cuando u; aumenta. Por lo tanto cada vez más elementos de los conglomerados serán muestreados a mtd-rda que u: sea mayor en comparación con u:. Aún permanece un problema. cómo pueden ser estimados u: y ir: con base en los datos de la muestra? La Ecuación (9.4) da una expresión para una estimación de la varianza dentro de conglomerados para un solo conglomerado. Cuando consideramos los n conglomerados muestreados,

será un estimador insesgado de la varianza dentro de conglomerados u:. Puesto que u: es la varianza de las medias de conglomerados, parecería natural estimar esta varianza por

la varianza muestra1 calculada según las estimaciones observadas de las medias de conglomerados, yi. Puesto que cada Ti es solo una estimación de la media verdadera de un conglomerado, la Ecuación (9.23) mide una combinación de la variación de un conglomerado a otro y la variación de un elemento a otro. De hecho, S: es un estimador insesgado de

Puesto que S, estima a u:, un estimador de U, está dado por

Por lo tanto si tenemos los valores de S; y si, quizás de un estudio piloto, entonces tanto u: como u; pueden ser estimados. Estas estimaciones pueden ser usadas en (9.21) para encontrar el valor óptimo de m, y posteriormente en (9.19) para encontrar el valor óptimo de n para una fija.

V(G)

Un plan para asegurar la calidad en una fábrica de acumuladores para automóvilrequiere muestrear n acumuladores y luego muestrear m placas con polaridad positiva de cada acumulador seleccionado. La medición de interés es el grosor de las placas positivas, en milésimas de pulgada. El investigador desea seleccionar n y m de manera que la varianza de la estimación del grosor medio por placa sea 0.5. El costo por seleccionar un acumulador y dividirlo es seis veces el costo de medir una placa. Estudios preliminares con acumuladores similares producidos en esta fábrica dieron. para n = 40 y m = 5, S,2 = 3.0 y S: = 3.4. Use estos datos para determinar una m y una n que satisfagan la condición de varianza dada.

9.7 MUESTRE0 CON PROBABILIDADES PROPOFCIONALESAL TAMAÑO

245

Antes de que podamos usar la Ecuación (9.21), debemos estimar a: y a:. Ahora está estimada por

02,

y o: es estimada por [vease la Ecuación (9.24)]

Puesto que c, es seis veces c2, entonces costos es necesaria en la selección de m.) De la Ecuación (9.21) tenemos

/ c2 = 6.

(Nótese que sólo la razón de

Por lo tanto 3 placas positivas deben ser muestreadas de cada acumulador seleccionado. Para encontrar n sustituimos las estimaciones 6: y y m, en la funci6n de varianza, Ecuación (9.19), la cual es igual a 0.5. Esta sustitución da

a:,

n =-(2.8

O. 5

+ 1.0) = 7.6 o sea 8

Por lo tanto el plan para asegurar la calidad requerirá del muestreo de n = 8 acumuladores y m = 3 placas positivas de cada uno. La estimación de @ tendrá entonces una varianza de aproximadamente 0.5.

9.7 MUESTREO POR CONGLOMERADOS EN DOS ETAPAS CON PROBABILIDADES PROPORCIONALES AL TAMANO Dado que el número de elementos en un conglomerado puede variar grandemente de un conglomerado a otro, una técnica frecuentemente ventajosa es muestrear conglomerados con probabilidades proporcionales a sus tamaños, como se expli-cóen la Sección 8.8. Generalmente, el muestreo ppt solamente se utiliza en la primera etapa de un procedimiento de muestreo en dos etapas, debido a que los elementos dentro de conglomerados tienden a ser algo similares en tamaño. Por lo tanto presentaremoslos estimadores de p y T para el muestreo por conglomeradas en dos etapas, en el cual la primera etapa de muestreo se lleva a cabo con probabilidades proporcionalesal tamaño. La Ecuación (8.23) proporciona un estimador de p , en el caso del muestreo por conglomerados con una sola etapa, de la forma

9 MLIES-[REOPOR COIUGLOMERADOS EN DOS ETAPAS

En el Capftulo 8, fi fue calculado con base en todos los elementos del conglomerado i y fue exactamente la media del conglomerado. En este capítulo pi es calculada de una muestra de elementos del conglomerado i y es solamente una estimación de la media del conglomerado. No obstante, la Ecuación (9.25) forma un estimador insesgado de p , con una varianza estimada dada en la Ecuación (8.24). Para formar un estimador insesgado de 7,sólo se tiene que multiplicar la Ecuación (9.25) por M, el número de elementos en la población. Estimador de la media poblacional p :

Varianza estimada de fi, :

Límite para el error de estimación:

Estimador del total poblacional T:

=- C n i-i

Varianza estimada de 4, :

Límite para el error de estimación:

Ilustraremos este procedimiento de ppt con los ejemplos siguientes:

Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad, con el propósito de estimar la proporción de pacientes que han estado (o estarán) en el hospital por más de dos dlas consecutivos. Puesto que los hospitales varlan en tamaño, éstos serfin muestreados con probabilidades proporcionales al número de

9.7 MUESTRE0 CON PROBABILIDADES PROPORCIONALES AL TAMAÑO

267

sus pacientes. En los tres hospitales muestreados se examinara un 10% de los registros de los pacientes actuales para determinar cuántos pacientes permaneceran por más de dos días en el hospital. Con la información sobre los tamaños de los hospitales dada en la tabla adjunta, seleccione una muestra de tres hospitales con probabilidades proporcionales al tamaño.

Hospital

Número de pacienta

Intervalo acumulado

Puesto que serán seleccionados tres hospitales, tres números aleatorios entre el O001 y el 1559 deben ser seleccionados de la tabla de números aleatorios. Nuestros números elegidos son 1505, 1256 y 0827. Localizar estos números en la columna del intervalo acumulado nos conduce a la selección de los hospitales 3,5 y 6.

Supóngase que los hospitales muestreados en el Ejemplo 9.6 dieron los siguientes datos sobre el número de pacientes con permanencia de mas de dos días:

Hospital

3 5 6

Número de pacientes muestrcadoe

Número con permanencia dernbdedah

43 28

25 15 8

Estime la proporción de pacientes con permanencia de más de dos dfas, para los seis hospitales, y establezca un límite para el error de estimación.

La proporción de interés para cada hospital es simplemente la media muestra1 y, por la Ecuación (9.26), la mejor estimaci6n de la proporción es el promedio de las tres medias muestrales. Así

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

De la Ecuación (9.27)

Por lo tanto el iímite para el error de estimación es

y nuestra estimacidn de la proporci6n poblacional es

'0.51IO.10

A continuación se presenta un comentario más acerca de cuándo uno usa el muestreo ppt. Si la variación medida por s i es pequeña en comparación con la variación medida por s? [esto es, si domina el segundo término de la varianza en la expresión (9.2)], entonces prodríamos seleccionar pocos conglomerados y muchos elementos de dentro de cada conglomerado muestreado. En tal caso cualquier plan de muestreo para los conglomerados funcionaría bien. Sin embargo, si los términos S: son pequeños en comparación con sb [la Ecuación (9.2) está aominada por el primer término], entonces deberá tenerse bastante cuidado al planear la selección de los conglomerados. En este caso los comentarios hechos al final de la Sección 8.8 aún son válidos, y el metodo ppt funciona bien si los tamaños de los conglomerados varían significativamente.

El concepto del muestreo por conglomerados puede extenderse al muestreo en dos etapas tomando una muestra aleatoria de los elementos de cada conglomerado muestreado. El muestreo por conglomeradosen dos etapas es ventajoso cuando se desean tener elementos de muestreo con proximidad geográfica debido a los costos de traslado. El muestreo por conglomerados en dos etapas elimina la necesidad de muestrear todos los elementos de cada conglomerado seleccionado. Por lo tanto el costo del muestreo frecuentemente puede reducirse con poca pérdida de información. Se presentó un estimador insesgado de p para el caso en que se conoce M, el número total de elementos en la población. Cuando se desconoce M, se emplea un estimador de razón. También se presentaron estimadores para un total poblacional T - y para una proporción poblacional p.

ANÁLISIS DEL ESTUDIO DE CASO LA ESTIMACIONDE GASTOS EN ENTRETENIMIENTO

El plan de muestreo para estimar los gastos promedio mensuales para entretenimiento entre los estudiantes, descrito al principio de este capítulo, involucra la selec-

EJERCICIOS

249

ción de n = 4 salonesde clase de entre N 3.150 y el submuestre0de estudiantesen cada salón seleccionado. Los datos son como sigue [promdos en dólares]: No. de estudiantes Na. de estudiantes por clase. M; muestreados, mi

ssf

Miyi.

- &r)12

La mejor estimación de la cantidacl pro&dio gastada mensualmente en entretenimiento entre los estudiantes de la universidad es pl; = $25. El límite para el error de estimación es

Por lo tanto tenemos canfianza en que la cantidad promedio mensual verdadera de entretenimiento está entre 25 - 11 = $14 y 25 -t. 11 = $36 (Esteintervalo podría reducirse en tamano muestreando más salones de clase o más estudiantes por salón de clases cCuál procedimiento recomendaría usted?]

9.1

Suponga que una gran tienda de ventas' al menudeo tiene sus cuentas porcobrar listadzs por departamento. La empresa desea usar el muestreo para estimar en un dIa específíco el to$ de las cuentas por cobrar. Analice b mCrieos telativos del muestreo akatorio estratificado, del muestreo por conglomeradosen una etapa, del muestre0 sistemdtico y del muestreo por conglomerados en dos etapas. (Que informau6n adicional le gustaría tener sobre estas cuentas ahes de ' seleccionar el diseilo de muestreo?

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS El dueño de un vivero quiere estimar la altura de los arbolitos en un extenso terreno que está dividido en 50 lotes que varían levemente en tamaño. El dueño cree que las alturas son bastante homogéneas en cada lote pero pueden variar considerablemente de un lote a otro. Por lo tanto decide muestrear un 10% de los árboles dentro de cada uno de los 10 lotes usando una muestra por conglomeradosen dos etapas. Los datos se dan en la tabla adjunta. Estime la altura promedio de los arbolitos en el terreno y establezca un limite para el error de estimación.

Late

Número de arbolium

Número de arboiita muau«idoo

Altura de l a arbolita (en pul@)

En el Ejercicio 9.2, suponga que el dueño del vivero sabe que hay aproximadamente 2600 arbolitos en el terreno. Use esta información adicional para estimar la altura promedio y establezca en límite para el error de estimación. Una cadena de supermercados tiene tiendas en 32 ciudades. Un director de la compañía quiere estimar la proporción de tiendas en la cadena que no satisfacen un criterio de limpieza específico. Las tiendas dentro de cada ciudad al parecer poseen caracterfsticas similares; por lo tanto el director decide seleccionar una muestra por conglomerados en dos etapas conteniendo la mitad de las tiendas dentro de cada una de 4 ciudades. El muestre0 por conglomerados es conveniente en esta situación debido al costo de traslado. Los datos recolectados se presentan en la tabla adjunta. Estime la proporción de tiendas que no satisfacen el criterio de limpieza y es. tablezca un límite para el error de estimación.

Ciudad

Número de tiendas en la ciudad

Número de tiendas mueatreadas

Ndmem de tiendas que no aptisfacen el criterio de limpieza

Repita el Ejercicio 9.4 dado que la cadena contiene 450 tiendas. Para mejorar el servicio telefónico, el ejecutivo de cierta compañia quiere estimar el número total de llamadas por teléfono realizadas por las secretarias de la compañía durante un día. La compañía tiene 12 departamentos, efectuando cada uno aproximadamenteel mismo número de llamadas por día. Cada departamento emplep un promedio. de 20 secretarias y el número de llamadas varía considerablemente de una secretaria a otra. El ejecutivo decide aplicar un

muestreo por conglomerados en dos etapas, usando un número pequeño de departamentos (conglomerados) y seleccionando un número bastante grande de secretarias (elementos) de cada departamento seleccionado. Se muestrean 10 secretarias de cada uno de los 4 departamentosen la muestra. Los datos están concentrados en la tabla adjunta. Estime el número total de llamadas efectuadas por las secretarias de esta compañía, y establezca un lúriite para el error de estimaci6n.

Departamento

9.7

9.8

Número de seerctariai muestreadas

Media

Varha

La comisión de zonificación de una ciudad quiere estimar la proporción de dueños de bienes inmuebles en cierta sección de la ciudad que apoyan un cambio de mnificación propuesto. La sección está dividida en siete áreas residenciales distintas, cada una conteniendo residentes similares. A causa de que los resultados deben ser obtenidos en un periodo de tiempo cono, se usa un muestreo por conglomerados en dos etapas. Tres de las siete áreas son seleccionadas al azar y un 20% de los dueños de bienes inmuebles son muestreados en cada una. La cifra de 20% parece razonable porque la gente que vive dentro de cada área parece estar en la misma clase socioeconómica y por lo tanto tiende a tener opiniones similares sobre el tema de la zonificación. Los resultados se presentan en la tabla adjunta. Estime la proporción de dueños de bienes inmuebles que favorecen el cambio de zonificación propuesto y establezca un límite para el error de estimación.

Área

Número de secretaria8

Número de due5os de bienes inmuebles

Número de dueflos de bienes inmuebles mumnradoa

Número que apoya el cambio de zonificpc?6n

Un guardabosques quiere estimar el número total de árboles en un condado infestadospor una enfermedad en particular. En el condado hay diez áreas bien defuiidas; éstas pueden ser subdivididas en lotes de aproximadamente el mismo tamaño. Se dispone de cuatro cuadrillas para realizar la encuesta, la cual debe ser completada en un día. Por lo tanto se utiliza un muestreo por conglomerados en dos etapas. Cuatro áreas (conglomerados) son seleccionadas con seis lotes (elemen-

Área

Número de lotes

Número de lotea muestreadoa

Número de árboles infentados por lote

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

tos) escogidos aleatoriamente de cada una. (Cada cuadrilla puede inspeccionar un área por dIa.) Los datos se presentan en la tabla adjunta. Estime el número total de árboles infestados en el condadoxy establezca un límite para el e m r de estimación. 9.9

Una compafífa está probando una nuwa emboteliadora. Durante un ensayo la máquina llena 24 cajas, cada una con 12 botellas. La compañla desea estimar el número promedio de onzas de contenido por botella. Se emplea un muestreo por conglomerados en dos etapas usando 6 cajas (conglomerados) con 4 botellas (elementos) seleccionadas aleatoriamente de cada caja. Los resultados se presentan en la tabla adjunta. Estime el número de onzas promedio por botella y establezca un límite para el e m r de estimación.

Caja

Onzm promedio de contenido por muestra,

1 2 3 4 5

9.11

ciudad

9.13

0.15 0.12 0.09 0.11 0.10 0~12

Cierta planta industrial tiene 40 máquinas y todas producen el mismo artículo (por ejemplo, cajas de cereal). Se desea estimar la proporción de productos defectuosos (por ejemplo, cajas con menor contenido) un día espectfico. Analice los méritos relativos del muestreo por conglomerados en dos etapas (las máquinas como conglomerados áfide cajas) y el muestreo aleatorio estratificado (las máquinas como estratos) como diseños posibles para este estudio. Una empresa de investigación de mercados ideó un plan de muestreo para estimar las ventas semanales de un cereal de la marca A en un área geogr ca. La empresa decidió muestrear ciudades dentro del área y luego supermercados dentro de ciudades. La medición de interés es el número de cajas vendidas del cereal de la marca A en una semana específica. Cinco ciudades son muestreadas de entre las 20 en el área. Usando los datos presentados en la tabla adjunta, estime las ventas promedio de todos los supermercados en el área para la semana específica. Establezca un límite para el error de estimación. ¿Es insesgado el estimador que se utilizó?

Número de

9.12

varianza m w u a l ,

7.9 8.0 7.8 7.9 8.1 7.9

6 9.10

supeimercsd~.

Nlmero de aupermereadoi rnwrieodtx

En el Ejercicio 9.11, {se tiene suficiente información para estimar el número total de cajas de cereal vendidas en todos los supermercados del área durante la semana?Si es así, explique cómo estimaría usted este total, y establezca un limite para el error de estimación. Si un estudio semejante al descrito en el Ejercicio 9.11 se llevara a cabo nuevamente, (recomendarla usted que las ciudades se muestrearan con probabilidades proporcionales al número de sus supermercados? ¿Por que?

EXPERIENCIAS CON DATOS REALES

9.14

Suponga que un sociólogo quiere estimar el número total de personas jubiladas que viven en una ciudad. El sociológo decide muestrear manzanas y después casas dentro de las manzanas. (Las estadísticas de manzana de la Oficina del Censo ayudan en la determinación del número de casas en cada manzana.) Cuatro manzanas son seleccionadas aleatoriamente de entre las 300 de la ciudad. De acuerdo con los datos de la tabla adjunta, estime el número total de residentes jubilados en la ciudad y establezca un límite para el error de estimación.

Mnnzanns

9.15 9.16

9.17

9.18

253

Númem de C~KM

Nbmem de

Númem de

UUPI

residenta jubilridw

muaueadas

Usando los datos del Ejercicio 9.14, estime el número promedio de residentes jubilados por casa y establezca un límite para el error de estimación. De acuerdo con los datos del Ejercicio 9.14, ¿puede usted estimar el número promedio de residentes jubilados por manzana? ¿Cómo puede realizarse esta estimación y establecer un límite para el error de estimación? En la estimación de la cantidad de impurezas en un producto a granel, como el azúcar, el pmedimiento de muestreo puede seleccionar costales de azúcar de un almacén y luego seleccionar muestras de prueba pequeñas de cada costal. Las muestras de prueba son analizadas para la cantidad de impurezas. Analice cómo podría seleccionar el número de costales a muestrear y el número y tamaño de las muestras de prueba tomados de cada costal. Un programa para asegurar la calidad de productos fabricados requiere del muestreo de éstos tal como vienen en las lfneas de montaje de una planta de producción. Se podría tratar las h a s de montaje como conglomerados o como estratos. Analice los méritos relativos de estas dos opciones, y diseñe un plan de muestreo para cada caso.

EXPERIENCIAS CON DATOS REALES 9.1

9.2

Refiérase a los datos de la población de Estados Unidos en el Apéndice. Planee un muestreo por conglomerados en dos etapas para estimar la población rural total de Estados Unidos en 1980, muestreando primero divisiones y luego estados dentro de estas. Muestree cuatro de las nueve divisiones y al menos dos estados dentro'de cada división muestreada. Efectúe una estimación de la varianza vinculada al estimador. ¿Esrecomendable este proMiiimiento sobre el muestreo aleatorio estratificado? (Por qué? Generalmentecuando se muestrea gente, los marcos naturales involucran personas agrupadas en conglomerados. Por lo tanto el muestreo por conglomerados en dos etapas suele utilizarse como una cuestión de conveniencia econ6mica. Por ejemplo, trate de estimar el número total de libros de biblioteca comúnmmte tomados en préstamo por los estudiantes de una univemidad. (Cualquiera otra variable numérica de interés puede ser sustituida por el número de libros de biblioteca.) A l g m conglomerados de estudiantes que ocurren en forma natural se dan en residencias estudiantiles, salones de clases, fraternidadesy hermandades, y en directorios estudiantiles. ((Puede pensar usted en otros?) Estime el total de interés y establezca un límite para el error de estimacian usando los siguientes procedimientos:

9 MUESTRE0 POR CONGLOMERADOS EN DOS ETAPAS

(a) Muestreando residencias y estudiantes dentro de residencias. (b) Muestreando salones se clase en uso y estudiantes dentro de salones de clase. (c) Muestreando páginas del directorio de estudiantes y nombres de estudiantes dentro de páginas. Cualquiera que sea el método que usted seleccione, piense cuidadosamente acerca de los tamaños de muestra relativos para la primera y segunda etapas. Si el experimento no es aplicable para tal situación, un problema más simple de llevar a cabo es estimar el número de palabras en este (o cualquier otro) libro muestreando aleatoriamente páginas y luego lineas dentro de cada página. {Debe ser diferente el esquema de muestre0 en dos etapas para un libro de estadística con fórmulas y tablas del esquema para una novela?

ESTIMACION

DEL

ESTUDIO DE CASO ¿CUANTAS PERSONAS ASISTIERON AL CONCIERTO? Una reportera de cierto periódico quiere estimar el número de personas que asisten a un concierto gratuito de rock y solicita entonces el consejo de un estadístico. Éste observa que el periódico está obsequiando sombreros color naranja a algunos asistentes y pregunta cuántos han sido obsequiados.Sabiendo esto, sugiere el siguiente esquema de estimación: Supóngase que un subgrupo de los N asistentes está usando t sombreros.Después de que empieza el concierto se seleccionan aleatoriamente n personas, y se observa el número s de quienes usan los sombreros. Ahora la proporción muestra1 de aquellos que portan los sombreros,6 = s/n,es un estimador de la proporción poblacional tlN. En otras palabras,

o bien

N E -nt= N S

En el Capítulo 10 se desarrollan los detalles de este estimador

10 ES-TIMACIÓNDEL TAMAÑO DE LA POBLACIÓN

En los capítulos precedentes estimamos medias, totales y proporciones, suponiendo que el tamaño de la población se desconocía o era de tamaño tan grande que podría omitirse si no se necesitaba expresamente para calcular un estimador. Sin embargo, frecuentemente el tamaño de la población no es conocido y es importante, a pesar de su importancia para los objetivos del estudio. De hecho, m algunos estudios la estimación del tamaño de la población es el objetivo principal. El estudio del crecimiento, evolución y mantenimiento de poblaciones salvajes depende crucialmente de estimaciones exactas del tamaño de la población, y en la estimación del tamaño de tales poblaciones se centrará en gran parte el tema de este capltulo. Las técnicas pueden utilizarse también para la estimación del número de personas que asisten a un concierto o a un evento deportivo; la cantidad de piezas defectuosas en un lote de piezas de material, y muchas situaciones similares. Vamos a presentar y discutir cuatro métodos para la estimación de tamaños de poblaciones. El primer método es muestre0 directo. Este procedimiento consiste en seleccionar una muestra aleatoria de una población salvaje de interés, marcar cada animal muestreado y retornarlo a la población. Posteriormente, se selecciona otra muestra aleatoria (de tamaño fijo) de la misma población y se observa el número de animales marcados. Si N representa el tamaño total de la población, t representa el número de animales marcados en la muestra inicial, y p representa la proporción de animales marcados en la población, entonces

En consecuencia N = t / p . Podemos obtener un estimador de N porque conocemos t y

10.2 ESTIMACIÓNDEL TAMAÑO DE LA POBLACIÓNUSANDO MUESTRE0 DIRECTO

p puede ser estimado por

P, la

257

proporción de animales marcada en la segunda

muestra. Entonces el número de animales marcados

la proporción de animales marcados en la segunda muestra

o bien,

La segunda técnica es muestreo inverso. Es similar al muestreo directo, pero esta muestra no es fija. Esto es, se continúa el muestreo hasta que se observa un número fijo de animales marcados. Mediante este procedimiento podemos también obtener una estimación de N, el tamaño de la población, usando

La tercera técnica depende de estimar en primer lugar la densidad de elementos en la población y luego multiplicar ésta por una medida apropiada del área. Si estimamos que haz animales por unidad de área y el área de interés contiene A unidades, entonces AA nos proporciona una estimación del tamaño de la población. El cuarto método es similar al tercero pero depende expresamente de la capacidad para identificar la presencia o ausencia de animales en las parcelas muestreadas. Entonces, con ciertas condiciones, la densidad y el número total de animales pueden aún ser estimados.

10.2 ESTIMACION

DEL TAMANODE LA POBLACION USANDO MUESTRE0 DIRECTO El muestreo directo puede ser usado para estimar el tamaño de una población móvil. Primero, se selecciona una muestra aleatoria de tamaño t en la población. Días después se selecciona una muestra de tamaño n . Por ejemplo, supóngase que un ecologista se interesa por la evidente disminución del número de focas en Alaska. Se dispone de estimaciones del tamaíio de la población en años previos. Para determinar si ha ocurrido o no una reducción, se captura una muestra aleatoria de t = 200 focas, se marcan y luego se retornan a la población. Aí mes se obtiene una muestra de tamaño n = 100. Usando estos datos (frecuentemente llamados de recaptura), podemos estimar N, el tamaño de la población. Sea S el número de focas marcadas que se observa en la segunda muestra. La proporción de animales marcados en la muestra es

;=-

Un estimador de N es dado por

N = -t = nt A

10 ESTIMACIÓNDEL TAMAÑO 2E LA POBLACIÓN

Estimador de N: A

Varianza estimada de N: (10.2) S

Límite para el error de.estimación:

Nótese que s debe ser mayor que cero para que las Ecuaciones (10.1), (10.2) y (10.3) sean bien definidas. Vamos a suponer que n es lo suficientemente grande para que s sea mayor que cero con elta~robabilidad. También debe notarse que N, que se presenta en la Ecuación (10.1), no es un estimador insesgado de N. Para s > O

Por lo que, para tamaños de muestra suficientemente grandes, esto es, t y n grandes, el termino

es pequeño y el sesgo del estimador N se aproxima a O. El estimador N tiende a sobreestimar el valor real de N. Chapman (1952) da otro estimador de N, junto con su varianza aproximada, el cual es casi insesgado para la mayoría de las situaciones de muestre0 directo.

Antes de anunciar el calendario de la próxima temporada de cacerla, la comisión cinegética de un municipio determinado desea estimar el tamaño de la población de venados. Se captura una muestra aleatoria de 300 venados (t = 300); se marcan y regresan a la población. Dos semanas después se toma una segunda muestra de 200 (n = 200). Si se recapturan 62 venados marcados en la segunda muestra (S = 62), estime N y establezca un límite para el error de estimacitin.

SOLUCION De la Ecuación (10. l), tenemos nt 200(300) N== = 967.74 A

S A

o bien N = 968.

10.3 ESTlMAClÓh DEL TAMAÑODE LA POBLACIONUSANDO MUESTREO INVERSO

259

Un límite para el error de estimación es dado por

Entonces la comisión cinegetica estima que el número total de venados es 968, con un límite para el error de estimación de aproximadamente 205 venados.

Usted puede estar interesado en la magnitud del límite para el error de estimación en este ejemplo; pero podemos obtener un estimador más exacto de N mediante el incremento de los dos tamaños de muestra (n y t). En la Sección 10.4 se presenta más información acerca de la elección de n y t.

40.3 ESTIMACION

DEL TAMANO DE LA POBLACI~N USANDO MUESTREO INVERSO El muestreo inverso es el segundo método para la estimación de N, el tamaño total de la población. Nuevamente suponemos que se toma una muestra inicial de t animales, se marcan y se regresan a la población. Después se efectúa muestreo aleatorio hasta que se recapturan exactamente s animales marcados. Si la muestra contiene n ejemplares, la proporción de ejemplares marcados en la muestra es dada por p* = s / n . Usamos esta proporción muestral para estimar la proporción de animales marcados en la población. Nuevamente, el estimador de N es dado por

pero nótese que S es fijado de antemano y n es aleatorio.

Estimador de N :

Límite para el error de estimación:

Nótese que las Ecuaciones (10.4), (10.5) y (10.6) son validas únicamente para Esta restricción no ofrece ninguna dificultad, simplemente especificamos que n debe ser mayor que 0, y muestreamos hasta que se recapturan S animal? marcados. S

> O.

10 ESTIMACIÓN DEL TAMANO DE LA POBLACIÓIV A

El estimador N = nt/s, obtenido por muestreo inverso, nos provee de un estimador insesgado de N, y la varianzf dada por la Ecuación (10.5) es un estimador insesgado de la varianza verdadera de N. La varianza (10.5) para el o s o inverso es muy parecida a la varianza (10.2) para el caso directo y los estimadores N parecen ser idénticos. S& embargo, el muestreo inverso ofrece las ventajas de poder fijar s de antemano, el N es insesgado y se dispone de un estimador insesgado de la varianza verdadera de N.

Los encargados de una gran reservación de animales están interesados en el número total de pájaros de una especie particular que allí viven. Se atrapa una muestra aleatoria de t = 150 pájaros, se marcan y luego se sueltan. En el mismo mes se toma una muestra aleatoria hasta que se recapturan 35 pájaros marcados (S = 35). En total se recapturan 100 pájaros para encontrar los 35 marcados'(n = 100). Estime N, y establezca un límite para el error de estimación.

Mediante la Ecuación (10.4), estimamos N con

Un límite para el error de estimación se encuentra usando la Ecuación (10.6) como sigue:

Por lo que estimamos que hay 429 pájaros de esta especie en la reservación. Es bastante probable que nuestra estimación esté cercana aproximadamente a 116 pájaros del tamaño verdadero de la población.

10.4 SELECCION DE TAMANOS DE MUESTRA PARA MUESTREO DIRECTO Y PARA MUESTREO INVERSO Hemos estado estudiando las técnicas de muestreo directo y de muestreo inverso. Seguramente se pregunta cuál es mejor. Se puede usar cualquier método. El muestreo inverso nos proporciona información más precisa que el muestreo directo, siempre y cuando el segundo tamaño de muestra n -requerido para recapturar s elementos marcados- sea pequeño con respecto al tamaño de la población N. Sin embargo, si se desconoce todo acerca del tamaño N, una elección deficiente de t podría hacer n bastante grande cuando se use muestreo inverso. Por ejemplo si N = 10,000 y se extrae

10.4 SELECCION DE TAMANOS DE MUESTRA PARA MUESTRE0 DIRECTO Y PARA MIJESTREO INVERSO

264

una primera muestra de t = 50 ejemplares, se necesitará una segunda muestra grande para obtener exactamente s = 10 animales marcados. La Tabla 10.1 esptil para determinar los tamaños de muestra (t y n) que se requieren para estimar N con un límite fijo para el error de estimación. Sin embargo, para usar estos datos se requiere de algún c%nocimientoprevio acerca de la magnitud de N. Los valores en la Tabla 10.1 son V ( N ) / N para muestreo directo. Si usted conoce el tamaño aproximado de N , puede determinar la varianza del estimador para valores fijos de los tamaños de muestra t y n. En la Tabla 10.1 se expresan estos tamaños de muestra como fracciones de N. htas, dadas por

son llamadas fracciones de muestreo. TABLA 10.1

Valores de v ( ; ) / N para muestreo directo

Es conveniente disponer de una gráfica de los valores en esta tabla. Sin embargo, los número son tan grandes que sólo podemo*ostrar una parte de la Tabla 10.1. En la Figura 10.1 mostramos los valores de V(N)/ N para diversos valores de las fracciones muestrales p, = t / N 1 p2 = n / N. flótese que en la medida en que p, o pzA4e incrementa, la varianza de N dividida entre N se reduce; consecuentemente, V(N) decrece para un valor fijo de N. Se comprende que este resultado sea razonable, ya que debemos tener un estimador más exacto de N tomando tamaños de muestra grandes.

La comisión cinegética del Ejemplo 10.1 cree que el tamaño de la población de venados este año es aproximadamente la misma que el año pasado, cuando hubo entre 800 y 1000 venados. Determine el límite para el error de estimación asociado con las fracciones de muestreo de p1 = 0.25 y pz = 0.25.

Tomamos el mayor de los dos niíperos ( N aproximadamente 1000) para obtener una estimacion conservadora de V(N) (una mayor de lo que podría esperarse). Vemos en

10 EsTIMACIÓNDEL TWAÑO DE LA POBLACIÓN

FIGURA 10.1 Gráfica de los valores en la Tabla 10.1 la Figura 10.1 (o de la Tabla 10,l) que las fracciones de muestre0 dep, = t / N = 0.25 y p2 = S / N = 0.25 nos dan

Al tomar N = 1000, tenemos

El límite correspondiente al error de estimación es

Un investigador podtía usar esta información para planear su encuesta. Si este límite para el error de estimación es aceptable, podrta dectuar tina encuesta usando pi = 0.25 y p2 = 0.25: esta es,podña extraer una muestra inicial de

y una segunda muestra de ,

n = p,N = (0.25)(4000) =S50

10.4 SELECCION DE TAMAWS DE MUESTRA PARA MUESTREO DIRECTO Y PARA MUESTREO INVERSO

263

Podría entonces estimar N mediante el uso de los datos de la encuesta. El llrnite para el error de estimación debe ser aproximadamente igual a 220, siempre que el intervalo original de N sea exacto. A Si el límite para el error de N no es aceptable para las fracciones de muestre0 de pl = pz = 0.25, el investigador puede trabajar con la Tabla 10.1 (o con la Figura 10.1) para determinar las fracciones de muestreo requeridas para obtener un límite aceptable en el error de estimación. Podemos examinar la V ( N )para muestreo inverso en la misma f2rma que para muestreo directo. Las entradas en la Tabla 10.2 son los valores de V ( N ) / Npara diversas fracciones de muestreo p, = t / N y p, = S / N cuando se usa muestreo inverso. Recuérdese que en muestreo inverso fijamos s en lugar de n; por lo que la segunda fracción de muestreo está en términos de s. Una representación gráfica de estos datos será de gran ayuda, pero nuevamente los números son muy grandes para graficarlos convenientemente. Una parte de la Tabla 10.2 se presenta en la Figura 10.2.

TABLA 10.2

Valores de WmIN para muestreo inverso

Nótese que v(N)/N [o, equivalentemente, v(+) para un valor dado de decrece cuando p, y p, aumentan. Si el experimentador tiene un intervalo aproximado para N, puede usar la Figura 10.2; o bien la Tabla 10.2, para determinar las fracciones de muestreo ( p l = t / N ,p, = S / N )necesarias para obtener un límite razonable. Entonces el experimentador puede conducir una encuesta con una muestra inicial de t

=p,N

El experimentador empezará una segunda muestra en un tiempo futuro y continuara hasta que

animales marcados sean recapturados. Los correspondientes límites del error de estimación para N serán aceptables siempre que el estimador original de N haya sido razonable. Las anteriores técnicas de marcado-recaptura pueden ampliarse a m b de dos etapas. En la segunda etapa puede marcarse los (n - S) animales no marcados y retornarse todos los n a la población. En fecha posterior se puede tomar una tercera

10 ESTIMACIÓNDEL TAMANODE LA POBLACIÓN

FIGURA 10.2

Gráfica de los valores de la Tabla 10.2

muestra, y repetir las operaciones de conteo y marcado. Este esquema de múltiples etapas producirá un mejor estimador de N y es especialmente útil en estudios continuos, donde las muestras podrfan tomarse cada semana o en forma similar.

10.5 ESTIMACIONDE LA DENSIDAD Y EL TAMANO DE LA POBLACIÓN USANDO MUESTRE0 POR CUADROS --

La estimación del número de elementos en un área definida puede realizarse estimando primero el número de elementos por unidad de área (esto es, la densidad de los elementos) y luego multiplicando la densidad estimada por el tamaño del área en estudio. Por ejemplo, si un telar produce en promedio dos defectos por metro cuadrado de material, entonces una pieza con 40 metros debe contener aproximadamente 80 defectos. Analizaremos estimaciones tanto de la densidad como del número total de elementos. Sin embargo, nuestro argumento no tiene que limitarse a las áreas, porque los mismos métodos trabajan para estimar el número total de bacterias en un volumen fijo de líquido o el número total de llamadas telefónicasque llegan a un conmutador en un intervalo fijo de tiempo. Hablar en términos de áreas es conveniente para propósitos ilwtrativos. Suponga que se va a muestrear un área total A seleccionando aleatoriamente n parcelas, cada una de área a. Por conveniencia, suponemos que A = Na. Cada parce-

10.5 ESTIMACI~NU<ANDO MUESTRE0 POR CUADROS

265

la se denominará cuadro (aun en el caso de no ser cuadrada). En base a la terminología presentada en capftulos anteriores, un cuadro puede ser considerado como un conglomerado de elementos. Sea m, el número de elementos en el cuadro i, y hacemos que M, dado por

sea el número total de elementos en la población (con área A). Sea también

la densidad de elementos, o el número de elementos por unidad de área. Nuestro objetivo es estimar A y luego M = AA. Notese que en esta explicación los mi son variables aleatonas. ya que son los números de elementos que se encuentran en un cuadro de área fija localizado aleatoriamente. El estimador de A que se presenta aquí supone que los elementos mismos están dispersos aleatoriamente dentro de la población. Si hablamos de defectos en materiales suponemos que los defectos no se encuentran en grupos, sino dispersos en todo el material, sin orden aparente. (El lector que ha estudiado teoria de probabilidad puede reconocer que esta suposición es equivalente a aquella que señala de que las m, tienen una distribución de Poisson.) Los n cuadros seleccionados aleatoriamenteson examinados con cuidado y se determina un conteo exacto de elementos mi para cada cuadro. Si se define

tenemos los siguientes estimadores de A y M. Estimador de la densidad A:

Varianza estimada de A :

Límite para el error de estimación:

Estimador del total M:

11;i = R A

Varianza estimada dy M:

Límite para el error de estimación:

Ilustramos el uso de estos estimadores en los siguientes ejemplos:

En una plantación de pino de 200 acres en el sur del pafs, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de n = 10 cuadros de 0.5 acres cada uno. Las diez parcelas muestreadas tuvieron un promedio ti de 2.8 árboles infectados por cuadro. Estime la densidad de árboles infectados y establezca un límite para el error de estimación.

SOLUCION Mediante la Ecuación (10.7) con a = 0.5, determinamos la densidad estimada como

ti 2.8 - 5.6 árboles por acre i=-=-u

0.5

El límite para el error, usando la Ecuación (10.9), es

Entonces estimamos que la densidad es de 5.6 f 2.1, o bien de 3.5 a 7.7 árboles infectados por acre. Este intervalo es grande debido a que el tamaño de muestra es relativamente pequeño.

Para la situación y datos en el Ejemplo 10.4, estime el total de árboles infectados en los 200 acres de la plantación. Establezca un límite para el error de estimación.

Mediante la Ecuación (10.10), vemos que d total estimado es

k = AA = (5.6)(200)= 11 20 árboles

10.6 ESTIMACI~N USANDO CUADROS CARGADOS

267

El límite para el error, usando la Ecuación (10.12) es

Entonces estimamos que el total de árboles infectados es 1120

+ 420, o bien de 700 a 1450.

Nótese que el limite para el error de estimación, tanto para A como para M, contiene a y n en el denominador. Por lo que este límite decrece cuando se incrementa a o se incrementa n. Se puede determinar un tamaño de muestra útil mediante la fijación de a a un cierto nivel deseable para conveniencia del trabajo de campo y luego seleccionar n para producir el límite deseado, suponiendo algún conocimiento preliminar de A . En la siguiente sección se dará una regla aproximada para determinar a de manera óptima para un estimador de A levemente diferente.

4 0.6 ESTIMACION

DE LA DENSIDAD Y EL TAMANO DE LA POBLACIONUSANDO CUADROS CARGADOS En muestre0 por cuadros de plantas o animales, el conteo exacto del número de especies en investigación es a menudo dificil. En contraste, la detección de la presencia o ausencia de las especies de intergs suele ser fácil. Ahora vamos a mostrar que basta el conocimiento de la presencia o no de las especies en el cuadro para obtener un estimador de la densidad y del tamaño de la población. Los guardabosques se refieren a un cuadro que contiene las especies de interés diciendo que está cargado. Vamos a adoptar esta terminología. Para una muestra den cuadros, cada uno con área a, de una población con área A, sea y el número de cuadros que no están cargados. En la suposición de aleatoriedad de los elementos, introducida en la Sección 10.5, la proporción de cuadros no cargados en la población es aproximadamente e-'" Sabemos, de nuestras discusiones sobre la estimación de proporciones en el Capítulo 4, que la proporción muestra1 de cuadros no cargados es un buen estimador de la proporción poblacional. Entonces (y/n) es un estimador de -Aa e Este resultado nos lleva a los siguientes estimadores de A y M. Estimador de la densidad

(ln denota logaritmo natural.) A

Varianza estimada de A:

10 ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN

LOmitepara el error de estimacibn:

Estimador del total M:

n;r=i~ Varianza estimada de M: C(M) = A ' C ( ~ )=

(e A a - 1)

L'hite para el error de estimación:

El siguiente ejemplo ilustra el uso de estos estimadores:

Nuevamente considere los 200 acres de plantación de árboles del Ejemplo 10.4. Ahora, para la estimación de la densidad de árboles infectados por hongos parásitos, se van a muestrear n = 20 cuadros de 0.5 acres cada uno, pero únicamente se va a registrar la presencia o ausencia de árboles infectados para cada cuadro. (Ya que esta tarea es más fácil que el conteo de los árboles, se puede incrementar el tamaño de la muestra.) Suponga que y = 4 de los 20 cuadros no presentan signos de hongos parásitos. Estime la densidad y el número de árboles infectados, estableciendo límites para el error de estimación en ambos casos.

De la Ecuación (10.13) vemos que la densidad es estimada por

(0.5)

= 3.2 árboles por acre

El límite para el error, de acuerdo con la Ecuación (10.15), es

RESUMEN

269

Estimamos que la densidad es de 3,2 f 1.8, o bien de 1.4 a 5 árboles infectados por acre. De la Ecuación (10.16) tenemos

y el límite para el error, usando la Ecuación (10.18), es

Nuestra estimación del número total de árboles infectados es 640 f 360, o bien de 280 a 1000. Generalmente, el estimador basado solamente en los cuadros cargados es menos preciso que el basado en datos reales de conteo. Sin embargo, ya que la medición es más fácil cuando se buscan solamente los cuadros cargados, el tamaño de muestra puede ser bastante grande. El estimador que usa cuadros cargados no trabaja si y = O o bien .y = n. Entonces la elección del tamaño del cuadro a es muy importante. Swindel (1983) da una regla aproximada para la elección de a como

cuando se dispone de cierto conocimiento preliminar de A Si, por ejemplo, esperamos ver aproximadamente 4 árboles infectados por acre, entonces cada cuadro muestreado debe ser de 1.6/4 = 0.4 acres. La técnica de cuadro cargado puede utilizarse también con muestras de volumen o tiempo. Cochran (1950) presenta el uso de esta técnica, y modificaciones de ella, para estimar la densidad de bacterias en líquidos. Se dispone de muchas otras técnicas para estimar los tamaños de poblaciones. Una referencia excelente es el manual de técnicas de investigación de vida salvaje (Mosby, 1969) que se lista en la Bibliografla, en el Apéndice.

La estimación del tamaño de una población es a menudo muy importante, especialmente cuando se estudian poblaciones de plantas o animales. Este capitulo presenta cuatro procedimientos para estimar el tamaño de la población total N. La primera técnica es el muestreo directo. De una población se selecciona una muestra aleatoria de t unidades y después se marcan. Posteriormente se selecciona una muestra de tamaño n fijo, y se observa el número de unidades marcadas. Usando estos datos podemos estimar N y establecer un límite para el error de estimación. La segunda técnica, muestreo inverso, es similar al muestreo directo, excepto que continuamos muestreando hasta que un número fijo s de animales marcados ha

10 ESTIMACIONDEL TAMANO DE LA PORlAClÓN

sido recapturado en la segunda muestra. Los datos muestrales se usan para estimar N y establecer un límite para el error de estimación. Cuando podemos seleccionar entre el muestreo inverso y el directo, el primero parece proporcionar resultados más exactos. Sin embargo, en algunas situaciones, particularmente cuando se conoce poco o nada acerca del tamaño relativo de N, el procedimiento de muestreo directo es la mejor elección. En el tercero y cuarto métodos se usa el muestreo de cuadros, volúmenes o intervalos de tiempo, y luego se efectúa el conteo de elementos de interés dentro de esas unidades relativamente pequeñas. Este procedimiento nos lleva a estimaciones de densidad de elementos y del número total de elementos en la población.

ANALISISDEL ESTUDIO DE CASO ESI'IMACI~N DE ASISTENTES A UN CONClERTO En el ejemplo planteado para introducir este capítulo, la reportera del periódico dice al estadístico que se dieron t = 500 sombreros color naranja. Desde sus asientos en un balcón, el estadístico y la reportera localizan n = 200 asientos de una manera aleatoria. En esos 20í1asientos se observan S = 40 de los sombreros anaranjados. Ahora, el tamano de la multitud, N, se estima que es nt 200(500) - 2500 N=-=-S

El límite para el error de estimación es dado por

Con suficiente confianza estimamos que el tamano de la multitud está entre 2.500 -

707 = 1.793 y 2.500 + 707 = 3.207. Este intervalo es grande y podrÍa ser reducido mediante el incremento de n. [Nótese que este estimador supone que las personas que llevan los sombreros anaranjados están más o menos dispersas aleatoriamente entre la multitud.)

10.1 10.2

Explique las diferencias entre muestreo directo y muestreo inverso. Nombre la restricción implícita en el uso de (a)muestreodirecto o (b) muestreo inverso. ¿Cómo se puede satisfacer esta restricción en cada caso?

EJERCICIOS

271

Si se supone que el costo de muestreo no es significativo, {cómose puede mejorar el límite para el error de estimación, usando ya sea muestreo directo o muestreo inverso? Un club deportivo exclusivo para hombres se interesa en el número de truchas de iio en un arroyo. Durante un periodo de varios días, se atrapan t = 100 truchas, se marcan y se regresan al m y o . Nótese que la muestra rqresenta 100 k t e s peces ya que cualquier pez atrapado en e m días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas después se atrapó una muestra de n = 120 peces y se observó el número de peces marcados. Supóngase que este número fue de 27 (S = 27) en la segunda muestra. Estime N, el tamaño total de la población, y establezca un límite para el error de estimación. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la primera muestra se atrapan t = 320 codornices. Después de ser capturadas, cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se sueltan todas las aves. Varios meses más tarde se obtiene una segunda muestra de n = 515 codornices. Suponga que s = 91 de estos pájaros están marcados. Estime N y establezca un límite para el error de estimación. Una comisión cinegética está interesada en estimar el número de lobinas boca grande de una reservación. Se atrapa una muestra aleatoria de t = 2 876 lobinas. Cada una es marcada y soltada. Un mes después se atrapa una segunda muestra de n = 2562. Suponga que s = 678 tienen marcas en la segunda muestra. Estime el tamaño de la población total y establezca un límite para el error de estimación. Un equipo de ecólogos está interesado en estimar el tamaño de la población de faisanes en un área particular, antes de la época de cacería. El equipo cree que el tamaño real de la población está entre 2000 y 3000. Si se supone que N r* 31000, las fracciones de muestreop, y p, iguales a 0.25 deben dar un límite para el error de estimación aproximadamente igual a 2(189.74) = 379.48 (Figura 10.1). Las ecólogos piensan que este límite para el error de estimación es razonable y deciden seleccionar t = 750 y n = 750. Mediante el uso de trampas obtienen 750 faisanes para la primera muestra. Cada uno de estos ejemplares es marcado y soltado. Varias semanas después se obtiene la segunda muestra de n = 750. Supóngase que 168 de estos faisanes tienen marcas (S = 168). Estime el tamaño de la poblacibn y establezca un límite para el error de estimación. Los regentes de la ciudad están preocupados por las molestias que causan las palomas alrededor de la casa del ayuntamiento. A fin de enfatizar el problema contratan un equipk de investigadores para que estime el número de palomas que ocupan el edificio. Con varias trampas diferentes se captura una muestra de t = 60 palomas, se marcan y se sueltan. Un mes después se repite el proceso, usando n = 60. Suponga que se observan s = 18 palomas marcadas en la segunda muestra. Estime N, y establezca un llmite para el error de estimación. Los expertos en recursos animales de cierta reservación desean conocer la población de conejos, cuya disminución es evidente. En un estudio realizado hace dos años, el tamaño de la población resultó ser de N = 2 500; supóngase que éste sigue siendo de la misma magnitud, y utilice la Figura 10.1 para determinar los tamaños de muestra aproximados (t y n) que se requieren para estimar N con un límite igual a 356. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geografica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una muestra inicial de 100 (10%) parece ser suficiente. Las t = 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen s = 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15 marcadas (n = 160, s = 15). Estime N y establezca un límite para el error de estimación. Debido a un invierno particularmente riguroso, los directores de un parque están preocupados por el número de ardillas que habitan en el parque. Se atrapa una muestra inicial de t = 100 ardillas, se marcan y se sueltan. Tan pronto como se completa la primera muestra, los oficiales em-

10 ESTIMACIÓN DEL TAMANO DE iA POBLACIÓN

piezan a trabajar en una segunda muestra de n = 75. Atrapan 10 ardillas que fueron marcadas previamente. Estime N, y establezca un límite para el error de estimación. suponga que los costos por tomar una observación son los mismos en la primera y en la segunda muestras. Determine qué es lo más deseable: tener t > n, t = n, o t < n para un costo fijo de obtención de las dos muestras. (Sugerenczh:consulte las Figuras 10.1 y 10.2.) Un equipo de ecólogos de vida en estado salvaje está interesado en la efectividad de un fármaco contra la fertilidad para controlar el crecimiento de la población de palomas. Para medir la efectivídad se va a estimar el tamaño de la población de este año y comparar con el tamaño estimado el año anterior. Se construyó una gran trampa para el experimento. Ésta fue entonces cebada con alimento de maíz mezclado con una cantidad fija del fármaco. Se atrapó una muestra inicial de t = 120 palomas y se les permitió comer del alimento preparado. Cada ave es entonces marcada en su pata y liberada. En fecha posterior se atrapa una segunda muestra de n = 100 palomas. Supóngase que 48 tienen marcas (S = 48). Estime el tamaño de la población de palomas y establezca un límite para el error de estimación. Se toman periódicamente muestras de 100 centímetros cúbicos del aire en una &reaindustrial de la ciudad. La densidad de cierto tipo de partícula dañina es el parámetro de interés. Supóngase que 15 muestras dieron un promedio de 210 partículas por muestra. Estime la densidad de la partícula por centímetro cúbico y establezca un límite para el error de estimación. Suponga que en el muestreo de aire del Ejercicio 10.14 es fácil detectar la presencia o ausencia de las partículas, pero que el conteo de las mismas es difícil. De entre 500 de esas muestras, 410 mostraron la presencia de la partícula. Estime la densidad de la partícula y establezca un límite para el error de estimación. Se contaron los automóviles que pasaron a través de una intersección -durante intervalos de diez minutos- seleccionados aleatoriamente durante el periodo de trabajo de un día. En veinte de estas muestras hubo un promedio de 40 automóviles por intervalo. Estime, con un límite para el error, el número de vehfculos que usted espera pasarán por la intersección en un periodo de ocho horas. ¿Recomendaría usted el uso del método de cuadros cargados para contar los automóviles del Ejercicio 10.162 Analice el problema de la estimación de poblaciones de animales altamente migratorios mediante el uso de muestreo por cuadros. ' Los datos de la tabla acompañante muestran el nGmero de colonias de bacterias observadas en 240 campos microscópicos. Estime, con un límite para el error de estimación, la densidad de colonias por campo. ¿Qué suposiciones son necesarias para este procedimiento?

Colonia por campi

Númerode campos

O 1 2

11 37 64

3 4 -5 6

55 37 24 12

Fuente: C. 1. Bliss y R. A. Fisher, "Fitting the

Negative Binomial Distribution to Biological Data", Biometrics, vol. 9,1953. p. 176-200. Con permiso de The Biometric Society.

EXPERIENCIAS CON DATOS REALES 10.20

273

Describa cómo puede estimar el número de automóviles que transitan en una ciudad durante las horas de trabajo de un día. Compare cuatro métodos diferentes para realizar esta estimación. ¿Cuál de los cuatro considera que es el mejor? ¿Por qué?

EXPERIENCIAS CON DATOS REALES 10.1

10.2

10.3

Simule la técnica de marca-recaptura para poblaciones animales en la realización del siguiente experimento. Ponga un número conocido N de bolitas en una jarra. Marque t de ellas de modo que se puedan distinguir y mézclelas bien. Entonces muestree n bolitas, registre el número de las "marcadas", y estime N con el método directo. fijando un límite para el error de estimación. (Incluye el intervalo resultante su N conocido? Reemplace las n bolitas y repita el muestreo, usando el método inverso (continúe muestreando hasta que tenga s bolitas marcadas), y establezca un límite para el error. ¿Incluyeeste intervalo a N? Pueden realizarse vanos tamaños de muestras y vanos grados de mezcla. ¿Cómoescogería usted un tamaño de muestra apropiado? ¿Qué piensa usted que pasará si las bolitas marcadas no son completamente mezcladas con las otras? {Cree usted que esta cuestión sugiere una dificultad práctica con el método de marca-recaptura? La estructura de los problemas tratados en este capítulo requiere que haya t unidades marcadas, distribuidas aleatoriamente entre las N de una población. Si t es conocido, una muestra aleatoria de n proveerá información para estimar N. siempre que aparezcan algunas unidades marcadas en la muestra. Las marcadas pueden ser incorporadas a la población slli tomar una muestra inicial. Trate la siguiente técnica para la estimación del tamaño de una multitud que asiste a un evento deportivo, conferencia, cine u otro espectáculo. Obtenga los nombres y descripciones de t personas que usted sabe que van a asistir a 61. Solicíteles que se distribuyan aleatoriamente entre la multitud. Entonces, tome una muestra aleatoria de n personas, quizás al tiempo que las personas abandonan el edificio. Cuente el número de las t personas seleccionadas originalmente que aparecen en su muestra, y estime N. (Aquí también se puede usar el método de muestreo inverso.) Estime el número de palabras de tres letras que hay en este libro, estimando inicialmente la densidad de palabras de tres letras por página. Establezca un límite para el error de estimación. Trate dos técnicas diferentes para efectuar esta estimación. ¿Ensu opinión qué método es mejor? (Qué suposiciones son necesarias para que estos métodos sean adecuados?

COMPLEMENTARIOS En los capítulos precedentes se han estudiado cuatro diseños de muestreo: muestreo irrestricto aleatorio, estratificado, por conglomerados y sistemático. Para cada diseño de muestreo se ha supuesto que los datos fueron registrados correctamente y proporcionan una representación exacta de los n elementos muestreados de la población. Según estas suposiciones fuimos capaces de estimar ciertos parámetros poblacionales y establecer un límite para el error de estimación. Hay muchas situaciones en las cuales las suposiciones fundamentales de estos diseños no son satisfechas. Primero, las mediciones registradas no son siempre una representación exacta de los datos deseados, debido a sesgos de los entrevistadores o al equipo de medición. Segundo, el marco no es siempre adecuado y por lo tanto la muestra puede no haber sido seleccionada de la población completa. Tercero, la obtención de los datos muestrales puede ser imposible debido a la índole delicada de las preguntas. En este capítulo se presentan algunos métodos para el análisis de datos cuando ocurren errores de medición o se utiliza un marco inadecuado.

Un experimentador está interesado en obtener información a partir de una muestra irrestricta aleatoria de n personas seleccionada de una población de tamaíio N. Dispone de k encuestadores para realizar el trabajo de campo, pero éstos tienen diferente modo de entrevistar y por ello obtienen respuestas levemente diferentes a partir de sujetos idénticos. Por ejemplo, supóngase que el entrevistador va a calificar la salud de

275

11 TEMAS COMPLEMENTARIOS

un entrevistado en una escala de O a 5, con O denotando mala salud. La obtención de este tipo de información requiere habilidad para hacer la entrevista y un juicio subjetivo por parte del entrevistador. Puede ser que un entrevistador no obtenga suficiente información y tienda a calificar muy alto la salud de un individuo, mientras que otro puede obtener información detallada y calificar muy bajo la salud. Se puede obtener una buena estimación de la media poblacional aplicando la siguiente técnica. Divida aleatoriamente los n elementos muestrales en h submuestras de m elementos cada una, y asigne un entrevistador a cada una de las h submuestras. Nótese que m = n/h y n puede ser siempre elegido de tal manera que m sea entero. Consideramos a la primera submuestra como una muestra irrestricta aleatoria de tamaño m seleccionada de los n elementos en la muestra total. La segunda submuestra es entonces una muestra irrestricta aleatoria seleccionada de los (n - m ) elementos restantes. Se continúa este proceso hasta que los n elementos han sido divididos aleatoriamente en h submuestras. A estas últimas se les llama algunas veces submuest~as interpenetrantes. Esperamos que algunos entrevistadores den mediciones que son muy pequeñas y algunas muy grandes, pero que el promedio de todas las mediciones esté cercano a la media poblacional. Es decir, esperamos que los sesgos de los entrevistadores tengan una media que esté muy cercana a cero. Entonces la media muestral y es el mejor estimador de la media poblacional p , a pesar que los mediciones estén sesgadas. Usamos la siguiente notación. Sea y, la j-ésima observación en la i-ésima muestra, j = 1, 2, . . . , m , i = 1 , 2, . . . , h. Entonces y,, dada por

es el promedio de todas las observaciones en la i-ésima muestra. La media muestral y es el promedio de las k medias submuestrales. Estimador de la media poblacional p :

Varianza estimada de y: N -n

i=l

(Vi

- y12

~ (= (N) 3 k(k - 1) Límite para el error de estimación:

La técnica de submuestras interpenetrantes nos da un estimador de la varianza de y, dado en la Ecuación (1 1.S), el cual toma en cuenta los sesgos de los entrevistado-

4 j

11.2 SUBMUESTRAS IMERPENETRANTES

277

res. Esto es, la varianza estimada dada en la Ecuación (11.3) es comúnmente mayor que el estimador estándar de la vananza de la media muestral obtenida en muestreo irrestricto aleatorio debido a los sesgos presentes en las mediciones.

Un sociólogo quiere estimar la estatura promedio de los varones adultos en una comunidad que tiene 800 hombres. Cuenta con diez asistentes. cada uno con su propio equipo para tomar las medidas. Ya que el experimentador cree que sus asistentes obtendrán mediciones ligeramente sesgadas. decide tomar una muestra irrestricta aleatoria de n = 80 varones y dividir aleatoriamente la muestra en diez submuestras de ocho personas cada una. Cada asistente es entonces asignado a una submuestra. Las mediciones producen las siguientes medias submuestrales (mediciones en pies):

Estime la estatura media de los varones adultos en la comunidad y establezca un límite para el error de estimación.

SOLUCION El mejor estimador de la media poblacional es la media muestra1 f . Entonces, de la Ecuación (11.2),

Debemos estimar ahora la varianza de f usando la Ecuación (11.S). Se puede establecer la siguiente identidad:

Al sustituir, obtenemos

(~8.9)~

L ¡=l

(Y, -

= 347.17 - -- 0.25

11 TEMAS COMPLEMENTARIOS

Entonces

La estimación de la estatura media de los varones adultos, con un límite para el error de estimación, es dada por

En resumen. la mejor estimación para la estatura media es 5.89 pies, y es razonable que el error de estimación sea menor que 0.10 pies.

11.3 ESTIMACION

DE MEDIAS Y TOTALES EN SUBPOBLACIONES La obtención de un marco que liste únicamente los elementos en la población es frecuentemente imposible. Por ejemplo, podemos desear una muestra de los hogares que tienen niños, pero el mejor marco disponible puede ser una lista de todos los hogares en la ciudad. Podemos estar interesados en las cuentas atrasadas de una empresa, pero el único marco disponible puede listar todas las cuentas por cobrar de la empresa. En este tipo de situaciones deseamos estimar parámetros de una subpoblación de la población representada en el marco. El muestreo es complicado porque no sabemos si un elemento pertenece a la subpoblación sino hasta después de que éste ha sido muestreado. El problema de la estimación de una media de la subpoblacibn es resuelto esencialmente de la misma manera que en el Capítulo 4. Sea N el número de elementos en la poblacion y N, el número de elementos en la subpoblación. Se selecciona una muestra irrestricta aleatoria de n elementos de la población de N elementos. Sea n, el número de elementos muestrales de la subpoblación. Sea ylj la j-€sima observación muestral que cae en la subpoblación. Entonces la media muestral de los elementos en la subpoblación, denotada por y,, es dada por

La media muestral

1 =-

C ylj j=i

es un estimador insesgado de la media de la subpoblación p , .

Estimador de la media de la subpoblación p1:

11.3 ESTIMACI6NDE MEDIAS Y TOTALES EN SUBFOEWCIONES

Varianza estimada de

279

yl:

Límite para el error de estimación:

La cantidad ( N , - n l ) / N l puede ser estimada por ( N - n ) / N si se desconoce N i .

Un economista desea estimar la cantidad promedio semanal gastada en comida por familias con niños, en cierto municipio clasificado como área de pobreza. Se dispone de una lista completa de las 250 familias del municipio, pero la identificación de las familias con niños es imposible. El economista selecciona una muestra irrestricta aleatoria de n = 50 familias y encuentra que n1 = 42 familias tienen al menos un hijo. Se entrevista a las 42 familias con niños y se óbtiene la siguiente información

Estime la cantidad promedio semanal gastada en comida por todas las familias con niños y establezca un límite para el error de estimaci6n.

El estimador de la media poblacional es fl. dado por la Ecuación (11.5). Los c5lculos producen

Tenemos la igualdad

y sustituyendo nos da n.

11 TEMAS COMPLEMENTARIOS

La cantidad ( N , - n,)/N1debe ser estimada por ( N - n ) / N ,ya que N , es desconocido. La varianza estimada de y,, dada en la Ecuación (11.6),toma el valor

Entonces la estimación del promedio de la población, con un límite para el error de estimación. está dada por

o sea

40.95

* 2&9.

o sea

40.95

* 1.81

La mejor estimación de la cantidad promedio semanal gastada en víveres por las familias con niños es $40.95. El error de estimación debe ser menor que $1.81 con probabilidad aproximadamente igual a 0.95.

Si el número de elementos en la subpoblación Ni es conocido, el total de la subpoblación 7 , puede ser estimado por N ,?,. Estimador del total de la subpoblación r l :

Varianza estimada de N, j,:

Límite para el error de estimación:

Un estudio preliminar reciente del municipio del Ejemplo 11.2 revela que N , = 205 familias con niños. Usando esta información y los datos del ejemplo mencionado, estime la cantidad semanal total gastada en comida por estas familias. (Nota: N, va a variar con el tiempo. Suponemos que el valor de N, usado en este análisis es correcto.)

11.3 ESTIMACI@IDE MEDIAS Y TOTALES EN SUBPOBLACIONES

281

El mejor estimador del total es N,Y,, dado en la Ecuación (1 1.8), el cual da una estimación de

La cantidad CJn&( y v - 11)' es calculada en el Ejemplo 11.2 con un valor de 1762. Entonces, la varianza estimada de N , y, es [de la Ecuación (1 1.9)]

La estimación de la cantidad total que las familias gastan en comida por semana, dada con un límite para el error de estimación, es

N,& O

* 2,-

sea

o sea

8394.75

* 2\/34,19119,

8394.75 I 369.82

A menudo el número de elementos en la subpoblación, N,, es desconocido. Por ejemplo, el número exacto de los hogares que tienen niiios en una ciudad puede ser dificil de determinar; mientras que el número total de hogares puede quizás ser obtenido de un directorio de la ciudad. Aunque N, es desconocido, se puede obtener un estimador insesgado de T . Estimador del total de la subpoblación T, cuando N, es desconocido:

Varianza estimada de 7,:

Límite para el error de estimación

282

11 TEMAS COMPLEMENTARIOS

EJEMPLO 4 4.4 Suponga que el experimentador del Ejemplo 11.3 duda de la exactitud del valor preliminar de N,. Use los datos de ese ejemplo para estimar la cantidad total semanal gastada en víveres por las familias con niños, sin usar el valor dado de N,.

El estimador del total que no depende de N,es %,,dado por la Ecuación (1 1.1 1). Entonces

Sustituyendo en la Ecuación (1 1.12) nos da la varianza estimada de %, :

Entonces la estimación de la cantidad total semanal gastada en comida, con un límite para el error de estimación, es

% O

sea

o sea 8600

8600 I

* 1031.44

Este intervalo es un límite grande para el error de estimación y debe ser reducido mediante el incremento del tamaño de muestra n.

Nótese que la varianza de G,, calculada en el Ejemplo 11.4, es mucho mayor que , calculada en el Ejemplo 11 .3. La varianza de r,es mayor porque la inforla de N,?, mación proporcionada por N,es usada en N,?, pero no en 7^,. Entonces, si N,es conocido, o si puede determinarse con poco costo adicional, se debe usar el estimador

Nln.

4 4.4 MODELO DE RESPUESTA ALEATORIZADA Las personas que son entrevistadas a menudo se niegan a contestar o dan una respuesta incorrecta a preguntas inconvenientes que las ponen en aprietos o que les pueden

11.4 MODELO DE RESPUESTA ALEATORIZADA

283

ser dañinas en algún sentido. Por ejemplo, algunas personas pueden no responder con la verdad a cuestiones políticas, tales como: "¿Esusted fascista?" En esta sección vamos a presentar un método para estimar la proporción de personas que tienen alguna característica de interés, sin obtener respuestas directas de las personas entrevistadas. El método es debido a S. L. Warner (1965). Designe a las personas de la población que tienen o no alguna característica de interes, como grupos A y B, respectivamente. Entonces cada persona está en uno de los grupos A o B. Sea p la proporción de personas en el grupo A. El objetivo es estimar p sin preguntar a cada persona directamente si pertenece o no al grupo A. Podemos estimar p usando un artificio llamado modelo de respuesta aleatonzada. Erqpezamos con un mazo de cartas idénticas, excepto .que una fracción de ellas, 6 , está marcada con una A y la fracción restante, (1 - O ) , con B . Se selecciona una muestra irrestricta aleatoria de n personas de la población. A cada una se le solicita que seleccione aleatoriamente una carta del mazo y que diga "sí" cuando la letra en la carta seleccionada concuerde con el grupo al cual pertenece, o "no" cuando la letra en la carta seleccionada no concuerde con el grupo a i cual pertenece. La carta es reemplazada antes de que la siguiente persona seleccione la suya. El entrevistador no ve la carta y simplemente registra si la respuesta es "sí" o "no". Sea n, el número de personas en la muestra que responden "sí". Un estimador insesgado $ de la proporción poblacional p es dado en la Ecuación (11.14). Estimador de una proporción poblacional p:

Varianza estimada de 6:

Límite para el error de estimación:

Las Ecuaciones (1 1.14), (1 1.15) y (1 1.16) están basadas en la suposición de que el tamaño de la población es grande en relación con n, así que la corrección por población finita puede ser omitida. La fracción 6 de cartas marcadas con A puede ser elegida arbitrariamente por el experimentador, pero no debe ser igual a i. No se debe usar un valor de 6 = 1 porque el entrevistado se daría cuenta que se le está preguntando si pertenece o no al grupo A, o sea lo que no quiere responder. Un valor de 6 entre y 1, por ejemplo t, es usualmente adecuado.

Se diseña un estudio para estimar la proporci6n de personas que dieron información falsa en su declaración de impuestos, en cierto distrito. Ya que los entrevistados no ad-

11 TEMAS COMPLEMENTAl7IOS

mitirán que falsearon su declaracion, se usa una técnica de respuesta aleatorizada. El experimentador prepara un mazo de cartas de las cuales 4 de ellas son marcadas con una F, denotando una declaración falsa, y $ son marcadas con C, denotando una declaración correcta. Se selecciona una muestra irrestricta aleatoria de n = 400 personas de una población grande de contribuyentes en el distrito. En entrevistas separadas se le pide a cada uno que elija una carta del mazo y que responda "sí" cuando la letra de la carta concuerde con el grupo al cual pertenece. El experimento origina n, = 120 respuestas "sí". Estime p, la proporción de contribuyentes en el distrito que han falseado su declaración y establezca un límite para el error de estimación.

De la Ecuación (11.14)

La varianza estimada de

6 es dada en la Ecuación (11.15) como

La estimación de p, con un límite para el error de estimación, es entonces

p * 2,-

o sea

0.1

*2 G 2 1 ,

o sea

0.1 f 0.092

Este método requiere generalmente un tamaño de muestra muy grande para obtener una varianza del estimador razonablemente pequeña. Se necesita un tamaño de muestra grande porque cada respuesta origina poca información sobre la proporcidn poblacional p. La técnica de respuesta aleatorizada que se ha presentado aquí es la más simple de estas técnicas. Para mayor información sobre ellas vea los artículos de Campbell y Joiner (1973) y de Leysieffer y Warner (1976). Las técnicas de respuesta aleatorizada pueden ser usadas más ampliamente que en el tipo de situación que se ha empleado aquf. Para conocer cómo se desarrolla esta técnica vea el artículo de Greenberg, Kuebler, Abemathy y Horvitz (1971).

14.5 SELECCIONDEL NUMERODE REENTREVISTAS Como se explicó anteriormente, la no respuesta es un problema importante que se debe considerar en cualquier encuesta. Si en una muestra aleatoria de tamaño n se obtienen Únicamente nl(nl < n ) respuestas, entonces los dos grupos (respuesta y no

11.5 SELECCION DEL NÚMERODE REENTREVISTAS

285

respuesta) pueden ser manejados como una muestra aleatoria estratificada con dos estratos. Nótese que esta situación no es propiamente un muestreo aleatorio estratificado, ya que n, y n2 = n - n, son variables aleatorias, cuyos valores son determinados únicamente después de que el muestreo inicial es completado. De cualquier manera, pensando en términos de muestreo estratificado, nos permite encontrar reglas óptimas aproximadas para la asignación de recursos a las reentrevistas. Supóngase que de n2 entrevistados con no respuesta, decidimos hacer entrevistas intensivas en r de ellos, donde r = n,/ k para la constante k > 1. Suponga tambien que se tiene un costo de c , dólares para obtener una respuesta estandar y c, dólares (c, > c,) para una respuesta de reentrevista, con co denotando el costo inicial del muestreo de cada elemento. Entonces el costo total es

Si y, denota el promedio de las respuestas iniciales y f2 el promedio de las r respuestas de reentrevista, entonces

es un estimador insesgado de la media poblacional p . Se puede derivar una expresión teórica para la varianza de Y* y entonces podemos encontrar los valores de k y n, que minimizan el costo esperado del muestreo para , ejemplo Vo. Los valores óptimos de k y n son un valor fijo deseado de ~ ( i * )por aproximadamente, para N grande,

N [ U+ ~ ( k - 1 ) w,u~] NV, u2

donde W 2es la tasa de no respuesta para la población, W , = 1 - W,, y u2y u: son las varianzas para la población completa y para el grupo de no respuesta, respectivamente. La varianza de y* puede ser estimda por

donde si estima la varianza del grupo de no respuesta y s2estima la varianza en toda la población.

Se va a usar un cuestionario por correo para recolectar data a fin de estimar a la cantidad promedio por semana que un grupo de 1000 estudiantes gasta en diversión. De expe-

11 TEMAS COMPLEMENTARIOS

riencias pasadas se anticipa que la tasa de no respuesta es alrededor del 60%.Se piensa que a2 120 y u: 80. (El grupo de no respuesta tiende a ser aquellos que no están interesados en diversiones y por eso gastan menos y tienen una menor variación en sus hábitos de gastos.) Suponga co = 0, cl = l, y c2 = 4 y que se usa inicialmente una muestra irrestricta aleatona. Encuentre n y K de tal manera que la varianza del estimador resultante sea aproximadamente igual a cinco unidades.

SOLUCION Obsérvese que W2 = 1 - Wi = 0.4. Entonces de las Ecuaciones (1 1.18) y (1 1.19)

1000[120 1.71(.4)(80)] = 34.1 o bien 35 1OOO(5) + 120

Ya que E(n2) = n W2 = 35(0.4) = 14, podemos esperar que aproximadamente 21 personas respondan inicialmente, y n2 k

r=-%--

14 - 5.2 o bien 6 2.71

reentrevistas se van a tener que hacer.

En este capftulo se presentaron tres técnicas útiles para estimar parámetros poblacionales cuando no son válidas las suposiciones fundamentales de los diseños elementales de encuestas por muestreo. El efecto de sesgo del entrevistador puede reducirse mediante el uso de submuestras interpenetrantes. En este caso el estimador de la media poblacional es dado por la Ecuación (11.2) y la varianza estimada de este estimador es dada por la Ecuación (11.3). Un marco inadecuado genera el problema de estimar medias y totales de subpoblaciones. El estimador de la media de una subpoblación es dado por la Ecuación (11.5) y los estimadores del total por las Ecuaciones (11.8) y (11.11). Cuando las personas que están siendo entrevistadas no dan respuestas correctas a preguntas inconvenientes, se puede utilizar algunas veces una técnica de respuesta aleatorizada. En la Sección 11.4 se explica el método para la estimación de una proporción poblacional p mediante el uso de este procedimiento. Algunas veces, con el pmpóBito de elegir un número óptimo de reentrevistas, se pueden tratar las no respuestas como un estrato separado, como se mostró en la Secaón 11.5.

EJERCICIOS

11.1

287

Un investigador está interesado en estimar el promedio anual de gastos médicos por familia. en una comunidad de 545 familias. El investigador tiene disponibles ocho asistentes para hacer el trabajo de campo. Se requiere habilidad para obtener información exacta porque algunos entrevistados se rehúsan a proporcionar información detallada sobre su salud. Ya que los asistentes difieren en habilidades para entrevistar, el investigador decide usar ocho submuestras interpenetrantes de cinco familias cada una, con un asistente asignado a cada submuestra. Es por esto que se selecciona una muestra irrestricta aleatona de 40 familias y se divide en ocho submuestras aleatorias. Se realizan las entrevistas y se obtienen los resultados que se indican en la tabla acompañante. Estime el promedio de gastos médicos por familia del año pasado, y establezca un límite para el error de estimación

Cantidad (en dólaros) de

grua ntédiau duran* ei .liopPudo

11.2

Se diseña un experimento para medir la reacción emocional provocada por una decisión gubernamental sobre desegregación escolar. Se entrevista una muestra irrestricta aleatoria de 50 personas y se obtienen las reacciones emocionales en tenninos de registros de 1 a 10. La escala sobre la cual se asignaron los registros va de enojo extremo hasta alegría extrema. Se emplean trabajando diez entrevistadores para hacer las preguntas y el registro, con cada en&tador una submuestra aleatona (submuestra interpenetrante) de cinco personas. Las submuestras interpenetrantes son usadas debido a la naturaleza flexible de los registros. Los resultados se dan en la tabla siguiente. Estime el registro promedio por persona en la ciudad y establezca un límite para el error de estimación.

11 TEMAS COMPLEMENTARIOS

Un tendero quiere estimar la cantidad promedio de todas las cuentas vencidas. La lista disponible es obsoleta porque algunas cuantas han sido pagadas. Pero, debido a que es costosa la elaboración de una nueva lista, la tienda usa esta lista. Se selecciona una muestra hestricta aleatoria de 20 cuentas de la lista que contiene 95. De las 20 cuentas muestreadas, 4 han sido pagadas. Las 16 vencidas contienen las siguientes cantidades (en dólares): 3.65, 15.98, 40.70, 2.98, 50.00, 60.31, 67.21, 14.98, 10.20, 14.32, 1.87, 32.60, 19.80, 15.98, 12.20, 15.00. Estime la cantidad promedio de las cuentas vencidas para la tienda y establezca un límite para el error de estimaci6n. Para el Ejercicio 11.S, estime la cantidad total de las cuentas vencidas de la tienda y establezca un límite para el error de estimación. Un empleado de la tienda del Ejercicio 11.3 decide revisar la lista de las cuentas vencidas y marcar aquellas que han sido pagadas. Epcuentra que 83 de las 95 están vencidas. Estime la cantidad total de las cuentas vencidas usando bta información adicional y los datos del Ejercicio 11.3. Establezca un límite para el error de estimación. Se realiza un estudio para estimar el número promedio de millas que hay de la casa al trabajo de los jefes de familia que viven en cierta área suburbana. Se selecciona una muestra irrestricta aleatoria de 30 jefes de familia de los 493 del área. Al realizar las entrevistas, el experimentador encuentra que algunosjefes dé familia no son apropiados para el estudio porque están retirados o no acuden al trabajo por diversas razones. De los 30 muestreados, 24 son apropiados para el estudio, y los datos que indican las millas de distancia son los siguientes:

&time la distancia promedio entre la casa y el lugar de trabajo para los jefes de familia que asisten a su trabajo. Establezca un límite para el error de estimación. Para los datos del Ejercicio 11.16 estime la distancia total de viaje entre la casa y el lugar de trabajo de todos los jefes de familia del área suburbana. Establezca un límite para el error de estimación. Suponga que usted sabe que 420 de los 493 jefes de familia (Ejercicio 11.6) se trasladan hasta su trabajo. Estime la distancia total de viaje para todos los jefes de familia en esta área suburbana haciendo uso de esta información adicional. Establezca un límite para el error de estimación. Un perito en salud pública quiere estimar la proporción de dueños de perra que han llevado a sus animales a vacunar contra la rabia, en una ciudad. É1sabe que estos señores frecuentemente dan información incorrecta por temor a que algo pueda pasar a sus perros si no se han aplicado las vacunas. Entonces el perito decide usar una técnica de respuesta aleatorizada. Dispone de un mazo de barajas con 0.8 de las cartas marcadas A para el grupo que tiene las vacunas y 0.2 marcadas B para el grupo que no las tiene. Se selecciona una muestra irrestricta aleatoria de 200 dueños de perros. Cada uno es entrevistado y se le pide extraer una carta del mazo y responder "sí" cuando la letra en la carta coincida con el grupo a que pertenece. El perito obtuvo 145 respuestas "sí". Estime la proporción de dueños de perros que tienen vacunados a sus animales y establezca un límite para el error de estimación. Suponga que el número de dueños de perros en la ciudad es muy grande. Un ejecutivo de cierta corporación quiere estimar la proporción de empleados que han sido convictos de un delito menor. Ya que ellos no contestarían directamente la pregunta, el ejecutivo usa una técnica de respuesta aleatorizada. Se selecciona una muestra irrestricta aleatoria de 300 personas de un gran número de empleados de la corporación. En entrevistas separadas, cada empleado extrae una carta de un mazo que tiene 0.7 de las cartas marcadas con "convicto" y 0.3 marcadas con "no convicto". El empleado responde "sí" cuando la carta concuerda con su categoría o "no" cuando difiere. El ejecutivo obtiene 105 respuestas "si". Estime la proporción de empleados que han sido convictos de un delito menor, y establezca un límite para el error de estimación.

EXPERIENCIAS CON DATOS REALES

289

EXPERIENCIAS CON DATOS REALES

11.1 11.4 11.3 11.4

Seleccione una muestra irrestncta aleatoria de la población apropiada en al menos una de las situaciones mencionadas abajo. Estime la proporción o promedio indicado y establezca un &te para el error usando los resultados apropiados de la Sección 11.3 que trata subpoblaciones. En cada caso suponga que los objetos en la subpoblación no pueden ser clasificados como tales hasta después que han sido observados. Estime la proporción de votantes que favorecen cierta proposición del gobierno local entre aquellos que votaron en la más reciente elección. Estirne la proporción de estudiantes en su escuela que favorecen el sistema trimestral entre aquellos que han sido estudiantes de la universidad en el sistema trimestral y al menos otro sistema. Estime la cantidad promedio gastado en s e ~ c i odurante s el mes pasado por dueños de casas en un vecindario. Estime el número promedio de palabras por página entre las páginas que no contienen f6nauias enmarcadas o tablas en este libro.

12.1

RESUMEN DE LOS DISEAOS Como se recordará, el objetivo de la estadlstica es hacer inferencias acerca de una población con base en la información contenida en una muestra. En este texto se analiza el diseño de encuestas por muestreo y m&todos asociados de inferencia para poblaciones que tienen un número finitc de elementos. Los ejemplos practica han sido seleccionados principalmente de los campos de los negocios y las ciencias sociales, donde las poblaciones finitas de respuestas humanas son frecuentemente el objetivo de las encuestas. También M incluyen ejemplos sobre el manejo & recursos naturales. El metodo de inferencia empleado en la mayoría de las encuestas por muestreo es el de estimación. Por lo tanto se consideran estimadores apropiados para los parametros de la población y el límite de dos desviaciones estándar para el error de estimación asociado. En muestreo repetido el error de estimación será menor que su Imite, con una probabilidad aproximadamente igual a 0.95. Análogamente, se construyen intervalos de confianza que, en muestreo repetido, incluyen al parámetro verdadero de la población, en aproximadamente 95 veces de 100. La cantidad de información relevante para un parámetro dado es medida por el límite para el error de estimación. En este texto el material se presenta en cinco partes. La primera es una revisión de los conceptos básicos, la segunda contiene diseños de encuestas por muestreo útiles, la tercera considera un estimador que utiliza la información obtenida de una variable auxiliar, la cuarta trata métodos para estimar el tamaño de poblaciones salvajes, y la quinta considerá métodos para hacer inferencias cuando una o más de las suposiciones básicas no se satisfacen mediante las técnicas comunes. La prirne;a parte, presentada en los Capftulos 1, 2 y 3, revisa el objetivo de la estadística y las características peculiares de los problemas que surgen en las ciencias

sociales, negocios, y manejo de recursos naturales que los hacen diferentes del tipo tradicional de experimento realizado en el laboratorio. Estas peculiaridades principalmente involucran el muestreo de poblaciones finitas junto con ciertas dificultades que ocurren en la selección de muestras de poblaciones humanas. El muestreo de poblaciones finitas requiere la modificación de las fórmulas de los límites para el error de estimación que se encuentran en un curso introductorio de estadística. Las dificultades asociadas con el muestreo de poblaciones humanas sugieren diseños específicos de encuestas por muestreo que reducen el costo de adquisición de una cantidad especifica de información. En los Capítulos 4, 5, 7, 8 y 9 consideramos los diseños específicos de encuentas por muestreo y sus métodos de estimación asociados. El diseño de encuestas por muestreo básico, muestreo irrestncto aleatorio, se presenta en el Capftulo 4. Para este diseño la muestra es selecionada de manera que cada muestra de tamaño n en la población tiene una misma probabilidad de ser seleccionada. El diseño no pretende reducir de modo concreto el costo de la cantidad deseada de información. Es el tipo de diseño de encuestas por muestreo más elemental y todos los otros diseños se contrastan con él. El segundo tipo de diseño, muestreo aleatorio estratificado (Capftulo 5), divide a la población en grupos homogéneos denominados estratos. Este procedimiento usualmente produce un estimador que posee una varianza más pequeña que la que puede ser obtenida por muestreo irrestricto aleatorio. Por lo tanto el costo de la encuesta puede reducirse seleccionando pocos elementos a fin de alcanzar un límite equivalente para el error de estimación. El tercer tipo de diseño experimental es el muestreo sistemático (Capitulo 7), el cual generalmente se aplica a los elementos de la población que estan disponibles en una lista o sucesión, tal como los nombres en tarjetas ordenadas en un archivero o personas que salen de una fábrica. Se selecciona un punto de inicio aleatorio y posteriormente se muestrea cada k-tsimo elemento. El muestreo sistemático suele realizarse cuando recolectar una muestra irrestricta aleatoria o una muestra aleatoria estratificada es extremadamente costoso o imposible. Una vez más, la reducción en el costo de la encuesta se relaciona principalmente con el costo de recolección de la muestra. El cuarto tipo de diseño de encuestas por muestreo es el muestreo por conglomerados, el cual se presenta en los Capftulos 8 y 9. El muestreo por conglomerados puede reducir el costo porque cada unidad de muestreo es una colección de elementos usualmente seleccionados con el fin de que estén juntos fisicamente. El muestreo por conglomerados suele realizarse cuando no se dispone de un marco que liste todos los elementos de la población o cuando los costos de transporte de un elemento a otro son considerables. El muestreo por conglomerados reduce el costo de la encuesta principalmente reduciendo el costo de recolección de los datos. En la tercera parte del material, Capitulo 6, se presenta un análisis de los estimadores de razón, regresión y diferencia, los cuales utilizan la información de una variable auxiliar. El estimador de razón ilustra cómo la información adicional, frecuentemente adquirida a bajo costo, puede ser usada para reducir la varianza del estimador y, consecuentemente, para reducir el costo global de la encuesta. También sugiere la posibilidad de obtener estimadores más sofisticados usando la información en más de una variable auxiliar. Este capitulo sobre estimación de razón sigue naturalmente al análisis sobre el muestreo irrestricto aleatorio del Capftulo 4. Esto es, usted puede tomar una medición de y, la respuesta de interts, para cada elemento de la

12.2 COMPARACIONES ENTRE LOS DISENOSY M€TODOS

293

muestra irrestricta aleatoria y utilizar 10,s estimadores tradicionales del Capltulo 4. 0, como se sugiere en el Capitulo 6, usted podria tomar una medición sobre y y una variable auxiliar x para cada elemento y utilizar la información adicional proporcionada por la variable auxiliar para obtener un mejor estimador del pargmetro. Por lo tanto, aunque no se ha destacado, en lo particular los estimadores de razón pueden ser empleados con cualquiera de los diseños estudiados en este texto. El Capítulo 10 trata problemas espedficos para estimar el tamaño de poblaciones. Dos estimadores empleados utilizan la recaptura de datos, lo cual requiere que el muestreo se efectúe en al menos dos etapas. La quinta y última parte del libro estP contenida en el Capltulo 11, el cual se refiere a cuatro situaciones en donde algunas de las suposiciones bhsicas de los procedimientos comunes no pueden ser satisfechas. Las situaciones son (1) sesgos del entrevistador, que algunas veces pueden ser minimizados usando submuestras interpenetrantes, (2) un marco inadecuado, que algunas veces puede contrarrestarse usando un estimador para subpoblaciones de la población muestreada. (5) información sobre temas delicados, que puede obtenerse mediante un modelo de respuesta aleatorizada, y (4) no respuesta, la cual puede ser planeada y diseñada dentro de la encuesta tratando a los no respondientes como un estrato separado. En resumen, hemos presentado varios diseños elementales de encuestas por muestreo junto con sus métodos de inferencia asociados. La consideración de los temas se ha encauzado hacia las aplicaciones prácticas, de manera que pueda apreciarse cómo puede ser empleado el diseño de encuestas por muestreo para hacer inferencias al mínimo costo cuando se muestrean poblaciones finitas sociales, de negocios o de recursos naturales.

12.2 COMPARACIONES ENTRE LOS DISEAOS Y METODOS Mediante un arreglo de los diseños de muestreo y los metodos de análisis disponibles, ahora concretamos las explicaciones anteriores sobre cómo seleccionar un diseño apropiado para un problema en particular. . El muestreo irrestriao aleatorio es el fundamento y el punto de referencia para todos los demas diseños estudiados en este texto. Sin embargo pocas encuestas a gran escala usan solamente el muestreo irrestricto aleatorio, debido a que frecuentemente otros diseños proporcionan qayor precisión o eficiencia o ambas cosas. El muestreo aleatorio estratificado produce estimadores con varianza más pequeña que aquellos del muestreo irrestricto aleatorio, para el mismo tamaño de muestra, cuando las mediciones en estudio son homogéneas dentro de los estratos pero las medias por estrato varían entre ellas mismas. La situaci6n ideal para el muestreo aleatorio estratificado es tener todas las mediciones iguales dentro de cualquier estrato, pero que ocurran diferencias conforme se pasa de un estrato a otro. El muestreo sistemático a menudo se utiliza simplemente como una conveniencia. Es relativamente fácil de realizar. Pero realmente esta forma de muestno puede ser mejor que el muestreo irrestricto aleatorio, en tcnninos de los límites para el error de estimación, si la correlación entre pares de elementos dentro de la misma muestra

12 RESUMEN

sistemhtica es negativa. Esta situación ocurrirá, por ejemplo, en datos periódicos si la muestra sistemática incluye a los puntos altos y a los bajos de la periodicidad. Si, en contrasle, la muestra sistemática incluye solamente los puntos altos, los resultados serán muy deficientes. Las poblaciones que presentan una tendencia lineal en los datos o que tienen una estructura periódica que no es completamente comprensible pueden ser muestreados mejor usando un diseño estratificado. Series de tiempo económicas, por ejemplo, pueden ser estratificadas por trimestres o meses, con una muestra aleatoria seleccionada de cada estrato. La muestra estratificada y la sistemática fuerzan a que el muestreo sea llevado a cabo a lo largo de todo el conjunto de datos, pero el diseño estratificado ofrece una mayor selección aleatoria y frecuentemente produce un lmite para el error de estimación más pequeiio. J3l muestreo por conglomerados generalmente se emplea en razón de la efectividad y el porque no se dispone de un marco adecuado para los elementos. Sin embargo, el muestreo por conglomerados puede ser mejor que el muestreo irrestricto aleatorio o que el aleatorio estratificado si las mediciones dentro de los conglomerados son heterogéneas y sus medias son aproximadamente iguales. La situación ideal para el muestreo por conglomerados es, entonces, tener conglomerados con mediciones tan diferentes como sea posible, pero tener medias iguales. Esta situación se contrapone a la del muestreo aleatorio estratificado, en el cual los estratos son homogéneos pero las medias de los estratos son diferentes. Otra manera de contrastar los (iltimos tres diseños es como sigue. Supóngase que una población consiste de N= nk elementos, la cual puede considerarse como k muestras sistemSticas cada una de tamaño n. Los nk elementos pueden considerarse como n conglomerados de tamaño k, y la muestra sistemática tinicamente selecciona un conglomerado. En este caso los conglomerados deben ser heterogéneos para el muestreo sistemático óptimo. En constraste, los nk elementos también pueden ser considerados como n estratos de k elementos cada uno, y la muestra sistemática selecciona un elemento de cada estrato. Así, los estratos deben ser tan homogéneos como sea posible, pero las medias de estrato deben diferir tanto como sea posible. Este diseño es consistente con la formulación del problema por conglomerados y una vez más produce una situación óptima para el muestreo sistemático. De esta forma vemos que los tres diseños de muestreo son diferentes, y no obstante son consistentes entre sí con respecto a los principios básicos. Algunos comentarios finales se refieren a cómo hacer uso de una variable auxiliar x para obtener más información sobre la variable de interés y. La estimación de razón es óptima si la regresión de y sobre x produce una línea recta que pasa a través del origen y si la variación en las y aumenta con el incremento de x. La estimación de regresión es mejor que la estimación de razón si la regresión de y sobre x no pasa a través del origen y si la variación en las y permanece relativamente constante cuando varía x. La estimación de diferencia es tan buena como la estimación de regresión si el coeficiente de regresión es aproximadamente igual a la unidad. Ahora presentaremos algunos ejercicios para los cuales usted puede decidir el método de análisis apropiado.

tos$?

EJERCICIOS 12.1

Una remesa de 6000 acumuladores para automdvil contiene, de acuerdo con las especificaciones del fabricante, acumuladores que pesan aproximadamente 69 libras cada uno y tienen un

EJERCICIOS

295

g r m r en las placas positivas de 120 milésimas de pulgada. De esta remesa se i~leccionaronaleatoriamente treinta acumuladorer que fueran probados. Los datos se regirtran en la Tabla 12.1. ¿Considera usted que las especificaciones del fabricante se satisfacen eq esta remesa? (Cada acumulador contiene 24 placas positivas.) TABLA 12.q Especificaciones de los acumu!bdores. Númuode

Pao Acumulidor (en libru)

12.2

Ppmtiru muutrudm

G-

I>aomadio deiupiiai

(en mü&imm

P W ~

DaSi.db0 adn&r del Bmor

El Departamento de Rentas Pfiblicar en un estado &r cuidado~unentelas cifran del impuerto sobre ventas de las tiendar con ventas al menudeo. Si el departamento considera que una empreea nitl reportando menos de sus ventaa gravabler, puede ordenar una auditoiia de lan cuentan de

12 RESUMEN

la empresa. Una auditoria semejante fue ordenada para una empresa con muchas sucursales de ventas al menudeo a través del estado. Los datos sobre las ventas gravables fueron conservados para cada tienda. Por lo tanto los auditores decidieron muestrear aleatoriamente las ventas por meses-tienda. Esto es, los datos de las ventas fueron obtenidos para los meses seleccionados aleatoriamente en las tiendas seleccionadas aleatoriamente. Luego los auditores registraron el total de las ventas gravables para compararlo con las ventas gravables reportadas por la tienda. El Departamento de Rentas PCiblicas quiere estimar el incremento proporcional en las ventas gravables revisadas sobre las ventas gravables reportadas. ¿Cómo puede usted hacer esta estimación, con un límite para el error, según los datos que se presentan en la tabla adjunta para 15 meses-tienda?(Las cifras estan en miles de dólares.)

Mec tienda

12.3

12.4

Venui

Vmui

gravabla revhdPI

parabla rrpmudil

La Oficina de Estudios Geológicos del Depanamento de Asuntos Internos de Estados Unidos monitorea el flujo de agua en los ríos de Estados Unidos. Los datos que se presentan en la Tabla 12.2 muestran las proporciones medias del flujo diario, en pies cúbicos por segundo, para una estación de control específica en cierto río de Florida para un pediodo de d a años, 1977-1979. (a) Tome una muestra de 20 mediciones de los datos para calcular una estimación rapida de la proporción promedio del flujo diario para el periodo de dos aiíos. Establezca un límite para el error de estimación. (b) Estime la razón de la proporción promedio de flujo en abril con la proporción promedio de flujo m septiembre, y establezca un límite para el error de estimación. <Consideraque aquí necesita datos de más años para hacer una buena estimacion? Los guardabosques estiman el volumen neto de los arboles en pie midiendo el diametro a la altura del pecho y la altura del arbol y, posteriormente, observando los defectos visibles y otras caracteristicas del krbol. El volumen real de madera útil solamente puede encontrarse después de que el árbol es dembado y procesado en tablazón. Para una muestra de 20 arboles, los datos aobre el volumen estimado y el volumen real están registrados, junto con la especie del árbol, en la tabla adjunta. El volumen total estimado para todos los 180 arboles es 60,000 pies de tabla. Use los datos de la tabla para resolver los problemas siguientes. (a) Estime el total real de pies & tabla para los 180 árboles. (b) Estime la proporción de arboles de abeto balsamico para el sitio completo.

TABLA 12.2 Gasto de agua [en pes cĂşbicos por segundo), de octubre de 1977 a sepfiembre de 1978 [valores medios]

M i

Oa.

Nov.

Dic.

Ene.

Peb.

Mar.,

Abr.

May.

Jun.

J a

Sep.

T M u 12.2

conthuociรกn

lbn-1970

C D(.

Oa.

Na.

26 27 28 29 30 31

16 15 14 13 13 12

4.4 4.3 3.6 3.8 3.8

6.1 5.9 5.0 5.2 5.4 6.8

Oa.

Nov.

Dic.

Ene.

23 23 19 18 16 14

Enc

Pcb.

Mar.

Abr.

Jiiii.

3.0 2.3 2.7 2.8 7.9

22 29 24 22 19 20

90 91 98 95 1O0 114

Jd-

12 12 11 11 9.5 9.6

6.9 11 12 9.5 4.6 2.6

Feb.

Mu.

Abr.

-7-

58 49 41

16 17 17 17 16

Hay.

Sep.

24 19 13. 9.6

8.5

Sep.

11 12 13 14 15

4.6 5.6 6.8 9.3 5.7

0.70 0.76 0.74 0.80 0.87

3.0 3.4 3.1 4.3 3.5

7.5 27 59 49 30

16 16 15 15 15

44 37 33 31 27

9.4 9.4 9.9 8.5 8.5

275 220 185 185 160

1& 17 18 19 20

5.0 4.7 4.5 4.4 5.8

0.96 1.0

3.1 3.0 2.6 3.1 4.7

22 19 17 14

15 15 14 14

25 21 21 19 16

7.8 6.4 6.1 6.3 6.1

21 22 23 24 25

6.6 7.9 9.6 6.6 5.6

5.6 7.7 8.6 10 11

17 19 17 33 40

12 12 12 13 56

16 15 17 20 18

5.2 5.8 7.6 3.8 2.7 1.4

2.0 2.0 2.1 2.6 .93

12 15 28 19 12 8.8

33 26 24 23 23 24

106 62 36

197.6 6.37 10 1.4

33.44 1.11 2.6 0.50

202.2 6.52 28

613.9 19.8 59 4.7

28 29 30 31 T~

Media

•• libo.

1.1 1.1 1.1 1.1

1.3 1.6 1.8 2.2

1.8

Fuente: U.S.Department Departmcnt o f Interior, Geological Geologial Survey.

12 12 11

6.2 6.8 11

150 490 379 296 296

'150 145 226 314 287 333 324 290 276 254 235 472

9.6 8.6

140 126 116 95 78

7.8 7.3 6.4 6.4 5.9

12 14 11

10 10

264 281 261 228 337

6.8 5.9 4.8 5.0 5.9

76 74 62 74 82

5.8 5.6 5.2 5.1 4.7

16 14 14 19 25

331 281 288 321 305

4.8 4.7 4.5 3.7 3.6

70 60 54 49 45 41

3.7 3.9 7.2 14 9.1

17 12

878 786 680 580 500

296 328 305 287 465 492

4574.8 148 1300 1.4

455.3 15.2 40 3.7

357.2 11.5 25 3.3

7189 232 492 13

11867 396 897 145

12 651 23.3 106 12

14 12

887 28.6 101

214.0 7.13

3.6

10 11

472

897 764

~ m

() O

12 RESUMEN

(c) Estime el total real de pies de tabla de abeto balsamico en el sitio. (d) Estime el total real de pies de tabla de abeto balsámico si hay 110 arboles de abeto balsamico en el sitio. Establezca límites para el error de estimación en los cuatrovcasos.

12.5

FsPecie

abetonegra abetobPLPmb)

Volumen neto

Volumn neto real (en pia &tabla)

(en pia & tnbl3

La Agencia de Protección del Medio Ambiente y la Universidad de Florida recientemente cooperaron en un amplio estudio sobre los efectos posibles del agua potable en el padecimiento de litiasis renal. En las regiones de las Carolinas y las Rocallosas fueron muestreados pacientes con litiasis renal. Chmlh~ Con eP1cula

Tamaño de muestra Edad Calcio (en partes por millón) Proporción de fumadores

h d h

rceimta

Con d c u l a rrnirrenta

Con á l c u l a dentu

Con c i l c u l a recurrentu

363 42.2(10.9)

467 45.1(10.2)

259 42.5(10.8)

191 46.4 (9.8)

11.0_(15.1) 11.3 (16.6) 0.73 0.78

42.4 (31.8) 0.57

40.1 (28.4) 0.61

Se muestrearon pacientes con litiasis renal en los estados de las Rocallosas y las Carolinas. Los pacientes fueron divididos en "con cálculos recientes" (el incidente actual es su primer contacto con el padecimiento de litiasis renal) y "con calculos recurrentes". En la tabla adjunta están registradas las mediciones sobre tres variables de interés: edad del paciente, cantidad de calcio en el agua potable de su casa y actividad de fumar. (Las mediciones son promedios o proporciones; las desviaciones estandar se indican entre paréntesis.)

EJERCICIOS

12.6

12.7

12.8

301

(a) Estime la edad promedio de todos los pacientes con el padecimiento en la población y establezca un límite para el error de estimación. (b) Estime la concentración de calcio promedio en el agua potable suministrada para los pacientes con la enfermedad en las Carolinas. Establezca un límite para el error de estimación. (e) Estime la concentración de calcio promedio en el agua potable suministrada para los pacientes con el padecimiento en las Rocallosas. Establezca un límite para el error de estimación. ¿Difiere considerablemente la respuesta de esta parte de la dada a la parte (b)? (d) Estime la proporción de fumadores en los pacientes con cálculos recientes y establezca un iímite para el error de estimación. En el Ejercicio 12.5 los datos fueron recolectados muestreando primero los hospitales de las dos regiones y posteriormente muestreando a los pacientes con litiasis renal dentro de los hospitales. Explique cómo realizaría el anklisis solicitado en el Ejercicio 12.5 con los datos suministrados por los hospitales. ¿Que datos adicionales necesitaría? Suponga que en el Ejercicio 12.6 los hospitales dentro de las regiones varían significativamente en tamaño. (Cómo puede usar ventajosamentela información sobre el tamaño del hospital en su diseño de muestreo? Los efectos tóxicos de substancias químicas en peces son medidos en el laboratorio sometiendo a cierta especie de pez a divenas concentraciones de una sustancia química aiiadida al agua. La concentración de la sustancia química que es letal para el 50% de los peces, en el periodo de prueba, se denomina la CL 50. Las pmebas en un tanque donde el agua no es renovada durante el proceso de prueba se llaman estaticas. Si constantemente fluye agua nueva hacia el tanque, la prueba se llama de flujo continuo. Las pruebas estaticasson más baratas y más fáciles de llevar a cabo, pero las pruebas de flujo continuo se aproximan mejor a la realidad. Por lo tanto los experimentadores frecuentemente estiman un factor de conversión de estática a flujo continuo. De acuerdo con los datos que se presentan en la tabla adjunta sobre 12 pruebas estáticas y de flujo continuo (las mediciones están en miligramos por litro), estime un factor por el cual debe ser multiplicado el resultado de una prueba estática para hacerlo comparable con el resultado de una pmeba de flujo continuo. Establezca un límite para el error de estimación. CL 50,

CL 50,

flujo continuo

dtica

Malathion DDT Parathion

0.5 0.8 4.5

Endrin

5.5 1.2 3.5 5.0

Azinphosmiethyl

DDT Parathion Endrin Zectran Chlordane Fenthion Malathion

0.5 83.0 4.0 5.8

12.0

Fuente: Federal Register, Vol. 43. No. 97; mayo, 18. 1978. 12.9 12.10

Remítase al Ejercicio 12.8. ¿Puede usted sugerir algunas mejoras en el muestreo para obtener una mejor estimación del factor de conversión? Vuelva al Ejercicio 12.2. {Puede usted sugerir un mejor diseño para el muestreo de las tiendas con ventas al menudeo? Tenga presente que las ventas vaiian de una tienda a otra y de un mes a otro.

302

12 RESUMEN

12.11

Un agricultor entrega a un ingenio azúcar bruto a granel, transportado en grandes camiones tanque. La cantidad que el ingenio paga por la carga de azficar de un camión depende del contenido de azúcar puro en la carga. Este contenido de azúcar puro se determina mediante el anklisis de muestras pequeñas de prueba en el laboratorio; cada muestra de prueba contiene suficiente azticar bruto para llenar un tubo de ensayo. Analice los diseños de muestreo posibles para obtener estas muestras de prueba. (Solamente pueden realizarse unos pocos muestreos de prueba por carga de azúcar de un camión.)

14.12

La lana de Australia es inspeccionada tal como llega a Estados Unidos y se paga un impuesto de importación con base en el contenido de lana pura. De la parte central de los fardos se toman muestras que son analizadas para determinar la proporci6n de lana pura en el fardo. Analice los diseñas de muestreo posibles para la estimaci6n del contenido de lana pura en un cargamento de fardos. La Comisión de Servicios Ptiblicos de Florida exige a las compañías expendedoras de gas natural asegurarse de que los medidores conectados a las casas y edificios comerciales estCn operando correctamente. Sin embargo, las compañías aprueban un plan de inspección por muestreo mas bien que un reconocimiento anual detallado de cada medidor. Suponga que un 20% de los medidores propiedad de una compañía deben ser inspeccionados cada aíío, y la proporción de los medidora de la compaíiía que estan operando correctamente debe ser estimada. (Si la proporción es baja, se obligara a la empresa a revisar más medidores.) Sugiera un plan de muestreo para esta política de inspección, teniendo en cuenta los puntos siguientes: (1) Los medidores son de años variables; (2) el consumo de gas varía considerablementede un usuario a otro y (S) los medidores son conectadas y desconectados continuamente.

12.13

Bailey, A. D. 1981. Statistical Auditing. New York: Harcourt Brace Jovanovich. Bailey, N. T. J. 1951. "On Estimating the Size of Mobile Populations from Recaptive Data". Biometrika, 38:292-306. Bergsten. J. W. 1979. "Some Methodological Results from Four Statewide Telephone Surveys Using Random Digit Dialing". American StatrStical Association Proceedings of the Section on Suruey Research Methods. pp. 2.59-243. Bryson, M. C. 1976. "The Literary Digest Poll: Making of a Statistical Myth. American Statistician, 30 (4): 184- 185. Bureau of Labor Statistics, Handbook of Methodr, vols. 1 y 11. 1982. Washington, D.C.: U.S. Department of Labor. Carnpbell, C. y Joiner, B. 1973. "How to Get the Answer Without Being Sure You Asked the Question". Amelican Statistician, 27:229- 231. Carrers in Statistics. 1980. Washington, D.C.: American Statistical Association. Chapman, D. G. 1952. "Invene, Multiple and Sequential Sample Censuses". Biometncs, 8:286- 306. Cochran, W. G. 1950. "Estimation of Bacteria1 Densities by Means of the 'lhost Probable Number' Biometrics, 6:105. . 1977. Sampling Techniques. 3a. ed. New York: Wiley. Deming, W. E. 1960. Samfile D e s e in Business Research. New York: Wiley. Frankel, L. R. 1976. "Statisticians and People-The Statistician's Responsibility". Jounzal of the American Statistical Association, 7:9- 16. Gallup, George. 1972. The Sophtiticated Poll WatcheĂ's Guide. Princeton, N.J.:Princeton Opinion Press. Greenberg, B. G.; Kuebler, R. R.; Abernathy, J. R.: y Horvitz, D. G. 1971. "Application of Randomized Response Technique in Obtaining Quantitative Data". Journal of the American StatrStical AssoczBtion, 66:245-250.

303

Hansen, M. H. ; Hurwitz, W. N.; y Madow, W. G. 1953. Sample Survey Methods and Theoy, vol. 1. New York: Wiley. Harper, W. B.; Westfall, R.; y Stasch, S. F. 1977. Marketing Research. Homewood, 111.: Irwin. Jessen, Raymond T. 1978. Statistical Survey Techniques. New York: Wiley. Jones, H. L. 1956. "Investigation of the Properties of a Sample Mean by Ernploying Random Subsample Means". Journal of the American Stattstical Association, 51:54-83. Kinnear, T. C. y Taylor, J. R. 1983. Marketing Research, An Applied Approach. New York: McGraw-Hill. Kish, L. 1965. Survey Sampling. New York: Wiley. Levy, P. S. y Lemeshow, S. 1980. Sampling for Health Professionals. Belmont, Calif.: Lifetime Learning. Leysieffer, F. y Wamer, S. 1976. "Respondent Jeopardy and Optimal Designs in Randomized Response Models". Journal of the American Statistical Association, 71:649-656. Mendenhall, W. 1983. Zntroduction to Probability and Statistics. 6a. ed. Boston: Duxbury Press. Mosby, H. S., ed. 1969. Wildlife Investigational Techniques. 3a. ed. Washington, D. C.: Wildlife Society. Raj, Des. 1968. Sampling Theoq. New York: McGraw-Hill. Ray, A. A., ed. 1982. SAS Users Guide: Statistics. Cary, N.C.: SAS Institute. Roberts, D. 1978. Statistical Auditing. New York: American Institute of Certified Accountants. Ryan, T. A.; Joiner, B. L.; y Ryan, B. F. 1976. Minitab Student Handbook. Boston: Duxbury Press. Schuman, Howard y Presser, Stanley. 1981. Questions and Answers in Attitude Surveys. New York: Academic Press. Stephan, Frederick F. y McCarthy, Philip M. 1958. Sampling Opinions, An Analysis of Survey Procedure. New York: Wiley. Sudrnan, Seymour. 1976. Applied Sampling. New York: Academic Press. Swindel, B. F. 1983. "Choice of Size and Number of Quadrats to Estimate Density from Frequency in Poisson and Binomially Dispersed Populations". BiometrEcs, 39:455. Tanur, J. M.; Mosteller, F.; Kruskal, W. H.; Pieters, R. S.; y Rising, G. R., eds. 1972. Statistics: A Guide to the Unknown. San Francisco: Holden-Day. Wamer, S. L. 1965. "Randomized Response: A Survey Technique for Eliminating Evasive Answer Bias". Journal of the American Statistical Association, 60:63-69. Weeks, M. F.; Jones, B. L.; Folsom, R. E.; y Benrud, C. H. 1980. "Optimal Times to Contact Sample Households". Public Opinion Quaterly, 44:101-114. Williams, B. 1978. A Sampler on Sampling. New York: Wiley.

TABLAS

TABLA 1

305

Áreas de la curva normal

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0000 0.0398 0.0793 0.1179 0.1554 O. 1915

0.0040 0.0438 0.0832 0.1217 0.1591 0.1950

0.0080 0.0478 0.0871 0.1255 0.1628 0.1985

0.0120 0.0517 0.0910 0.1293 0.1664 0.2019

0.0160 0.0557 0.0948 0.1331 0.1700 0.2054

0.0199 0.0596 0.0987 0.1368 0.1736 0.2088

0.0239 0.0636 0.1026 0.1406 0.1772 0.2123

0.0279 0.0675 0.1064 0.1443 0.1808 0.2157

0.0319 0.0714 O. 1103 0.1480 0.1844 0.2190

0.0359 0.0753 0.1 141 0.1517 0.1879 0.2224

0.2257 0.2580 0.2881 0.3159 0.3413

0.2291 0.2611 0.2910 0.3186 0.3438

0.2324 0.2642 0.2939 0.3212 0.3461

0.2357 0.2673 0.2967 0.3238 0.3485

0.2389 0.2704 0.2995 0.3264 0.3508

0.2422 0.2734 0.3023 0.3289 0.3531

0.2454 0.2764 0.3051 0.3315 0.3554

0.2486 0.2794 0.3078 0.3340 0.3577

0.2517 0.2823 0.3106 0.3365 0.3599

0.2549 0.2852 0.3133 0.3389 0.3621

0.3643 0.3849 0.4032 0.4192 0.4332

0.3665 0.3869 0.4049 0.4207 0.4345

0.3686 0.3888 0.4066 0.4222 0.4357

0.3708 0.3907 0.4082 0.4236 0.4370

0.3729 0.3925 0.4099 0.4251 0.4382

0.3749 0.3944 0.41 15 0.4265 0.4394

0.3770 0.3962 0.4131 0.4279 0.4406

0.3790 0.3980 0.4147 0.4292 0.4418

0.3810 0.3997 0.4162 0.4306 0.4429

0.3830 0.4015 0.4177 0.4319 0.4441

0.4452 0.4554 0.4641 0.4713 0.4772

0.4463 0.4564 0.4649 0.4719 0.4778

0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945

0.4535 0.4625 0.4699 0.4761 0.4812

0.4645 0.4633 0.4706 0.4767 0.4817

0.4842 0.4878 0.4906 0.4929 0.4946

0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948

0.4525 0.4616 0.4693 0.4756 0.4808

0.4826 0.4864 0.4896 0.4920 0.4940

0.4484 0.4682 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943

0.4505 0.4599 0.4678 0.4744 0.4798

0.4821 0.4861 0.4893 0.4918 0.4938

0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941

0.4850 0.4884 0.4911 0.4932 0.4949

0.4854 0.4887 0.4913 0.4934 0.4951

0.4867 0.4890 0.4916 0.4936 0.4952

0.4953 0.4965 0.4974 0.4981 0.4987

0.4955 0.4966 0.4975 0.4982 0.4987

0.4956 0.4967 0.4976 0.4982 0.4987

0.4957 0.4968 0.4977 0.4982 0.4988

0.4959 0.4969 0.4977 0.4984 0.4988

0.4960 0.4970 0.4978 0.4984 0.4989

0.4961 0.4971 0.4979 0.4985 0.4989

0.4962 0.4972 0.4919 0.4986 0.4989

0.4963 0.4973 0.4980 0.4886 0.4990

0.4964 0.4974 0.4981 0.4986 0.4990

Versión abreviada de la Tabla 1 de Statictical Tables and Formulas, por A. Hald (New York: John Wiley & Sons, Inc., 1952). Reproducida con autorización de A. Hald y de la editorial, John Wiley & Sons, Inc.

TABLA 2 N煤meros aleatorios Rengl贸n/ Col. (1)

(2)

27 28 29 30 31 32 33 34 35 36 37

81525 29676 00742 05366 91921 00582 00725 690ll 25976 09763 91567 17955

46503

92157 14577 98427 34914 70060 53976 76072 90725 64364 08962 95012 15664

41 42

43 44 45

46 47 48 49 SO 51 52 53 54 55

72295 20591 57392 04213 26418 04711 69884 65795 57948 83473 42595 56349 18584 89634 62765 07523 63976 28277 54914 29515 52210 67412 00358 68379 10493

04839

96423 26432 39064 66432 25669 26422 64117 94305 87917 77341 62797 56170 95876 55293 29888 88604 73577 12908 27958 30134 90999 49127 18845 49618 94824 78171 35605 81263 33362 64270 88720 82765 39475 46473 06990 67245 40980 07391 83974 29992 33339 31926 31662 25388 93526 70765 20492 38391

68086

16408 81899 04153 18629 81953 05520 73115 35101 47498 57491 16703 23167 30405 83946 23792

24878 46901 84673 44407 26766 42206 86324 18988 67917

82651 20849 40027 44048 25940 35126 88072 27354 48708 30883 18317

04024 20044

86385

59931 02304 51038 84610 82834 39667 47358 01638 92477 34476 17032 23219 53416 68350 82948 58745 25774 65831 38857 14883 24413 61642 34072 10592 04542 91132 21999

53381 79401 91962 04739 87637 99016 49323 45021 14422 lS059

21438 13092 71060 33132 45799

66566 89768 32832 37937 39972 74087 76222 26575 18912 28290 29880 06115 20655 09922 56873 66969 87589 94970 11398 22987 50490 59744 81249 76463 59516

14778 81536 61362 63904 22209 99547 36086 08625 82271 35797 99730 20542 58727 25417 56307 98420 40836 25832 42878 80059 83765 92351 35648 54328 81652

76797 86645 98947 45766 71500 81817 84637 40801 65424 05998 55536 18059 28168 44137 61607 04880 32427 69975 80287 39911 55657 97473 56891 02349 27195

83035 97662 88824 12544 22716

923SO 24822 71013 41035 19792

36693 94730 18735 80780 09983

14780 12659 96067 66134 64568 42607 93161 59920 69774 41688 84855 02008 15475 48413 49518 45585 70002 94884 88267 96189 14361 89286 69352 17247 48223

13300 92259 64760 75470 91402 43808 76038

29841 33611 34952 29080 73708 56942 25555 89656 46565

70663 19661 47363 41151 31720 35931 48373

87074 57102 64584 66520 42416 76655 65855 801SO 54262 37888 09250 83517 53389 21246 20103 04102 88863

72828 46634 14222 57375 04110 45578 28865 14777 46751 22923 31238 59649 91754 06496 35090 04822 20286 23153 72924 45393 44812 12515 74353 68668 30429

79666 80428 96096 34693 07844 62028 77919 12777 85963 38917

95725 25280 98253 90449 69618 76630 88006 48501 48501 03547 88050

79656 36103 20562 35509 77490 77490

73211 42791 87338 20468 18062 18062

46880 77775 00102 06541 06541 60697

45709 69348 66794 97809 59583

56228 23726 78547 62730 32261

41546 51900 81788 92277 85653

02338 72772 02338 86774 98289 98389 35165 43040 98931 91202 70735 25499 25499 Continúa

> 5 (JJ

íim

oZ ....,

TABLA 2

Continuaci贸n

Rengl贸n/ Col. (1)

(2)

56 57 58 59 60

16631 96773 38935 31624 78919

35006 20206 64202 76384 19474

61 62 63 64 65 66 67 68 69 70

03931 74426 09066 42238 16153 21457 21581 55612 44657 91340

33309 33278 00903 12426 08002 40742 57802 78095 66999 84979

71 72 73 74 75 76 77 78 79 80

91227 50001 65390 27504 37169 11508 37449 46515 30986 63798

21199 38140 05224 96131 94851 70225 30362 70331 81223 64995

V d b n abreviada de Handbooh of Tables.for Robability and Statdics, Segunda Edicibn, editado por William H. &yer (Cleveland: The Chmiical Rubber Pubiiihing Company. 1968). Reproduada con autorizaci6n. Copyright CRC Presa, Inc., Boca Raton, FL.

TABLA 3

Población de Estados Unidos

Rq~ionCI,

Pobl8cibnde bibiuata

R,bkaQ& habitanta

diviuona

(4/1/1980)

(41111970)

(mila)

<miM

Estados Unidos Noreste Nueva Inglaterra ' Maine New Hampshire Vermont Massachusetts Riiode Irland COM~C~~CU~ Atlántico Medio New Yo& New Jersey Pennsylvania

Norte Cmtral N. Central Este Ohio Indiana lllinois Michigan Wisconsin

N. Central Oeste Minnesota Iowa Missouri North Dakota South Dakota Nebnska Kanus Sur Atlántico Sur

Cimbio Tan porannul, bruta de 19% mmiidad, 1080 1978

Tiu bniu de wmüdad, 1978

T i u de mortalidad infantil, "

1978

Pobkcion +torii rico

&1970

Pomntajc & la población conQo mL laa

?orantaje& L. Porcentaje de pobkión en d n-dc L. laicaopdirini, pdlhd&~ 1970

1976

Ingreso pr &pita.

1977

, . ,. z

Delaware Maryland D. of Columbia Virginu Wert Virginia N. Carolina S. Carolina Gcorgia nonda

S. Central Esti Kcntucky Tennessee Alabama Minissippi

S. Central Oeste Arlanus Louisana Oklahoma Texas Oeste Monta単a Montana Idaho Wyomi~g Colorado New Mexico Aibm

uah

Nevada

Padh Washington Oregon Qlifomia Alarka Hawaii

31.797 4,130 2,633 23.669

400 965

26.548 3,413 -92 19.971 303 770

19.8 21.0 25.9 18.5 32.4 25.3

16.1 15.5 15.9 16.0 21.6 18.6

7.8 8.0 8.5 7.9 4.1 5.1

12.0 12.5 12.9 11.8 14.4 11.1

Fuente: Reproducido con awrulcibn de Popdation Rcfercncc Bureau, Inc.. Wuhington, D.C.

7.3 8.6 14.6 6.2 15.6 4.6

DEDUCCI~N DE ALGUNOS RESULTADOS IMPORTANTES En esta sección presentamos la deducción matemática de algunas de las fórmulas importantes usadas a través del texto. Suponemos que el lector tiene algún conocimiento sobre teoría de la probabilidad, de manera que las esperanzas, varianzas y covarianzas pueden ser manipuladas con poca explicación. Sea yi una variable aleatoria con distribución de probabilidad p ( y ) . Entonces de la teoría elemental de la probabilidad tenemos la siguiente definición:

donde E denota el valor esperado, V denota la varianza y g ( y ) es una función de y. Suponga que y,, y,, . . . , y, denota una muestra de tamaño n y que a l , a,, . . . , a, son constantes. Si n

entonces

Y donde Cov denota las covarianzas. Si las yi son no correlacionadas, entonces n

MUESTREO IRRESTRICTO ALEATORIO Suponga que y,, y,, . . . , y, denota una muestra irrestricta aleatoria de una población de valores { u , , u2, . . , u,). Considerando yi por d misma (una muestra irrestricta aleatoria de tamaño uno), tenemos

Y Por la Ecuación (A.1)

DEDOCCI~N DE ALGUNOS RESULTADOS IMPORTANTES

Al aplicar esto y la Ecuaci贸n (A.2), podemos encontrar la varianza de f . Tenemos

puesto que hay n(n - 1)/2 pares (i,1)seleccionados de los enteros 1, 2, . . . , n de manera que i < j . Por lo tanto

Ahora demostramos que [(N - n)/N]/(s2/n) es un estimador insesgado de V(y3. Tenemos

Por lo tanto

[(Y) (y(y) (): =

(&)a2

lo cual quería demostrarse. Esta deducción resulta en las Ecuaciones (4.2), (4.3) y (4.4). Ahora ? = Ni es un estimador insesgado de T por la Ecuación (A.l). La Ecuación (4.6) se deriva de la Ecuación (A.3) como ya se ha demostrado. Puesto que realmente es una y para los datos {O, 1) , p^ es un estimador insesgado de p, y la Ecuación (4.16) se deriva directamente, despues de observar que

S' --p ( 1 - p )

n-1

para los datos {O, 1).

MUESTREO ALEATORIO ESTRATIFICADO En muestreo aleatorio estratificado

es de la misma forma que U y las yi son seleccionadas independientemente a través de muestreo irrestricto aleatorio. Así

por la Ecuación (A. 1) y

por la Ecuación (A.S), y se deduce la Ecuación (5.2). En las fórmulas del tamaño de muestra y de asignación del Capltulo 5, establecimos por conveniencia que N / ( N - 1) igual a 1.

El estimador de razón r es aproximadamente un estimador insesgado de R = (pr/px) si n es razonablemente grande. Esto es, E(F/?) es aproximadamente R. Por lo tanto

D E D U C C I ~DE N AGUNOS RESIJLTADOS IMPORTANTES

315

dado que E ( i - fi-)= O. Puesto que i - Rx- es la media muestral de las cantidades yi - Rx,, con E(yi - Rxi) = O, entonces V(y - Rx) puede estimarse por

Si R se reemplaza por r en la (iltima expresión, se deriva la Ecuación (6.2). Las expresiones de varianza (6.6) y (6.9) se deducen usando la Ecuación (A.3).

MUESTREO POR CONGLOMERADOS EN UNA ETAPA El estimador de la Ecuación (8.1) para el muestre0 por conglomerados es un estimador de razón, y su varianza (8.2) se sigue de los resultados previamente derivados. La expresión de la varianza (8.5) se obtiene entonces aplicando la Ecuación (A. 3). El estimador de T dado en la Ecuación (8.8) se basa simplemente en una media muestral de totales de conglomerados y la Ecuación (8.9) se deduce de los principios básicos aplicados anteriormente.

MUESTREO POR CONGLOMERADOS EN DOS ETAPAS Dado que esta situación requiere una manipulación cuidadosa de las varianzas entre conglomerados y de las varianzas dentro de conglomerados, ilustraremos las derivaciones solamente para el caso en el cual todos los conglomerados son del mismo tamaño. Esto es, suponemos que

En este caso

fijando primero los n conglomerados Encontramos la media y la varianza de en la muestra y luego promediando sobre todas las muestras posibles de n conglomerados. Las operaciones de esperanza y varianza cuando los n conglomerados son fijos serfin denotadas por E, y V2, respectivamente. Asimismo las esperanzas y varianzas sobre todas las muestras posibles de n conglomerados serán denotadas por E, y V,. (Cuando los n conglomerados son fijos, la muestra de conglomerados semeja a una muestra aleatoria estratificada.) Ahora

donde pi es la media del conglomerado i. Ya que el valor esperado de una media muestral es la media poblacional correspondiente en el muestreo irrestricto aleatorio,

donde T~es el total para el conglomerado i. Así & es un estimador insesgado de p . De un resultado bhsico en teoría de la probabilidad,

Vtt)

Ahora

~ 1 [ ~ 2 i k+ ) lEI[V2(tu7)1 N- n 1

(' L ), (?) (;) (L)N -

v l [ ~ 2 ( l i=) ~v1 n

i=l

¡el

- p12

(~.4)

donde /i = (1 / N ) 1¡=, pi. Esta expresión se sigue de los resultados bPsicos examinados ante~iormente.Tambien,

donde V(5) es la varianza usual de una media muestral para una muestra irrestricta aleatoria de m elementos según fi elementos. Ahora debemos estimar las dos partes de ~ ( 6 )Para . la primera parte podríamos iniciar con

Como su valor esperado, tenemos,

DEDUCCIGNDE ALGUNOS RESULTADOS IMPORTANTES

317

N- n

Por lo tanto

estima la Ecuación (A.4) más un término N -

n i-1

(A.6)

y necesitamos encontrar un estimador de (A.5) - (A.6) para estimar V ( 6 ) .Pero

lo cual puede ser estimado insesgadamente por

donde

El estimador de

1(Y, - Iil2 m - 1 ¡=,

=----

v(;) es, entonces,

Esta ecuación es equivalente a la Ecuación (9.2) en el caso de tamaños de conglomerados iguales. El caso para tamaños de conglomerados desiguales se deriva en forma análoga.

RESPUESTAS SELECCIONADAS Ejercicios del Capítulo 4 4.1. u2= 2, V($ = 0.75 4.5. 4.6. 4.7. 4.8. 4.9. 4.10. 4.1 1. 4.12. 4.13. 4.14. 4.15. 4.16. 4.17. 4.18. 4.19. 4.20. 4.21. 4.22. 4.29. 4.30. 4.31. 4.37.

= 2, B = 0.1313 n = 128 ='12.5, B = 7.04 = 125,000, B = 70,412.50 b1= 2.30, k, =4.52. B = 0.0703, B = 0.0858 $ = 0.625, B = 0.1535 b = 2.0, B = 0.9381 i - 0 . 4 3 , B =0.0312 n = 2392 7 = 100, B = 31.29 & = 2.1, B = 0.170 n=4 $ = g, B = 0.0958 fi = 5.01, B = 0.8711 n = 87 = 37,800, B = 3379.94 n = 400 6 = $3,898,000, B = $263,918.17 7 = $17,333.33, B = $4,479.23 7 = $98,550.00, B = $19,905.83 i =0.3, b = 0.2060 (a) $ = 0.12, B = 0.0701 (b) p^ =0.53, B = 0.1076 (c) = 0.10, B = 0.0880 ( d ) = 0.90, B = 0.0880

Ejercicios del Capítulo 5 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. 5.9. 5;10. 5.11. 5.12. 5.13.

;,,=0.30, B=0.117 n,=18,n2=10,n,J2 7 = 1903.90, B = 676.80 y,,=53,208.63, B=560.48 n=26, n,=16, n,=7, n,=3 y,= 59.99, B = 3.032 n,=12,n2=20,n,=18 n =33 n = 32 6 = 50,505.60, B = 8,663.12 n=60 n = 29 n = 158, n, = 39, n2 = 17, n, = 69, n, = 33 5.14. =0.701. B = 0.0503

5.15. n = 6 2 , n,=17, n2=6, n,=26, n,= 13 5.16. (a) f,t=251.07, f(?,J=141.81 = 250.05, V(i,) = 181.25 (b) 5.17. puntos de división: 40, 70, 90 5.18. estrato 1: 0 3 2 0 0 ; estrato 2: $200-$350 5.19. F,t=63.88, B=O.628 5.21. (a) =0.16, B = 0.074 (b) $,t = 0.159, B = 0.081

Ejercicios del Capítulo 6 = 1589.55, B = 186.32 = 2958.3, B = 730.13 r = ' 0.1467, B =0.0102 7, = 145,943.78, B =7353.67 by= 1186.53, B = 59.79 by= 17.59, B = 0.2710 by= 4.1646, B = 0.0847 r = 0.283, B = 0.0616 7, = 5492.31, B = 428.44 r = 1.072, B = 0.00643 by= 1061.04, B = 139.95 ?y= 231,611,86, B = 3073.83 n = 14 gyL= 1186.5457, B = 61.35 gy =5515.50, B = 448.61 r =0.835, B = 0.012 r=0.401, B = 0.128 (a) r = 1.043, B = 0.0733 (b) r 10.870, B = 0.176 6.22. r = 1.128, B = 0.0271 6.23. (a) 7, = 2433.30, B = 45.95 (b) 6, = 2432.91, B = 48.64 (c) $yiyD = 2455.90, B = 180.07 6.25. ~ R =C48,209.84, V(?yi,,) = 557,095.07

6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9. 6.10. 6.11. 6.12. 6.13. 6.14. 6.16. 6.17. 6.20. 6.21.

Ejercicios del Capítulo 7 (a) v@> = 0.1275 (b) V@^)= 0 .O0875 7.4. i,,= 0.66, B = 0.0637 7.5. n = 1636 7.6. $,y = 11.94, B = 0.026 7.7. n = 28 7.8. G,, = 2007.11, B =74,505 7.3.

319

RESPUESTAS SELECCIONADAS

iS,

7.9. = 0.81, B = 0.036 7.10. n = 1432 7.11. ?,,=127,500,B=30,137.06 7.12. n = 259 7.13. &,,=3.54, B =0.406 7.14. &,,=225.47, B=6.75 7.15. $, = 48,680,B = 1370.34 7.16. $, = 7038.10, B = 108.74 7.17. S,, = 0.738. B = 0.104 7.18. = 4400, B = 784.08 7.20. (a) &,, = 1,926,935,B = 139,437.35 (b) E, = 19.67,B = 3.17 7.21. $,, = 2.26, B = 0.576

Ejercicios del Capítulo 8 8.2. $ = 19.73,B = 1.78 8.3. $ = 12,312,B = 3175.07 14.008.85,B = 1110.78 8.4. 8.5. n = 14 8.6. b = 51.56, B = 1.344 8.7. n = 13 8.8 p^ = 0.709, B = 0.048 8.9. n = 7 8.10. $ = 40.17,B = 0.640 8.11. 6 = 157,020,B =6927.88 8.12. n = 30 8.13. & = 16.005,B = 0.0215 8.14. p* =0.5701, B =0.0307 8.15. n = 21 8.16. 6 = 5.91, B = 0.322 8.17. =0.40,B = 0.116 8.18. 7 = 3532.8, 8 = 539.50 8.19. $ = 2.685, ~ ( y *=)0.056 8.20. (a) $ = 3.153, B =0.460 (b) 6 = 5.99,B = 0.929 8.21. = 0.133, B = 0.075 8.22. 6 = 80, B = 40.44 8.23. $ = 0.0918, B = 0.0390 8.26. 7 = 600, B = 308.22 8.27. $ = 0.25, B = 0.128

Ejercicios del Capítulo 9 b, = 9.3789, B = 1.4536

9.2. 9.3. 9.4. 9.5. 9.6. 9.7. 9.8. 9.9. 9.11. 9.12. 9.14. 9.15.

& =9.5593, B = 1.3672

; = 0.2865, B = 0.1116 $ = 0.351, B = 0.1767

$ = 3980.7,B = 274.7317

p* = 0.1200, B = 0.0067 $ = 1276.2425,B = 333.4435

& = 7.9333, B = 0.0924

=97.97, B = 10.996 $ = 57,608,B = 6465.37 $ = 3900, B = 896.10 & = 0.9811, B =0.225 $r

Ejercicioa del Capítulo 10 \ 10.4. N = 444.444 = 445, B = 150.596 10.5. = 1811, B = 344.512 10.6. = 10,868,B = 715.82086 10.7. = 3348.2143,B = 445.10 10.8. 7 200, B = 78.88 10.9. V ( N ) / N= 12.67 o t 625, n 625 10.10. = 1067, B = 507.7182 10.11.N = 750, B = 441.588 10.13. = 250, B = 52.04 10.14.1 = 2.1, B = 0.0748 10.15.iA=0.0171, B = 0.00191 10.16.M = 1920, B = 135.76 10.19.1 = 2.792,B = 0.216

y y 5

Ejercicio8 del Capitulo 11 11.1. y = 407.125, B -93.703 11.2. = 5.26, B = 0.7889 11.3. f = 23.6113, B = 9.0972 11.4. $ = 1794.455, B = 778.1539 11.5. $1= 1959.7338, B =763.5104 11.6. 7 =9.8042,B = 2.3758 11.7. 6 = 3866.7633,B = 1171.2750 11.8. 7,= 41 17.764,B.= 999.8094 :; 0.875, B = 0.1052 11.9. = 11.10.; = 0.125,B = 0.1377

~leatoria,variable, 7 Aleatorio, muestreo, 23, 40 Aleatorizada, respuesta, 282 Asignación de la muestra, 88, 98 de Neyman, 91 óptima, 89 proporcional, 94, 102 Auxiliar, variable, 124 Confiabilidad, coeficiente de, 16 Confianza, intervalo de, 'F6 Conglomerado, tamaÍío promedio del, 200 Corrklación, 13, 173 ' lineal, coeficiente de, 13, 173 Costo, 79, 89 Covananza, 13 Cuadros cargados, 267 cuestionario, 27, 29 autoaplicado, 28 diseiio, 29 por correo, 28 preguntas abiertas, 31 Densidad, estimación de la, 264 Desviación estándar. 8

Diferencia, estimador de, 150 Diseño de la encuesta por muestreo, 22 Elemento, 20 * Encuesta, 1, 2 Entrevista, 27 personal, 27 por teléfono, 28 Error de estimación, Emite para el, 16 Estimación, 14 ' error de, 15, 22 intervalo de, 16 . Estimador, 15 de la media poblacional, 45, 61, 82, 133, 148, 150, 172, 184, 200, 217, 235, 239, 246, 276 de la proporción poblacional, 56, 96, 178, 211, 241 de la razón poblacional, 127 del tamaño de la población, 217, 219 del total de la población, 51, 84, 130, 177, 184, 203, 218, 237, 246 insesgado, 15 sesgado, 15 Estrato, 78 Experimento, 4

* Los números en negritas indican que se trata de definiciones.

Inferencia, 1, 4 Interpenetrantes, submuestras, 275 estimador de una media, 276 Intervalo, estimación por, 16 Límite inferior de confianza, 16 Límite superior de confianza, 16 Marco, 21 Media estimador de. Véase Estimador muestral, 8 poblacional, 7 Muestra, 1, 22 asignación de, 88, 89, 91, 94, 98, 102 desviación estándar, 8 diseño de la encuesta, 22, 40 tamaño, 53, 54, 58, 86, 99, 136, 180, 207, 213, 243

varianza, 7 Muestreo aleatorio estratificado, 23, 78 estimador de un total, 84 estimador de una media, 82 estimador de una proporción, 96 Muestreo, distribución de, 9 Muestreo irrestricto aleatorio, 23, 40 estimador de un total, 51 estimador de una media, 45 estimador de una proporción, 56 Muestreo por conglomerados, 23, 196, 232 estimador de un total, 203, 204, 237 estimador de una media, 200, 235, 239 estimador de una proporción, 211, 240 Muestreo por conglomerados en dos etapas, 232

estimador de un total, 237 estimador de una media, 235, 239 estimador de una proporción, 241 Muestreo por cuadros, 264 Muestreo sistemático, 23, 168 estimador de un total, 177 estimador de una media, 172 estimador de una proporción, 178 Muestreo sistemático replicado, 182 estimación de un total, 184 estimación de una media, 184 Muestreo, unidad de, 21 Neyman, asignación de, 91 No respuesta, 24, 25

Normal, distribución, 10, 13 Números aleatorios, tablas de, 42, 43, 306 Óptima, asignación, 89 estratificación, 107 Ordenada, población, 173 Parárnetros, 15 Periódica, población, 173, 174 Personal, entrevista. Véase Entrevista personal Población, 1, 20 tipos de aleatoria, 173 ordenada, 173 periódica, 173, 174 Población aleatoria, 173 Población finita, corrección por, 46 Población salvaje, 256 estimador del tamaño de la población,

258, 259

Poblaciones animales, 256 Probabilidad, 7 distribución, 7 Probabilidades proporcionales al tamaño, 60 en muestreo por conglomerados, 217 en muestreo por conglomerados en dos etapas, 245 Proporción estimador de, 56, 96, 178, 211, 241 Proporcional, asignación, 94, 102 Razón, estimación de, 23, 124 media, 133 razón, 127 total, 130 Reentrevistas, 25, 285 Regresión, estimador de, 147 Subpoblación, 278 estimador de una media, 278 estimador de un total, 280 Tchebysheff, teorema de, 10, 16 Teléfono,, entrevista por. Véase Entrevista por teléfono Total, estimador de. Véase &timador Valor esperado, 7 Varianza, 7, 8 muestral, 8 poblacional, 7

Tipogrhfica Barsa, S.A. Calle Pino No. 343-Local 71 y 72 Col. Nueva Sta. Maria 06400 Mexico, D.F. Mayo 1992

1,000 Ejemplares mas sobrantes.

Otros libros de Grupo Editorial Iberoamérica Introducción a la probabilidad y estadística William Mendenhall Estadística matemática con aplicaciones MendenhaIIIScheaf ferlwackerly Estadística para administración y economía William MendenhallIJames E. Reinmuth Álgebra y trigonometría con geometría analítica Earl W. Swokowski Álgebra lineal Stanley l. Grossman Matrices y determinantes Earl W. Swoko.wski Cálculo con geometría analítica Earl W. Swokowski Ecuaciones diferenciales con aplicaciones Dennis G. Zill Análisis numérico Richard BurdenIDouglas Faires

Grupo U i M lkroame'rka Wadsworth Internacional/lberoaméric