¡Descarga CHI CUADRADO XHI CUADRADO y más Resúmenes en PDF de Estadística solo en Docsity! 10.4 Prueba de independencia.
Otro uso, y tal vez el más frecuente, de la distribución ji-cuadrada es
probar la hipótesis nula de que dos criterios de clasificación, cuando se
aplican al mismo conjunto de entes, son independientes. Se dice que dos
criterios de clasificación son independientes si la distribución de uno de
los criterios es la misma, sin importar cual sea la distribución del otro
criterio. Por ejemplo, si el ingreso familiar promedio y el área de residen-
cia de los habitantes de una cierta ciudad son independientes, es de
esperar el que se encuentre la misma proporción de familias con ingresos
bajos, medios y altos en todas las áreas de la ciudad.
La clasificación, de acuerdo con dos criterios, de un conjunto de entes,
digamos gente, puede mostrarse mediante una tabla en la cual los r
renglones representen los diversos niveles de uno de los criterios de
clasificación y las c columnas representen los diversos niveles del segundo
criterio. Una tabla de este tipo generalmente recibe el nombre de tabla de
contingencia. En la Tabla 10.4.1 se muestra la clasificación, de acuerdo
con dos criterios, de una población finita de entes.
Se tendrá interés en probar la hipótesis nula de que, en la población,
los dos criterios de clasificación son independientes. Si se rechaza la
hipótesis, se concluirá que los dos criterios de clasificación no son inde-
pendientes. Se extraerá una muestra de tamaño n de la población de
entes y, en una tabla como la 10.4.2, se presentarán la frecuencia de
ocurrencia de los entes en la muestra correspondiente a las celdas forma-
das por las intersecciones de los renglones y columnas de la Tabla 10.4.1,
junto con los totales marginales.
Ejemplo 194.1.
Un grupo de investigación, estudiando la relación entre el tipo de
sangre y el grado de cierta afección en una población, reunió datos sobre
1500 sujetos, que se presentan en la tabla de contingencia que se muestra
en la Tabla 10,4,3,
Tabla 10.4.3
Mil quinientos sujetos clasificados por el grado
de la afección y el tipo de sangre.
Tipo de sangre
Grado de
la afección A B AB o Total
Ninguno $43 211 90 476 1320
Leve 44 22 $ 31 105
Severo 28 9 7 31 75
Total 615 242 105 538 1500
Los investigadores deseaban saber si estos datos eran compatibles con la
hipótesis de que el grado de la afección y el tipo de sangre son indepen-
dientes. El primer paso en el análisis es obtener la frecuencia para cada
celda que es de esperar si, en efecto, los dos criterios de clasificación son
independientes. Puede empezarse por calcular estimaciones de las diversas
probabilidades marginales, a partir de los totales marginales que se
muestran en la Tabla 10.4.3. La estimación de la probabilidad de queun
sujeto elegido al azar, de la población de la cual se extrajo la muestra,
tras, es decir, seleccionar un número especificado de cada población,
tiene el efecto de fijar los totales de los renglones de la tabla.
¿Son compatibles estos datos con la hipótesis de que las cuatro pobla-
ciones son homogéneas con respecto al grado en el uso de drogas? La
estadística de prueba es la ahora conocida X” = X[(O; — E)*/E¿] -
Entonces, para proceder, se necesitan las frecuencias esperadas para cada
una de las celdas de la Tabla 10.5.1.
Si, en efecto, las poblaciones son homogéneas o. lo que es equivalente,
si todas las muestras se extraen de la misma población, con respecto al
uso de drogas, la mejor estimación de la proporción en la población
combinada de quienes han usado las dorgas sólo experimentalmente es
215/510 = .4216. Por lo mismo, si las cuatro poblaciones son homogé-
neas, esta probabilidad se interpreta como si se aplicara a cada una de
las poblaciones individualmente. Por ejemplo, bajo la hipótesis nula,
215/510 es la mejor estimación de la probabilidad de que un estudiante
elegido al azar de los usuarios de drogas sea sólo un usuario experimen-
tal. Entonces, se esperaría encontrar que (215/510), 150 —= 63.24 de los
Tabla 10.5.1
Grado del uso de drogas entre 510 estudiantes de
bachillerato, clasificados por año de estudio.
Grado del uso de drogas
Año de Moderado a
estudio Experimental Casual intenso Total
Primero s7 so 43 150
Segundo s7 s8 20 135
Tercero s6 45 24 125
Ultimo 45 22 33 100
Total 215 175 120 s10
150 alumnos de primer año son usuarios experimentales. De modo seme-
jante, es de esperar que (215/510) . 135 —= 56.91 alumnos de segundo
año, (215/510) . 125 = 52.70 de tercer año y (215/510) . 100 — 42.16
del último año sean usuarios experimentales.
Una vez más se ve que el procedimiento simplificado de multiplicar los
totales marginales apropiados y dividir entre el gran total proporciona las
frecuencias esperadas para las celdas. En la Tabla 10.5.2 se muestran las
frecuencias esperadas, calculadas de esta manera, junto con las frecuen-
cias observadas. Las frecuencias esperadas están encerradas entre parén-
Frecuencias observadas y esperadas, Ejemplo 10.5.1
Grado del uso de drogas
Año de Moderado a
estudio Experimental Casual intenso Total
Primero 57(63.24) 50(51.47) 43(35.29) 150
Segundo 57(56.91) 58(46.32) 20(31.76) 135
Tercero 56(52.70) 45(42.89) 24(29.41) 125
Ultimo 45(42.16) 22(34.31) 33(23.52) 100
Total 215 175 120 510
De los datos dados en la Tabla 10.5.2, se calcula la siguiente estadística
de prueba:
PER 63.24 (50 — 51.47) (33 — 23.52)* E
63.24 sam bio Fs
SS 19.4
Se encuentra que los grados de libertad asociados con este valor son 6,
cuando se aplica la regla (r - 1Mc - 1). Consultando la Tabla I se
encuentra que la probabilidad de obtener un valor de X” tan grande o
mayor que 19.4, cuando la hipótesis nula es verdadera, es menor que
.005. Entonces la decisión es rechazar la hipótesis nula. Como consecuen-
cia, se concluye que las poblaciones no son homogéneas con respecto al
grado del uso de drogas.
Las reglas para las frecuencias esperadas pequeñas, dadas en la sección
anterior, son aplicadas cuando se lleva a cabo una prueba de homogenei-
dad.
Cuando se usa la prueba ji-cuadrada de homogeneidad con el fin de
probar la hipótesis nula de que dos poblaciones son homogéneas y
cuando sólo existen dos niveles del criterio de clasificación, pueden
presentarse los datos en una tabla de contingencia de 2 X 2. El análisis es
idéntico al análisis de las tablas de 2 X 2 DADO EN LA Sección 10.4.
tn fa Ds to Gn Pis e Ad
8051101001011 120/008; 28000 hise
— es
Prueba chi-cuadrada para asociación: Resultados por X
Informe de resumen
¿Difieren los perfiles porcentuales? Comentarios
Co aos ar >05| No hay suficiente evidenca para conduir que existen diferencias
entre los perfiles porcentuales de resultados en el nivel de
Las diferencias entre los perfies de resultados porcentuales Md cesan
significativas (p < 0,05). Usted no puede conduir que existe
asociación entre Resultados y X.
parties porcentuales de remuitados cuando en reshdad no existen, es
S el valor p es menor que 0,05, usted puede concluir que hay
¡Áerencias en el nivel de sigalicancia de 0,05.
Gráf. de perfiles porcentuales
Compare los perfiles.
o 28%
ba 0 O 15% 30%
Positreo: Ocurre con más frecuencia de lo esperado
0% 23M SON 79% 100% Negativo: Ocurre con menos frecuencia de lo esperado
Prueba chi-cuadrada para asociación: Resultados por X
Informe de diagnóstico
Conteos observados y esperados
A 8 AB 0
Obs Exp Obs Exp Obs Exp Obs Exp
NINGUNO 43 M4-sq4u 4 % 2 um
LEVE 4 4 2 17 8 13 1 E
SEVERO % 1 9 12 1 53 1 2
Total 615 242 105 538
Los conteos esperados deben ser porlo menos 1 para asegurar la validez del valor p de la prueba,
ession — Build Profile Tools
Debug
Go to file function
AB o
90 476
3 31
7 31
tal columns
Help
* Addins +
ed
ed
s built under R version 3.6.3
cel ("F:/CHICUA.x1sx")
y Project: (None
Environment History Connections Tutorial =É
= e] ** Import Dataset + $ List +
A Global Environment +
CUADRO num [1:3, 1:4] 543 44 28 211 2..
Values
TA num [1:3] 543 44 28
TAB num [1:3] 90 8 7
TE num [1:3] 211 22 9
Files Plots Packages Help Viewer sn [
“a a
R: Fitting Generalized Linear Mixed-Effects Models + Find in Topic
glmer (Ime4) R Documentation
Fitting Generalized Linear Mixed-
Effects Models
Description
Fit a generalized linear mixed-effects model (GLMM). Both fixed
effects and random effects are specified via the model formula.
Usage
Go to file/function = Addins +
AB o
390 476
3 31
7 31
tal columns
TB,TAB,TO)
-CC "NINGUNO", "LEVE", "SEVERO")
)
TB TAB TO
).14066667 0.060000000 0.31733333
). 01466667 0.005333333 0.02066667
). 00600000 0.004666667 0. 02066667
UADRO)
Environment History Connections Tutorial
=> H *% Import Dataset + £
A Global Environment +
DD CHIS List of 9
CUADRO num [1:3, 1:4] 543 44 28
Values
TA num [1:3] 543 44 28
TAB num [1:3] 90 8 7
Files Plots Packages Help Viewer
a >
R: Fitting Generalized Linear Mixed-Effects Models +
glmer (Ime4) R Doc
Fitting Generalized Linear Mix
Effects Models
Description
Fit a generalized linear mixed-effects model (GLMMM). E
effects and random effects are specified via the model
Usage
File Edit Code View Plots Session Build
IE E El
2 | Untitled1 CHICUA.
Sr Filter
A B AB
1 543 211 90
2 44 22 8
3 28 9 7
Showing 1 to 3 of 3 entries, 4 total columns
Console Jobs
Debug
Profile Tools
Go to file/function
A7T6
31
31
Help
” Addins “
SEVERO 0.01866667 0.00600000 0.004666667 0.02066667
> CHIS<-chisq.test (CUADRO)
> CHIS
Pearson's Chi-squared test
data: CUADRO
X-squared = 5.1163, df = 6, p-value
>|
= 0.529
eb
el
Environment History Connections
=> H + Import Dataset + y
5 Global Environment +
O CHIS List of 9
CUADRO num [1:3, 1:
Values
TA num [1:3] 5
TAB num [1:3] al
Files Plots Packages Help Vier
a a
Re Fitting Generalized Linear Mixed-E
glmer (Ime4)
Fitting Generalized L
Effects Models
Description
Fit a generalized linear mixed-effects
effects and random effects are specil
Usage